Azure Synapse Analytics es un servicio que unifica en solo entorno el almacenamiento de datos empresariales de SQL, la capacidad de análisis de macrodatos con Spark, y tecnologías de integración de datos, con el propósito de facilitar el movimiento de datos desde los orígenes externos.
Con Azure Synapse Analytics, es posible ingerir, preparar, administrar y suministrar datos para las necesidades de soluciones de inteligencia empresarial y aprendizaje automático, convirtiéndolo en una tarea más sencilla y práctica.
Azure Synapse Analytics nos brinda ciertas ventajas al momento de diseñar nuestra solución de datos, esta tecnología en nube nos permite la ingesta de datos desde distintos orígenes, un ejemplo potente es la posibilidad de cargar datos a través de PolyBase y consultar un almacenamiento de datos con la arquitectura de procesamiento paralelo masivo.
En cuanto al almacenamiento podemos aprovechar las posibilidades de escalamiento horizontal para aumentar la potencia del procesamiento sin afectar el consumo por storage.
Es importante acotar, que este servicio ofrece la posibilidad de apagado del procesamiento, lo que permite una optimización de los costos por consumo del recurso, mientras se mantienen los datos almacenados.
Características de Azure Synapse Analytics
Además del procesamiento paralelo masivo, otras características destacan de este servicio, como:
- Administración de cargas de trabajo: es capaz de priorizar y administrar las cargas de trabajo de consultar, que ocurren en el servidor.
- Caché de conjunto de resultados: cuando un escenario de consulta y de consumo de recursos es recurrente, se almacena en caché para mejorar los resultados en cuanto a los tiempos de respuesta, e inclusive se mantienen, aunque el servicio se pause y reanude posteriormente.
- Compatibilidad de CI/CD a través de SSDT: es compatible con proyectos de bases de datos en SQL Server Data Tools (SSDT), permite a los equipos de desarrolladores colaborar a través de Azure Synapse Analytics sometido a control de versiones y realizar un seguimiento, implementar y probar los cambios de esquema. Si quieres saber más sobre el tema visita nuestra serie de artículos de DevOps para bases de datos.
Geometría de tablas de Azure Synapse Analytics
El servicio de Azure Synapse Analytics usa Azure Storage para almacenar datos. Por tanto, como los datos se almacenan y administran con Azure Storage, este servicio de almacenamiento se cobra por separado del procesamiento.
Si nos centramos como se almacenan los datos, se utilizan distintos tipos de distribuciones para particionar y optimizar el rendimiento del sistema.
Estos patrones de almacenamiento o distribuciones de tablas son:
- Hash
- Round Robin
- Replicado
Se pueden utilizar estrategias de acuerdo con nuestro caso para determinar que tipo de distribución es más conveniente para cada una de las tablas de nuestro diseño:
Es importante tomar en cuenta algunos tips que nos pueden ayudar a elegir una estrategia:
- Empezar con una distribución Round Robin, pero apuntando a una estrategia de distribución Hash para aprovechar las capacidades de almacenamiento paralelo masivo.
- Las claves Hash que se repitan deben tener el mismo formato en cada tabla, esto permitirá un mejor rendimiento en consultas.
- Seleccionar de preferencia formatos integer al momento de distribuir con Hash, y descartar por completo los formatos varchar.
- Use sys.dm_pdw_request_steps para analizar el movimiento de datos detrás de las consultas y supervisar lo que tardan las operaciones de difusión y orden aleatorio.
Creando un recurso de Azure Synapse Analytics
Desde el portal de azure, seleccionar la opción de “Create a resource”:
Dirígete a la categoría de “Databases”, y selecciona el recurso “Azure Synapse Analytics”:
Una vez en la ventana de creación del recurso de Azure Synapse Analytics:
- Elige la subscripción donde crear el recurso
- Elige el grupo de recursos
- Escribe el nombre del pool SQL
- Crea un servidor SQL:
- Proporciona el nombre ser servidor
- Escribe el nombre del usuario administrador
- Escribe y confirma la contraseña del usuario administrador
- Elige la ubicación del recurso
- Selecciona la capacidad de procesamiento para tu recurso:
- Revisa todas las configuraciones realizadas, y crea el recurso:
Concluyendo
En este artículo se presentaron los conceptos más importantes de introducción al servicio PAAS de Azure Synapse Analytics, que son necesarios al momento de diseñar tu Data Warehouse en este servicio.
Espero que les resulte de utilidad, y nos estaremos leyendo en próximas entradas.
Te invito a leer nuestros artículos, y visitar nuestro canal de YouTube NotJustBI, pueden ser de gran interés para tí!
Por favor, si tienes algún comentario, duda o sugerencia, no dudes en contactarnos a través de nuestro correo: info@notjustbi.com