Mover múltiples archivos con Azure Data Factory V2

Publicado por

Azure Data Factory es un servicio de Azure creado para todas las necesidades de integración en procesos ETL o ELT. En este artículo explicaremos el paso a paso para mover múltiples archivos con Azure Data Factory V2 (ADF).

Creando un recurso Azure Data Factory V2

Comenzaremos creando un recurso de Data Factory, desde el grupo de recursos que tenemos generado, seleccionamos agregar y, en la sección de “Integration”, encontraremos el servicio “Data Factory”:

Crear Azure Data Factory

Una vez en la ventana de creación, asignamos un nombre para el recurso, la versión, que en nuestro caso será “V2”, la subscripción, el grupo de recursos y la ubicación, además, es posible habilitar el controlador de versiones con GIT, para el caso siguiente no utilizaremos esa opción, finalmente hacemos click en crear:

Crear Azure Data Factory

Creando un linked service

Una vez creado el recurso, nos dirigimos a la opción “Author & Monitor”:

Author & Monitor

Luego, seleccionamos en el panel izquierdo la última opción “Manage”:

Opción Manage

A continuación, en la sección de conexiones, nos ubicamos en la pestaña “Linked services” y seleccionamos nuevo:

Linked Service

En la búsqueda que aparecerá en la ventana siguiente, ubicamos el servicio “Azure Data Lake Storage Gen1”, y seleccionamos continuar:

Nuevo Linked service

En una entrada anterior, generamos una aplicación de registro y le dimos acceso a un servicio de Azure Data Lake Storage Gen1, la utilizaremos en este caso para realizar la conexión con este, si quieres saber cómo tienes el paso a paso en el siguiente enlace:

Nos dirigimos entonces, a nuestra aplicación de registro, y seleccionamos el ID de la app, igualmente necesitaremos el key generado para la app, que debemos tener almacenado:

App registration

En la ventana de creación del Linked service, colocaremos el nombre, seleccionaremos el servicio de Data Lake Storage que ya tenemos creado, el tipo de autenticación será “Service Principal”, colocamos el ID que copiamos en el registro de aplicación, colocamos el key y finalmente probamos la conexión y creamos el Linked service:

Creando linked service
Linked service creado

Creando los directorios de origen y destino

En nuestro servicio de Data Lake Storage, vamos a crear dos directorios (origen y destino), desde la sección “Data explorer”:

ADLS
directorios ADLS

Creando pipeline para mover múltiples archivos con Azure Data Factory V2

Azure Data Factory tiene plantillas ya creadas que podemos utilizar como aceleradores de nuestro proceso de integración.

Dicho lo anterior, regresamos al portal “Author & Monitor”de nuestro servicio de Data Factory, y seleccionamos la opción “Create pipeline from template”:

Templates para mover múltiples archivos con Azure Data Factory V2

Esta selección nos llevará a la pestaña “Author”, y nos muestra una ventana con la galería de plantillas disponibles, buscaremos entonces la de mover archivos:

Plantilla de mover archivos

Luego de esto, se abrirá una ventana de configuración de la plantilla, donde seleccionaremos nuestro Linked serviceADLSNotJustBI” como storage en todos los casos:

En el directorio “F1” del Azure Data Lake Storage, se han subido algunos archivos .csv, que serán los que moveremos al directorio “F2”:

Directorio con archivos

En la configuración de la plantilla del ADF, seleccionaremos en la parte inferior de la pantalla los parámetros a utilizar en la ejecución del pipeline:

Parámetros para plantilla para mover múltiples archivos con Azure Data Factory V2

Publicamos los cambios realizados:

Publicación de cambios
Publicación de cambios realizados

Y a continuación, seleccionamos “Debug” para ejecutar el pipeline:

Debug de plantilla

Confirmamos los parámetros a utilizar:

Parámetros de ejecución

Nota: Es importante verificar los accesos del registro de aplicación a los directorios desde y a donde se copiarán los archivos, sino la ejecución fallará por falta de accesos:

Verificación de accesos

Una vez ejecutamos, aparecerá el estatus del progreso en la pestaña “Output”, y podremos ver cómo se ejecuta nuestro pipeline para mover múltiples archivos con Azure Data Factory V2:

Mover múltiples archivos con Azure Data Factory V2
Mover múltiples archivos con Azure Data Factory V2

Finalizada exitosamente la ejecución, nos dirigimos al recurso de Azure Data Lake Storage, y tendremos nuestros archivos copiados en el directorio “F2”:

Concluyendo

Con estos pasos tendríamos ya creado nuestro pipeline para mover múltiples archivos con Azure Data Factory V2.

Espero que les resulte de utilidad, y nos estaremos leyendo en próximas entradas.

Te invito a leer nuestros artículos, y visitar nuestro canal de YouTube NotJustBI, pueden ser de gran interés para tí!

2 comentarios

  1. Muchas Gracias!! Estuve un buen rato batallando con mover los archivos, y tuve la fortuna de encontrar tu blog , me sirvio de Mucho 🙂 Saludos

Deja un comentario