Descubre la característica de registro de Pipeline de Apache Hop para un procesamiento de datos eficiente. Descubre ideas y mejores prácticas en esta guía.
Apache Hop introduce una clara separación entre datos y metadatos, lo que te permite diseñar procesos de datos de forma independiente de los datos mismos. El Metadato de Apache Hop sirve como un repositorio central para metadatos compartidos, incluyendo conexiones de base de datos, configuraciones de ejecución, servidores, conjuntos de datos y más. Una función útil es el "Registro de Pipeline", que facilita el registro de la actividad de un pipeline con otro pipeline.
The "Pipeline Log" metadata object streams logging information from a running pipeline to another pipeline and is created in JSON format. For each metadata object of this type, you can execute a pipeline of your choice, passing the runtime information of all your pipelines to it.
La configuración de Registro de Pipeline (Pipeline Log)
Para configurar y usar el metadato del "Registro de Pipeline", sigue estos pasos:
En el menú horizontal haz clic en "Nuevo" -> "Registro de Pipeline".
O ve a "Metadatos" -> "Registro de Pipeline" -> "Nuevo".
Completa los campos requeridos:
💡 Consejo: Por defecto, el registro de pipelines se aplica a todos los pipelines en el proyecto actual. Sin embargo, si prefieres limitar el registro a pipelines específicos, puedes seleccionarlos en la tabla debajo de las opciones de configuración etiquetadas como Capturar salida de los siguientes pipelines (Capture output of the following workflows). En la captura de pantalla debajo, solo el pipeline write-1000-rows.hpl está seleccionado para el registro en el proyecto how-to-apache-hop.
Guarda la configuración.
Crea un nuevo pipeline desde la opción "Nuevo" en el diálogo de "Registro de Pipeline" eligiendo una carpeta y un nombre.
El pipeline se genera automáticamente con una transformación de "Registro de Pipeline" conectado a una transformación "Dummy" ("Guardar registro aquí"). Ahora configuraremos otra salida para este pipeline. También puedes crear el pipeline desde cero.
Configura la transformación "Registro de Pipeline":
Nombre de la transformación (Transform name): Proporciona un nombre único para la transformación (piplog).
También registrar detalles de la transformación (Also log transform details): Mantenemos esta opción marcada.
Haz clic en cualquier lugar del lienzo del pipeline.
Busca 'table output' -> Table Output.
Configura la transformación Salida de Tabla (Table Output):
Haz clic en la opción SQL para generar automáticamente el SQL para crear la tabla de salida.
Ejecuta las declaraciones SQL y verifica los campos de registro en la tabla creada.
Guarda y cierra la transformación.
Inicia un pipeline haciendo clic en "Ejecutar" -> "Lanzar".
Usamos un pipeline básico (generate-rows.hpl) que genera una constante y escribe 1000 filas en un archivo CSV.
Los datos de ejecución del pipeline se registrarán en la tabla piplog.
Revisa los datos en la tabla piplog para revisar los registros.
La configuración del "Registro de Pipeline" es sencilla, ofreciendo opciones para ejecutar al inicio o al final de un pipeline, e incluso periódicamente durante la ejecución. Este nivel de flexibilidad permite enfoques de registro adaptados a las necesidades específicas del proyecto. La capacidad de elegir el intervalo en el que se ejecuta el registro agrega una capa adicional de personalización.
En conclusión, el "Registro de Pipeline" de Apache Hop es una herramienta esencial para el registro efectivo en los pipelines de procesamiento de datos. Sus opciones de configuración y su integración perfecta dentro del ecosistema de Apache Hop lo convierten en un activo valioso para los ingenieros de datos y desarrolladores que buscan mejorar las capacidades de registro y mantener procesos de datos robustos. La clara separación de datos y metadatos, combinada con herramientas poderosas como el "Registro de Pipeline", posiciona a Apache Hop como una solución líder para la integración y procesamiento de datos eficiente y simplificado.