Datavin3

Transformaciones Avanzadas en Apache Hop: Normalización de Filas

Escrito por Adalennis Buchillón Soris | 29 de abril de 2024 6:00:00 Z

En este tutorial, exploraremos cómo utilizar la transformación "Normalizador de Filas" de Apache Hop.

La transformación "Normalizador de Filas" es ideal para estandarizar datos de una tabla pivote o desnormalizada, permitiendo ajustes en las relaciones de filas al convertir columnas en filas.

¿Qué encontrarás aquí?

Escenario de caso de uso

Consideremos un escenario donde tenemos películas (film) listadas en una columna, junto con sus respectivos años (year) y los ingresos generados por cada película (film) por trimestre (quarter).

 

Observa que cada trimestre (quarter) es una columna.

Puede que necesitemos reestructurar los datos de ingresos basados en trimestres para cada película (film). Necesitamos convertir los datos de este formato:

 

En este formato:

                                                 ...
 

Paso a paso

Para lograr esto, podemos utilizar la transformación "Normalizador de Filas" para normalizar los datos pivote.

Los datos han sido generados utilizando una cuadrícula de datos (data grid).

Aunque hemos demostrado esto con un ejemplo simplificado, es importante tener en cuenta que la fuente de datos puede estar en cualquier formato, como Excel, tablas, etc.

Para comenzar, cubriremos los pasos involucrados en este escenario de caso de uso:

Paso 1: Agregar y conectar la transformación "Normalizador de Filas".

Paso 2: Configurar la transformación "Normalizador de Filas".

  • Nombre de transformación (Transform name): Define un nombre de transformación (normalize-rows).

  • Campo tipo (Type field): Especifica un nombre para el campo de salida (quarter).

  • Nombre de Campo y Tipo (Fieldname and Type): elecciona los campos deseados de la cuadrícula de datos. Mantenemos los campos ("Fieldname") namely quarter1, quarter2, quarter3 y quarter4 y el Tipo (Type) con el mismo nombre. De esta manera, el campo de salida trimestre tendrá estos tipos como los valores de salida.

  • Nuevo campoNew field: Define un nuevo campo para los ingresos (revenue).


Al previsualizar la transformación normalize-rows, verás los datos transformados, logrando el formato de salida deseado.

 
Después de la normalización, puedes exportar el conjunto de datos a diferentes formatos según tus requisitos.
 
¡Pero en nuestro ejemplo simplificado, eso concluye el proceso! Hemos transformado efectivamente los datos en la cuadrícula de datos en un formato normalizado.
 

¿Cómo funciona?

En resumen, así es como lo hicimos:

  1. Creamos un pipeline y mapeamos los datos de entrada utilizando un normalizador.

  2. El campo "quarter" fue designado como el campo de tipo, creando una nueva columna para los trimestres.

  3. Bajo "Fieldname" especificamos los nombres de columna fuente que queríamos normalizar, que en este caso eran: quarter1, quarter2, quarter3 y quarter4.

  4. Para el "Type" (Type), definimos los valores para la nueva columna como cadenas de texto, coincidiendo con los nombres de los trimestres originales: quarter1, quarter2, quarter3 y quarter4. Alternativamente, podríamos haber elegido etiquetas diferentes como Q1, Q2, Q3, Q4, o primero, segundo, tercero, cuarto.

  5. El "nuevo campo" (new field) representa el valor de los ingresos (revenue), lo que resulta en la creación de una nueva columna de ingresos  (revenue).

El resultado es la salida normalizada:Ahora, en lugar de tener 4 columnas de trimestre (quarter) que contienen los datos de ingresos (revenue), tenemos una nueva columna de trimestre (quarter) y una nueva columna de ingresos (revenue).

💡 Consejo importante: Al combinar varias columnas con diferentes tipos (como Cadena e Entero) en un nuevo campo, no se realiza ninguna conversión automática de tipo. En su lugar, se conserva el tipo inicial. Esta falta de conversión podría causar problemas con las transformaciones de filas de datos posteriores. Se recomienda encarecidamente asegurar la alineación de los tipos de datos para los valores que se fusionan en el mismo campo antes de la normalización.

Resumen

  • Entiende el propósito: La transformación "Normalizador de Filas" en Apache Hop está diseñada para estandarizar datos de tablas pivote o desnormalizadas al convertir columnas en filas.
  • Considera la estructura de tus datos: Antes de usar el "Normalizador de Filas", evalúa si tus datos necesitan reestructurarse, especialmente si involucra estructuras similares a pivotes.
  • Utiliza los campos adecuados: Al configurar la transformación, selecciona los campos apropiados de tu conjunto de datos, asegurándote de incluir aquellos relevantes para el proceso de normalización.
  • Previsualiza antes de finalizar: Siempre previsualiza los resultados de la transformación para asegurarte de que se alineen con tus expectativas y requisitos.
  • Opciones de exportación: Una vez que se completa el proceso de normalización, puedes exportar el conjunto de datos transformado a varios formatos de destino, adaptándote a tus necesidades y preferencias específicas.