En este tutorial, exploraremos cómo utilizar la transformación "Normalizador de Filas" de Apache Hop.
La transformación "Normalizador de Filas" es ideal para estandarizar datos de una tabla pivote o desnormalizada, permitiendo ajustes en las relaciones de filas al convertir columnas en filas.
Consideremos un escenario donde tenemos películas (film) listadas en una columna, junto con sus respectivos años (year) y los ingresos generados por cada película (film) por trimestre (quarter).
Observa que cada trimestre (quarter) es una columna.
Puede que necesitemos reestructurar los datos de ingresos basados en trimestres para cada película (film). Necesitamos convertir los datos de este formato:
En este formato:
Para lograr esto, podemos utilizar la transformación "Normalizador de Filas" para normalizar los datos pivote.
Los datos han sido generados utilizando una cuadrícula de datos (data grid).
Aunque hemos demostrado esto con un ejemplo simplificado, es importante tener en cuenta que la fuente de datos puede estar en cualquier formato, como Excel, tablas, etc.
Para comenzar, cubriremos los pasos involucrados en este escenario de caso de uso:
Paso 1: Agregar y conectar la transformación "Normalizador de Filas".
Paso 2: Configurar la transformación "Normalizador de Filas".
Nombre de transformación (Transform name): Define un nombre de transformación (normalize-rows).
Campo tipo (Type field): Especifica un nombre para el campo de salida (quarter).
Nombre de Campo y Tipo (Fieldname and Type): elecciona los campos deseados de la cuadrícula de datos. Mantenemos los campos ("Fieldname") namely quarter1, quarter2, quarter3 y quarter4 y el Tipo (Type) con el mismo nombre. De esta manera, el campo de salida trimestre tendrá estos tipos como los valores de salida.
Nuevo campoNew field: Define un nuevo campo para los ingresos (revenue).
Al previsualizar la transformación normalize-rows, verás los datos transformados, logrando el formato de salida deseado.
En resumen, así es como lo hicimos:
Creamos un pipeline y mapeamos los datos de entrada utilizando un normalizador.
El campo "quarter" fue designado como el campo de tipo, creando una nueva columna para los trimestres.
Bajo "Fieldname" especificamos los nombres de columna fuente que queríamos normalizar, que en este caso eran: quarter1, quarter2, quarter3 y quarter4.
Para el "Type" (Type), definimos los valores para la nueva columna como cadenas de texto, coincidiendo con los nombres de los trimestres originales: quarter1, quarter2, quarter3 y quarter4. Alternativamente, podríamos haber elegido etiquetas diferentes como Q1, Q2, Q3, Q4, o primero, segundo, tercero, cuarto.
El "nuevo campo" (new field) representa el valor de los ingresos (revenue), lo que resulta en la creación de una nueva columna de ingresos (revenue).
El resultado es la salida normalizada:
💡 Consejo importante: Al combinar varias columnas con diferentes tipos (como Cadena e Entero) en un nuevo campo, no se realiza ninguna conversión automática de tipo. En su lugar, se conserva el tipo inicial. Esta falta de conversión podría causar problemas con las transformaciones de filas de datos posteriores. Se recomienda encarecidamente asegurar la alineación de los tipos de datos para los valores que se fusionan en el mismo campo antes de la normalización.