En este tutorial, exploraremos cómo utilizar la transformación "Desnormalizador de Filas" en Apache Hop.
La transformación "Desnormalizador de Filas" te permite desnormalizar datos haciendo referencia a pares clave-valor, con la flexibilidad añadida de convertir tipos de datos durante el proceso.
Consideremos un escenario donde tenemos películas (film) listadas en una columna, junto con sus respectivos años (year), trimestres (quarter) y los ingresos generados (revenue).
Observa que cada trimestre es una fila en la columna de trimestres (quarter).
Necesitamos reestructurar los datos de ingresos basados en trimestres para cada película. Necesitamos convertir los datos de este formato:
Para lograr esto, podemos utilizar la transformación "Desnormalizador de Filas" para convertir cada trimestre en una columna.
Los datos han sido generados utilizando una cuadrícula de datos (data grid).
Aunque hemos demostrado esto con un ejemplo simplificado, es importante tener en cuenta que la fuente de datos puede estar en cualquier formato, como Excel, tablas, etc.
Para comenzar, cubriremos los pasos involucrados en este escenario de caso de uso:
Paso 1: Agregar y conectar la transformación "Desnormalizador de Filas".
Paso 2: Configurar la transformación "Desnormalizador de Filas":
💡 Ten en cuenta que mantenemos los nombres de los campos de destino con los mismos valores clave como quarter1, quarter2, quarter3, y quarter4 respectivamente, pero puedes elegir un nombre diferente para las columnas que se generarán.
Sin embargo, estamos pasando por alto un paso crucial.
Al hacer clic en "OK" para guardar, aparece un mensaje que indica que si los datos no están ordenados, los resultados desnormalizados pueden ser incorrectos. Por lo tanto, es necesario ordenar los datos antes de continuar con la desnormalización.
Agregamos y conectamos una transformación "Ordenar Filas".
Luego la configuramos proporcionando un nombre y obteniendo los campos de la transformación anterior.
Al previsualizar la transformación denormalize-rows, verás los datos transformados, logrando el formato de salida deseado.
Después de la desnormalización, puedes exportar el conjunto de datos a diferentes formatos según tus requisitos.
¡Pero en nuestro ejemplo simplificado, eso concluye el proceso! Hemos transformado efectivamente los datos en la cuadrícula de datos en un formato desnormalizado.
En resumen, ¿cómo lo hicimos?
Creamos una canalización y mapeamos los datos de entrada utilizando un desnormalizador.
El campo clave se estableció como la columna "quarter" en la fuente.
Agrupamos los ingresos por trimestre usando "film" y "year", lo que resulta en una entrada de ingresos para cada film, year y quarter.
El nombre del campo de destino representa las nuevas columnas a crear, generando una columna para cada valor de trimestre.
El nombre del campo de valor indica el valor de los ingresos (revenue).
El resultado es la salida desnormalizada:
No hemos explorado todas las opciones disponibles en la tabla de campos de destino dentro de la transformación "Desnormalizador de Filas".
For example, in the following example, we only group by film, and select "Number of Values" as the "Aggregation" method.
Por ejemplo, en el siguiente ejemplo, solo agrupamos por película (film) y seleccionamos "Número de Valores" (Number of Values) como el método de "Agregación" (Aggregation).
Al previsualizar la transformación "Desnormalizador de Filas", obtenemos los siguientes resultados:
En lugar de mostrar el valor de los ingresos (revenue), la salida ahora indica cuántos valores de ingreso (revenue) tiene cada película (film) por año (year) y trimestre (quarter). Por ejemplo, la película "Academy Dinosaur" tiene 2 años en el conjunto de datos de entrada.
💡 Ten en cuenta que, en este caso, el valor de año no es correcto porque solo agrupamos por película.
Aparte del método de agregación, puedes explorar las otras opciones en la tabla de "Campos de Destino" que no cubrimos en esta publicación: