Transformaciones Avanzadas en Apache Hop: Desnormalización de Filas

Escrito por Adalennis Buchillón Soris | 13 de mayo de 2024 8:42:20 Z

En este tutorial, exploraremos cómo utilizar la transformación "Desnormalizador de Filas" en Apache Hop.

La transformación "Desnormalizador de Filas" te permite desnormalizar datos haciendo referencia a pares clave-valor, con la flexibilidad añadida de convertir tipos de datos durante el proceso.

Escenario de caso de uso

Consideremos un escenario donde tenemos películas (film) listadas en una columna, junto con sus respectivos años (year), trimestres (quarter) y los ingresos generados (revenue).

Observa que cada trimestre es una fila en la columna de trimestres (quarter).

Necesitamos reestructurar los datos de ingresos basados en trimestres para cada película. Necesitamos convertir los datos de este formato:

A este formato:

Paso a paso

Para lograr esto, podemos utilizar la transformación "Desnormalizador de Filas" para convertir cada trimestre en una columna.

Los datos han sido generados utilizando una cuadrícula de datos (data grid).

Aunque hemos demostrado esto con un ejemplo simplificado, es importante tener en cuenta que la fuente de datos puede estar en cualquier formato, como Excel, tablas, etc.

Para comenzar, cubriremos los pasos involucrados en este escenario de caso de uso:

Paso 1: Agregar y conectar la transformación "Desnormalizador de Filas".

Paso 2: Configurar la transformación "Desnormalizador de Filas":

Nombre de la transformación (Transform name): Define un nombre para la transformación (denormalize-rows).
Campo clave tipo (Type key field): Elige el campo clave que sirve como el campo fuente para la desnormalización basada en sus valores (quarter).
Campo de agrupación (Group field): Luego, en la sección de campo de grupo, conserva los campos fuente que se utilizarán para agrupar y elimina el resto (film y year).
Nombre del campo de destino (Target fieldname): Especifica el nombre de las columnas de trimestres que se generarán (quarter1, quarter2, quarter3, y quarter4).
Nombre del campo de valor (Value fieldname): selecciona la columna que contiene el monto correspondiente a los valores clave de trimestres (revenue).
Valores clave (Key values): Especifica los valores clave fuente que se utilizarán para la desnormalización (quarter1, quarter2, quarter3, y quarter4)

💡 Ten en cuenta que mantenemos los nombres de los campos de destino con los mismos valores clave como quarter1, quarter2, quarter3, y quarter4 respectivamente, pero puedes elegir un nombre diferente para las columnas que se generarán.

Sin embargo, estamos pasando por alto un paso crucial.

Al hacer clic en "OK" para guardar, aparece un mensaje que indica que si los datos no están ordenados, los resultados desnormalizados pueden ser incorrectos. Por lo tanto, es necesario ordenar los datos antes de continuar con la desnormalización.

Agregamos y conectamos una transformación "Ordenar Filas".

Luego la configuramos proporcionando un nombre y obteniendo los campos de la transformación anterior.

Nombre de la transformación (Transform name): Especifica el nombre de la transformación, este nombre debe ser único en la canalización (sorting).
Campos (Fields): Utiliza la opción "Obtener Campos" para recuperar todos los campos de la transformación anterior (film, year, quarter y revenue).

Al previsualizar la transformación denormalize-rows, verás los datos transformados, logrando el formato de salida deseado.

Después de la desnormalización, puedes exportar el conjunto de datos a diferentes formatos según tus requisitos.

¡Pero en nuestro ejemplo simplificado, eso concluye el proceso! Hemos transformado efectivamente los datos en la cuadrícula de datos en un formato desnormalizado.

¿Cómo funciona?

En resumen, ¿cómo lo hicimos?

Creamos una canalización y mapeamos los datos de entrada utilizando un desnormalizador.
El campo clave se estableció como la columna "quarter" en la fuente.
Agrupamos los ingresos por trimestre usando "film" y "year", lo que resulta en una entrada de ingresos para cada film, year y quarter.
El nombre del campo de destino representa las nuevas columnas a crear, generando una columna para cada valor de trimestre.
El nombre del campo de valor indica el valor de los ingresos (revenue).
Finalmente, el valor clave corresponde al número de trimestre para cada valor distinto en la columna "trimestre".

El resultado es la salida desnormalizada:

No cubierto en esta publicación

No hemos explorado todas las opciones disponibles en la tabla de campos de destino dentro de la transformación "Desnormalizador de Filas".

For example, in the following example, we only group by film, and select "Number of Values" as the "Aggregation" method.

Por ejemplo, en el siguiente ejemplo, solo agrupamos por película (film) y seleccionamos "Número de Valores" (Number of Values) como el método de "Agregación" (Aggregation).

Al previsualizar la transformación "Desnormalizador de Filas", obtenemos los siguientes resultados:

En lugar de mostrar el valor de los ingresos (revenue), la salida ahora indica cuántos valores de ingreso (revenue) tiene cada película (film) por año (year) y trimestre (quarter). Por ejemplo, la película "Academy Dinosaur" tiene 2 años en el conjunto de datos de entrada.

💡 Ten en cuenta que, en este caso, el valor de año no es correcto porque solo agrupamos por película.

Aparte del método de agregación, puedes explorar las otras opciones en la tabla de "Campos de Destino" que no cubrimos en esta publicación:

Formato (Format)
Longitud (Length)
Precisión (Precision)
Moneda (Currency)
Decimal
Grupo (Group)
Nulo si (Null if)

Resumen

Comprender el propósito: La transformación "Desnormalizador de Filas" en Apache Hop está diseñada para revertir datos estandarizados a su estructura de tabla pivot o desnormalizada original al convertir filas en columnas.
Considera la estructura de tus datos: Antes de usar el "Desnormalizador de Filas", evalúa si tus datos necesitan reestructurarse, especialmente si involucra estructuras similares a pivotes.
Utiliza los campos adecuados: Al configurar la transformación, selecciona los campos apropiados de tu conjunto de datos, asegurándote de incluir aquellos relevantes para el proceso de desnormalización.
Previsualiza antes de finalizar: Siempre previsualiza los resultados de la transformación para asegurarte de que se alineen con tus expectativas y requisitos. Opciones de exportación: Una vez que se completa el proceso de desnormalización, puedes exportar el conjunto de datos transformado a varios formatos de destino, adaptándote a tus necesidades y preferencias específicas.

Ver post completo