Combinar datos

La combinación de datos es un método para unir datos de múltiples fuentes. La combinación de datos trae información adicional de una fuente de datos secundaria y la muestra con datos de la fuente de datos primaria directamente en la vista.

A diferencia de las uniones, la combinación de datos mantiene las fuentes de datos separadas y simplemente muestra su información de forma conjunta. Esto es ideal cuando los datos se encuentran en diferentes niveles de granularidad. Por ejemplo, tiene datos transaccionales en una fuente y datos de cuota en otra. Si uniéramos estos datos, se duplicaría parte de la información de la cuota para cada transacción, porque las uniones son a nivel de fila. En cambio, el método de combinación de datos es mejor. Cada fuente de datos se consulta de forma independiente y los resultados se agregan al nivel apropiado y luego se visualizan juntos.

Vea un vídeo: para ver conceptos relacionados demostrados en Tableau Desktop, vea estos vídeos de capacitación gratuitos: Cuándo hacer combinaciones y cuándo hacer uniones (6 minutos), Combinación de datos (5 minutos), Temas adicionales sobre la combinación de datos (4 minutos). Use su cuenta de tableau.com para iniciar sesión.

Vea también Making Magic with Data Blending (1 hora) y A Tableau Match: Cross-Database Joins and Blends (1 hora) (ambos en inglés).

Pasos para la combinación de datos

La combinación de datos se realiza hoja por hoja y se establece cuando se utiliza un campo de una segunda fuente de datos en la vista. Para crear una combinación de datos en un libro de trabajo con al menos dos fuentes de datos, lleve un campo de una fuente de datos a la hoja: se convierte en la fuente de datos primaria. Cambie a la otra fuente de datos y utilice un campo en la misma hoja: se convierte en una fuente de datos secundaria. En el panel Datos aparecerá un icono naranja de enlace que indica qué campo(s) se están usando para combinar las fuentes de datos.

GIF of a basic data blend

  1. Asegúrese de que el libro de trabajo tenga múltiples fuentes de datos. La segunda fuente de datos debe agregarse yendo a Datos > Nueva fuente de datos.

Nota: al añadir otra conexión a la primera fuente de datos, se configura una unión entre bases de datos. La combinación requiere dos o más fuentes de datos distintas, listadas de forma independiente en el panel Datos.

  1. Arrastrar un campo a la vista. Cualquiera que sea la fuente de datos de la que provenga este primer campo se convertirá en la fuente de datos primaria.
  2. Cambie a otra fuente de datos y asegúrese de que exista una relación con la fuente de datos primaria.
    • Si hay un icono de campo de enlace naranja (), las fuentes de datos se relacionan automáticamente. Los datos pueden combinarse siempre y cuando haya al menos un enlace activo.
    • Si hay iconos de enlaces rotos grises (), haga clic en el icono situado junto al campo que debe vincular las dos fuentes de datos. Se volverá naranja, representando una relación activa.
    • Si un icono de enlace no aparece junto al campo deseado, consulte Definir relaciones de enlace para la combinación.
  3. Arrastre un campo a la vista desde la fuente de datos secundaria.

En cuanto esta segunda fuente de datos se utiliza en la misma vista, se establece una combinación. En el siguiente ejemplo, nuestra fuente de datos primaria es Objetivos de ventas y la fuente de datos secundaria es Sample - Superstore

  • La fuente de datos primaria se indica con una marca de verificación azul en la fuente de datos. Los campos de la fuente de datos primaria utilizada en la vista no tienen ninguna indicación.
  • La fuente de datos secundaria se indica con una marca de verificación naranja en la fuente de datos y una barra naranja en el lateral del panel Datos. Los campos de la fuente de datos secundaria utilizada en la vista tienen una marca de verificación naranja.

Comprender las fuentes de datos primaria y secundaria

La combinación de datos requiere una fuente de datos primaria y por lo menos una secundaria. La primera fuente de datos utilizada en la vista se convierte en la fuente de datos primaria y define la vista. Es posible que esto limite los valores de la fuente de datos secundaria: en la vista solo aparecen los valores que tienen coincidencias en la fuente de datos primaria. Esto es parecido a una unión a la izquierda.

Por ejemplo, si la fuente de datos primaria tiene un campo Mes que solo contiene abril, mayo y junio, cualquier vista generada alrededor de los meses solo mostrará abril, mayo y junio, incluso si la fuente de datos secundaria tiene valores para doce meses. Si el análisis deseado involucra los doce meses, intente cambiar la fuente de datos primaria reconstruyendo la hoja y usando primero la otra fuente de datos.

Más información: los efectos del orden de las fuentes de datos

En los ejemplos siguientes se utilizan las mismas fuentes de datos enlazadas en el mismo campo, y la visualización se crea de la misma manera las dos veces. La diferencia entre los resultados se debe a la fuente de datos designada como primaria.

  1. Aquí, el campo Mes de la fuente de datos Precipitaciones aparece primero en la vista. Debido a que Precipitaciones solo contiene tres meses, cuando se agrega el conjunto de datos Polen como secundario, solo aparecen tres meses en la vista.
  2. product screenshot of a viz showing three months
  3. En otra hoja, el campo Mes del conjunto de datos Polen aparece primero en la vista. Se visualizan los doce meses. Cuando el conjunto de datos Precipitaciones se agrega como secundario, Precipitaciones solo está disponible para los tres meses de ese conjunto de datos.
  4. product screenshot of a viz showing twelve months

Trabajar con fuentes de datos combinadas

Debido a la naturaleza de una combinación de datos, hay algunas cosas a tener en cuenta cuando se trabaja con fuentes de datos combinadas.

La realización de cálculos con campos de más de una fuente de datos puede ser ligeramente diferente a la de un cálculo ordinario. Se debe crear un cálculo en una fuente de datos; esto se indica en la parte superior del editor de cálculo.

  • Agregación. Cualquier campo usado desde otra fuente de datos vendrá con una agregación por defecto, SUM, pero puede cambiarse. Dado que los cálculos no pueden mezclar argumentos agregados y no agregados, también deben agregarse los campos de la fuente de datos en la que se realiza el cálculo. (En las imágenes de abajo, la agregación SUMA se agregó automáticamente y la agregación suma se agregó manualmente.)
  • Notación por puntos. Cualquier campo referenciado en el cálculo que pertenezca a otra fuente de datos se referirá a su fuente de datos utilizando notación por puntos. (En las imágenes de abajo, para el cálculo creado en Sample - Superstore, el campo Destino de ventas pasa a ser [Objetivos.Ventas].[Objetivo de ventas]. Cuando el cálculo se construye en Objetivos de ventas, el campo Ventas pasa a ser [Sample - Superstore].[Ventas]).
  • Estas son versiones equivalentes del mismo cálculo creado en cada fuente de datos. En ambos casos, se trata de SUMA(Ventas) / SUMA(Objetivo de ventas).

Además de manejar los cálculos de manera ligeramente diferente, existen algunas limitaciones en las fuentes de datos secundarias. Es posible que no pueda ordenar por un campo de una fuente de datos secundaria y que los filtros de acción no funcionen como se espera con los datos combinados. Para obtener más información, consulte Otros problemas relacionados con la combinación de datos.

Definir relaciones de enlace para la combinación

Para que Tableau sepa cómo combinar los datos de múltiples fuentes, debe haber una dimensión o dimensiones comunes entre las fuentes de datos. Esta dimensión común se llama campo de vinculación. Los campos de enlace activos se identifican en el panel Datos de la fuente de datos secundaria con un icono de enlace activo () y los campos de enlace potenciales se identifican con un icono de enlace roto ().

Por ejemplo, en una combinación de datos transaccionales y de cuotas, un campo geográfico puede ser el campo de enlace deseado para que pueda analizar la cuota de una región y el rendimiento hacia esa cuota.

Nota: para que la combinación funcione, los campos de enlace también deben compartir valores o miembros. Tableau construye la vista de datos combinados basados en los valores compartidos. Por ejemplo, si Color es el campo de enlace en ambas fuentes de datos, Tableau hará coincidir los datos sobre "Púrpura" de la primaria y "Púrpura" de la secundaria. Pero "Azul cl." no se mapeará correctamente con "Azul claro", así que uno de ellos tendría que volver a enlazarse. Al igual que al renombrar los campos para ayudar a Tableau a identificar los campos de enlace, puede editar alias para los miembros en esos campos. Para obtener más información, consulte Crear alias para cambiar el nombre de los miembros en la vista.

Establecimiento de una relación de enlace

Si el campo de enlace en las fuentes de datos primarias y secundarias tiene el mismo nombre, Tableau crea automáticamente la relación. Cuando se ha establecido una fuente de datos primaria (es decir, se utiliza un campo en la vista) y se selecciona la fuente de datos secundaria en el panel Datos, cualquier campo con el mismo nombre entre las dos fuentes de datos mostrará un icono de enlace ( o ) en la fuente de datos secundaria. Si en la vista se usa el campo relacionado de la fuente de datos primaria, el vínculo se activa automáticamente.

Si no hay iconos de enlace en la fuente de datos secundaria, es posible que deba ayudar a Tableau a establecer el enlace de una de estas dos maneras: 

  1. Si las dimensiones comunes no tienen el mismo nombre (como "Región" y "Región de ventas"), al renombrar se permitirá que Tableau las identifique como dimensiones comunes y establezca el enlace.

  2. O bien, puede definir manualmente una relación entre los campos de las fuentes de datos primarias y secundarias. A continuación, podrá obtener más información sobre la creación de una relación de enlace manual

Puede haber tantos campos de enlace activos o potenciales como sea necesario. Haga clic en el icono de enlace roto () en el panel Datos para activar la relación.

Definir manualmente una relación de enlace

Si las dimensiones comunes no tienen el mismo nombre, tendrá que definir una relación entre ellas manualmente.

  1. Seleccione Datos > Editar relaciones.

  2. En el cuadro de diálogo Relaciones, asegúrese de seleccionar la fuente de datos primaria en la lista desplegable Fuente de datos primaria.

  3. Seleccione la fuente de datos secundaria en el panel Fuente de datos secundaria. Cualquier relación automática existente será visible. Seleccione Personalizado en la lista de relaciones y, a continuación, haga clic en Añadir.

    product UI for Relationships dialog box

  4. En el cuadro de diálogo Añadir/Editar asignación de campos, siga este procedimiento:

    1. Seleccione un campo de la fuente de datos primaria.

    2. Seleccione un campo de la fuente de datos secundaria para establecer el campo vinculante o la relación entre las fuentes de datos, aunque los campos no tengan el mismo nombre.

    3. Haga clic en Aceptar.

      En este ejemplo, se crea una asignación entre Segmento y Segmento de cliente.

      Product UI for the add/edit relationships dialog box

      Sugerencia: para las fechas, la relación puede especificarse con precisión. Expanda el campo de fecha y seleccione el aspecto deseado para la fecha, como la fecha exacta, el mes, el año, etc.

  5. Cree tantas relaciones de asignación de campos como desee y, a continuación, haga clic en Aceptar.

Múltiples relaciones de enlaces

Al igual que con las uniones, hay ocasiones en las que la relación entre las fuentes de datos está definida por más de un campo. Por ejemplo, si las cuotas de ventas regionales son mensuales, es necesario establecer una combinación entre los datos de ventas transaccionales y los datos de cuotas tanto en la región como en el mes para que los datos correctos se recopilen en la vista. Puede haber múltiples relaciones de enlaces activas al mismo tiempo.

Más información: el impacto de múltiples campos de enlace

Cuando los datos se combinan en base a múltiples campos, los valores se incluyen en la vista solo cuando la combinación de datos de esos campos coincide en ambos conjuntos de datos. Veamos un ejemplo para entender esto.

Tenemos dos tablas, una para las aves que fueron vistas por los observadores de aves, y otra para las aves que se informó que se vieron.

y

Si configuramos una vista combinada con los campos Observadores de aves y Número de aves de la fuente de datos primaria (Aves vistas) y traemos el campo Número de informes de la fuente de datos secundaria (Aves reportadas), Tableau automáticamente se combina con Observadores de aves.

Vemos que el observador de aves A vio tres aves e hizo dos informes, B vio cuatro aves e hizo un informe, y C vio ocho aves e hizo dos informes.

Pero hay otro campo de enlace posible, Especies vistas. ¿Por qué no se combina este también? ¿Implicará alguna diferencia? 

Implica una diferencia bastante grande. Ahora vemos que solo hay un informe para cada uno de los observadores de aves A y C, y que B tiene un valor nulo. ¿Qué está pasando? 

Resulta que estos observadores de aves no son muy honestos. Cuando solo informaron de sus avistamientos basados en una anotación en un diario (barras azules en la imagen de arriba), las especies que reportaron haber visto no coincidían con lo que realmente vieron (vea los valores nulos en la segunda columna de la fuente de datos secundaria Aves vistas). Cuando respaldaron el informe con una fotografía (barras naranjas), fueron honestos (ambas columnas de Especies vistas coinciden). Debido a que tres informes no coincidían con las especies, esas filas de datos se eliminaron cuando los campos Observador de aves y Especies vistas se utilizaron como campo de enlace. La vista solo muestra datos en los que coinciden los valores de ambos campos de enlace.

Tenga cuidado al enlazar varios campos. Aunque puede ser muy fácil hacer clic en el icono y establecer un enlace activo, enlazar demasiados campos o campos no deseados puede tener un gran impacto en el análisis.

Diferencias entre las combinaciones y la combinación de datos

La combinación de datos simula una combinación izquierda tradicional. La diferencia principal entre los dos es el momento en el que se efectúa la agregación. Una unión combina los datos y luego los agrega. Una combinación agrega y luego combina los datos.

Combinación izquierda

Cuando usa una combinación izquierda para juntar datos, se envía una consulta a la base de datos en la que se lleva a cabo la combinación. Una unión a la izquierda indica todas las filas de la tabla de la izquierda y las filas correspondientes de la tabla de la derecha. A continuación, los resultados de la combinación se vuelven a enviar a Tableau para que los agregue y los muestre en la visualización.

Una unión a la izquierda toma todas las filas de la tabla de la izquierda. Las columnas comunes son ID de usuario e ID de patrocinador; si hay información correspondiente en la tabla de la derecha, se indican esos datos. De lo contrario, hay un nulo.

 

Suponga que tiene las mismas mesas, pero cambia el orden. Esta nueva unión a la izquierda produce diferentes resultados. Una vez más, una unión a la izquierda toma todos los datos de la nueva tabla izquierda, pero esencialmente ignora una fila de la tabla derecha. La fila de datos para ID de usuario = 4 no se incluye porque no hay ninguna fila para ID de usuario = 4 en la tabla de la izquierda.

Combinación de datos

Cuando usa la combinación de datos para juntar datos, se envía una consulta a la base de datos para cada fuente de datos que se usa en la hoja. Los resultados de las consultas se vuelven a enviar a Tableau como datos agregados y se presentan juntos en la visualización.

Nota: las medidas de agregación son sencillas: podemos calcular la suma, el promedio, el máximo u otra agregación de un número con facilidad. Los valores de medidas se agregan en función de cómo se agrega el campo en la vista. Sin embargo, todos los campos de una fuente de datos secundaria deben agregarse. ¿Cómo funciona para las dimensiones? Los valores de dimensión se agregan con la función de agregación ATTR, de modo que la que la agregación indica un único valor para todas las filas de la fuente de datos secundaria. Si hay varios valores en dichas filas, se muestra un asterisco (*). Esto puede interpretarse como "hay múltiples valores en la fuente de datos secundaria para esta marca en la vista".

La vista utiliza todos los valores de la fuente de datos primaria (que funciona como la tabla izquierda) y las correspondientes filas de la fuente de datos secundaria (la tabla derecha), según los campos enlazados.

Supongamos que tiene las siguientes tablas. Si los campos de enlace son ID de usuario e ID de patrocinador, no todos los valores pueden formar parte de la tabla resultante debido a lo siguiente:

  • Hay una fila de la tabla izquierda que no tiene una coincidencia de fila correspondiente en la tabla derecha, como indica el valor nulo de los resultados.

  • Hay varios valores correspondientes en las filas de la tabla derecha, como indica el asterisco (*) de los resultados.

Cuando se trata de medidas, también se agregan, como se muestra a continuación:

Importante: un asterisco (*) en una vista con datos combinados indica múltiples valores. Esto puede resolverse asegurando que solo hay un valor coincidente en la fuente de datos secundaria para cada marca de la fuente de datos primaria, posiblemente intercambiando las fuentes de datos primarias y secundarias. Para obtener más información, consulte Solucionar problemas de combinación de datos.

Cuándo combinar datos

La combinación de datos es útil cuando:

  • Quiere juntar datos de diferentes bases de datos que no admiten las combinaciones entre bases de datos.

    Las uniones entre bases de datos no admiten conexiones a cubos (por ejemplo, Oracle Essbase) ni a conexiones solo de extracciones (por ejemplo, Google Analytics). En este caso, deberá crear fuentes de datos individuales para los datos que desea analizar y, a continuación, usar la combinación de datos para combinar las fuentes de datos en una única hoja.

  • Los datos se encuentran en diferentes niveles de detalle.

    En ocasiones, un conjunto de datos puede capturar datos usando una granularidad mayor o menor que el otro conjunto de datos.

    Supongamos que está analizando datos de ventas y de cuotas. Los datos de ventas podrían capturar todas las transacciones, pero los datos de cuotas podrían tener objetivos en el nivel trimestral. Como los valores se capturan en diferentes niveles de detalle en cada conjunto de datos, debe utilizar la combinación de datos para combinar los datos.

    Nota: la duplicación de datos después de una unión es un síntoma de la presencia de datos con diferentes niveles de detalle. Si observa datos duplicados en una unión, intente combinarlos.

  • Tenga muchos datos.

    Por lo general, se recomienda usar uniones para combinar datos de la misma base de datos. La base de datos gestiona las uniones y aprovecha algunas de las funcionalidades nativas de la base de datos. Sin embargo, las uniones combinan los datos y luego los agregan para la vista. Si trabaja con grandes conjuntos de datos, las combinaciones de datos agregados anteriormente pueden sobrecargar la base de datos y afectar considerablemente al rendimiento. La combinación de datos agrega los datos al nivel apropiado y luego los combina en la vista. Este cambio en el orden de las operaciones puede tener beneficios en el rendimiento en algunos casos.

    Nota: al realizar la combinación en un campo con una alta granularidad, por ejemplo, con Nombre de producto en lugar de Categoría de producto, las consultas pueden ralentizarse.

Combinación de datos de un vistazo

  • La combinación de datos se realiza hoja por hoja.
  • El orden en que se utilizan los campos determina qué fuente de datos es la primaria y qué fuente de datos es la secundaria.
  • La fuente de datos primaria se indica con una marca de verificación azul, mientras que cualquier fuente de datos secundaria y sus campos tienen una marca de verificación naranja.
  • Los campos de enlace se pueden determinar automáticamente basándose en nombres de campo compartidos, o bien se puede crear la relación manualmente.
  • La combinación de datos se comporta de forma similar a una unión a la izquierda, lo que puede provocar la falta de datos de la fuente de datos secundaria.
  • Es posible que aparezcan asteriscos (*). Esto indica valores de múltiples dimensiones en una sola marca, porque la combinación de datos toma resultados agregados y los combina en la vista.
  • Puede usar una fuente de datos secundaria para volver a asignar un alias a los valores de campo de una fuente de datos primaria. Para obtener más información, consulte Asignar un alias a valores de campo utilizando la combinación de datos.

Limitaciones de la combinación de datos

  • Existen algunas limitaciones de combinación de datos relacionadas con agregados no aditivos, como COUNTD, MEDIAN y RAWSQLAGG. Para obtener más información, consulte Solucionar problemas de combinación de datos.
  • Las fuentes de datos combinadas no pueden publicarse como una unidad. En su lugar, publique cada fuente de datos por separado (en el mismo servidor) y luego combine las fuentes de datos publicadas.
  • Los datos de fuentes de datos secundarias deben agregarse siempre en los cálculos.
  • Si está combinando una fuente de datos multidimensional, debe ser la fuente de datos primaria.

Otros artículos de esta sección

¡Gracias por sus comentarios! Se produjo un error al enviar sus comentarios. Inténtelo de nuevo o envíenos un mensaje.