이 페이지가 도움이 되셨나요?
아니요

데이터 통합

데이터 통합은 한 데이터 원본의 데이터 테이블을 다른 데이터 원본의 데이터 열로 보완하는 데이터 결합 방법입니다.

일반적으로 이러한 종류의 데이터 결합에는 조인이 사용되지만 데이터의 유형 및 세분성에 따라 데이터 통합을 사용하는 것이 나을 때가 있습니다.

예를 들어 거래 데이터가 Salesforce에 저장되어 있고 할당량 데이터가 Excel 통합 문서에 저장되어 있다고 가정합니다. 결합하려는 데이터가 다른 데이터베이스에 저장되어 있고 각 테이블에 캡처된 데이터의 세분성이 두 데이터 원본에서 다르기 때문에 데이터 통합이 이 데이터를 결합하는 데 가장 좋은 방법입니다.

데이터 통합은 다음과 같은 조건에서 유용합니다.

  • 교차 데이터베이스 조인이 지원되지 않는 서로 다른 데이터베이스의 데이터를 결합하려는 경우

    교차 데이터베이스 조인은 큐브(예: Oracle Essbase)에 대한 연결이나 일부 추출 전용 연결(예: Google Analytics)을 지원하지 않습니다. 이 경우 분석해야 하는 데이터에 대해 개별 데이터 원본을 설정한 다음 데이터 통합을 사용하여 단일 시트에서 데이터 원본을 결합합니다.

  • 데이터의 세부 수준이 서로 다릅니다.

    한 데이터 집합이 다른 데이터 집합보다 더 높거나 낮은 수준을 사용하여 데이터를 표현하는 경우

    예를 들어 거래 데이터와 할당량 데이터를 분석한다고 가정합니다. 거래 데이터는 모든 거래를 표현하 지만 할당량 데이터는 분기 수준에서 거래를 집계할 수 있습니다. 이러한 거래 값은 각 데이터 집합에서 서로 다른 세부 수준으로 표현되기 때문에 데이터 통합을 사용하여 데이터를 결합해야 합니다.

다음과 같은 조건에서는 조인 대신 데이터 통합을 사용합니다.

  • 데이터에 정리가 필요합니다.

    사용 중인 테이블이 조인 후에 올바른 일치 관계가 성립되지 않는 경우라면, 각 테이블에 대해 데이터 원본을 설정하고 모든 필요한 사용자 지정(열 이름 바꾸기, 열 데이터 유형 변경, 그룹 만들기, 계산 사용 등)을 수행한 후 데이터 통합을 사용하여 데이터를 결합합니다.

  • 조인에서 중복 데이터가 발생합니다.

    조인 후 데이터가 중복되는 것은 데이터 세부 수준이 서로 다를 때의 증상입니다. 중복 데이터가 발견되면 조인을 생성하는 대신 데이터 통합을 사용하여 공통 차원을 기준으로 통합하십시오.

  • 데이터가 많습니다.

    일반적으로 동일한 데이터베이스의 데이터를 결합할 때 조인이 권장됩니다. 조인은 데이터베이스에 의해 처리되기 때문에 조인에서 데이터베이스의 몇 가지 기본 기능을 활용할 수 있습니다. 하지만 대규모 데이터 집합으로 작업하는 경우 조인이 데이터베이스에 부하를 발생시키고 성능에 상당한 영향을 미칠 수 있습니다. 이 경우 데이터 통합을 사용하면 도움이 됩니다. Tableau는 데이터를 집계한 후 데이터를 통합하기 때문에 통합할 데이터가 훨씬 줄어듭니다. 통합할 데이터가 적어지면 일반적으로 성능이 향상됩니다.

    참고: 연도 대신 날짜를 사용하는 것처럼, 더 높은 세부 수준을 사용하여 필드를 통합하는 경우 쿼리가 느려질 수 있습니다.

데이터 통합을 위한 필수 요건

데이터 통합을 사용하려면 데이터가 다음 요구 사항을 충족해야 합니다.

주 데이터 원본과 보조 데이터 원본

데이터 통합에는주 데이터 원본 하나와 하나 이상의 보조 데이터 원본이 필요합니다. 주 데이터 원본을 지정하면 주 데이터 원본이 기본 테이블 또는 기본 데이터 원본 기능을 합니다. 시트에서 사용하는 모든 후속 데이터 원본은 보조 데이터 원본으로 취급됩니다. 보조 데이터 원본에서 주 데이터 원본에 해당하는 일치가 있는 열만 뷰에 나타납니다.

위와 동일한 예에서 거래 데이터를 주 데이터 원본으로 지정하고 할당량 데이터를 보조 데이터 원본으로 지정합니다.

참고: 큐브(다차원) 데이터 원본은 주 데이터 원본으로 사용해야 합니다. 큐브 데이터 원본은 보조 데이터 원본으로 사용할 수 없습니다.

주 데이터 원본과 보조 데이터 원본 사이의 정의된 관계

주 데이터 원본과 보조 데이터 원본을 지정한 다음에는 두 데이터 원본 사이의 공통 차원을 하나 이상 정의해야 합니다. 이 공통 차원을 연결 필드라고 합니다.

위 예를 계속 사용한다고 가정하고, 거래 데이터와 할당량 데이터를 통합할 경우 날짜 필드가 주 데이터 원본과 보조 데이터 원본 사이의 연결 필드일 수 있습니다.

  • 주 데이터 원본과 보조 데이터 원본의 날짜 필드가 이름이 같은 경우 두 필드 사이의 관계가 만들어지고 뷰에 필드가 표시될 때 보조 데이터 원본의 날짜 필드 옆에 연결 아이콘( )이 표시됩니다.

  • 두 차원의 이름이 다른 경우 주 데이터 원본과 보조 데이터 원본의 날짜 필드 간에 올바른 매핑을 만드는 관계를 정의할 수 있습니다.

조인과 데이터 통합의 차이점

데이터 통합은 전통적인 왼쪽 조인을 흉내냅니다. 둘의 주된 차이점은 집계를 기준으로 조인을 수행할 때 발생합니다.

왼쪽 조인

왼쪽 조인을 사용하여 데이터를 결합하는 경우 조인이 수행되는 데이터베이스로 쿼리가 전송됩니다. 왼쪽 조인을 사용하면 왼쪽 테이블의 모든 행과 왼쪽 테이블에 일치하는 행이 있는 오른쪽 테이블의 모든 행이 반환됩니다. 이 조인 결과가 Tableau로 전송되고 집계됩니다.

예를 들어 다음 테이블이 있다고 가정합니다. 공통 열이 User ID 및 Patron ID인 경우 왼쪽 조인을 수행하면 왼쪽 테이블의 모든 데이터와 함께 오른쪽 테이블의 모든 데이터도 가져옵니다. 오른쪽 테이블의 각 행에 왼쪽 테이블의 행에 일치하는 행이 있기 때문입니다.

 

 

데이터 통합

데이터 통합을 사용하여 데이터를 결합하는 경우 시트에 사용되는 각 데이터 원본의 데이터베이스로 쿼리가 전송됩니다. 집계된 데이터를 포함하는 쿼리 결과는 Tableau로 전송되고 결합됩니다. 뷰에는 주 데이터 원본인 왼쪽 테이블의 모든 행과 보조 데이터 원본인 오른쪽 테이블의 집계된 행이 연결 필드의 차원에 따라 사용됩니다. 차원 값은 ATTR 집계 함수를 사용하여 집계되므로 보조 데이터 원본의 모든 행에 대해 단일 값이 반환됩니다. 행의 값이 여러 개인 경우 별표(*)가 표시됩니다. 측정값은 필드에 뷰에서 집계되는 방식에 따라 집계됩니다.

연결 필드를 변경하거나 여러 연결 필드를 추가하여 보조 데이터 원본에서 상이하거나 추가적인 데이터 행을 통합에 포함하면 집계된 값이 변경됩니다.

예를 들어 다음 테이블이 있다고 가정합니다. 연결 필드가 User ID 및 Patron ID인 경우 데이터를 통합하면 왼쪽 테이블의 모든 데이터를 가져와 오른쪽 테이블의 데이터로 왼쪽 테이블을 보완합니다. 이 경우 다음과 같은 이유로 결과 테이블에 일부 값이 포함되지 않을 수 있습니다.

  • Null 값으로 표시된 것과 같이 왼쪽 테이블의 행에 일치하는 행이 오른쪽 테이블에 없습니다.

  • 별표(*)로 표시된 것과 같이 오른쪽 테이블의 행에 해당하는 값이 여러 개입니다.

 

 

 

위와 같은 테이블이 있지만 보조 데이터 원본에 Fines라는 새 필드가 있다고 가정합니다. 마찬가지로, 연결 필드가 User IDPatron ID인 경우 데이터를 통합하면 왼쪽 테이블의 모든 데이터를 가져와 오른쪽 테이블의 데이터로 보완합니다. 이 경우 이전 예에서와 동일한 Null 값 및 별표와 함께 다음이 표시됩니다.

  • Fines 필드는 측정값이므로 오른쪽 테이블의 데이터가 왼쪽 테이블의 데이터와 결합되기 전에 Fines 필드의 행 값이 집계되어 표시됩니다.

  • 이전 예에서와 같이 왼쪽 테이블에서 Fines 필드에 해당하는 행이 없는 행에는 두 번째 Null 값이 표시됩니다.

 

 

데이터 통합

별개의 데이터 원본에 있는 데이터를 단일 시트에서 함께 분석하려는 경우 데이터 통합을 사용할 수 있습니다. 다음 예에서는 두 데이터 원본, 즉 Excel 데이터 원본과 SQL Server 데이터 원본의 데이터를 통합하는 방법을 설명합니다.

1단계: 데이터 연결 및 데이터 원본 설정
  1. 데이터 원본 페이지에서 데이터 집합에 연결하고 데이터 원본을 설정합니다. 이 예에서는 Sample - Superstore 데이터 원본을 사용합니다.

  2. 데이터 > 새 데이터 원본을 선택하고 두 번째 데이터 집합에 연결한 다음 데이터 원본을 설정합니다. 이 예제에서는 예상 매출 관련 정보가 포함된 Sales Plan이라는 SQL Server 데이터 원본을 사용합니다.

  3. 시트 탭을 클릭하여 뷰 작성을 시작합니다.

2단계: 주 데이터 원본 지정

주 데이터 원본에서 하나 이상의 필드를 뷰에 끌어 놓아 해당 데이터 원본을 주 데이터 원본으로 지정합니다.

  1. 데이터 패널에서 주 데이터 원본으로 지정하려는 데이터 원본을 클릭합니다. 이 예제에서는 Sample - Superstore가 선택되어 있습니다.

  2. 사용하려는 필드를 데이터 원본에서 뷰로 끌어 놓습니다. 이 예제에서는 Segment 및 Category 기준으로 Sales를 보여 주는 뷰를 만듭니다.

3단계: 보조 데이터 원본 지정

주 데이터 원본이나 활성 링크가 아닌 데이터 원본의 뷰에서 사용되는 모든 필드는 자동으로 후속 데이터 원본을 보조 데이터 원본으로 지정합니다.

  1. 데이터 패널에서 보조 데이터 원본으로 지정하려는 데이터 원본을 클릭합니다. 이 예제에서는 Sales Plan 데이터 원본을 선택합니다.

    이 단계를 마치면 데이터 패널의 왼쪽 아래에 주황색 막대가 표시됩니다. 이 주황색 막대는 보조 데이터 원본을 나타냅니다. 주황색 막대와 함께 잠재적인 연결 필드 옆에 끊어진 링크 아이콘이 표시됩니다.

  2. 끊어진 링크 아이콘( )을 클릭하여 보조 데이터 원본과 주 데이터 원본 사이에 관계를 설정합니다. 이 필드로 Tableau에서 집계해야 하는 세부 수준이 결정됩니다. 이 예에서는 Segment가 연결 필드입니다.

    연결 필드가 되어야 하는 필드 옆에 끊어진 링크 아이콘이 표시되지 않거나 끊어진 링크가 표시되지 않으면 4단계: (선택 사항) 관계 정의 또는 편집을 참조하십시오.

  3. 사용하려는 필드를 보조 데이터 원본에서 뷰로 끌어 놓습니다. 이 예에서는 세부 정보 카드에서 Sales Plan 필드를 사용하여 뷰의 세부 수준을 변경합니다.

4단계: (선택 사항) 관계 정의 또는 편집

주 데이터 원본의 필드가 보조 데이터 원본에도 있는 경우 Tableau가 이를 감지하여 이 필드가 잠재적 연결 필드임을 나타내는 끊어진 링크 아이콘을 데이터 패널에 표시합니다. 끊어진 링크 아이콘을 클릭하여 주 데이터 원본과 보조 데이터 원본 사이에 관계를 설정하면 Tableau가 두 데이터 원본의 데이터를 단일 시트에 통합합니다.

보조 데이터 원본의 데이터를 사용하려면 연결된 필드가 적어도 하나는 있어야 합니다.

  1. 데이터 > 관계 편집을 선택합니다.

  2. 관계 대화 상자의 주 데이터 원본 드롭다운 목록에서 주 데이터 원본이 선택되었는지 확인합니다. 이 예제에서는 Sample - Superstore 데이터 원본이 선택되어 있습니다.

  3. 보조 데이터 원본 패널에서 보조 데이터 원본을 선택하고 관계 목록에서 사용자 지정을 선택한 다음 추가 단추를 클릭합니다. 이 예제에서는 Sales Plan 데이터 원본을 선택합니다.

  4. 필드 매핑 추가/편집 대화 상자에서 다음을 수행합니다.

    1. 주 데이터 원본에서 필드를 선택합니다.

    2. 보조 데이터 원본의 필드를 선택하여 연결 필드 또는 데이터 원본 간의 관계를 설정합니다. 이 경우 필드의 이름이 같지 않아도 됩니다.

    3. 확인을 클릭합니다.

      이 예제에서는 Superstore – Sample 데이터 원본의 Segment 필드와 Sales Plan 데이터 원본의 Customer Segment 필드 간의 관계를 선택합니다. 이름은 다르지만 이 두 필드를 매핑하여 관계를 생성할 수 있습니다.

  5. (선택 사항) 필요한 개수만큼 관계를 계속 추가 및 제거한 다음 확인을 클릭합니다.

    관련 필드는 보조 데이터 원본에 잠재적 연결 필드로 표시됩니다.

  6. 데이터 패널에서 이 필드 옆의 끊어진 링크 아이콘( )을 클릭하여 주 데이터 원본과 보조 데이터 원본 사이의 관계를 활성화합니다. 그러면 Customer Segment 옆에 있는 끊어진 링크 아이콘이 활성 링크 아이콘( )으로 바뀝니다.

    주 데이터 원본의 관련 필드가 뷰에서 사용되는 경우 링크가 자동으로 활성화됩니다.

데이터 통합 시 관계는 멤버 별칭을 기준으로 값을 일치시킵니다. 별칭을 편집하여 일치하지 않는 필드를 수정할 수 있습니다. 예를 들어 주 데이터 원본의 Segment 필드를 보조 데이터 원본의 Segment 필드에 매핑하는 경우 “Small Business”가 “S. Business”에 올바르게 매핑되지 않습니다. 데이터 원본 중 하나에서 별칭을 편집해야 합니다. 자세한 내용은 별칭을 만들어 뷰의 멤버 이름 바꾸기을 참조하십시오.

보조 데이터 원본을 사용하여 주 데이터 원본의 필드 값 별칭을 변경할 수도 있습니다. 자세한 내용은 데이터 통합을 사용한 필드 값 별칭 지정을 참조하십시오.

데이터 통합 제한 사항

COUNTD, MEDIAN, RAWSQLAGG 등과 같은 비가산 집계와 관련된 몇 가지 데이터 통합 제한 사항이 있습니다. 자세한 내용은 데이터 통합 문제 해결을 참조하십시오.

이 섹션의 다른 문서