连接到数据

若要使用 Tableau Prep Builder 来清理和准备数据,就像在 Tableau Desktop 中一样,请通过连接到数据来启动一个新流程。您也可以打开一个现有流程,并选择在何处停止。

您可以直接在开始页面上查看和访问最近的流程,因此可以轻松地找到正在进行的工作。连接到数据之后,在输入步骤中使用不同的选项来确定要在流程中处理的数据。

启动或打开流程

Tableau Prep Builder 支持连接到常用类型的数据,以及 Tableau 数据提取(.tde 或 .hyper)。Tableau Desktop 中支持的连接器可能在 Tableau Prep Builder 的版本中尚不支持。但每个新版本都会增加新连接器,因此请检查“连接”窗格来确定您的连接器是否可用。

注意:如果在连接器不受支持的版本中打开流程,流程可能会打开,但是,除非移除了数据连接,否则流程可能会出现错误或无法运行。

您也可以使用自定义 SQL 查询来连接到数据,就像您目前可在 Tableau Desktop 中所做的一样。有关详细信息,请参见 Tableau Desktop 和 Web 制作帮助中的连接到自定义 SQL 查询

若要检查您是否能连接到数据,请打开 Tableau Prep Builder,并单击“添加连接” 按钮,确定您的数据是否列在左侧窗格中的“连接”下。

注意:某些连接器可能会要求您下载并安装驱动程序,然后才能连接到数据。请参见 Tableau 网站上的驱动程序下载页面获取驱动程序下载链接以及安装说明。

开始新流程

  1. 打开 Tableau Prep Builder 并单击“添加连接” 按钮。

  2. 从连接器列表中,选择文件类型或托管您的数据的服务器。如果出现提示,请输入所需的信息以登录并访问数据。

  3. “连接”窗格中,执行以下操作之一:

    • 如果连接到文件,请双击表或将表拖到“流程”窗格以开始流程。

      对于单个表,Tableau Prep Builder 会在您将数据添加到流程时自动为您在“流程”窗格中创建输入步骤。

    • 如果连接到数据库,请选择数据库或架构,然后双击表或将表拖到“流程”窗格以开始流程。

打开现有流程

若要打开现有流程,请在“开始”页面上执行以下操作之一:

  • “最近的流程”下,选择一个流程。

  • 单击“打开流程”,导航到流程文件并将其打开。

单击“文件”>“新建”打开一个新工作区。

连接到 SAP HANA(版本 2019.2.1 及更高版本)

就像 Tableau Desktop 一样,Tableau Prep Builder 支持使用 SAP HANA 连接到数据,但有几点不同。使用在 Tableau Desktop 中使用的相同过程连接到数据库。有关详细信息,请参见SAP HANA。连接并搜索表之后,将表拖到画布上以开始构建流程。

Tableau Prep Builder 中不支持打开流程时的变量和参数提示。相反,在“输入”窗格中,单击“变量和参数”选项卡并选择要使用的变量和操作数,然后从预设值列表中选择,或者输入自定义值来查询数据库并返回所需的值。

注意:从 Tableau Prep Builder 版本 2019.2.2 开始,您可以使用初始 SQL 来查询连接,并且,如果某个变量有多个值,您可以从下拉列表中选择所需的值。

也可以添加其他变量。单击“变量”部分中的加号按钮 并选择一个变量或操作数,然后输入自定义值。

注意:Tableau Prep Conductor 版本 2019.1 中不支持此连接器。如果创建使用此连接器的流程,则您可以发布流程,但无法使用 Tableau Server 中的计划功能运行流程。作为替代,您可以使用命令行界面运行流程以使数据保持最新。有关如何通过命令行运行流程的详细信息,请参见通过命令行刷新输出文件有关版本兼容性的详细信息,请参见Tableau Online Tableau Prep

使用 ODBC 进行连接(版本 2019.2.2 及更高版本)

如果需要连接到“连接”窗格中未列出的数据源,您可以使用支持 SQL 标准并实现 ODBC API 的“其他数据库 (ODBC)”连接器连接到任何数据源。使用“其他数据库 (ODBC)”连接器连接到数据的工作方式与您在 Tableau Desktop 中使用该连接器的方式类似,但有一些不同之处:

  • 您只能使用 DSN(数据源名称)选项进行连接。

  • 若要在 Tableau Server 中发布并运行流程,必须使用匹配的 DSN 配置服务器。

    注意:目前不支持从包含“其他数据库 (ODBC)”连接器的命令行 (Tableau Prep Builder) 中运行流程。

  • Windows 和 MacOS 上的连接体验是一致的。不支持 ODBC 驱动程序 (Windows) 的提示连接属性。

  • Tableau Prep Builder 仅支持 64 位驱动程序。

连接之前

若要使用“其他数据库 (ODBC)”连接器连接到数据,您必须安装数据库驱动程序,并设置和配置 DSN(数据源名称)。若要将流程发布到 Tableau Server 并运行流程,也必须使用匹配的 DSN 配置服务器。

重要信息:Tableau Prep Builder 仅支持 64 位驱动程序。如果已设置并配置了 32 位驱动程序,则您可能需要将其卸载,然后安装 64 位版本(如果驱动程序不允许同时安装两个版本)。

  1. 使用 ODBC 数据源管理器(64 位) (Windows) 或 ODBC 管理器实用工具 (MacOS) 创建 DSN。

    如果 Mac 上未安装该实用工具,您可以下载一个(例如从 www.odbcmanager.net 下载),或者可以手动编辑 odbc.ini 文件。

  2. ODBC 数据源管理器(64 位)(Windows) 或 ODBC 管理器实用工具 (MacOS) 中,添加一个新数据源,然后选择适用于数据源的驱动程序,并单击“完成”

  3. “ODBC 驱动程序设置”对话框中,输入诸如服务器名称、端口、用户名和密码等配置信息。单击“测试”(如果对话框有该选项)验证您的连接是否设置正确,然后保存您的配置。

    注意:Tableau Prep Builder 不支持提示连接属性,因此您必须在配置 DNS 时设置此信息。

    此示例显示 MySQL 连接器的配置对话框。

使用“其他数据库 (ODBC)”进行连接

  1. 打开 Tableau Prep Builder 并单击“添加连接” 按钮。

  2. 从连接器列表中,选择“其他数据库 (ODBC)”

  3. “其他数据库 (ODBC)”对话框中,从下拉列表中选择一个 DSN,并输入用户名和密码。然后单击“登录”

  4. “连接”窗格中,从下拉列表中选择您的数据库。

使用初始 SQL 查询连接(版本 2019.2.2 及更高版本)

在连接到支持初始 SQL 命令的数据库时,您可以指定初始 SQL 命令,该命令将在进行数据库连接时运行。例如,在连接到 Amazon Redshift 时,您可以输入 SQL 语句,以便在连接到数据库时应用筛选器,就像在“输入”步骤中添加筛选器一样。SQL 命令将在数据抽样之前应用,并加载到 Tableau Prep Builder 中。

若要刷新数据并再次运行初始 SQL 命令,请执行以下操作之一:

• 更改初始 SQL 命令并刷新“输入”步骤,重新建立连接。

• 运行流程。初始 SQL 命令在处理所有数据之前运行。

• 计划流程以在 Tableau Server 上运行。初始 SQL 在每次流程运行时加载数据的过程中运行。

  1. 在“连接”窗格的列表中选择一个支持初始 SQL 的连接器。
  2. 单击“显示初始 SQL”链接展开对话框,并输入您的 SQL 语句。

重要信息:Tableau Prep Builder 中的初始 SQL 尚不支持参数。如果像在 Tableau Desktop 中一样尝试并输入参数,您将收到错误。

使用 Tableau 数据提取

连接到 Tableau 数据提取时,Tableau Prep Builder 将解包数据提取,并且 hyper 将扩展,从而会在将流程操作应用于生成的原始数据时使用很多临时空间。

这意味着您需要更多的 RAM 和磁盘空间来容纳该大小的文件。例如,包含 18 列和 1200 万行、大小为 360MB(解压缩后为 8.5 GB)的数据提取文件可能最多需要 32GB RAM、16 核和 500GB 可用磁盘空间才能在文件解压缩后支持该文件。

在“输入”步骤中刷新数据

如果开始处理流程后输入文件或表中的数据发生变化,您可以刷新“输入”步骤为引入新数据。

文件输入步骤类型

若要刷新文件输入步骤,请执行下列操作之一:

  • 在流程窗格中的顶部菜单上,单击“刷新”按钮以刷新所有“输入”步骤。若要刷新单个“输入”步骤,请单击刷新按钮旁边的下拉箭头,并从列表中选择该“输入”步骤。

  • 在流程窗格中,右键单击要刷新的“输入”步骤,并从菜单中选择“刷新”

文件、数据库或 Tableau 数据提取输入步骤类型

若要刷新数据库或 Tableau 数据提取输入步骤,请执行下列操作之一:

  • 尝试编辑连接。

    注意:为了保持性能,Tableau Prep Builder 会对大型数据集取样。如果数据已取样,则在配置窗格中,您可能会看到也可能不会看到新数据。您可以在“输入”步骤中的“数据样本”选项卡中更改数据的取样方式,但可能会影响性能。有关设置数据样本大小的详细信息,请参见选择数据样本大小

    1. “连接”窗格中,右键单击或按住 Ctrl 单击 (MacOS) 数据源,并选择“编辑”

    2. 通过登录数据库或者重新选择文件或 Tableau 数据提取来重建连接。

  • 移除“输入”步骤并将其重新添加到流程。

    1. 在流程窗格中,右键单击要刷新的“输入”步骤,并从菜单中选择“移除”

      这会使您的流程暂时处于错误状态。

    2. 再次连接到更新的文件。

    3. 将表拖到流程窗格中要向其中添加“输入”步骤的流程中的第二个步骤上。将其放在“添加”选项上,以将其重新连接到流程。

使用 Data Interpreter 清理您的文件

处理 Microsoft Excel 文件时,您可以使用 Data Interpreter 来检测数据中的子表,以及移除无关信息来帮助准备数据进行分析。打开 Data Interpreter 时,它将检测这些子表,并将其列为“连接”窗格的“表”部分中的新表。

然后,您可以将它们拖到“流程”窗格中。如果使用 Tableau Prep Builder 版本 2018.1.2 或更高版本,您可以在“多个文件”选项卡中选择“通配符并集”选项,以在流程中包括所有找到的子表。有关在“输入”步骤中使用通配符并集的详细信息,请参见在输入步骤中合并文件和数据库表

如果关闭 Data Interpreter,则会从“连接”窗格中移除这些表。如果已在流程中使用了这些表,则会由于缺少数据而导致流程错误。

注意:当前 Data Interpreter 只会检测 Excel 电子表格中的子表,不支持为文本文件和电子表格指定起始行。

下面的示例显示在 “连接”窗格中对 Excel 电子表格使用 Data Interpreter 的结果。Data Interpreter 检测到两个额外的子表。

使用 Data Interpreter 之前 使用 Data Interpreter 之后

若要使用 Data Interpreter,请完成以下步骤:

  1. 选择“连接到数据”,然后选择“Microsoft Excel”

  2. 选择您的文件,并单击“打开”

  3. 选中“使用 Data Interpreter”复选框。

  4. 将新表拖到“流程”窗格以将其包括在流程中。若要移除旧表,请右键单击旧表的输入步骤,并选择“移除”

在输入步骤中合并文件和数据库表

使用来自单一数据源的多个文件或数据库表时,您可以使用通配符搜索来搜索文件或表,然后合并数据以将所有文件或表数据包括在“输入”步骤中。若要合并文件,文件必须位于同一父目录或子目录中。

若要合并数据表,表必须位于同一数据库中,并且数据库连接必须支持通配符并集搜索。以下数据库支持这种类型的并集:

  • Amazon Redshift

  • Microsoft SQL Server

  • MySQL

  • Oracle

  • PostgreSQL

如果在创建并集之后添加或移除文件或表,您可以刷新输入步骤,用新数据或更改的数据来更新流程。

注意:此功能当前仅适用于 Excel 和 .csv(文本)文件,以及存储在上面所列特定数据库中的数据表。此选项对于 Tableau 数据提取不可用。

Tableau Prep Builder 版本 2018.1.2 及更高版本中提供了适用于文件的通配符并集。Tableau Prep Builder 版本 2018.3.1 及更高版本中提供了适用于数据库表的通配符并集。在以前的版本中编辑具有此并集类型的流程连接可能会导致错误。

如果需要合并来自不同数据源的数据,您可以使用合并步骤执行该操作。有关创建合并步骤的详细信息,请参见联接或合并数据

合并文件

默认情况下,Tableau Prep Builder 会合并您连接到的 .csv 文件所在同一目录中的所有 .csv 文件,或者合并您连接到的 Excel 文件中的所有工作表。如果使用 Data Interpreter 清理 Excel 文件,并且使用的是 Tableau Prep Builder 版本 2018.1.2 或更高版本,您可以使用通配符搜索来合并和添加 Data Interpreter 找到的任何子表。

如果要更改默认并集,请使用以下条件来查找要包括在并集中的文件或工作表:

  • 搜索范围:选择要用于搜索文件的目录。选中“包括子文件夹”复选框以包括父文件夹的子目录中的文件。

  • 文件:选择是否包括或排除与通配符搜索条件匹配的文件。

  • 匹配模式(xxx*):输入通配符搜索模式以查找文件名中包含这些字符的文件。举例来说,如果输入 ord*,则会返回包括该文件名的所有文件。将此字段留空以包括指定目录中的所有文件。

使用通配符搜索来合并文件:

  1. 单击“添加连接” 按钮,并在“连接”下单击“文本文件”(适用于 .csv 文件)或“Microsoft Excel”(适用于 Excel 文件),然后选择要打开的文件。

  2. “输入”窗格中,选择“多个文件”选项卡,然后选择“通配符并集”

    下面的示例显示一个使用匹配模式的通配符并集。“流程”窗格中“Orders_Central”输入步骤上文件图标上的加号表明该步骤包括一个通配符并集。并集中的文件列在“已包括文件”下。

  3. 使用搜索、文件和匹配模式选项来查找要合并的文件。

  4. 单击“应用”以合并文件。

向流程中添加新步骤时,您可以在“配置”窗格的“文件路径”字段中看到添加到数据集的所有文件。此字段是自动添加的。

合并数据库表(版本 2018.3.1 及更高版本)

  1. 单击“添加连接” 按钮,并在“连接”下连接到支持通配符并集的数据库。

  2. 将表拖到流程窗格。

  3. “输入”窗格中,选择“多个表”选项卡,然后选择“通配符并集”

  4. 使用搜索、“表”“匹配模式”选项来查找要合并的表。

    只有显示在“连接”窗格的“表”部分中的表才能包括在并集中。通配符搜索不会跨架构或跨数据库连接进行搜索来查找表。

  5. 单击“应用”以合并表数据。

    向流程中添加新步骤时,您可以在“配置”窗格的“表名称”字段中看到添加到数据集的所有表。此字段是自动添加的。

在并集之后合并字段

在输入步骤中创建并集后,您可能需要合并字段。您可以在除“输入”或“输出”步骤之外的任何后续步骤中执行此操作。有关详细信息,请参见其他合并字段选项

在“输入”步骤中联接数据

Tableau Prep Builder 版本 2019.1.3 及更高版本中,当连接到的数据库包含具有关系数据的表时,Tableau Prep Builder 现在可以检测和显示表中的哪些字段被标识为唯一标识符,那些字段被标识为相关字段,并为这些字段显示相关的表名称。

一个名为“链接键”的新列将显示在“输入”窗格中,并显示以下关系(如果存在):

  • 唯一标识符。此字段唯一标识表中的每一行。表中可以有多个唯一标识符。字段中的值必须唯一,不能为空白或 null。

  • 相关字段。此字段将表与数据库中的另一个表关联。表中可以有多个相关字段。

  • 唯一标识符和相关字段。字段是此表中的唯一标识符,并将表与数据库中的另一个表关联。

您可以利用这些关系快速查找并向流程中添加相关表,或者通过“输入”步骤创建联接。此功能可用于定义了表关系的任何受支持的数据库连接器。

  1. 连接到包含字段关系数据(例如唯一标识符或相关字段)的数据库(例如 Microsoft SQL Server)。
  2. 在“输入”窗格中,单击标记为 相关字段或 同时标记为唯一标识符和相关字段的字段。

    此时将打开一个对话框,其中显示相关表的列表。

  3. 将鼠标指针悬停在要添加或加入的表上,然后单击加号按钮将该表添加到流程中,或者单击联接按钮创建与所选表的联接。

    如果创建联接, Tableau Prep Builder 将使用定义的字段关系来联接表,并显示将用于创建联接的联接子句的预览。

  4. 或者,您可以通过“流程”窗格的菜单来联接相关表。将鼠标指针悬停在一个步骤上,直到出现加号 图标,然后选择“添加联接”查看相关表的列表。Tableau Prep Builder 基于组成两个表之间的关系的字段创建联接。

    注意:如果表没有定义表关系,则此选项不可用。

有关使用联接的详细信息,请参见联接数据

配置数据集

若要确定在流程中包括多少数据集,您可以配置数据集。当您连接到数据或将表拖到“流程”窗格中时,会自动向流程中添加一个输入步骤。这始终是流程中的第一步。您可以右键单击输入步骤以对其进行重命名或将其移除。如果连接到 Excel 或文本文件,您还可以从输入步骤中刷新数据。

在输入步骤中,您可以看到数据集的元数据配置。在这里,您可以搜索字段、查看示例值,以及执行操作来缩小数据集的大小,例如选择要包括的字段、选择要处理的数据样本,或将筛选器应用于所选的字段或行。

您还可以通过更改字段的数据类型或字段名来配置字段属性。对于文本文件,您还可以配置文本设置。

注意:包括方括号的字段值会自动转换为圆括号。

连接到自定义 SQL 查询

如果数据库支持使用自定义 SQL,您将会看到“自定义 SQL”显示在“连接”窗格靠近底部的位置。双击“自定义 SQL”打开“自定义 SQL”选项卡,您可以在其中输入查询来预选择数据和使用特定于来源的操作。查询检索数据集之后,您可以选择要包括的字段、应用筛选器,或在将数据添加到流程之前更改数据类型。

有关使用自定义 SQL 的详细信息,请参见 Tableau Desktop 和 Web 制作帮助中的连接到自定义 SQL 查询

选择要包括在流程中的字段

“输入”窗格显示数据集中的字段列表。您可以使用“搜索”字段在列表中查找字段,然后使用复选框来选择要包括或排除的字段。若要在流程中包括或排除所有字段,请切换网格顶部的复选框。

配置字段属性

处理文本文件时,您会看到“文本设置”选项卡,在该选项卡中,您可以编辑连接和配置文本属性,例如文本文件的字段分隔符。您也可以在“连接”窗格中编辑文件连接。

处理文本或 Excel 文件时,您可以纠正在开始流程之前错误推断的数据类型。在开始流程之后,始终可以在后续步骤中通过“配置”窗格更改数据类型。

配置文本文件中的文本设置

若要更改用于解析文本文件的设置,请从以下选项中选择:

  • 第一行包含标题(默认值):选择此选项以使用第一行作为字段标签。

  • 自动生成字段名称:如果希望 Tableau Prep Builder 自动生成字段标题,请选择此选项。字段命名约定采用与 Tableau Desktop 相同的模式。例如,F1F2 等。

  • 字段分隔符:从列表中选择一个字符用于分隔各个列。选择“其他”以输入自定义字符。

  • 文本限定符:选择用于在文件中将值引起来的字符。

  • 字符集:选择用于描述文本文件编码的字符集。

  • 区域设置:选择要用于解析文件的区域设置。此设置指明要使用哪个小数分隔符和千位分隔符。

更改数据类型

若要更改字段的数据类型,请执行以下操作:

  1. 单击字段的数据类型。

  2. 从菜单中选择新数据类型。

更改字段名称

若要更改字段的名称,请在“字段名称”列中选择名称,然后在字段中键入新名称。将会在字段网格以及“输入”步骤左侧的流程窗格中添加注释。系统也会在“更改”窗格中跟踪您所做的更改。

选择数据样本大小

默认情况下,Tableau Prep Builder 会将流程中包括的数据限制为一个数据集的代表性样本,以维持最佳性能。通过根据数据集中的字段总数和这些字段的数据类型来计算最佳行数,即可确定数据样本。Tableau Prep Builder 随后即会尽快针对计算量检索最多的行数。

生成的数据样本可能包括您需要的所有行,也可能不包括,具体情况取决于样本的计算和返回方式。如果看不到预期数据,您可以更改数据样本设置以再次运行查询。

注意:如果已对数据抽样,则“配置”窗格中会显示一个“已抽样” 指示符,并且该指示符会为您添加的每个步骤保留。所做的任何更改将应用于您在流程中处理的样本。在运行流程时,所有更改都将应用于整个数据集。

若要更改数据样本设置,请选择一个输入步骤,然后在“数据样本”选项卡上从以下选项中进行选择:

  • 默认样本量(默认值):Tableau Prep Builder 会计算要返回的总行数。

  • 使用所有数据:检索数据集中的所有行,而不管大小如何。这可能会影响性能,或导致 Tableau Prep Builder 超时。

    注意:为了保持性能,会始终为“聚合”、“联接”、“合并”和“转置”步骤类型应用 100 万行的数据样本限制,而不管此设置如何。

  • 固定行数:选择要从数据集返回的行数。推荐的行数为 100 万行或更少。将行数设置为超过 100 万行可能会影响性能。

  • 快速选择(默认值):数据库会尽快返回请求的行数。这可能是前 N 行,或是上一次查询中数据库缓存在内存中的行数。

  • 随机抽样:数据库返回请求的行数,但会查看数据集中的每一行并从所有行中返回一个代表性样本。在首次检索数据时,此选项可能会影响性能。

将筛选器应用于输入步骤中的字段

若要筛选字段,请执行以下操作:

  1. 在工具栏中,单击“筛选值”

  2. 在计算编辑器中输入筛选条件。

流程中的其他步骤中提供了其他筛选功能。有关详细信息,请参见筛选值

感谢您提供反馈! 提交反馈时出错。请重试或向我们发送消息