Excel 导入 – DuckDB - DuckDB 数据库

搜索快捷键 cmd + k | ctrl + k

文档 / 指南 / 文件格式

Excel 导入

DuckDB 支持读取 Excel .xlsx 文件，但是不支持 .xls 文件。

导入 Excel 工作表

在查询的 FROM 子句中使用 read_xlsx 函数

SELECT * FROM read_xlsx('test_excel.xlsx');

或者，您可以省略 read_xlsx 函数，让 DuckDB 根据文件扩展名进行推断

SELECT * FROM 'test_excel.xlsx';

但是，如果您想传递选项来控制导入行为，则应使用 read_xlsx 函数。

其中一个选项是 sheet 参数，它允许指定 Excel 工作表的名称

SELECT * FROM read_xlsx('test_excel.xlsx', sheet = 'Sheet1');

默认情况下，如果没有指定工作表，则加载第一个工作表。

导入指定范围

要选择指定单元格范围，请使用 range 参数，其字符串格式为 A1:B2，其中 A1 是左上角单元格，B2 是右下角单元格

SELECT * FROM read_xlsx('test_excel.xlsx', range = 'A1:B2');

例如，这也可以用于跳过前 5 行

SELECT * FROM read_xlsx('test_excel.xlsx', range = 'A5:Z');

或者跳过前 5 列

SELECT * FROM read_xlsx('test_excel.xlsx', range = 'E:Z');

如果没有提供 range 参数，则范围将自动推断为从连续非空单元格的第一行到跨越相同列的第一个空行之间的矩形单元格区域。

默认情况下，如果没有提供范围，DuckDB 在遇到空行时将停止读取 Excel 文件。但是当提供了范围时，默认是读取到范围的末尾。此行为可以通过 stop_at_empty 参数控制

-- Read the first 100 rows, or until the first empty row, whichever comes first
SELECT * FROM read_xlsx('test_excel.xlsx', range = '1:100', stop_at_empty = true);

-- Always read the whole sheet, even if it contains empty rows
SELECT * FROM read_xlsx('test_excel.xlsx', stop_at_empty = false);

创建新表

要使用查询结果创建新表，请从 SELECT 语句中使用 CREATE TABLE ... AS。

CREATE TABLE new_tbl AS
    SELECT * FROM read_xlsx('test_excel.xlsx', sheet = 'Sheet1');

加载到现有表

要将数据从查询加载到现有表中，请使用 SELECT 语句中的 INSERT INTO

INSERT INTO tbl
    SELECT * FROM read_xlsx('test_excel.xlsx', sheet = 'Sheet1');

或者，您可以使用带有 XLSX 格式选项的 COPY 语句将 Excel 文件导入现有表

COPY tbl FROM 'test_excel.xlsx' (FORMAT xlsx, SHEET 'Sheet1');

当使用 COPY 语句将 Excel 文件加载到现有表时，目标表中列的类型将用于强制转换 Excel 工作表中单元格的类型。

导入带/不带标题的工作表

要将第一行视为包含结果列的名称，请使用 header 参数

SELECT * FROM read_xlsx('test_excel.xlsx', header = true);

默认情况下，如果第一行（在推断或提供的范围内）中的所有单元格都是非空字符串，则第一行将被视为标题。要禁用此行为，请将 header 设置为 false。

类型检测

当不导入到现有表时，DuckDB 将尝试根据 Excel 工作表中列的内容和/或“数字格式”推断其类型。

当可能时，将根据应用于单元格的“数字格式”推断 TIMESTAMP、TIME、DATE 和 BOOLEAN 类型。
包含 TRUE 和 FALSE 的文本单元格被推断为 BOOLEAN 类型。
默认情况下，空单元格被视为 DOUBLE 类型。
否则，单元格将根据其内容推断为 VARCHAR 或 DOUBLE 类型。

此行为可以通过以下方式进行调整。

要将所有空单元格视为 VARCHAR 而非 DOUBLE，请将 empty_as_varchar 设置为 true。

SELECT * FROM read_xlsx('test_excel.xlsx', empty_as_varchar = true);

要完全禁用类型推断并将所有单元格视为 VARCHAR，请将 all_varchar 设置为 true。

SELECT * FROM read_xlsx('test_excel.xlsx', all_varchar = true);

此外，如果 ignore_errors 参数设置为 true，DuckDB 将静默地将无法转换为相应推断列类型的单元格替换为 NULL 值。

SELECT * FROM read_xlsx('test_excel.xlsx', ignore_errors = true);

另请参阅

DuckDB 还可以导出 Excel 文件。有关 Excel 支持的更多详细信息，请参阅Excel 扩展页面。