- 安装
- 文档
- 入门
- 连接
- 数据导入
- 客户端 API
- 概览
- ADBC
- C
- C++
- CLI
- Dart
- Go
- Java (JDBC)
- Julia
- Node.js (已弃用)
- Node.js (Neo)
- ODBC
- PHP
- Python
- R
- Rust
- Swift
- Wasm
- SQL
- 介绍
- 语句
- 概览
- ANALYZE
- ALTER TABLE
- ALTER VIEW
- ATTACH 和 DETACH
- CALL
- CHECKPOINT
- COMMENT ON
- COPY
- CREATE INDEX
- CREATE MACRO
- CREATE SCHEMA
- CREATE SECRET
- CREATE SEQUENCE
- CREATE TABLE
- CREATE VIEW
- CREATE TYPE
- DELETE
- DESCRIBE
- DROP
- EXPORT 和 IMPORT DATABASE
- INSERT
- LOAD / INSTALL
- PIVOT
- 性能分析
- SELECT
- SET / RESET
- SET VARIABLE
- SUMMARIZE
- 事务管理
- UNPIVOT
- UPDATE
- USE
- VACUUM
- 查询语法
- SELECT
- FROM 和 JOIN
- WHERE
- GROUP BY
- GROUPING SETS
- HAVING
- ORDER BY
- LIMIT 和 OFFSET
- SAMPLE
- 展开嵌套
- WITH
- WINDOW
- QUALIFY
- VALUES
- FILTER
- 集合操作
- 预处理语句
- 数据类型
- 表达式
- 函数
- 概览
- 聚合函数
- 数组函数
- 位字符串函数
- Blob 函数
- 日期格式化函数
- 日期函数
- 日期部分函数
- 枚举函数
- 间隔函数
- Lambda 函数
- 列表函数
- 映射函数
- 嵌套函数
- 数值函数
- 模式匹配
- 正则表达式
- 结构体函数
- 文本函数
- 时间函数
- 时间戳函数
- 带时区时间戳函数
- 联合函数
- 实用函数
- 窗口函数
- 约束
- 索引
- 元查询
- DuckDB 的 SQL 方言
- 示例
- 配置
- 扩展
- 核心扩展
- 概览
- 自动补全
- Avro
- AWS
- Azure
- Delta
- DuckLake
- 编码
- Excel
- 全文搜索
- httpfs (HTTP 和 S3)
- Iceberg
- ICU
- inet
- jemalloc
- MySQL
- PostgreSQL
- 空间
- SQLite
- TPC-DS
- TPC-H
- UI
- VSS
- 指南
- 概览
- 数据查看器
- 数据库集成
- 文件格式
- 概览
- CSV 导入
- CSV 导出
- 直接读取文件
- Excel 导入
- Excel 导出
- JSON 导入
- JSON 导出
- Parquet 导入
- Parquet 导出
- 查询 Parquet 文件
- 使用 file: 协议访问文件
- 网络和云存储
- 概览
- HTTP Parquet 导入
- S3 Parquet 导入
- S3 Parquet 导出
- S3 Iceberg 导入
- S3 Express One
- GCS 导入
- Cloudflare R2 导入
- 通过 HTTPS / S3 使用 DuckDB
- Fastly 对象存储导入
- 元查询
- ODBC
- 性能
- Python
- 安装
- 执行 SQL
- Jupyter Notebooks
- marimo Notebooks
- Pandas 上的 SQL
- 从 Pandas 导入
- 导出到 Pandas
- 从 Numpy 导入
- 导出到 Numpy
- Arrow 上的 SQL
- 从 Arrow 导入
- 导出到 Arrow
- Pandas 上的关系型 API
- 多个 Python 线程
- 与 Ibis 集成
- 与 Polars 集成
- 使用 fsspec 文件系统
- SQL 编辑器
- SQL 功能
- 代码片段
- 故障排除
- 术语表
- 离线浏览
- 操作手册
- 开发
- 内部结构
- 为什么选择 DuckDB
- 行为准则
- 发布日历
- 路线图
- 站点地图
- 在线演示
`excel` 扩展通过封装 i18npool 库,提供了根据 Excel 格式规则设置数字格式的功能,但自 DuckDB 1.2 起,它也提供了读取和写入 Excel( `.xlsx`)文件的功能。然而,不支持 `.xls` 文件。
以前,Excel 文件的读写是通过 `spatial` 扩展处理的,该扩展恰好通过其一个依赖项包含了对 XLSX 文件的支持,但此功能未来可能会从 spatial 扩展中移除。此外,`excel` 扩展效率更高,并提供了对导入/导出过程的更多控制。有关说明,请参阅 Excel 导入和 Excel 导出页面。
安装和加载
`excel` 扩展将在首次使用时从官方扩展仓库中透明地自动加载。如果您想手动安装和加载它,请运行
INSTALL excel;
LOAD excel;
Excel 标量函数
函数 | 描述 |
---|---|
excel_text(number, format_string) |
根据 `format_string` 中给定的规则格式化指定的 `number`。 |
text(number, format_string) |
`excel_text` 的别名 |
示例
SELECT excel_text(1_234_567.897, 'h:mm AM/PM') AS timestamp;
时间戳 |
---|
晚上 9:31 |
SELECT excel_text(1_234_567.897, 'h AM/PM') AS timestamp;
时间戳 |
---|
晚上 9 点 |
读取 XLSX 文件
读取 `.xlsx` 文件就像直接从它 `SELECT` 一样简单,例如:
SELECT *
FROM 'test.xlsx';
a | b |
---|---|
1.0 | 2.0 |
3.0 | 4.0 |
但是,如果您想设置额外选项来控制导入过程,可以使用 `read_xlsx` 函数代替。支持以下命名参数:
选项 | 类型 | 默认值 | 描述 |
---|---|---|---|
header |
布尔值 |
自动推断 | 是否将第一行视为包含结果列的名称。 |
sheet |
VARCHAR |
自动推断 | 要读取的 xlsx 文件中的工作表名称。默认是第一张工作表。 |
all_varchar |
布尔值 |
false |
是否将所有单元格读取为 `VARCHAR`。 |
ignore_errors |
布尔值 |
false |
是否忽略错误,并静默地将无法转换为相应推断列类型的单元格替换为 `NULL` 值。 |
range |
VARCHAR |
自动推断 | 要读取的单元格范围,使用电子表格表示法。例如,`A1:B2` 读取从 A1 到 B2 的单元格。如果未指定,结果范围将被推断为连续非空单元格的第一行与跨越相同列的第一个空行之间的矩形单元格区域。 |
stop_at_empty |
布尔值 |
自动推断 | 遇到空行时是否停止读取文件。如果提供了显式的 `range` 选项,则默认值为 `false`,否则为 `true`。 |
empty_as_varchar |
布尔值 |
false |
在尝试自动推断列类型时,是否将空单元格视为 `VARCHAR` 而不是 `DOUBLE`。 |
SELECT *
FROM read_xlsx('test.xlsx', header = true);
a | b |
---|---|
1.0 | 2.0 |
3.0 | 4.0 |
或者,可以使用带有 `XLSX` 格式选项的 `COPY` 语句将 Excel 文件导入现有表,在这种情况下,目标表中列的类型将用于强制转换 Excel 文件中单元格的类型。
CREATE TABLE test (a DOUBLE, b DOUBLE);
COPY test FROM 'test.xlsx' WITH (FORMAT xlsx, HEADER);
SELECT * FROM test;
类型和范围推断
因为 Excel 本身只在单元格中存储数字或字符串,并且不强制要求一列中的所有单元格都具有相同的类型,所以 `excel` 扩展在导入 Excel 工作表时必须进行一些猜测来“推断”和决定列的类型。虽然几乎所有列都被推断为 `DOUBLE` 或 `VARCHAR`,但也有一些注意事项:
- `TIMESTAMP`、`TIME`、`DATE` 和 `BOOLEAN` 类型在可能的情况下会根据应用于单元格的格式进行推断。
- 包含 `TRUE` 和 `FALSE` 的文本单元格被推断为 `BOOLEAN`。
- 默认情况下,空单元格被视为 `DOUBLE`,除非 `empty_as_varchar` 选项设置为 `true`,在这种情况下,它们被类型化为 `VARCHAR`。
如果 `all_varchar` 选项设置为 `true`,则上述所有规则都不适用,所有单元格都将读取为 `VARCHAR`。
当未显式指定类型时(例如,使用 `read_xlsx` 函数而不是 `COPY TO ... FROM 'file.xlsx'
时),结果列的类型将根据工作表中的第一个“数据”行进行推断,即:
- 如果未给出显式范围
- 如果找到标题或通过 `header` 选项强制使用标题,则为标题后的第一行
- 如果未找到或未强制使用标题,则为工作表中的第一个非空行
- 如果给出了显式范围
- 如果第一行中找到标题或通过 `header` 选项强制使用标题,则为该范围的第二行
- 如果未找到或未强制使用标题,则为该范围的第一行
如果第一个“数据行”不能代表工作表的其余部分(例如,它包含空单元格),这有时会导致问题,在这种情况下,可以使用 `ignore_errors` 或 `empty_as_varchar` 选项来解决此问题。
然而,当使用 `COPY TO ... FROM '⟨file⟩.xlsx'` 语法时,不进行类型推断,结果列的类型由要复制到的表中的列类型决定。所有单元格将通过从 `DOUBLE` 或 `VARCHAR` 转换为目标列类型来简单地进行转换。
写入 XLSX 文件
使用 `COPY` 语句并指定 `XLSX` 作为格式来写入 `.xlsx` 文件。支持以下附加参数:
选项 | 类型 | 默认值 | 描述 |
---|---|---|---|
header |
布尔值 |
false |
是否将列名作为工作表的第一行写入 |
sheet |
VARCHAR |
Sheet1 |
要写入的 xlsx 文件中的工作表名称。 |
sheet_row_limit |
整数 |
1048576 |
工作表中的最大行数。如果超出此限制,将抛出错误。 |
警告:许多工具仅支持工作表中最多 1,048,576 行,因此增加 `sheet_row_limit` 可能会导致生成的文件无法被其他软件读取。
这些参数作为选项在 `FORMAT` 之后传递给 `COPY` 语句,例如:
CREATE TABLE test AS
SELECT *
FROM (VALUES (1, 2), (3, 4)) AS t(a, b);
COPY test TO 'test.xlsx' WITH (FORMAT xlsx, HEADER true);
类型转换
由于 XLSX 文件实际只支持存储数字或字符串(等同于 `VARCHAR` 和 `DOUBLE`),因此在写入 XLSX 文件时会应用以下类型转换:
- 数字类型在写入 XLSX 文件时会被强制转换为 `DOUBLE`。
- 时间类型(`TIMESTAMP`、`DATE`、`TIME` 等)被转换为 Excel“序列”号,即日期为自 1900-01-01 以来的天数,时间为一天的分数。然后使用“数字格式”对其进行样式化,以便在 Excel 中打开时它们显示为日期或时间。
- `TIMESTAMP_TZ` 和 `TIME_TZ` 分别被强制转换为 UTC `TIMESTAMP` 和 `TIME`,时区信息会丢失。
- `BOOLEAN` 值被转换为 `1` 和 `0`,并应用“数字格式”使其在 Excel 中显示为 `TRUE` 和 `FALSE`。
- 所有其他类型都被强制转换为 `VARCHAR`,然后作为文本单元格写入。