- 安装
- 文档
- 入门
- 连接
- 数据导入
- 客户端 API
- 概览
- ADBC
- C
- C++
- CLI
- Dart
- Go
- Java (JDBC)
- Julia
- Node.js (已弃用)
- Node.js (Neo)
- ODBC
- PHP
- Python
- R
- Rust
- Swift
- Wasm
- SQL
- 介绍
- 语句
- 概览
- 分析
- 修改表
- 修改视图
- ATTACH 和 DETACH
- 调用
- 检查点
- 注释
- 复制
- 创建索引
- 创建宏
- 创建模式
- 创建密钥
- 创建序列
- 创建表
- 创建视图
- 创建类型
- 删除
- 描述
- 删除
- EXPORT 和 IMPORT DATABASE
- 插入
- 加载 / 安装
- 透视
- 性能分析
- 选择
- 设置 / 重置
- 设置变量
- 汇总
- 事务管理
- 逆透视
- 更新
- 使用
- 清理
- 查询语法
- 数据类型
- 表达式
- 函数
- 概览
- 聚合函数
- 数组函数
- 位字符串函数
- Blob 函数
- 日期格式化函数
- 日期函数
- 日期部分函数
- 枚举函数
- 间隔函数
- Lambda 函数
- 列表函数
- 映射函数
- 嵌套函数
- 数值函数
- 模式匹配
- 正则表达式
- 结构体函数
- 文本函数
- 时间函数
- 时间戳函数
- 带时区时间戳函数
- 联合函数
- 实用函数
- 窗口函数
- 约束
- 索引
- 元查询
- DuckDB 的 SQL 方言
- 示例
- 配置
- 扩展
- 核心扩展
- 概览
- 自动补全
- Avro
- AWS
- Azure
- Delta
- DuckLake
- 编码
- Excel
- 全文搜索
- httpfs (HTTP 和 S3)
- Iceberg
- ICU
- inet
- jemalloc
- MySQL
- PostgreSQL
- 空间
- SQLite
- TPC-DS
- TPC-H
- UI
- VSS
- 指南
- 概览
- 数据查看器
- 数据库集成
- 文件格式
- 概览
- CSV 导入
- CSV 导出
- 直接读取文件
- Excel 导入
- Excel 导出
- JSON 导入
- JSON 导出
- Parquet 导入
- Parquet 导出
- 查询 Parquet 文件
- 使用 file: 协议访问文件
- 网络和云存储
- 概览
- HTTP Parquet 导入
- S3 Parquet 导入
- S3 Parquet 导出
- S3 Iceberg 导入
- S3 Express One
- GCS 导入
- Cloudflare R2 导入
- 通过 HTTPS / S3 使用 DuckDB
- Fastly 对象存储导入
- 元查询
- ODBC
- 性能
- Python
- 安装
- 执行 SQL
- Jupyter Notebook
- marimo Notebook
- Pandas 上的 SQL
- 从 Pandas 导入
- 导出到 Pandas
- 从 Numpy 导入
- 导出到 Numpy
- Arrow 上的 SQL
- 从 Arrow 导入
- 导出到 Arrow
- Pandas 上的关系型 API
- 多个 Python 线程
- 与 Ibis 集成
- 与 Polars 集成
- 使用 fsspec 文件系统
- SQL 编辑器
- SQL 功能
- 代码片段
- 故障排除
- 术语表
- 离线浏览
- 操作手册
- 开发
- 内部结构
- 为什么选择 DuckDB
- 行为准则
- 发布日历
- 路线图
- 站点地图
- 在线演示
DuckDB 支持读取 Excel .xlsx
文件,但是不支持 .xls
文件。
导入 Excel 工作表
在查询的 FROM
子句中使用 read_xlsx
函数
SELECT * FROM read_xlsx('test_excel.xlsx');
或者,您可以省略 read_xlsx
函数,让 DuckDB 根据文件扩展名进行推断
SELECT * FROM 'test_excel.xlsx';
但是,如果您想传递选项来控制导入行为,则应使用 read_xlsx
函数。
其中一个选项是 sheet
参数,它允许指定 Excel 工作表的名称
SELECT * FROM read_xlsx('test_excel.xlsx', sheet = 'Sheet1');
默认情况下,如果没有指定工作表,则加载第一个工作表。
导入指定范围
要选择指定单元格范围,请使用 range
参数,其字符串格式为 A1:B2
,其中 A1
是左上角单元格,B2
是右下角单元格
SELECT * FROM read_xlsx('test_excel.xlsx', range = 'A1:B2');
例如,这也可以用于跳过前 5 行
SELECT * FROM read_xlsx('test_excel.xlsx', range = 'A5:Z');
或者跳过前 5 列
SELECT * FROM read_xlsx('test_excel.xlsx', range = 'E:Z');
如果没有提供 range
参数,则范围将自动推断为从连续非空单元格的第一行到跨越相同列的第一个空行之间的矩形单元格区域。
默认情况下,如果没有提供范围,DuckDB 在遇到空行时将停止读取 Excel 文件。但是当提供了范围时,默认是读取到范围的末尾。此行为可以通过 stop_at_empty
参数控制
-- Read the first 100 rows, or until the first empty row, whichever comes first
SELECT * FROM read_xlsx('test_excel.xlsx', range = '1:100', stop_at_empty = true);
-- Always read the whole sheet, even if it contains empty rows
SELECT * FROM read_xlsx('test_excel.xlsx', stop_at_empty = false);
创建新表
要使用查询结果创建新表,请从 SELECT
语句中使用 CREATE TABLE ... AS
。
CREATE TABLE new_tbl AS
SELECT * FROM read_xlsx('test_excel.xlsx', sheet = 'Sheet1');
加载到现有表
要将数据从查询加载到现有表中,请使用 SELECT
语句中的 INSERT INTO
INSERT INTO tbl
SELECT * FROM read_xlsx('test_excel.xlsx', sheet = 'Sheet1');
或者,您可以使用带有 XLSX
格式选项的 COPY
语句将 Excel 文件导入现有表
COPY tbl FROM 'test_excel.xlsx' (FORMAT xlsx, SHEET 'Sheet1');
当使用 COPY
语句将 Excel 文件加载到现有表时,目标表中列的类型将用于强制转换 Excel 工作表中单元格的类型。
导入带/不带标题的工作表
要将第一行视为包含结果列的名称,请使用 header
参数
SELECT * FROM read_xlsx('test_excel.xlsx', header = true);
默认情况下,如果第一行(在推断或提供的范围内)中的所有单元格都是非空字符串,则第一行将被视为标题。要禁用此行为,请将 header
设置为 false
。
类型检测
当不导入到现有表时,DuckDB 将尝试根据 Excel 工作表中列的内容和/或“数字格式”推断其类型。
- 当可能时,将根据应用于单元格的“数字格式”推断
TIMESTAMP
、TIME
、DATE
和BOOLEAN
类型。 - 包含
TRUE
和FALSE
的文本单元格被推断为BOOLEAN
类型。 - 默认情况下,空单元格被视为
DOUBLE
类型。 - 否则,单元格将根据其内容推断为
VARCHAR
或DOUBLE
类型。
此行为可以通过以下方式进行调整。
要将所有空单元格视为 VARCHAR
而非 DOUBLE
,请将 empty_as_varchar
设置为 true
。
SELECT * FROM read_xlsx('test_excel.xlsx', empty_as_varchar = true);
要完全禁用类型推断并将所有单元格视为 VARCHAR
,请将 all_varchar
设置为 true
。
SELECT * FROM read_xlsx('test_excel.xlsx', all_varchar = true);
此外,如果 ignore_errors
参数设置为 true
,DuckDB 将静默地将无法转换为相应推断列类型的单元格替换为 NULL
值。
SELECT * FROM read_xlsx('test_excel.xlsx', ignore_errors = true);
另请参阅
DuckDB 还可以导出 Excel 文件。有关 Excel 支持的更多详细信息,请参阅Excel 扩展页面。