- 安装
- 文档
- 入门
- 连接
- 数据导入
- 客户端 API
- 概览
- ADBC
- C
- C++
- CLI
- Dart
- Go
- Java (JDBC)
- Julia
- Node.js (已弃用)
- Node.js (Neo)
- ODBC
- PHP
- Python
- R
- Rust
- Swift
- Wasm
- SQL
- 介绍
- 语句
- 概览
- ANALYZE
- ALTER TABLE
- ALTER VIEW
- ATTACH 和 DETACH
- CALL
- CHECKPOINT
- COMMENT ON
- COPY
- CREATE INDEX
- CREATE MACRO
- CREATE SCHEMA
- CREATE SECRET
- CREATE SEQUENCE
- CREATE TABLE
- CREATE VIEW
- CREATE TYPE
- DELETE
- DESCRIBE
- DROP
- EXPORT 和 IMPORT DATABASE
- INSERT
- LOAD / INSTALL
- PIVOT
- 性能分析
- SELECT
- SET / RESET
- SET VARIABLE
- SUMMARIZE
- 事务管理
- UNPIVOT
- UPDATE
- USE
- VACUUM
- 查询语法
- SELECT
- FROM 和 JOIN
- WHERE
- GROUP BY
- GROUPING SETS
- HAVING
- ORDER BY
- LIMIT 和 OFFSET
- SAMPLE
- 展开嵌套
- WITH
- WINDOW
- QUALIFY
- VALUES
- FILTER
- 集合操作
- 预处理语句
- 数据类型
- 表达式
- 函数
- 概览
- 聚合函数
- 数组函数
- 位字符串函数
- Blob 函数
- 日期格式化函数
- 日期函数
- 日期部分函数
- 枚举函数
- 间隔函数
- Lambda 函数
- 列表函数
- 映射函数
- 嵌套函数
- 数值函数
- 模式匹配
- 正则表达式
- 结构体函数
- 文本函数
- 时间函数
- 时间戳函数
- 带时区时间戳函数
- 联合函数
- 实用函数
- 窗口函数
- 约束
- 索引
- 元查询
- DuckDB 的 SQL 方言
- 示例
- 配置
- 扩展
- 核心扩展
- 概览
- 自动补全
- Avro
- AWS
- Azure
- Delta
- DuckLake
- 编码
- Excel
- 全文搜索
- httpfs (HTTP 和 S3)
- Iceberg
- ICU
- inet
- jemalloc
- MySQL
- PostgreSQL
- 空间
- SQLite
- TPC-DS
- TPC-H
- UI
- VSS
- 指南
- 概览
- 数据查看器
- 数据库集成
- 文件格式
- 概览
- CSV 导入
- CSV 导出
- 直接读取文件
- Excel 导入
- Excel 导出
- JSON 导入
- JSON 导出
- Parquet 导入
- Parquet 导出
- 查询 Parquet 文件
- 使用 file: 协议访问文件
- 网络和云存储
- 概览
- HTTP Parquet 导入
- S3 Parquet 导入
- S3 Parquet 导出
- S3 Iceberg 导入
- S3 Express One
- GCS 导入
- Cloudflare R2 导入
- 通过 HTTPS / S3 使用 DuckDB
- Fastly 对象存储导入
- 元查询
- ODBC
- 性能
- Python
- 安装
- 执行 SQL
- Jupyter Notebooks
- marimo Notebooks
- Pandas 上的 SQL
- 从 Pandas 导入
- 导出到 Pandas
- 从 Numpy 导入
- 导出到 Numpy
- Arrow 上的 SQL
- 从 Arrow 导入
- 导出到 Arrow
- Pandas 上的关系型 API
- 多个 Python 线程
- 与 Ibis 集成
- 与 Polars 集成
- 使用 fsspec 文件系统
- SQL 编辑器
- SQL 功能
- 代码片段
- 故障排除
- 术语表
- 离线浏览
- 操作手册
- 开发
- 内部结构
- 为什么选择 DuckDB
- 行为准则
- 发布日历
- 路线图
- 站点地图
- 在线演示
索引类型
DuckDB 提供了两种内置索引类型。索引也可以通过扩展定义。
最小-最大索引 (Zonemap)
一个最小-最大索引(也称为分区图或块范围索引)会为所有通用数据类型的列自动创建。
自适应基数树 (ART)
自适应基数树 (ART) 主要用于确保主键约束并加速点查询和极高选择性(即 < 0.1%)的查询。ART 索引可以使用 CREATE INDEX
语句手动创建,并且会为具有 UNIQUE
或 PRIMARY KEY
约束的列自动创建。
警告:ART 索引在创建过程中目前必须能够完全载入内存。如果索引在创建过程中无法完全载入内存,请避免创建 ART 索引。
通过扩展定义的索引
DuckDB 通过 spatial
扩展支持用于空间索引的R 树。
持久性
最小-最大索引和 ART 索引都持久化在磁盘上。
CREATE INDEX
和 DROP INDEX
语句
要创建ART 索引,请使用CREATE INDEX
语句。要删除ART 索引,请使用DROP INDEX
语句。
ART 索引的限制
ART 索引会在第二个位置创建数据的次级副本——这会使处理复杂化,尤其是在与事务结合使用时。在修改也存储在次级索引中的数据时,会存在某些限制。
正如预期,索引对性能有显著影响,会减慢加载和更新速度,但会加速某些查询。请查阅性能指南以获取详细信息。
UPDATE
语句中的约束检查
对已索引列和无法原地更新的列执行的 UPDATE
语句会被转换为先 DELETE
原始行,然后 INSERT
更新后的行。这种重写会对性能产生影响,特别是对于宽表,因为重写的是整行而不是仅受影响的列。
此外,它还会导致 UPDATE
语句的以下约束检查限制。其他数据库管理系统(如 PostgreSQL)也存在相同的限制。
在下面的示例中,请注意行数如何超过 DuckDB 的标准向量大小(2048)。UPDATE
语句被重写为 DELETE
,然后是 INSERT
。这种重写是针对通过 DuckDB 处理管道的每块数据(2048 行)发生的。当将 i = 2047
更新为 i = 2048
时,我们尚不知道 2048 将变为 2049,依此类推。那是因为我们还没有看到那块数据。因此,我们会抛出约束冲突。
CREATE TABLE my_table (i INTEGER PRIMARY KEY);
INSERT INTO my_table SELECT range FROM range(3_000);
UPDATE my_table SET i = i + 1;
Constraint Error:
Duplicate key "i: 2048" violates primary key constraint.
一种变通方法是将 UPDATE
分解为 DELETE ... RETURNING ...
,然后是 INSERT
,并添加一些额外逻辑来(临时)存储 DELETE
的结果。所有语句都应通过 BEGIN
并在最终 COMMIT
的事务中运行。
以下是它在命令行客户端中可能的样子示例。
CREATE TABLE my_table (i INTEGER PRIMARY KEY);
INSERT INTO my_table SELECT range FROM range(3_000);
BEGIN;
CREATE TEMP TABLE tmp AS SELECT i FROM my_table;
DELETE FROM my_table;
INSERT INTO my_table SELECT i FROM tmp;
DROP TABLE tmp;
COMMIT;
在其他客户端中,你可能能够获取 DELETE ... RETURNING ...
的结果。然后,你可以在后续的 INSERT ...
语句中使用该结果,或者(如果客户端可用)利用 DuckDB 的 Appender
。
外键中过度积极的约束检查
如果你满足以下条件,则会出现此限制
- 表具有
FOREIGN KEY
约束。 - 对应的
PRIMARY KEY
表上有UPDATE
操作,DuckDB 将其重写为DELETE
后跟INSERT
。 - 待删除的行存在于外键表中。
如果满足这些条件,你将遇到意外的约束冲突
CREATE TABLE pk_table (id INTEGER PRIMARY KEY, payload VARCHAR[]);
INSERT INTO pk_table VALUES (1, ['hello']);
CREATE TABLE fk_table (id INTEGER REFERENCES pk_table(id));
INSERT INTO fk_table VALUES (1);
UPDATE pk_table SET payload = ['world'] WHERE id = 1;
Constraint Error:
Violates foreign key constraint because key "id: 1" is still referenced by a foreign key in a different table. If this is an unexpected constraint violation, please refer to our foreign key limitations in the documentation
其原因是 DuckDB 尚不支持“前瞻”。在 INSERT
期间,它不知道自己将作为 UPDATE
重写的一部分重新插入外键值。