发布 DuckDB 1.3.0

DuckDB团队

2025-05-21 · 12 分钟阅读

TL;DR: DuckDB 团队很高兴地宣布，我们今天发布了代号为“Ossivalis”的 DuckDB 1.3.0 版本。

要安装新版本，请访问安装指南。请注意，由于需要额外的更改和审核轮次，一些客户端库（例如 Go、R、Java）和扩展（例如 UI）的发布可能需要数小时到数天的时间。

我们很荣幸发布 DuckDB 1.3.0。此版本的 DuckDB 命名为“Ossivalis”，源自 Bucephala Ossivalis，这是一种数百万年前生活着的斑头秋沙鸭的祖先。

在这篇博客文章中，我们介绍了新版本最重要的功能。DuckDB 发展迅速，我们只能介绍此次发布中一小部分更改。有关完整的发布说明，请参阅 GitHub 上的发布页面。

重大变更和弃用

旧版 Linux glibc 弃用

鉴于所有主流 Linux 发行版都使用 glibc 2.28 或更高版本，DuckDB 的官方 Linux 二进制文件现在要求至少 glibc 2.28 或更高版本。此版本是使用 Python 的 manylinux_2_28 镜像构建的，该镜像结合了旧版 glibc 和新版编译器。此更改也意味着扩展不再针对 linux_amd64_gcc4 平台分发。

我们高度重视可移植性，因此当然仍有可能为旧版本的 glibc 从源代码构建 DuckDB。

Lambda 函数语法

以前，DuckDB 中的 lambda 函数可以使用单箭头语法指定：x -> x + 1。JSON 扩展也使用单箭头运算符来表示JSON 提取，语法为 ->'field'。单箭头运算符的两种含义在绑定器中被同等对待，因此它们共享相同的（低）优先级，这使得在包含等式检查的 JSON 表达式中需要额外的括号。

SELECT (JSON '{"field": 42}')->'field' = 42;
-- throws a Binder Error:
-- No function matches the given name and argument types 'json_extract(JSON, BOOLEAN)

SELECT ((JSON '{"field": 42}')->'field') = 42;
-- return true

这通常导致用户混淆，因此新版本弃用了旧的箭头 lambda 语法，并将其替换为 Python 风格的 lambda 语法。

SELECT list_transform([1, 2, 3], lambda x: x + 1);

为了使过渡更顺畅，弃用将在未来一年内分几个步骤进行。首先，DuckDB 1.3.0 引入了一个新设置来配置 lambda 语法。

SET lambda_syntax = 'DEFAULT';
SET lambda_syntax = 'ENABLE_SINGLE_ARROW';
SET lambda_syntax = 'DISABLE_SINGLE_ARROW';

目前，DEFAULT 启用两种语法样式，即旧的单箭头语法和 Python 风格的语法。DuckDB 1.4.0 将是最后一个在不显式启用情况下支持单箭头语法的版本。DuckDB 1.5.0 将默认禁用单箭头语法。DuckDB 1.6.0 将移除 lambda_syntax 标志并完全弃用单箭头语法，因此旧行为将不再可用。

带转义符的列表字符串序列化

从新版本开始，DuckDB 在嵌套数据结构中序列化的字符串中转义诸如 ' 等字符，以允许序列化字符串和嵌套表示之间进行往返转换。例如

SELECT ['hello ''my'' world'] AS s;

DuckDB 1.2.2 版本返回 [hello 'my' world]，而 DuckDB 1.3.0 返回 ['hello \'my\' world']。

要使用旧行为序列化字符串列表，请使用 array_to_string 函数。

SELECT printf('[%s]', array_to_string(
        ['hello ''my'' world', 'hello ''cruel'' world'], ', '
    )) AS s;

┌─────────────────────────────────────────┐
│                    s                    │
│                 varchar                 │
├─────────────────────────────────────────┤
│ [hello 'my' world, hello 'cruel' world] │
└─────────────────────────────────────────┘

SQL 解析器次要更改

术语 AT 现在需要引号才能用作标识符，因为它用于 Iceberg 中的时间旅行。
由于 lambda 语法的更改，LAMBDA 现在是保留关键字。
GRANT 不再是保留关键字。

内部更改

本次发布还有大量内部更改。

我们已经几乎完全重新实现了 DuckDB 的 Parquet 读取器和写入器。这应该会大大提高 Parquet 的性能和可靠性，并且还扩展了对 Parquet 功能的支持，包括 UNKNOWN 和 FLOAT16 等不常见的逻辑类型。

我们还在多文件读取方面进行了大量内部更改（例如，一个包含 Parquet 文件的文件夹），使用名为 MultiFileReader 的 API。我们统一了许多文件读取器（例如 Parquet、CSV、JSON、Avro 等）中多个文件的处理方式。这使得 DuckDB 能够以统一的方式处理例如多个文件之间的模式差异。

我们还添加了一种新的字符串压缩方法：DICT_FSST。此前，DuckDB 支持字符串的字典编码或FSST 压缩（“快速静态符号表”）。这些压缩方法不能在存储块内混合使用（默认 265 KB）。然而，我们观察到许多实际数据中，部分块会从字典编码中受益，而另一部分则会从 FSST 中受益。FSST 默认不会消除字符串重复。此版本将这两种方法结合起来，形成了一种新的压缩方法：DICT_FFST。它首先运行字典编码，然后使用 FSST 压缩字典。字典编码和纯 FSST 编码仍然可用。我们还在本次发布中优化了有效性掩码的存储（“哪些行是 NULL？”），一些压缩方法（如新的 DICT_FSST）可以在内部处理 NULL 值，从而无需单独的有效性掩码。总的来说，这些新功能应该会大大减少所需的存储空间，特别是对于字符串。请注意，压缩方法是 DuckDB 根据实际观察到的压缩率自动选择的，因此用户无需显式设置。

结语

以上只是一些亮点——但此版本还有更多功能和改进。自 v1.2.2 发布以来，已有超过 75 位贡献者提交了 3,000 多次提交。完整的发布说明可在 GitHub 上找到。我们要感谢社区提供了详细的问题报告和反馈。特别感谢外部贡献者，他们直接在此版本中贡献了功能！

发布 DuckDB 1.3.0

重大变更和弃用

旧版 Linux glibc 弃用

Lambda 函数语法

带转义符的列表字符串序列化

SQL 解析器次要更改

新功能

外部文件缓存

使用 CLI 直接查询数据文件

`TRY` 表达式

更新结构体

交换新数据库

UUID v7 支持

`CREATE SECRET` 中的表达式支持

解包列

空间 `JOIN` 运算符

内部更改

结语

本文中

近期文章

DuckLake 0.2

通过 GitHub 发现 DuckDB 用例