⌘+k ctrl+k
1.3 (稳定版)
搜索快捷键 cmd + k | ctrl + k
处理大型数据库

本页面包含处理大型 DuckDB 数据库文件的信息。虽然大多数 DuckDB 数据库远小于 1 TB,但在我们的 2024 用户调查中,有 1% 的受访者使用了 2 TB 或更大的 DuckDB 文件(相当于约 10 TB 的 CSV 文件)。

DuckDB 的 原生数据库格式 支持大型数据库文件,几乎没有实际限制,然而,在处理大型数据库文件时,有几点需要注意。

  1. 对象存储系统对文件大小的限制低于块存储系统。例如,AWS S3 将文件大小限制为 5 TB

  2. 对 DuckDB 数据库进行检查点操作可能很慢。例如,在 TPC-H SF1000 数据库中的表中添加几行后进行检查点操作,大约需要 5 秒。

  3. 在块存储上,文件系统对处理大型文件时的性能有很大影响。在 Linux 上,DuckDB 在处理大型文件时使用 XFS 文件系统表现最佳。

为了存储大量数据,请考虑使用 DuckLake 数据湖格式