非确定性行为 – DuckDB

搜索快捷键 cmd + k | ctrl + k

概览
DuckDB 的占用空间

日志

保护 DuckDB 安全

非确定性行为
限制

开发

内部结构

文档 / 操作手册

非确定性行为

DuckDB 中的某些操作符表现出非确定性行为。最值得注意的是，SQL 使用集合语义，这允许结果以不同的顺序返回。DuckDB 利用这一点来提高性能，尤其是在执行多线程查询时。其他因素，例如使用不同的编译器、操作系统和硬件架构，也可能导致排序发生变化。本页面记录了非确定性是预期行为的情况。如果您希望使查询具有确定性，请参阅“解决非确定性”部分。

集合语义

非确定性最常见的来源之一是 SQL 使用的集合语义。例如，如果您重复运行以下查询，您可能会得到两种不同的结果：

SELECT *
FROM (
    SELECT 'A' AS x
    UNION
    SELECT 'B' AS x
);

结果 A, B 和 B, A 都是正确的。

不同平台上的不同结果：`array_distinct`

array_distinct 函数在不同平台上可能返回不同顺序的结果。

SELECT array_distinct(['A', 'A', 'B', NULL, NULL]) AS arr;

对于此查询，[A, B] 和 [B, A] 都是有效结果。

多线程下的浮点聚合操作

在多线程配置中运行时，浮点不准确性可能会产生不同的结果：例如，stddev 和 corr 可能会产生非确定性结果。

CREATE TABLE tbl AS
    SELECT 'ABCDEFG'[floor(random() * 7 + 1)::INT] AS s, 3.7 AS x, i AS y
    FROM range(1, 1_000_000) r(i);

SELECT s, stddev(x) AS standard_deviation, corr(x, y) AS correlation
FROM tbl
GROUP BY s
ORDER BY s;

此查询的预期标准差和相关性，对于 s 的所有值都应为 0。然而，当在多个线程上执行时，由于浮点不准确性，查询可能会返回非常小的数字（0 <= z < 10e-16）。

解决非确定性

对于大多数用例，非确定性不会引起任何问题。但是，在某些情况下，需要确定性结果。在这些情况下，请尝试以下解决方法：

限制线程数量以防止多线程引入的非确定性。
```
SET threads = 1;
```

强制排序。例如，您可以使用ORDER BY ALL 子句。

SELECT *
FROM (
    SELECT 'A' AS x
    UNION
    SELECT 'B' AS x
)
ORDER BY ALL;

您还可以使用list_sort对列表进行排序。

SELECT list_sort(array_distinct(['A', 'A', 'B', NULL, NULL])) AS i
ORDER BY i;

也可以引入确定性洗牌。

集合语义

不同平台上的不同结果：`array_distinct`

多线程下的浮点聚合操作

解决非确定性

关于此页面

本文中

集合语义

不同平台上的不同结果：array_distinct

多线程下的浮点聚合操作

解决非确定性

关于此页面

本文中

不同平台上的不同结果：`array_distinct`