更新日志

2025.5.0¶

亮点¶

修复了当数组和索引器形状未知时，Array setitem 的问题。详情请参阅 dask#11753，由 Tom Augspurger 贡献。
修复了 2025.4.0 版本引入的几个 delayed 图处理问题。详情请参阅 dask#11917、dask#11907 和 distributed#9071，由 Florian Jetter 贡献。

其他变更

加速切片图生成 (dask#11945) Florian Jetter
优化 dask order 以应对 get_target 的最差情况 (dask#11935) Florian Jetter
如果任务缺少依赖项，则在本地执行器上引发错误 (dask#11944) Florian Jetter
修复了单分区的 to_dask_array (dask#11931) James Bourbeau
确保 parquet 计划在优化期间完全缓存 (dask#11933) Florian Jetter
改进了表达式系统的文档 (dask#11915) Florian Jetter
简化（并加速）剔除 (dask#11899) Florian Jetter
更新 pre-commit (dask#11926) Florian Jetter
不在 CI 中运行后置 setup-miniconda 步骤 (dask#11925) James Bourbeau
尝试为 readthedocs 固定 pip 版本 (dask#11923) Florian Jetter
修复 Windows CI (dask#11919) Florian Jetter
对 py310 使用稳定的 crick (distributed#9072) Florian Jetter
移除 update_graph 中的内部依赖映射 (distributed#9036) Florian Jetter
部分遗漏的依赖项 (distributed#9068) Florian Jetter
将 CI 环境中的 filesystem-spec 替换为 fsspec (distributed#9069) James Bourbeau
确保在 worker 故障时 actor 正确设置错误状态 (distributed#9067) Florian Jetter
重构启动集群中的超时设置 (distributed#9062) Florian Jetter
修复 client repr 中显示的 workers / threads / memory 信息 (distributed#9066) James Bourbeau
为 readthedocs 固定 pip 版本 (distributed#9063) Florian Jetter
跳过 TLS 功能测试 (distributed#9061) Florian Jetter
确保 client submit 不会进行不必要的序列化 (distributed#9057) Florian Jetter

2025.4.1¶

亮点¶

此版本包含几个针对 2025.4.0 版本引入的问题的图优化修复。

更多详情请参阅 dask#11906, dask#11898, dask#11903, 和 dask#11904，作者：Florian Jetter。

2025.4.0¶

亮点¶

计算多个由 Dask-Expr 支持的集合（如 DataFrame）时，现在会一起进行优化，而不是单独优化。
图的具现化和低级别优化现在在分布式集群的调度器上执行（如果可用）。
为 DataFrame.shuffle 新增关键字参数 force，指示优化器在优化过程中不要移除 shuffle。
作为参数传递给 Dask 方法的集合现在得到了适当的优化。如果将多个集合作为参数传递，它们将一起进行优化。以这种方式传递的集合禁止被重用，即如果该集合在另一个函数调用中再次使用，它将再次计算。这种模式用于避免通常导致内存占用的流水线中断。避免这些应该会减少集群的内存压力，但可能会导致运行时性能下降。
(上述要点的特例) 传递给 Delayed 对象的集合现在会自动优化。

破坏性变更¶

移除了对自定义低级别优化器的支持。
顶层 dask.optimize 现在总是会触发图的具现化。以前并非总是如此。这也导致任何低级别 HLG 注释被丢弃。
DataFrame 和 Array 的计算结果现在总是在集群上进行拼接。以前，其行为取决于调用 compute 所使用的 API（dask.compute、DaskCollection.compute 或 Client.compute）。
dask.base.collections_to_dsk 已重命名为 collections_to_expr，并且不再返回 HighLevelGraph 或 dict 对象，而是保证返回一个 dask._expr.Expr 对象。此外，它不再立即执行低级别优化，而是推迟到 Expr 实例具现化时。也就是说，返回的对象不再是映射类型，因此无法再将其转换为 dict 或对其进行迭代。

其他变更

确保 Future 值位于 da.from_delayed 任务图中 (dask#11896) Tom Augspurger
修复传递给 delayed 的注释 (dask#11893) Florian Jetter
迁移 delayed unpack_collections (dask#11881) Florian Jetter
从文档中移除 Pub / Sub 引用 (dask#11891) James Bourbeau
确保只有没有自定义 init 的类是单例 (dask#11886) Florian Jetter
移除 delayed 表达式的自定义初始化器 (dask#11888) Florian Jetter
修复同时持久化多个 DF 的问题 (dask#11887) Florian Jetter
避免总是将传递给 DataFrame.isin 的列表输入解析为对象类型的 numpy 数组 (dask#11869) Matthew Roeschke
解除跳过 pandas-dev cov / corr 测试 (dask#11873) Tom Augspurger
HLG blockwise 修复 (dask#11871) Florian Jetter
确保 HLG 对象的注释正确生成 (dask#11866) Florian Jetter
从基础 Expr 类中提取单例逻辑 (dask#11868) Florian Jetter
确保 HLG 在优化中正确使用依赖项 (dask#11859) Florian Jetter
确保字典进行确定性分词 (dask#11867) Florian Jetter
确保默认 dask 调度器只计算所需内容 (dask#11861) Florian Jetter
加快 pd.RangeIndex 的分词速度 (dask#11863) Florian Jetter
更新社区文档中指向 Quansight 的链接 (dask#11860) Pavithra Eswaramoorthy
放宽 autocorr 测试中的容差 (dask#11857) Tom Augspurger
在 array.store 中使用 map_blocks 以避免具现化和丢弃注释 (dask#11844) Florian Jetter
确保 repartition 在降低级别（即在调度器上）时不会触发内存大小计算 (dask#11855) Florian Jetter
支持对滚动聚合使用 args 和 kwargs (dask#11856) Florian Jetter
从 upstream CI 作业中移除 nightly h5py (dask#11847) James Bourbeau
确保 HLGExpr 唯一分词 (dask#11849) Florian Jetter
在 pandas 3 的 describe 中不注入中位数 (dask#11846) Florian Jetter
修复子类的 Expr.__setattr__ (dask#11845) Tom Augspurger
将 HLG 包装在 Expr 中以避免 Client 端的具现化 (dask#11736) Florian Jetter
改进从已关闭客户端提交任务时的错误提示 (distributed#9049) James Bourbeau
如果地址解析失败，返回默认值 (distributed#9051) Sandro
提交图时避免 deepcopy (distributed#8633) Florian Jetter
动态调整心跳和 scheduler_info 间隔 (distributed#9046) Florian Jetter
通过在版本检查时避免导入包来加快进程启动时间 (distributed#9048) Florian Jetter
减小 scheduler_info 的大小 (distributed#9045) Florian Jetter
缓存 WorkerState 的主机属性 (distributed#9044) Florian Jetter
清除 ci env 缓存 (distributed#9047) Florian Jetter
移除已废弃的 Pub / Sub (distributed#9039) Florian Jetter
仅在提交 LLG 时执行显式修剪步骤 (distributed#9040) Florian Jetter
不要按类型完全具现化全局注释 (distributed#9035) Florian Jetter
允许嵌套的 worker_client 调用 (distributed#9038) George Sakkis
转储 ci 缓存 (distributed#9037) Florian Jetter
调度器类型注释 (distributed#9030) Florian Jetter
通过移除 stripped_dep 计算来降低 dask.order 开销 (distributed#9031) Florian Jetter
使用 Expr 代替 HLG (distributed#9008) Florian Jetter

2025.3.0¶

亮点¶

在 `xarray.apply_ufunc` 中自动调整块大小¶

apply_ufunc 要求核心维度具有 chunksize=-1。底层的 rechunking 操作会自动调整核心维度的块大小，但保持其他维度不变。这可能导致内部块大小剧增。

此版本增加了一个中间步骤，通过与核心维度增加相同的因子来调整非核心维度的尺寸，以控制最大块大小。当设置 allow_rechunk=True 时，此行为会自动启用。

import xarray as xr
import dask.array as da

arr = xr.DataArray(
    da.random.random((1, 750, 45910), chunks=(1, "auto", -1)),
    dims=["band", "y", "x"],
)

result = arr.interp(
    y=arr.coords["y"],
    method="linear",
)

以前

单个块剧增至 25 GiB，可能导致内存不足错误。

Individual chunks are exploding to 25 GiB, likely causing out of memory errors.

现在

Dask 现在将自动把单个块分割成块大小相同（减去少量容差）的块。

Individual chunks are now roughly the same size

其他变更

修复数据集信息缓存分配问题 (dask#11840) Florian Jetter
Expr setattr (dask#11836) Florian Jetter
表达式分词缓存的后续跟进 (dask#11837) Florian Jetter
整合 expr 类的 getattr (dask#11835) Florian Jetter
减小 ReadParquet 表达式的 pickle 大小 (dask#11797) Florian Jetter
arange 在 ~2**63 上损失精度 (dask#11801) Guido Imperiale
从上游构建中移除 numbagg (dask#11821) Patrick Hoefler
对 nanmedian 和 nanquantile 分派到 numbagg (dask#11817) Patrick Hoefler
使缺少 meta 警告更符合人体工程学 (dask#11814) Patrick Hoefler
从 from_pandas 中移除 name 文档 (dask#11812) Patrick Hoefler
实现一个 Array Scalar (dask#11810) Patrick Hoefler
为 DataFrame API 添加了 to_orc (dask#11807) Tom Augspurger
为 DataFrames 实现反向索引 (dask#11803) Patrick Hoefler
为 cudf 添加惰性 to_pandas_dispatch 注册 (dask#11799) Richard (Rick) Zamora
修复 array-expr 中缺失的导入 (dask#11796) Florian Jetter
在表达式上缓存 tokens 并在 pickle 往返后恢复 (dask#11791) Florian Jetter
在分布式测试中使用随机仪表板端口给 LocalCluster (dask#11795) Florian Jetter
为 array-expr 实现切片 (dask#11783) Patrick Hoefler
调用顶层 compute 函数时永不使用异步 Client (dask#11790) Florian Jetter
重构导入测试 (dask#11794) Florian Jetter
迁移 base.unpack_collections 到 Task 类 (dask#11793) Florian Jetter
确保 map_blocks 生成唯一的 tokens (dask#11792) Florian Jetter
将 normalize_pickle 速度提高 50% (dask#11788) Florian Jetter
修复包含重复项时的 divisions 计算 (dask#11787) Patrick Hoefler
修复重复 divisions 的 assign align (dask#11786) Patrick Hoefler
确保 concat 优化项目不引发异常 (dask#11784) Florian Jetter
为 array-expr 添加 from_array (dask#11772) Patrick Hoefler
在 apply_gufunc 中保持块大小一致 (dask#11683) Patrick Hoefler
测试 dask.dataframe.__all__ (dask#11782) Philipp A.
将 __all__ 添加到 dask.bag (dask#11781) Philipp A.
为 dask.array.__all__ 添加测试 (dask#11780) Philipp A.
将 JamesIves/github-pages-deploy-action 从 4.7.2 提升到 4.7.3 (dask#11777)
导出 dask.array 成员 (dask#11779) Philipp A.
修复带有重复项的 sorted_divisions_locations (dask#11773) Tom Augspurger
修复 best-practices.rst 中的小错误 (dask#11775) Sergey Kolesnikov
在 blockwise adjust_chunks 中允许未知块 (dask#11769) Lindsey Gray
修复 asarray(..., like=...) 与 scipy.sparse 对象冲突导致的崩溃 (dask#11755) Guido Imperiale
移除不稳定的可选依赖项 (dask#11771) Tom Augspurger
添加对 scipy sparray 的支持 (dask#11750) Philipp A.
为测试额外项添加 flaky (dask#11770) Tom Augspurger
确保 divisions 是普通标量 (dask#11767) Tom Augspurger
移除 divisions 代码重复 (dask#11764) Florian Jetter
确保 Merge 中的 divisions 不偏离 npartitions (dask#11762) Florian Jetter
在 windows 上跳过 test_visualize_int_overflow (dask#11761) Florian Jetter
减小任务的 pickle 大小 (dask#11687) Florian Jetter
实现 unify_chunks 和 Rechunk (dask#11692) Patrick Hoefler
修复表达式 getitem 以避免对齐 (dask#11760) Patrick Hoefler
arange(..., like=x) 嵌入了 x 的图 (dask#11754) Guido Imperiale
简化 assert_divisions (dask#11745) Florian Jetter
修复 Series 对象的 Projection 逻辑 (dask#11747) Patrick Hoefler
移除将字节作为键 (dask#11757) Florian Jetter
确保如果函数返回标量，map_partitions 返回 Series 对象 (dask#11756) Florian Jetter
不要两次上传 env (dask#11748) Patrick Hoefler
修复 readme 中的徽章 (distributed#9029) Florian Jetter
正确转发取消原因 (distributed#9028) Florian Jetter
修复 bokeh circle (distributed#9026) Florian Jetter
确保 FileInfo 可以被序列化 (distributed#9025) Florian Jetter
将 ipykernel 添加到代码采样中跳过的模块 (distributed#9022) Matthew Rocklin
SpecCluster: 添加一个选项，在集群关闭时 *不* 关闭调度器 (distributed#9021) Taylor Braun-Jones
通过使用 client.persist(collection) 而不是 collection.persist() 修复 CI (distributed#9020) Hendrik Makait
添加从前缀根到状态的重定向 (distributed#9015) Isaac
将 JamesIves/github-pages-deploy-action 从 4.7.2 提升到 4.7.3 (distributed#9018)
从测试中移除字节键 (distributed#9017) Jacob Tomlinson

2025.2.0¶

亮点¶

此版本包含一个关键修复，解决了在分离任务被重新调度，或被取消并重新提交（例如，由于工作节点丢失）时可能出现的死锁问题。

更多详情请参阅 distributed#8991，作者：Hendrik Makait。

其他变更

添加大数组示例 (dask#11744) James Bourbeau
修复常数填充时 pad 中的块大小剧增问题 (dask#11743) Patrick Hoefler
将 optimize 方法移至基类 (dask#11742) Florian Jetter
为已修复的死锁添加变更日志条目 (dask#11741) Hendrik Makait
修复 dask-expr to_delayed 中的图创建问题 (dask#11739) Patrick Hoefler
从 delayed 优化中移除 culling (dask#11737) Patrick Hoefler
在集群上计算 from_map 的 meta (dask#11738) Patrick Hoefler
带有 dask 布尔掩码时 __setitem__ 的 Bug (dask#11728) Guido Imperiale
实现 infrastructure, random, blockwise 和 Elemwise (dask#11689) Patrick Hoefler
同时使用 like= 和 dtype= 的 array / asarray (dask#11733) Guido Imperiale
修复注释警告测试 (dask#11734) Patrick Hoefler
使用 to_parquet 写入远程存储时捕获警告 (dask#11731) Patrick Hoefler
从测试中移除 LocalCluster (dask#11729) Patrick Hoefler
修复使用 from_array 时分区修剪的问题 (dask#11725) Patrick Hoefler
修复混合 dtype 列的拼接问题 (dask#11727) Patrick Hoefler
arange: 修复极端值 (dask#11707) Guido Imperiale
标量 getitem -> setitem 时的图损坏 (dask#11723) Guido Imperiale
compute() 后永不共享缓冲区 (dask#11697) Guido Imperiale
在 from_array 中从 xarray DataArray 提取 Dask Array (dask#11712) Patrick Hoefler
arange: 支持 kwargs (dask#11710) Guido Imperiale
确保 normalize_token 是线程安全的 (dask#11709) Florian Jetter
扩展关于实例类型和进程的建议 (dask#11705) Florian Jetter
移除旧版时间序列实现 (dask#11704) Florian Jetter
更新 Dask Cloud Provider 文档，将 Nebius 作为支持的云选项 (dask#11703) Alexander
修复将块压成单个块时 normalize_chunks 的问题 (dask#11702) Patrick Hoefler
修复使用 newaxis 进行位置索引的问题 (dask#11699) Patrick Hoefler
在 scipy-sparse-indexing 中设置数组后端 (dask#11700) Tom Augspurger
修复 value_counts 的混洗策略 (dask#11698) Patrick Hoefler
将核心表达式类与 dataframe 特定代码解耦 (dask#11688) Patrick Hoefler
将 conda-incubator/setup-miniconda 从 3.1.0 提升到 3.1.1 (dask#11685)
修复从数组方法到 dataframe 的转换问题 (dask#11684) Patrick Hoefler
移除 fastparquet 的剩余遗迹 (dask#11682) Patrick Hoefler
从 sizeof 失败警告中移除回溯信息 (distributed#9006) Jacob Tomlinson
热修复：忽略负占用率 (distributed#9012) Hendrik Makait
移除昂贵的键唯一性检查分词 (distributed#9009) Patrick Hoefler
修复 from_map 更改的 CI (distributed#9011) Patrick Hoefler
避免在调度器上处理陈旧的长时间运行消息 (distributed#8991) Hendrik Makait
增加 test_stress 超时时间 (distributed#9002) Tom Augspurger
在 test_rmm_metrics 测试中轮询 (distributed#9004) Tom Augspurger
在 WorkStealing.balance() 中缓存占用率 (distributed#9005) Hendrik Makait
通过考虑进行中请求来实现同质平衡 (distributed#9003) Hendrik Makait
在窃取、自适应和占用率计算之间一致估计任务持续时间 (distributed#9000) Hendrik Makait
将默认工作窃取间隔增加 10 倍 (distributed#8997) Hendrik Makait
从状态仪表板中移除占用率图 (distributed#8995) Hendrik Makait
将 conda-incubator/setup-miniconda 从 3.1.0 提升到 3.1.1 (distributed#8990)

2025.1.0¶

亮点¶

移除了旧版 Dask DataFrame 实现¶

此版本移除了旧版 Dask DataFrame 实现。现在唯一可用的 Dask DataFrame 实现是带有查询规划的 API。

这强制废弃了以下配置

dask.config.set({"dataframe.query-planning": False})

Dask-Expr 已合并到 dask 包和 dask/dask 仓库中。不再需要单独安装 dask-expr。

减少 Xarray 工作负载的内存压力¶

Dask 在 2022 年引入了一种称为根任务排队 (root task queuing) 的机制。该机制允许 Dask 检测从存储读取数据的任务，并防御性地调度它们，以避免因过度生成这些任务而给集群带来内存压力。底层机制非常脆弱，对于某些特定类型的计算会失效，例如打开多个 zarr 存储或加载大量 netcdf 文件。

Dask 任务图表示的最新更改使得根任务的检测更加健壮。这项更改使得检测机制独立于正在运行的工作负载，对 Xarray 工作负载尤其有利。

这显著提高了内存稳定性，并减少了以前根任务检测失败的工作负载的内存占用，使得预期的内存配置是确定性的，且独立于任务图的拓扑结构。

2024.12.1¶

亮点¶

提高了大型任务图的调度器响应能力¶

此版本减少了 Dask 调度器跟踪任务相关的 Python 对象引用数量。这通过减少在调度器上运行垃圾回收所需的时间来提高调度器响应能力。

更多详情请参阅 dask#8958, dask#11608, dask#11600, dask#11598, dask#11597, 和 distributed#8963，作者：Hendrik Makait。

2024.12.0¶

亮点¶

支持 Python 3.13¶

此版本增加了对 Python 3.13 的支持。Dask 现在支持 Python 3.10-3.13。

更多详情请参阅来自 Patrick Hoefler 和 James Bourbeau 的 dask#11456 和 distributed#8904。

2024.11.2¶

注意

版本 2024.11.0 和 2024.11.1 包含一个严重的性能回退，所有用户都应跳过这些版本。

亮点¶

旧版 Dask DataFrame 已废弃¶

此版本废弃了旧版 Dask DataFrame 实现。旧实现将在未来版本中完全移除。鼓励用户现在切换到新实现并报告遇到的任何问题。

还鼓励用户检查他们只从 dask.dataframe 导入函数，而不是任何子模块。

Dask Array API 的新 quantile 方法¶

Dask Array 添加了新的 quantile 和 nanquantile 方法。以前，Dask 分派到 NumPy 实现，这大量阻塞了 GIL。这导致拥有多个线程的 worker 上出现大的减速，并且每个分块的运行时可能超过 200 秒。

新的 quantile 实现避免了许多这些问题，并将运行时减少到每个分块大约 1 秒，与线程数量无关。

Xarray rolling-construct 中一致的分块大小¶

使用 Dask Array 的 Xarray rolling(...).construct(...) 会导致非常大的分块大小，这些分块大小在一个 worker 上很少能完全放入内存。

底层操作是对较小的 NumPy 数组的视图，但触发数据复制将导致非常大的内存使用量。

import xarray as xr
import dask.array as da

arr = xr.DataArray(
    da.ones((93504, 721, 1440), chunks=("auto", -1, -1)),
    dims=["time", "lat", "longitude"],
)   # Initial chunks are ~128 MiB
arr.rolling(time=30).construct("window_dim")

以前

单个分块会膨胀到 10 GiB，很可能导致内存不足错误。

Individual chunks are exploding to 10 GiB, likely causing out of memory errors.

现在

Dask 现在将自动把单个块分割成块大小相同（减去少量容差）的块。

提高了 map overlap 的效率¶

map_overlap 现在创建更小、更高效的图，以使任务图总体上小得多。

以前的版本注入了许多不必要的任务，将任务数量增加了实际必要数量的 2-10 倍。这给调度器带来了很大压力。

爱因斯坦求和的一致分块大小¶

如果应用于多个 Dask Array，爱因斯坦求和历史上会导致非常大的分块大小。此行为继承自 NumPy，但导致 worker 上出现内存不足错误。

import dask.array as da
arr = da.random.random((1024, 64, 64, 64, 64), chunks=(256, 16, 16, 16, 16)) # Initial chunks are 128 MiB
result = da.einsum("aijkl,amnop->ijklmnop", arr, arr)

以前

单个分块膨胀到 32 GiB，很可能导致内存不足错误。

Individual chunks are exploding to 32 GiB, very likely causing out of memory errors

现在

该操作保持单个分块大小不变。

其他变更

为 Dask 发布添加变更日志条目 (dask#11502) Patrick Hoefler
对可选依赖项表进行微小更新 (dask#11503) James Bourbeau
为类似 ffill 的操作添加 push (dask#11501) Patrick Hoefler
移除 TaskSpec 的 func 打包 (dask#11496) Florian Jetter
使 vindex 的标记化更高效 (dask#11493) Patrick Hoefler
缩短 einstein 求和测试的运行时 (dask#11499) Patrick Hoefler
提高 test_rot90 的测试运行时 (dask#11498) Florian Jetter
禁用 Bags 中 TaskSpec 的低级别优化 (dask#11495) Florian Jetter
为 sliding-window-view 添加自动重新分块 (dask#11479) Patrick Hoefler
为 dask.array.store 添加 load_stored kwarg (dask#11465) Deepak Cherian
修复二维 quantile 错误 (dask#11489) Patrick Hoefler
将 conda-incubator/setup-miniconda 从 3.0.4 升级到 3.1.0 (dask#11490)
更新 map_blocks docstring (dask#11491) Patrick Hoefler
修复带有空数组的 einsum (dask#11488) Patrick Hoefler
实现非 gil-blocking 的 quantile 方法 (dask#11473) Patrick Hoefler
在 map_overlap 中使用内部关键字参数进行修剪以减小图大小 (dask#11486) Patrick Hoefler
轻微重构 dask order (dask#11467) Florian Jetter
从 map_overlap 移除空任务 (dask#11483) Patrick Hoefler
修复 auto chunks 计算（如果单个分块小于 1） (dask#11485) Patrick Hoefler
修复 pandas 上游更改后的 CI (dask#11482) Patrick Hoefler
确保 block_id 和 block_info 不创建额外任务 (dask#11484) Patrick Hoefler
使用 repeat 构建最近边界 (dask#9666) Jean-Baptiste Bayle
移除 make_blockwise 中的死代码 (dask#11478) Florian Jetter
修补 rioxarray 的 auto-chunks 计算 (dask#11480) Patrick Hoefler
由于不稳定的警告，跳过旧版测试 (dask#11475) Patrick Hoefler
取消跳过一些 dask-expr 测试 (dask#11474) Patrick Hoefler
在 einsum 中保持分块大小一致 (dask#11464) Patrick Hoefler
改进 normalize_chunks 在设置“auto”时如何合并分块 (dask#11468) Patrick Hoefler
修复当图中有多个别名时 resolve_aliases 的问题 (dask#11469) Patrick Hoefler
避免在 dask.array 中循环导入 (dask#11472) Hendrik Makait
取消跳过 dataframe 测试 (dask#11471) Patrick Hoefler
提高大型图的 dask.order 性能 (dask#11466) Florian Jetter
确保 slice(None) 只映射键 (dask#11450) Patrick Hoefler
修复未反序列化对象的 Task.__repr__() (dask#11463) Peter Andreas Entschev
在本地 dask 执行中使用 TaskSpec (dask#11378) Florian Jetter
调整 test_solve_triangular_vector 中的精度 (dask#11461) Florian Jetter
更新 Aggregation docstring (dask#11459) Guillaume Eynard-Bontemps
为 delayed 对象实现 fuse 选项 (dask#11441) Patrick Hoefler
废弃旧版 dask dataframe 实现 (dask#11437) Patrick Hoefler
修复使用 arrow dtypes 的 groupby.agg 的 na 强制转换行为 (dask#11118) Patrick Hoefler
修复 TaskSpec 节点的 keys_in_tasks 行为 (dask#11445) Florian Jetter
为了可视化大型任务图，将 dtype 转换为 int 而不是 np.uint8 (dask#11440) Patrick Hoefler
确保依赖项不被修改 (dask#11438) Florian Jetter
完全支持 dask.order 中的 task spec (dask#11347) Florian Jetter
移除 P2PBarrierTask 中冗余的方法 (distributed#8924) Florian Jetter
修复 test_tell_workers_when_peers_have_left 的 skipif 条件 (distributed#8929) Florian Jetter
即使网络堆栈吞噬 CancelledErrors，也要确保 ConnectionPool 被关闭 (distributed#8928) Florian Jetter
修复不稳定的 test_server_comms_mark_active_handlers (distributed#8927) Florian Jetter
明确 P2P 屏障机制中的假设 (distributed#8926) Hendrik Makait
调整 Jupyter cli 测试中的超时 (distributed#8925) Florian Jetter
将 stimulus_id 添加到 update_graph plugin hook (distributed#8923) Hendrik Makait
减少 P2P 传输任务开销 (distributed#8912) Hendrik Makait
在 Python 3.11 上禁用 profiler (distributed#8916) Florian Jetter
修复 test_restarting_does_not_deadlock (distributed#8849) Florian Jetter
调整测试的 popen 超时 (distributed#8848) Florian Jetter
为 shuffle broadcast 添加重试机制 (distributed#8900) Florian Jetter
修复 test_shuffle_with_array_conversion (distributed#8909) Florian Jetter
重构一些测试 (distributed#8908) Florian Jetter
将 dask-expr 从 contrib 提升为核心项目 (distributed#8911) Hendrik Makait
在 py10 上跳过 test_tell_workers_when_peers_have_left (distributed#8910) Florian Jetter
清理 P2P 代码的内部结构 (distributed#8907) Hendrik Makait
使用 Task 类代替元组 (distributed#8797) Florian Jetter
增加 test_tell_workers_when_peers_have_left 的连接超时时间 (distributed#8906) Florian Jetter
移除 TaskCollection 中的调度 (distributed#8903) Florian Jetter
在 P2P 中对调度器的请求进行去重 (distributed#8899) Hendrik Makait
添加用于 rootish taskgroup 阈值的配置 (distributed#8898) Patrick Hoefler

2024.10.0¶

重要变更¶

兼容 Zarr-Python 3 (dask#11388)
避免 overlap 中任务图呈指数级增长 (dask#11423)
确保 numba 标记化不使用缓慢的 pickle 路径 (dask#11419)

2024.9.1¶

亮点¶

提高了自适应缩放的弹性¶

自适应缩放集群现在可以从缩放过程中的伪错误中恢复。

更多详情请参阅 distributed#8871，作者是 Hendrik Makait。

2024.9.0¶

亮点¶

Bokeh 最低版本升级到 3.1.0¶

诊断和分布式集群 dashboard 现在需要 bokeh>=3.1.0。

更多详情请参阅来自 James Bourbeau 的 dask#11375 和 distributed#8861。

引入新的 Task 类¶

添加 Task 类以取代元组作为任务规范。

更多详情请参阅来自 Florian Jetter 的 dask#11248。

2024.8.2¶

亮点¶

自动选择 rechunking 方法¶

为了使用户能够在比以前更大的规模上重新分块数据，Dask 现在在集群上进行重新分块时会自动选择合适的重新分块方法。这不需要额外配置，并且默认启用。

具体来说，Dask 在基于任务的 rechunking 和 P2P rechunking 之间进行选择。虽然基于任务的 rechunking 以前是默认设置，但在 rechunking 需要旧分块和新分块之间几乎全连接通信的情况下，P2P rechunking 会更有优势，例如，在空间分块和时间分块之间切换时。在这些情况下，P2P rechunking 提供恒定的内存使用量并创建更小的任务图。因此，它适用于基于任务的 rechunking 会失败的情况。

要禁用自动选择，用户可以通过配置选择首选方法

import dask.config
# Choose either "tasks" or "p2p"
dask.config.set({"array.rechunk.method": "tasks"})

或在 rechunking 时

import dask.array as da
arr = da.random.random(size=(1000, 1000, 365), chunks=(-1, -1, "auto"))
# Choose either "tasks" or "p2p"
arr = arr.rechunk(("auto", "auto", -1), method="tasks")

更多详情请参阅来自 Hendrik Makait 的 dask#11337。

Dask Arrays 的新 shuffle API¶

Dask 为 Dask Arrays 添加了 shuffle API。此 API 允许沿单个维度对数据进行洗牌。它将确保沿此维度的每组元素都恰好在一个分块中。这对于 Xarray 中的 GroupBy-Map 模式来说是非常有用的操作。有关更多信息和 API 签名，请参阅 shuffle()。

更多详情请参阅来自 Patrick Hoefler 的 dask#11267、dask#11311 和 dask#11326。

Dask Arrays 的新 blockwise_reshape API¶

新的 blockwise_reshape() 为不关心底层数组顺序的情况提供了易于并行化的重塑操作。它易于并行化，并且不再触发底层的 rechunking 操作。这在你对结果 Array 的顺序不关心时非常有用，例如当对数组应用 reduction 或重塑只是临时操作时。

arr = da.random.random(size=(100, 100, 48_000), chunks=(1000, 100, 83)
result = reshape_blockwise(arr, (10_000, 48_000))
result.sum()

# or: do something that preserves the shape of each chunk

result = reshape_blockwise(result, (100, 100, 48_000), chunks=arr.chunks)

如果维度数量减少，Dask 会自动计算结果分块；但如果维度数量增加，则必须指定结果分块。

重塑 Dask Array 通常会创建非常复杂的计算，中间伴随 rechunk 操作，因为 Dask 默认尊重 Array 的 C 顺序。这确保了结果 Dask Array 的顺序与相应的 NumPy Array 相同。然而，这可能导致计算效率非常低。blockwise_reshape 在不关心顺序的情况下比默认实现效率高得多。

警告

分块重塑操作比默认操作更高效，但它们会返回一个排序方式不同的数组。请谨慎使用！

更多详情请参阅来自 Patrick Hoefler 的 dask#11328。

多维位置索引保持分块大小一致¶

以前使用 vindex() 对 Dask Array 进行索引会在被索引的维度上创建一个单一输出分块。vindex 通常用于 Xarray 中一步索引多个维度，即

arr = xr.DataArray(
    da.random.random((100, 100, 100), chunks=(5, 5, 50)),
    dims=['a', "b", "c"],
)

以前，这会将被索引的维度放入一个分块中

Size of each individual chunk increases to over 1GB

Dask 现在使用一种改进的算法来确保分块大小保持一致

更多详情请参阅来自 Patrick Hoefler 的 dask#11330。

其他变更

添加 shuffle, vindex 和 blockwise_reshape 的变更日志条目 (dask#11350) Patrick Hoefler
确保持久化集合在没有 GC 的情况下被释放 (dask#11348) Florian Jetter
更新 dask 会议的 zoom 链接 (dask#11357) Sarah Charlotte Johnson
为 normalize_chunks 添加更多 docstring 示例 (dask#11271) Illviljan
在 tasks-based 和 p2p rechunking 之间自动选择 (dask#11337) Hendrik Makait
实现数组的块重塑 API (dask#11328) Patrick Hoefler
使 shuffle 中的 rechunking 更智能，必要时进行不均匀分布 (dask#11326) Patrick Hoefler
提高 GPU CI 更新的可见性 (dask#11345) Charles Blackmon-Luca
更新安装文档中的 numpy 和 pyarrow 版本 (dask#11340) James Bourbeau
修复 dask 和 distributed 依赖项 (dask#11338) Patrick Hoefler
将 numpy>=1.24 和 pyarrow>=14.0.1 最低版本提高 (dask#11331) James Bourbeau
将 crick 重新添加回 Python 3.11+ CI 构建 (dask#11335) James Bourbeau
在 vindex 中保留分块大小 (dask#11330) Patrick Hoefler
修复 dask.array.fft 与 Numpy 接口不匹配的问题（添加对 norm 参数的支持） (dask#10665) joanrue
向 rechunk_p2p 传递附加参数 (dask#11319) Hendrik Makait
修复 map_overlap 的 docstring 格式 (dask#11332) Tao Xin
修复 NumPy 在 2.0 版本上 prod 溢出问题 (dask#11327) Patrick Hoefler
确保 axes 为正数 / 添加负数 axes 的测试 (dask#10812) joanrue
修复带有 new_axis 的 map_overlap (dask#11128) David Stansby
避免捕获 xdist 的代码 (distributed#8846) Florian Jetter
减少剔除 P2P rechunking 的内存占用 (distributed#8845) Hendrik Makait
添加选择默认 rechunking 方法的测试 (distributed#8843) Hendrik Makait
提高 GPU CI 更新的可见性 (distributed#8841) Charles Blackmon-Luca
增加 test_pause_while_idle 超时 (distributed#8844) Florian Jetter
在 P2P rechunking 之前连接小的输入分块 (distributed#8832) Hendrik Makait
移除 gen_cluster 中的 dump cluster (distributed#8823) Florian Jetter
将 numpy>=1.24 和 pyarrow>=14.0.1 最低版本提高 (distributed#8837) James Bourbeau
修复 Worker 上的 PipInstall 插件 (distributed#8839) Hendrik Makait
移除更多 Python 3.10 兼容性代码 (distributed#8824) James Bourbeau
使用基于任务的 rechunking 沿着部分边界进行预分块 (distributed#8831) Hendrik Makait
确保 client_desires_keys 不会破坏 Scheduler 状态 (distributed#8827) Florian Jetter
将最低 cloudpickle 版本提高到 3 (distributed#8836) James Bourbeau

2024.8.1¶

亮点¶

改进重塑 Dask Arrays 的输出分块大小¶

重塑 Dask Array 通常会将要重塑的维度压缩到一个分块中。这导致输出分块非常大，并随后引起许多内存不足错误和性能问题。

arr = da.ones(shape=(1000, 100, 48_000), chunks=(1000, 100, 83))
arr.reshape(1000, 100, 4, 12_000)

以前，这会将最后一个维度放入一个大小为 12_000 的单一分块中。

新算法将确保输入和输出之间的分块大小保持一致。这将避免分块大小的显著增加和分块的碎片化。

Size of each individual chunk stays the same

提高 Xarray Rechunk-GroupBy-Reduce 模式的调度效率¶

调度器以前为使用 cohorts 策略的 Xarray GroupBy-Reduction 模式创建了低效的执行图

import xarray as xr

arr = xr.open_zarr(...)
arr.chunk(time=TimeResampler("ME")).groupby("time.month").mean()

创建任务图执行顺序的算法中的一个问题导致了低效的执行策略，该策略在集群上累积了许多不必要的内存。这一改进与 2024.08.0 中先前的排序改进非常相似。

停止支持 Python 3.9¶

此版本根据 NEP 29 停止支持 Python 3.9。Python 3.10 现在是运行 Dask 所需的最低版本。

更多详情请参阅来自 Patrick Hoefler 的 dask#11245 和 distributed#8793。

2024.8.0¶

亮点¶

提高使用位置索引器进行切片的效率和性能¶

提高了使用位置索引器对 Dask Array 进行切片的性能。随机访问模式现在更稳定，并且产生更易于使用的结果。

x[slice(None), [1, 1, 3, 6, 3, 4, 5]]

以前使用位置索引器很容易大幅增加输出分块的数量并生成非常大的任务图。这个问题已通过更高效的算法得到修复。

新算法将保持被索引轴上的分块大小相同，以避免分块碎片化或分块大小的大幅增加。

更多详情和性能基准测试请参阅来自 Patrick Hoefler 的 dask#11262 和 dask#11267。

提高 Xarray GroupBy-Reduce 模式的调度效率¶

调度器以前为 Xarray GroupBy-Reduction 模式（例如）创建了低效的执行图

import xarray as xr

arr = xr.open_zarr(...)
arr.groupby("time.month").mean()

创建任务图执行顺序的算法中的一个问题导致了低效的执行策略，该策略在集群上累积了许多不必要的内存。

Memory keeps accumulating on the cluster when running an embarassingly parallel operation.

操作本身易于并行化。使用适当的执行策略，调度器现在可以以恒定内存执行操作，避免溢出并允许我们扩展到更大的数据集。

Same operation is running with constant memory usage for the whole computation and can scale for bigger datasets.

更多详情和示例请参阅来自 Patrick Hoefler 的 distributed#8818。

2024.7.1¶

亮点¶

更具弹性的分布式锁¶

distributed.Lock 现在可以抵御 worker 故障。以前，在持有锁的 worker 丢失或/因错误未能释放锁的情况下，可能发生死锁。

更多详情请参阅来自 Florian Jetter 的 distributed#8770。

2024.7.0¶

主要亮点¶

停止支持 pandas 1.x¶

此版本停止支持 pandas<2。现在运行 Dask DataFrame 需要 pandas 2.0 或更高版本。

partd 的最低版本也提高到了 1.4.0。1.4 之前的版本与 pandas 2 不兼容。

更多详细信息请参阅由 Patrick Hoefler 提交的 dask#11199。

2024.6.2¶

这是一个补丁版本，用于更新 2024.6.1 版本中 dask 和 distributed 版本限定的问题。

2024.6.1¶

主要亮点¶

此版本包含一个关键修复，解决了当 root-ish 任务的依赖项被重新调度时可能出现的死锁问题，例如由于工作节点丢失。

更多详细信息请参阅由 Hendrik Makait 提交的 distributed#8703。

2024.6.0¶

主要亮点¶

memmap 数组 tokenization¶

现在对 memmap 数组进行 tokenization 将避免将数组实例化到内存中。

更多详细信息请参阅由 Florian Jetter 提交的 dask#11161。

2024.5.2¶

此版本主要包含一些小的错误修复。

2024.5.1¶

主要亮点¶

支持 NumPy 2.0¶

此版本包含针对即将发布的 NumPy 2.0 版本的兼容性更新。

更多详细信息请参阅由 Benjamin Zaitlen 提交的 dask#11096 和由 James Bourbeau 提交的 dask#11106。

增加对 Zarr 存储的支持¶

此版本增加了对由 MutableMapping 支持的 Zarr 存储（例如 zarr.storage.DirectoryStore 等）的支持。

更多详细信息请参阅由 Greg M. Fleishman 提交的 dask#10422。

2024.5.0¶

主要亮点¶

此版本主要包含一些小的错误修复。

2024.4.2¶

主要亮点¶

Trivial Merge 实现¶

查询优化器将检查查询，以确定 merge(...) 或 groupby(...).apply(...) 是否需要 shuffle。如果在之前的步骤中 DataFrame 已经在相同的列上进行了 shuffle，并且期间没有改变分区布局或每个分区相关值的操作，则可以避免 shuffle。

>>> result = df.merge(df2, on="a")
>>> result = result.merge(df3, on="a")

查询优化器将识别出 result 之前也在 "a" 上进行了 shuffle，因此在进行块合并之前，只会在第二次 merge 操作中对 df3 进行 shuffle。

`read_parquet` 中的自动分区¶

如果单个分区太小，查询优化器将自动重新对从 Parquet 文件读取的数据集进行分区。这将减少分区数量，从而也减少任务图的大小。

优化器旨在生成至少 75MB 的分区，并在必要时将多个文件组合在一起以达到此阈值。可以使用以下配置此值：

>>> dask.config.set({"dataframe.parquet.minimum-partition-size": 100_000_000})

该值以字节为单位。默认阈值相对保守，以避免在每线程内存相对较少的工作节点上出现内存问题。

2024.4.1¶

这是一个小的错误修复版本，修复了在 Python 3.11.9 中导入 dask.dataframe 时出现的错误。

详细信息请参阅由 Richard (Rick) Zamora 提交的 dask#11035 和 dask#11039。

2024.4.0¶

主要亮点¶

Query planning 修复¶

此版本包含 Dask DataFrame 新的 query planner 中的各种错误修复。

GPU 指标仪表板修复¶

GPU 内存和利用率仪表板功能已恢复。此前，这些图表意外留空。

详细信息请参阅由 Benjamin Zaitlen 提交的 distributed#8572。

2024.3.1¶

这是一个次要版本，主要是在升级时，如果未安装 dask-expr，则将异常降级为警告。

2024.3.0¶

发布于 2024 年 3 月 11 日

主要亮点¶

Query planning¶

此版本为 dask.dataframe 的所有用户默认启用 query planning。

query planning 功能代表了使用 dask-expr 对 DataFrame 的重写。这是一个即插即用的替代方案，我们预计大多数用户无需调整任何代码。任何反馈都可以在 Dask 的 issue tracker 或 query planning feedback issue 上报告。

如果您遇到任何问题，仍然可以通过设置以下选项退出：

>>> import dask
>>> dask.config.set({'dataframe.query-planning': False})

停止支持 Pandas 1.X¶

新的 query planning 后端要求至少 pandas 2.0。如果您使用 conda 安装，或者使用 pip 通过 dask[complete] 或 dask[dataframe] 安装，将自动安装此版本的 pandas。

如果您安装不带 extras 的 dask，遗留的 DataFrame 实现仍然支持 pandas 1.X。

其他变更

更新使用 dask-expr 对 pandas nightlies 的测试 (dask#10989) Patrick Hoefler
使用 dask-expr 文档作为 DataFrame 的主要参考文档 (dask#10990) Patrick Hoefler
调整 dask-expr 的 from_array 测试 (dask#10988) Patrick Hoefler
取消跳过 to_delayed 测试 (dask#10985) Patrick Hoefler
将 conda-incubator/setup-miniconda 从 3.0.1 升级到 3.0.3 (dask#10978)
修复启用 dask-expr 时的 bug (dask#10977) Patrick Hoefler
更新 dask-expr 的文档和要求并移除警告 (dask#10976) Patrick Hoefler
修复 numpy 2 与 ogrid 使用的兼容性问题 (dask#10929) David Hoese
开启 dask-expr 开关 (dask#10967) Patrick Hoefler
强制使用相同的字节顺序解释来初始化随机种子... (dask#10970) Elliott Sales de Andrade
读取 CSV 时使用正确的行终止符编码 (dask#10972) Elliott Sales de Andrade
perf: 在 _optimize_blockwise 中不必要地重新计算输入/输出索引 (dask#10966) Lindsey Gray
调整 dask-expr 中 string 选项的测试 (dask#10968) Patrick Hoefler
调整 dask-expr 中 array 转换的测试 (dask#10973) Patrick Hoefler
TST: 修复 32 位上的 sizeof 测试 (dask#10971) Elliott Sales de Andrade
TST: 为 pyarrow 添加缺失的 skip (dask#10969) Elliott Sales de Andrade
为 bag.to_dataframe 实现 dask-expr 转换 (dask#10963) Patrick Hoefler
修复 dask-expr 导入错误 (dask#10964) Miles
清理 dask.config 的 Sphinx 文档 (dask#10959) crusaderky
在 Python 3.12+ 上使用 stdlib importlib.metadata (dask#10955) wim glenn
将 partitioning_index 转换为更小的尺寸 (dask#10953) Florian Jetter
重用 dask/dask groupby Aggregation (dask#10952) Patrick Hoefler
确保 futures 上的 token 是唯一的 (distributed#8569) Florian Jetter
不混淆细粒度性能指标故障 (distributed#8568) crusaderky
在 dask-expr 中标记 shuffle 快速任务 (distributed#8563) crusaderky
按持续时间加权 gilknocker Prometheus 指标 (distributed#8558) crusaderky
修复 scheduler 在 memory->erred 转换时的错误 (distributed#8549) Hendrik Makait
再次让 CI 运行正常 (distributed#8560) Miles
修复 flaky 的 test_Future_release_sync 测试 (distributed#8562) crusaderky
修复 flaky 的 test_flaky_connect_recover_with_retry 测试 (distributed#8556) Hendrik Makait
scheduler.py 中的类型调整 (distributed#8551) crusaderky
将 conda-incubator/setup-miniconda 从 3.0.2 升级到 3.0.3 (distributed#8553)
在 CI 上安装 dask-expr (distributed#8552) Hendrik Makait
P2P shuffle 在写入磁盘前可以丢弃分区列 (distributed#8531) Hendrik Makait
改进工作节点移除的日志记录 (distributed#8517) crusaderky
为 merge 添加 indicator 支持 (distributed#8539) Patrick Hoefler
将 conda-incubator/setup-miniconda 从 3.0.1 升级到 3.0.2 (distributed#8535)
避免获取模块路径时的迭代错误 (distributed#8533) James Bourbeau
在代码收集时忽略 stdlib threading 模块 (distributed#8532) James Bourbeau
修复 P2P 重试时过多的日志记录问题 (distributed#8511) Hendrik Makait
防止 retire_workers 参数中的拼写错误 (distributed#8524) crusaderky
test_steal 的外观清理 (从 #8185 回港) (distributed#8509) crusaderky
修复 flaky 的 test_compute_per_key 测试 (distributed#8521) crusaderky
修复 flaky 的 test_no_workers_timeout_queued 测试 (distributed#8523) crusaderky

2024.2.1¶

发布于 2024 年 2 月 23 日

主要亮点¶

允许静默 dask.DataFrame 弃用警告¶

上一个版本包含一个 DeprecationWarning，用于提醒用户 dask.dataframe 即将切换到支持 query planning 的新后端（另请参阅 dask#10934）。

此 DeprecationWarning 在导入 dask.dataframe 模块时触发，社区对此过于详细的问题表示担忧。

现在可以通过以下方式静默此警告：

# via Python
>>> dask.config.set({'dataframe.query-planning-warning': False})

# via CLI
dask config set dataframe.query-planning-warning False

详细信息请参阅由 Miles 提交的 dask#10936 和 dask#10925。

更健壮的分布式调度器，用于处理罕见的键冲突¶

Blockwise fusion 优化可能导致任务键冲突，分布式调度器未能正确处理此问题（参见 dask#9888）。用户通常会看到各种内部异常，导致系统死锁或严重故障。虽然此问题未能完全修复，但调度器现在实现了一种机制，可以缓解大多数情况，并在检测到问题时发出警告。

详细信息请参阅由 crusaderky 和 Florian Jetter 提交的 distributed#8185。

在此过程中，对 tokenization 进行了各种改进。更多详细信息请参阅由 crusaderky 提交的 dask#10913、dask#10884、dask#10919、dask#10896 以及主要是 dask#10883。

在大型集群上更健壮的自适应扩缩容¶

以前，在缩容时如果需要移动大量任务，自适应扩缩容可能会丢失数据。这种情况通常（但不限于）发生在大型集群上，表现为任务的重新计算，可能导致集群在扩容和缩容之间震荡，而无法完成。

更多详细信息请参阅由 crusaderky 提交的 distributed#8522。

2024.2.0¶

发布于 2024 年 2 月 9 日

亮点¶

弃用 Dask DataFrame 实现¶

当前的 Dask DataFrame 实现已被弃用。在未来的版本中，Dask DataFrame 将使用新的实现，新实现包含多项改进，包括逻辑查询规划。面向用户的 DataFrame API 将保持不变。

新的实现已可用，可以通过安装 dask-expr 库

$ pip install dask-expr

并开启查询规划选项启用

>>> import dask
>>> dask.config.set({'dataframe.query-planning': True})
>>> import dask.dataframe as dd

新实现的 API 文档可在以下地址找到：https://docs.dask.org.cn/en/stable/dataframe-api.html

任何反馈都可以在 Dask 问题追踪器上报告：https://github.com/dask/dask/issues

详情见 dask#10912 由 Patrick Hoefler 提交。

改进的 Tokenization¶

此版本包含对 Dask 对象 tokenization 逻辑的多项改进。现在更多对象可以生成确定性的 token，这可以通过缓存中间结果来提高性能。

详情见 dask#10898、dask#10904、dask#10876、dask#10874 和 dask#10865 由 crusaderky 提交。

其他变更

修复字符串转换时对只读数组进行原地修改的问题。(dask#10886) Patrick Hoefler
为 dask-expr 添加更新日志条目。(dask#10915) Patrick Hoefler
修复 cudf 的 leftsemi 合并。(dask#10914) Patrick Hoefler
对 dask-expr 警告进行细微更新。(dask#10916) James Bourbeau
提高 groupby.nunique 的性能。(dask#10910) Patrick Hoefler
在 dask-expr 中为 leftsemi 合并添加配置。(dask#10908) Patrick Hoefler
调整 dask-expr 的 assign 测试。(dask#10907) Patrick Hoefler
避免在 GPU CI 中 test_to_datetime 使用 pytest.warns。(dask#10902) Richard (Rick) Zamora
更新文档首页的部署选项。(dask#10901) James Bourbeau
修复 dataframe 文档中的拼写错误。(dask#10900) Matthew Rocklin
将 peter-evans/create-pull-request 从 5 升级到 6。(dask#10894)
修复 mimesis API >=13.1.0 - 使用 random.randint。(dask#10888) Miles
调整无效测试。(dask#10897) Patrick Hoefler
序列化 da.argwhere 和 da.count_nonzero。(dask#10885) crusaderky
修复 singleton pr 后 dask-expr 的测试。(dask#10892) Patrick Hoefler
为 s3fs 设置最低版本限制。(dask#10889) Miles
为新的 parquet 缓存添加一些 dask-expr 修复。(dask#10880) Florian Jetter
更新部署文档。(dask#10882) Matthew Rocklin
开始构建 dask-expr 文档。(dask#10879) Patrick Hoefler
测试静态方法和类方法的 tokenization。(dask#10872) crusaderky
将 distributed.print 和 distributed.warn 添加到 API 文档。(dask#10878) James Bourbeau
在 M1 架构上运行 macos ci。(dask#10877) Patrick Hoefler
更新 dask-expr 的测试。(dask#10838) Patrick Hoefler
更新 parquet 测试以与 dask-expr 修复对齐。(dask#10851) Richard (Rick) Zamora
修复 test_graph_manipulation 中的回归。(dask#10873) crusaderky
调整 dask-expr ci 的 pytest 错误。(dask#10871) Patrick Hoefler
当 pandas<2.1 时，为 numba 设置最高版本限制。(dask#10890) Miles
弃用 DataFrame.fillna 中的 method 参数。(dask#10846) Miles
从 pyproject.toml 中删除警告过滤器。(dask#10867) Patrick Hoefler
跳过 fastparquet 的 test_append_with_partition。(dask#10828) Patrick Hoefler
修复 pytest 8 的问题。(dask#10868) Patrick Hoefler
调整 dask-expr 中支持 Groupby.aggregate 使用 median 的测试 (2/2)。(dask#10870) Hendrik Makait
允许 sort_values 中 ascending 的长度大于一。(dask#10864) Florian Jetter
允许在 Python 3.9 中引发其他消息。(dask#10862) Hendrik Makait
在病态情况下获取计算代码时不要崩溃。(distributed#8502) James Bourbeau
将 peter-evans/create-pull-request 从 5 升级到 6。(distributed#8494)
修复 cudf 溢出指标的测试。(distributed#8478) Mads R. B. Kristensen
升级到 pytest 8。(distributed#8482) crusaderky
修复 test_two_consecutive_clients_share_results。(distributed#8484) crusaderky
客户端单词混淆。(distributed#8481) templiert

2024.1.1¶

发布于 2024 年 1 月 26 日

亮点¶

支持 Pandas 2.2 和 Scipy 1.12¶

此版本包含针对最新 pandas 和 scipy 版本的兼容性更新。

详情见 dask#10834、dask#10849、dask#10845 和 distributed#8474 由 crusaderky 提交。

弃用项¶

弃用 apply 中的 convert_dtype。(dask#10827) Miles
弃用 DataFrame.rolling 中的 axis。(dask#10803) Miles
在大多数 DataFrame 方法中弃用 out= 和 dtype= 参数。(dask#10800) crusaderky
弃用 groupby 累积转换器中的 axis。(dask#10796) Miles
在剩余方法中将 shuffle 重命名为 shuffle_method。(dask#10797) Miles

其他变更

将推荐的部署选项添加到部署文档。(dask#10866) James Bourbeau
改进 _agg_finalize 以符合输出预期。(dask#10835) Hendrik Makait
为 hlg 实现确定性 tokenization。(dask#10817) Patrick Hoefler
重构：将 tokenize() 的测试移至其自己的模块。(dask#10863) crusaderky
更新 DataFrame 示例部分。(dask#10856) James Bourbeau
暂时将 mimesis 固定在 <13.1.0。(dask#10860) James Bourbeau
对 _testing.py 进行微小的代码风格调整。(dask#10857) crusaderky
解除跳过并调整使用 dask-expr 的 groupby-aggregate 测试，以包含 median。(dask#10832) Hendrik Makait
修复上游 CI 中 sizeof(pd.MultiIndex) 的测试。(dask#10850) crusaderky
numpy 2.0: 修复通过 uint64 数组切片的问题。(dask#10854) crusaderky
重命名 numpy 版本常量以匹配 pandas。(dask#10843) crusaderky
将 actions/cache 从 3 升级到 4。(dask#10852)
将 gpuCI RAPIDS_VER 更新到 24.04。(dask#10841)
修复 doctest 中的弃用。(dask#10844) crusaderky
numpy 2.x: 改变 dtype 算术。(dask#10831) crusaderky
调整 dask-expr 中支持 median 的测试。(dask#10839) Patrick Hoefler
调整 dask-expr 中支持 groupby-aggregate 使用 median 的测试。(dask#10840) Hendrik Makait
numpy 2.x: 修复 MaskedArray 的 std()。(dask#10837) crusaderky
如果测试失败，则使 dask-expr ci 失败。(dask#10829) Patrick Hoefler
导出测试时激活 query_planning。(dask#10833) Patrick Hoefler
暴露 dataframe 测试。(dask#10830) Patrick Hoefler
numpy 2: n 维 fft 函数中的弃用。(dask#10821) crusaderky
通用化 dask-expr 的 CreationDispatch。(dask#10794) Richard (Rick) Zamora
启用 dask-expr 时移除循环导入。(dask#10824) Miles
微小 [CI]：publish-test-results 未标记为失败。(dask#10825) Miles
修复更多测试以使用 pytest.warns()。(dask#10818) Michał Górny
np.unique(): 在 numpy 2 中，inverse 具有形状。(dask#10819) crusaderky
将 test_split_adaptive_files 限制为 pyarrow 引擎。(dask#10820) Patrick Hoefler
调整 dask/dask 中剩余的测试。(dask#10813) Patrick Hoefler
将测试仅限于 Arrow。(dask#10814) Patrick Hoefler
过滤 std 测试的警告。(dask#10815) Patrick Hoefler
主要调整索引测试。(dask#10790) Patrick Hoefler
更新部署文档。(dask#10778) Sarah Charlotte Johnson
解除文档构建的阻塞。(dask#10807) Miles
调整 test_to_datetime 以兼容 dask-expr。(dask#10805) Hendrik Makait
上游 CI 调整。(dask#10806) crusaderky
改进 to_numeric 的测试。(dask#10804) Hendrik Makait
修复测试报告缓存键缩进。(dask#10798) Miles
添加测试报告工作流。(dask#10783) Miles
处理矩阵子类序列化。(distributed#8480) Florian Jetter
在 P2P 中为分区列使用最小数据类型。(distributed#8479) Florian Jetter
pandas 2.2: 修复 test_dataframe_groupby_tasks。(distributed#8475) crusaderky
将 actions/cache 从 3 升级到 4。(distributed#8477)
pandas 2.2 对比 pyarrow 14: 弃用的 DatetimeTZBlock。(distributed#8476) crusaderky
pandas 2.2.0: 弃用频率别名 M，推荐使用 ME。(distributed#8473) Hendrik Makait
修复文档构建。(distributed#8472) Hendrik Makait
修复带有显式 npartitions 的基于 P2P 的连接。(distributed#8470) Hendrik Makait
在 test_report.py 脚本中忽略 dask-expr。(distributed#8464) Miles
微调：在测试报告环境中硬编码 Python 版本。(distributed#8462) crusaderky
更改 test_report.py - 在 dask/dask 仓库中跳过不良 artifact。(distributed#8461) Miles
替换所有 sys.is_finalizing 的出现。(distributed#8449) Florian Jetter

2024.1.0¶

发布于 2024 年 1 月 12 日

亮点¶

P2P 内的部分 rechunk¶

P2P rechunking 现在利用输入分块和输出分块之间的关系。对于不需要全对全数据传输的情况，这可以显著减少运行时间和内存/磁盘占用。它还支持任务剔除 (task culling)。

详情见 distributed#8330 由 Hendrik Makait 提交。

Fastparquet 引擎已弃用¶

已弃用 fastparquet Parquet 引擎。用户应通过安装 PyArrow 并移除 read_parquet 或 to_parquet 调用中的 engine="fastparquet" 来迁移到 pyarrow 引擎。

详情见 dask#10743 由 crusaderky 提交。

改进了任意数据的序列化¶

此版本改进了对任意数据的序列化鲁棒性。以前在某些情况下，非 msgpack 可序列化数据会导致序列化失败。在这些情况下，我们现在回退到使用 pickle。

详情见 dask#8447 由 Hendrik Makait 提交。

其他弃用项¶

在 DataFrame 方法中弃用 shuffle 关键字，推荐使用 shuffle_method。(dask#10738) Hendrik Makait
弃用 repartition 中的自动参数推断。(dask#10691) Patrick Hoefler
弃用 set_index 中的 compute 参数。(dask#10784) Miles
弃用 eval 中的 inplace。(dask#10785) Miles
弃用 Series.view。(dask#10754) Miles
弃用 set_index 和 sort_values 的 npartitions="auto"。(dask#10750) Miles

其他变更

避免任务 shuffle 中导致数据丢失的快捷方式。(dask#10763) Patrick Hoefler
排序时忽略数据任务。(dask#10706) Florian Jetter
从 dask-expr 添加 get_dummies。(dask#10791) Patrick Hoefler
调整 IO 测试以适应 dask-expr 迁移。(dask#10776) Patrick Hoefler
移除关于 groupby 中 sort 和 split_out 的弃用警告。(dask#10788) Patrick Hoefler
处理 pandas 弃用。(dask#10789) Patrick Hoefler
在 get_scheduler 中只导入一次 distributed。(dask#10771) Florian Jetter
简化 GitHub Actions。(dask#10781) crusaderky
添加单元测试概述。(dask#10769) Miles
清理 CI 中冗余的部分。(dask#10768) crusaderky
更新 ufunc 的测试。(dask#10773) Patrick Hoefler
使用 pytest.mark.skipif(DASK_EXPR_ENABLED)。(dask#10774) crusaderky
调整 dask-expr 的 shuffle 测试。(dask#10759) Patrick Hoefler
修复一些来自 pandas 的弃用警告。(dask#10749) Patrick Hoefler
调整 dask-expr 的 shuffle 测试。(dask#10762) Patrick Hoefler
更新 pre-commit。(dask#10767) Hendrik Makait
清理 CI 中的配置切换。(dask#10766) crusaderky
改进 validate_key 的异常信息。(dask#10765) Hendrik Makait
处理 set_index 中带有未知分区的 datetimeindexes。(dask#10757) Patrick Hoefler
添加小数的哈希处理。(dask#10758) Patrick Hoefler
检查 is_monotonic 的测试。(dask#10756) crusaderky
更改 value_counts_aggregate 中的参数顺序。(dask#10751) Patrick Hoefler
调整一些 groupby 测试以兼容 dask-expr。(dask#10752) Patrick Hoefler
对于 3.9 构建，将 mimesis 限制在 < 12。(dask#10755) Patrick Hoefler
不要在跳过条件中评估配置。(dask#10753) Patrick Hoefler
调整一些测试以与 dask-expr 兼容。(dask#10714) Patrick Hoefler
使 dask.array.utils 函数更通用，以适用于其他 Dask Array。(dask#10676) Matthew Rocklin
移除重复的“单机”部分。(dask#10747) Matthew Rocklin
微调 ORC engine= 参数。(dask#10746) crusaderky
添加 pandas 3.0 弃用项和为 dask-expr 准备迁移。(dask#10723) Miles
在文档首页添加任务图动画。(dask#10730) Sarah Charlotte Johnson
使用新的 Xarray logo。(dask#10729) James Bourbeau
更新“Dask 十分种入门”页面的 tab 样式。(dask#10728) James Bourbeau
更新 CI 中的环境文件上传步骤。(dask#10726) James Bourbeau
如果 split_out>1，不要在 GroupBy.nunique 中复制未观察到的类别。(dask#10716) Patrick Hoefler
dask.order 更新的更新日志条目。(dask#10715) Florian Jetter
在 _check_dsk 中放宽冗余键检查。(dask#10701) Richard (Rick) Zamora
修复 test_report.py。(distributed#8459) Miles
回滚 pickle 更改。(distributed#8456) Florian Jetter
调整 test_report.py 以支持 dask/dask 仓库。(distributed#8450) Miles
为 P2P shuffling 保持稳定排序。(distributed#8453) Hendrik Makait
为 scheduler 添加无 worker 超时。(distributed#8371) FTang21
允许维护者手动调度测试工作流。(distributed#8445) Erik Sundell
将 scheduler 相关的转换功能设为私有。(distributed#8448) Hendrik Makait
更新 pre-commit hooks。(distributed#8444) Hendrik Makait
pickle 时不要总是检查 __main__ in result。(distributed#8443) Florian Jetter
仅当实现时才将 wait_for_workers 委托给集群实例。(distributed#8441) Erik Sundell
延长 test_pandas 中的睡眠时间。(distributed#8440) Julian Gilbey
避免使用已弃用的 shuffle 关键字。(distributed#8439) Hendrik Makait
Shuffle 指标 4/4: 移除定制诊断。(distributed#8367) crusaderky
不在 testsuite 中运行 gilknocker。(distributed#8423) Florian Jetter
微调 abstractmethods。(distributed#8427) crusaderky
Shuffle 指标 3/4: 捕获后台指标。(distributed#8366) crusaderky
Shuffle 指标 2/4: 添加后台指标。(distributed#8365) crusaderky
Shuffle 指标 1/4: 添加前台指标。(distributed#8364) crusaderky
将 actions/upload-artifact 从 3 升级到 4。(distributed#8420)
修复 test_merge_p2p_shuffle_reused_dataframe_with_different_parameters。(distributed#8422) Hendrik Makait
扩展 Client.upload_file 文档示例。(distributed#8313) Miles
改进 P2P scheduler 插件中的日志记录。(distributed#8410) Hendrik Makait
重新启用 test_decide_worker_coschedule_order_neighbors。(distributed#8402) Florian Jetter
将 cuDF 溢出统计信息添加到 RMM/GPU 内存图中。(distributed#8148) Charles Blackmon-Luca
修复 Nanny 生成的 worker 的哈希不一致问题。(distributed#8400) Charles Stern
如果 worker 正在运行长时间任务 (例如 worker_client)，则不允许它们缩减。(distributed#7481) Florian Jetter
修复 flaky test_subprocess_cluster_does_not_depend_on_logging。(distributed#8417) crusaderky

2023.12.1¶

发布于 2023 年 12 月 15 日

亮点¶

Dask DataFrames 现在支持逻辑查询规划¶

通过使用逻辑查询规划器，Dask DataFrames 的性能现在大大提高。此功能目前默认关闭，但可以通过以下方式开启：

dask.config.set({"dataframe.query-planning": True})

您还需要安装 dask-expr

pip install dask-expr

到目前为止，我们看到了有希望的性能改进，详情请参阅这篇博客文章和这些定期更新的基准测试。关于查询优化器工作原理的更详细解释，可以在这篇博客文章中找到。

此功能仍在积极开发中，并且 API 尚不稳定，因此可能会发生重大更改。我们预计明年年初将查询优化器设为默认选项。

详情见 dask#10634 由 Patrick Hoefler 提交。

`read_parquet` 中的 Dtype 推断¶

read_parquet 现在将 Arrow 类型 pa.date32()、pa.date64() 和 pa.decimal() 在 pandas 中推断为 ArrowDtype。这些 dtype 由原始 Arrow 数组支持，从而避免了转换为 NumPy object。此外，read_parquet 将不再将嵌套和二进制类型推断为字符串，它们将存储在 NumPy object 数组中。

详情见 dask#10698 和 dask#10705 由 Patrick Hoefler 提交。

调度改进以减少内存使用¶

此版本包含对我们调度逻辑核心部分的重大重写。它包括 dask.order 中拓扑排序算法的新方法，该算法决定任务运行的顺序。不当的排序被认为是导致集群内存压力过大的主要原因之一。

此版本的更新修复了 2023.10.0 版本中引入的一些性能回归 (参见 dask#10535)。通常，现在计算应该更倾向于在不再需要时尽快释放内存中的数据。

详情见 dask#10660 和 dask#10697 由 Florian Jetter 提交。

改进了基于 P2P 的合并的鲁棒性和性能¶

此版本包含多项更新，修复了 2023.9.2 中引入的潜在死锁，并提高了集群动态扩展时基于 P2P 的合并的鲁棒性。

详情见 distributed#8415、distributed#8416 和 distributed#8414 由 Hendrik Makait 提交。

移除了禁用 pickle 选项¶

distributed.scheduler.pickle 配置选项不再受支持。从 2023.4.0 版本开始，使用 pickle 传输任务图，因此无法再禁用。当 distributed.scheduler.pickle 设置为 False 时，我们现在会引发一个信息性错误。

详情见 distributed#8401 由 Florian Jetter 提交。

其他变更

为近期 P2P 合并修复添加更新日志条目。(dask#10712) Hendrik Makait
更新 DataFrame 页面。(dask#10710) Matthew Rocklin
为 dask-expr 切换添加更新日志条目。(dask#10704) Patrick Hoefler
改进 PipInstall 更改的更新日志条目。(dask#10711) Hendrik Makait
移除 PR labeler。(dask#10709) James Bourbeau
为 Delayed 对象添加 .__wrapped__。(dask#10695) Andrew S. Rosen
将 actions/labeler 从 4.3.0 升级到 5.0.0。(dask#10689)
将 actions/stale 从 8 升级到 9。(dask#10690)
[Dask.order] 从排序中移除不可运行的叶节点。(dask#10697) Florian Jetter
更新安装文档。(dask#10699) Matthew Rocklin
修复文档中的软件环境链接。(dask#10700) James Bourbeau
避免为 read_parquet 将非字符串转换为 arrow 字符串。(dask#10692) Patrick Hoefler
将 xarray-contrib/issue-from-pytest-log 从 1.2.7 升级到 1.2.8。(dask#10687)
修复 pd.DateOffset 的 tokenize。(dask#10664) jochenott
写入空数组到 zarr 的 Bugfix。(dask#10506) Ben
文档更新，样式调整，提及 free。(dask#10679) Matthew Rocklin
更新部署文档。(dask#10680) Matthew Rocklin
使用关键路径方法重写 Dask.order。(dask#10660) Florian Jetter
避免替换多次出现的键。(dask#10646) Florian Jetter
在文档中添加缺失的图片。(dask#10694) Matthew Rocklin
将 actions/setup-python 从 4 升级到 5。(dask#10688)
更新着陆页。(dask#10674) Matthew Rocklin
简化 dispatch 中的 meta 检查。(dask#10638) Patrick Hoefler
固定 PR Labeler。(dask#10675) Matthew Rocklin
稍微重组文档索引。(dask#10669) Matthew Rocklin
将 actions/setup-java 从 3 升级到 4。(dask#10667)
将 conda-incubator/setup-miniconda 从 2.2.0 升级到 3.0.1。(dask#10668)
将 xarray-contrib/issue-from-pytest-log 从 1.2.6 升级到 1.2.7。(dask#10666)
修复使用 nightly pyarrow 时的 test_categorize_info。(dask#10662) James Bourbeau
重写 test_subprocess_cluster_does_not_depend_on_logging。(distributed#8409) Hendrik Makait
在使用 tblib=3 时，避免在 SpillBuffer 中 pickle 键失败时出现 RecursionError。(distributed#8404) Hendrik Makait
允许任务覆盖 is_rootish 启发式算法。(distributed#8412) Hendrik Makait
移除 GPU 执行器。(distributed#8399) Hendrik Makait
subprocess cluster 不依赖日志记录。(distributed#8398) Hendrik Makait
将 gpuCI RAPIDS_VER 更新到 24.02。(distributed#8384)
将 actions/setup-python 从 4 升级到 5。(distributed#8396)
确保 P2P rechunking 中的输出分块均匀分布。(distributed#8207) Florian Jetter
微小：修复拼写错误。(distributed#8395) crusaderky
将 JamesIves/github-pages-deploy-action 从 4.4.3 升级到 4.5.0。(distributed#8387)
将 conda-incubator/setup-miniconda 从 3.0.0 升级到 3.0.1。(distributed#8388)

2023.12.0¶

发布于 2023 年 12 月 1 日

亮点¶

PipInstall 重启和环境变量¶

distributed.PipInstall 插件现在具有更鲁棒的重启逻辑，并且还支持环境变量。

下面展示了用户如何使用 distributed.PipInstall 插件和 TOKEN 环境变量来安全地安装来自私有仓库的包

from dask.distributed import PipInstall
plugin = PipInstall(packages=["private_package@git+https://${TOKEN}@github.com/dask/private_package.git])
client.register_plugin(plugin)

详情见 distributed#8374、distributed#8357 和 distributed#8343 由 Hendrik Makait 提交。

Bokeh 3.3.0 兼容性¶

此版本包含使用 bokeh>=3.3.0 与代理 Dask dashboard 的兼容性更新。之前 dashboard 图的内容无法显示。

详情见 distributed#8347 和 distributed#8381 由 Jacob Tomlinson 提交。

2023.11.0¶

发布于 2023 年 11 月 10 日

亮点¶

零拷贝 P2P 数组 Rechunking¶

使用内存中 P2P 数组 rechunking 时，用户应能看到显著的性能提升。这是因为不再复制底层数据缓冲区。

下面是一个简单的示例，我们比较了不同 rechunking 方法的性能。

shape = (30_000, 6_000, 150) # 201.17 GiB
input_chunks = (60, -1, -1) # 411.99 MiB
output_chunks = (-1, 6, -1) # 205.99 MiB

arr = da.random.random(size, chunks=input_chunks)
with dask.config.set({
    "array.rechunk.method": "p2p",
    "distributed.p2p.disk": True,
}):
    (
      da.random.random(size, chunks=input_chunks)
      .rechunk(output_chunks)
      .sum()
      .compute()
    )

A comparison of rechunking performance between the different methods tasks, p2p with disk and p2p without disk on different cluster sizes. The graph shows that p2p without disk is up to 60% faster than the default tasks based approach.

详情请参阅来自 crusaderky 的 distributed#8282、distributed#8318、distributed#8321 以及来自 Hendrik Makait 的 (distributed#8322)。

弃用 PyArrow <14.0.1¶

从本版本开始，弃用 pyarrow<14.0.1 的使用。建议所有用户升级其 pyarrow 版本或安装 pyarrow-hotfix。完整详情请参阅此 CVE。

详情请参阅来自 Florian Jetter 的 dask#10622。

改进的 PyArrow 文件系统用于 Parquet¶

现在使用 filesystem="arrow" 读取 Parquet 数据集时，可以正确推断访问远程云托管数据时的正确云区域。

详情请参阅来自 Richard (Rick) Zamora 的 dask#10590。

改进 P2P Shuffle 中的类型协调¶

详情请参阅来自 Hendrik Makait 的 distributed#8332。

2023.10.1¶

发布于 2023 年 10 月 27 日

亮点¶

Python 3.12¶

此版本增加了对 Python 3.12 的官方支持。

详情请参阅来自 Thomas Grainger 的 dask#10544 和 distributed#8223。

2023.10.0¶

发布于 2023 年 10 月 13 日

亮点¶

降低多数组规约的内存压力¶

此版本包含 Dask 任务图调度逻辑的重大更新。这些更新显著降低了数组规约的内存压力。我们预计这将对数组计算社区产生强烈影响。

详情请参阅来自 Florian Jetter 的 dask#10535。

改进 P2P Shuffle 的鲁棒性¶

有几项更新（如下所列）使得 P2P shuffle 更具鲁棒性，并且更不容易失败。

详情请参阅来自 Hendrik Makait 的 distributed#8262、distributed#8264、distributed#8242、distributed#8244 和 distributed#8235，以及来自 Charles Blackmon-Luca 的 distributed#8124。

降低大型图的调度器 CPU 负载¶

计算大型任务图时，用户应能看到调度器上的 CPU 负载降低。

详情请参阅来自 Florian Jetter 的 distributed#8238 和 dask#10547，以及来自 crusaderky 的 distributed#8240。

2023.9.3¶

发布于 2023 年 9 月 29 日

亮点¶

恢复先前的配置覆盖行为¶

2023.9.2 版本在 dask.config.get 中使用 override_with= 关键字覆盖配置选项时引入了一个无意中破坏性更改（参见 dask#10519）。此版本恢复了先前的行为。

详情请参阅来自 crusaderky 的 dask#10521。

Dask Array 规约中的复杂 dtypes¶

此版本改进了对 Dask Array 中常见规约（例如 var、std、moment）使用复杂 dtypes 的支持。

详情请参阅来自 wkrasnicki 的 dask#10009。

2023.9.2¶

发布于 2023 年 9 月 15 日

亮点¶

如果安装了过时的 PyArrow，P2P shuffle 现在会引发错误¶

以前，如果安装了旧版本的 pyarrow，默认的 shuffle 方法会静默回退到基于任务的 shuffle。现在，我们不再静默回退，而是引发一个信息性错误，指明 P2P 所需的最小 pyarrow 版本。

详情请参阅来自 Hendrik Makait 的 dask#10496。

admin.traceback.shorten 的弃用周期¶

2023.9.0 版本修改了 admin.traceback.shorten 配置选项，但没有引入弃用周期。这导致在某些情况下无法创建 Dask 集群。此版本为此配置更改引入了弃用周期。

详情请参阅来自 crusaderky 的 dask#10509。

2023.9.1¶

发布于 2023 年 9 月 6 日

注意

这是一个热修复版本，修复了 2023.9.0 版本引入的 P2P shuffle bug（参见 dask#10493）。

增强功能¶

更严格的 dask keys 数据类型 (dask#10485) crusaderky
对 DASK_ 环境变量中的 None 进行特殊处理 (dask#10487) crusaderky

Bug 修复¶

修复 DataFrame.set_index 和 DataFrame.sort_values 中 meta 的 _partitions dtype 问题 (dask#10493) Hendrik Makait
处理 derived_from 中的 cached_property 装饰器 (dask#10490) Lawrence Mitchell

维护¶

将 actions/checkout 从 3.6.0 提升到 4.0.0 (dask#10492)
简化一些 import distributed 的测试 (dask#10484) crusaderky

2023.9.0¶

发布于 2023 年 9 月 1 日

Bug 修复¶

移除对 key 中 np.int64 的支持 (dask#10483) crusaderky
修复 shuffle 中 meta 的 _partitions dtype 问题 (dask#10462) Hendrik Makait
不使用异常钩子来缩短追溯信息 (dask#10456) crusaderky

文档¶

在 DataFrame 文档中添加 p2p shuffle 选项 (dask#10477) Patrick Hoefler

维护¶

跳过 pandas=2.1.0 失败的测试 (dask#10488) Patrick Hoefler
更新 pandas=2.1.0 的测试 (dask#10439) Patrick Hoefler
启用 pytest-timeout (dask#10482) crusaderky
将 actions/checkout 从 3.5.3 提升到 3.6.0 (dask#10470)

2023.8.1¶

发布于 2023 年 8 月 18 日

增强功能¶

为 cpu_count 添加 cgroup v2 支持 (dask#10419) Johan Olsson
支持多列 groupby 并带有 sort=True 和 split_out>1 (dask#10425) Richard (Rick) Zamora
添加 DataFrame.enforce_runtime_divisions 方法 (dask#10404) Richard (Rick) Zamora
允许 Dask DataFrame to_csv 在 single_file=True 的情况下使用文件 mode="x" (dask#10443) Genevieve Buckley

Bug 修复¶

修复在追加模式下运行 to_csv 并将 single_file 设置为 True 时出现的 ValueError 问题 (dask#10441) Ben

维护¶

为 pandas 添加默认的 types_mapper 到 from_pyarrow_table_dispatch (dask#10446) Richard (Rick) Zamora

2023.8.0¶

发布于 2023 年 8 月 4 日

增强功能¶

修复 make_timeseries 性能回归问题 (dask#10428) Irina Truong

文档¶

将 distributed.print 添加到调试文档中 (dask#10435) James Bourbeau
记录 NumPy 函数与 Dask 函数的兼容性 (dask#9941) Chiara Marmo

维护¶

在 license 元数据中使用 SPDX (dask#10437) John A Kirkham
在 dask[dataframe] 中要求 dask[array] (dask#10357) John A Kirkham
更新 gpuCI RAPIDS_VER 到 23.10 (dask#10427)
简化兼容性代码 (dask#10426) Hendrik Makait
修复兼容性变量命名问题 (dask#10424) Hendrik Makait
修复上游 pandas 和 pyarrow 的一些错误 (dask#10412) Irina Truong

2023.7.1¶

发布于 2023 年 7 月 20 日

注意

此版本更新了 Dask DataFrame，如果安装了 pandas>=2 和 pyarrow>=12，它会自动将使用 object 数据类型的文本数据转换为 string[pyarrow]。

这应能显著降低许多处理文本数据的工作流的内存消耗，并提高计算性能。

您可以通过将 dataframe.convert-string 配置值设置为 False 来禁用此更改

dask.config.set({"dataframe.convert-string": False})

增强功能¶

如果安装了适当的依赖项，转换为 pyarrow 字符串 (dask#10400) James Bourbeau
对于 p2p，避免在 shuffle 之前进行 repartition (dask#10421) Patrick Hoefler
生成随机 Dask DataFrames 的 API (dask#10392) Irina Truong
加速 dask.bag.Bag.random_sample (dask#10356) crusaderky
为无效的时间单位引发有用的 ValueError (dask#10408) Nat Tabris
当 divisions 匹配时（divisions 作为列表提供），使 repartition 成为空操作 (dask#10395) Nicolas Grandemange

Bug 修复¶

在 read_parquet token 中使用 dataframe.convert-string (dask#10411) James Bourbeau
连接 MultiIndex 时 Category dtype 丢失 (dask#10407) Irina Truong
修复 FutureWarning: The provided callable... (dask#10405) Irina Truong
在 read_parquet 中启用非分类的 hive 分区列 (dask#10353) Richard (Rick) Zamora
concat 忽略不带列的 DataFrame (dask#10359) Patrick Hoefler

2023.7.0¶

发布于 2023 年 7 月 7 日

增强功能¶

捕获尝试加载 CLI 入口点时的异常 (dask#10380) Jacob Tomlinson

Bug 修复¶

修复 _clean_ipython_traceback 中的拼写错误 (dask#10385) Alexander Clausen
确保 from_pandas 后 df 是不可变的 (dask#10383) Patrick Hoefler
在 Series.rename 中对 inplace 一致地发出警告 (dask#10313) Patrick Hoefler

文档¶

在 rechunk 文档中添加关于输出形状和重塑的说明 (dask#10377) Swayam Patil

维护¶

简化 astype 实现 (dask#10393) Patrick Hoefler
修复 test_first_and_last 以适应已弃用的 last (dask#10373) James Bourbeau
将 level 添加到 create_merge_tree (dask#10391) Patrick Hoefler
不从 scipy.stats.chisquare docstring 中派生文档 (dask#10382) Doug Davis

2023.6.1¶

发布于 2023 年 6 月 26 日

增强功能¶

移除不再支持的 clip_lower 和 clip_upper (dask#10371) Patrick Hoefler
支持 DataFrame.set_index(..., sort=False) (dask#10342) Miles
清理远程追溯信息 (dask#10354) Irina Truong
添加用于 pyarrow.Table 转换的调度机制 (dask#10312) Richard (Rick) Zamora
即使启用了 fusion，也选择 P2P (dask#10344) Hendrik Makait
在图生成早期验证 rechunking 是否可能 (dask#10336) Hendrik Makait

Bug 修复¶

修复 header 传递给 read_csv 的问题 (dask#10355) GALI PREM SAGAR
在 GroupBy.var 和 GroupBy.std 中尊重 dropna 和 observed (dask#10350) Patrick Hoefler
修复使用分布式客户端写入 hdf 时出现的 H5FD_lock 错误 (dask#10309) Irina Truong
修复 bag.map() 的 total_mem_usage 问题 (dask#10341) Irina Truong

弃用¶

弃用带有 method 的 DataFrame.fillna/Series.fillna (dask#10349) Irina Truong
弃用 DataFrame.first 和 Series.first (dask#10352) Irina Truong

维护¶

弃用 numpy.compat (dask#10370) Irina Truong
修复注解和 spans 在线程间泄露的问题 (dask#10367) Irina Truong
在 pyarrow_table_dispatch 函数中使用通用 kwargs (dask#10364) Richard (Rick) Zamora
移除 isna 中不必要的 try/except (dask#10363) Patrick Hoefler
对 numpy 1.25 的 mypy 支持 (dask#10362) crusaderky
将 actions/checkout 从 3.5.2 提升到 3.5.3 (dask#10348)
恢复 upstream 构建中的 numba (dask#10330) James Bourbeau
更新 pandas/numpy/scipy 的 nightly wheel 索引 (dask#10346) Matthew Roeschke
将 rechunk 配置值添加到 yaml 中 (dask#10343) Hendrik Makait

2023.6.0¶

发布于 2023 年 6 月 9 日

增强功能¶

为 read_parquet 添加缺失的 not in 谓词支持 (dask#10320) Richard (Rick) Zamora

Bug 修复¶

修复不正确的 value_counts 问题 (dask#10323) Irina Truong
更新空的 describe 的 top 和 freq 值 (dask#10319) James Bourbeau

文档¶

修复 hetzner 拼写错误 (dask#10332) Sarah Charlotte Johnson

维护¶

在 Python 3.11 上测试 numba 和 sparse (dask#10329) Thomas Grainger
移除 numpy.find_common_type 警告忽略 (dask#10311) James Bourbeau
更新 gpuCI RAPIDS_VER 到 23.08 (dask#10310)

2023.5.1¶

发布于 2023 年 5 月 26 日

注意

此版本停止支持 Python 3.8。自此版本起，Dask 支持 Python 3.9、3.10 和 3.11。详情请参阅此社区问题。

增强功能¶

停止支持 Python 3.8 (dask#10295) Thomas Grainger
更改 Dask Bag 分区方案以提高集群饱和度 (dask#10294) Jacob Tomlinson
通用化 GPU 支持集合的 dd.to_datetime，引入 get_meta_library 工具函数 (dask#9881) Charles Blackmon-Luca
为 DataFrame.map 添加 na_action (dask#10305) Patrick Hoefler
在 DataFrame.nsmallest 和 DataFrame.nlargest 未给定 columns 时引发 TypeError (dask#10301) Patrick Hoefler
改进 pd.MultiIndex 的 sizeof (dask#10230) Patrick Hoefler
支持多种 DataFrame 方法中的重复列 (dask#10261) Patrick Hoefler
为 DataFrame.idxmin 和 DataFrame.idxmax 添加 numeric_only 支持 (dask#10253) Patrick Hoefler
为 DataFrame.quantile 实现 numeric_only 支持 (dask#10259) Patrick Hoefler
为 DataFrame.std 添加 numeric_only=False 支持 (dask#10251) Patrick Hoefler
为 GroupBy.cumprod 和 GroupBy.cumsum 实现 numeric_only=False (dask#10262) Patrick Hoefler
为 skew 和 kurtosis 实现 numeric_only (dask#10258) Patrick Hoefler
mask 和 where 应接受 callable (dask#10289) Irina Truong
修复 read_parquet 中从 Categorical 到 pa.dictionary 的转换问题 (dask#10285) Patrick Hoefler

Bug 修复¶

嵌套注解上的虚假配置 (dask#10318) crusaderky
修复已知和未知 chunk 大小的维度上的 rechunking 行为问题 (dask#10157) Hendrik Makait
使 drop 支持分区不匹配 (dask#10300) James Bourbeau
修复 to_timestamp 的 divisions 构造问题 (dask#10304) Patrick Hoefler
pandas ExtensionDtype 在 Series 规约操作中引发错误 (dask#10149) Patrick Hoefler
修复 da.random 接口的回归问题 (dask#10247) Eray Aslan
da.coarsen 不会修剪 meta 中的空 chunk (dask#10281) Irina Truong
修复 read_csv 中 engine="pyarrow" 的 dtype 推断问题 (dask#10280) Patrick Hoefler

文档¶

将 meta_from_array 添加到 API 文档中 (dask#10306) Ruth Comer
更新 Coiled 链接 (dask#10296) Sarah Charlotte Johnson
添加 demo day 的文档 (dask#10288) Matthew Rocklin

维护¶

上传 conda nightly 时，明确从 conda-forge 安装 anaconda-client (dask#10316) Charles Blackmon-Luca
配置 isort 添加 from __future__ import annotations (dask#10314) Thomas Grainger
在测试中避免 pandas Series.__getitem__ 弃用 (dask#10308) James Bourbeau
忽略 pandas 中的 numpy.find_common_type 警告 (dask#10307) James Bourbeau
添加测试以检查 DataFrame.__setitem__ 不会修改 df 原位 (dask#10223) Patrick Hoefler
清理 value_counts 中 dropna 的默认值 (dask#10299) Patrick Hoefler
将 pytest-cov 添加到 test 额外项中 (dask#10271) James Bourbeau

2023.5.0¶

发布于 2023 年 5 月 12 日

改进¶

为 GroupBy.corr 和 GroupBy.cov 实现 numeric_only=False (dask#10264) Patrick Hoefler
在 DataFrame.var 中添加对 numeric_only=False 的支持 (dask#10250) Patrick Hoefler
向 DataFrame.mode 添加 numeric_only 支持 (dask#10257) Patrick Hoefler
将 DataFrame.map 添加到 dask.DataFrame API 中 (dask#10246) Patrick Hoefler
调整以适应 DataFrame.applymap 的弃用和所有 NA concat 行为变更 (dask#10245) Patrick Hoefler
启用 DataFrame.count 的 numeric_only=False (dask#10234) Patrick Hoefler
禁止在 mask/where 中输入数组 (dask#10163) Irina Truong
支持 GroupBy.corr 和 GroupBy.cov 中的 numeric_only=True (dask#10227) Patrick Hoefler
向 GroupBy.median 添加 numeric_only 支持 (dask#10236) Patrick Hoefler
在 dask.datasets 中支持 mimesis=9 (dask#10241) James Bourbeau
向 min, max 和 prod 添加 numeric_only 支持 (dask#10219) Patrick Hoefler
为 GroupBy.cumsum 和 GroupBy.cumprod 添加 numeric_only=True 支持 (dask#10224) Patrick Hoefler
添加辅助函数来解包 numeric_only 关键字 (dask#10228) Patrick Hoefler

Bug 修复¶

修复 clone + from_array 失败 (dask#10211) crusaderky
修复 ea 数据类型的 dataframe 归约 (dask#10150) Patrick Hoefler
避免在 numpy=1.25 中出现标量转换弃用警告 (dask#10248) James Bourbeau
确保 transform 输出具有与输入相同的索引 (dask#10184) Irina Truong
修复在单行分区上的 corr 和 cov (dask#9756) Irina Truong
修复 test_groupby_numeric_only_supported 和 test_groupby_aggregate_categorical_observed 上游错误 (dask#10243) Irina Truong

文档¶

清理 futures 文档 (dask#10266) Matthew Rocklin
添加 Index API 参考 (dask#10263) hotpotato

维护¶

当 meta 传递给 apply 时发出警告 (dask#10256) Patrick Hoefler
删除 CI 中的 imageio 版本限制 (dask#10260) Patrick Hoefler
删除未使用的 DataFrame 方差方法 (dask#10252) Patrick Hoefler
解除激活了 pyarrow 字符串和 pyarrow>=12 的 test_categories 的 xfail 标记 (dask#10244) Irina Truong
提升 gpuCI PYTHON_VER 3.8->3.9 (dask#10233) Charles Blackmon-Luca

2023.4.1¶

发布于 2023 年 4 月 28 日

改进¶

为 DataFrame.sum 实现 numeric_only 支持 (dask#10194) Patrick Hoefler
为 GroupBy 操作添加 numeric_only=True 支持 (dask#10222) Patrick Hoefler
对于 pandas 1.4 及更高版本，在 DataFrame.__setitem__ 中避免深拷贝 (dask#10221) Patrick Hoefler
避免使用 _meta_nonempty 调用 Series.apply (dask#10212) Patrick Hoefler
解除 sqlalchemy 版本锁定并修复兼容性问题 (dask#10140) Patrick Hoefler

Bug 修复¶

部分还原默认客户端发现 (dask#10225) Florian Jetter
在 Index meta 创建中支持 arrow 数据类型 (dask#10170) Patrick Hoefler
当截断浮点数时，使用扩展数据类型进行重新分区会引发错误 (dask#10169) Patrick Hoefler
将来自 fastparquet 的空 Index 调整为 object 数据类型 (dask#10179) Patrick Hoefler

文档¶

更新 Kubernetes 文档 (dask#10232) Jacob Tomlinson
将 DataFrame.reduction 添加到 API 文档中 (dask#10229) James Bourbeau
将 DataFrame.persist 添加到文档中并修复链接 (dask#10231) Patrick Hoefler
添加 GroupBy.transform 的文档 (dask#10185) Irina Truong
修复随机数生成文档中的格式问题 (dask#10189) Eray Aslan

维护¶

将 imageio 版本锁定在 <2.28 (dask#10216) Patrick Hoefler
添加关于 importlib_metadata 反向移植的说明 (dask#10207) James Bourbeau
将 xarray 添加回 Python 3.11 CI 构建中 (dask#10200) James Bourbeau
添加包含所有可选依赖项的 mindeps 构建 (dask#10161) Charles Blackmon-Luca
在 percentiles_summary 中为 array_safe 提供合适的 like 值 (dask#10156) Charles Blackmon-Luca
避免在 read_hdf 中多次重新打开 hdf 文件 (dask#10205) Thomas Grainger
添加可空列上的 merge 测试 (dask#10071) Charles Blackmon-Luca
修复 coverage 配置 (dask#10203) Thomas Grainger
删除 is_period_dtype 和 is_sparse_dtype (dask#10197) Patrick Hoefler
提升 actions/checkout 从 3.5.0 到 3.5.2 (dask#10201)
避免使用来自 pandas 的已弃用的 is_categorical_dtype (dask#10180) Patrick Hoefler
调整以适应已弃用的 is_interval_dtype 和 is_datetime64tz_dtype (dask#10188) Patrick Hoefler

2023.4.0¶

发布于 2023 年 4 月 14 日

改进¶

覆盖 update_defaults 中的旧默认值 (dask#10159) Gabe Joseph
添加 CLI 命令以从 dask 配置中 list 和 get 值 (dask#9936) Irina Truong
处理 read_json 的基于字符串的引擎参数 (dask#9947) Richard (Rick) Zamora
避免使用已弃用的 GroupBy.dtypes (dask#10111) Irina Truong

Bug 修复¶

还原与 grouper 相关的更改 (dask#10182) Irina Truong
修复 GroupBy.cov 在非数值分组列上引发错误的问题 (dask#10171) Patrick Hoefler
更新以支持 numpy 数字数据类型的 Index (dask#10154) Irina Truong
使用 pyarrow 读取分区列时保留 dtype (dask#10115) Patrick Hoefler
修复 to_hdf 的注解 (dask#10123) Hendrik Makait
检查列是否全为数值时处理 None 列名 (dask#10128) Lawrence Mitchell
修复当传递 tuple 时 valid_divisions 的问题 (dask#10126) Brian Phillips
在 DataFrame.categorize 中维护注解 (dask#10120) Hendrik Makait
修复过滤期间处理缺失的 min/max parquet 统计信息的问题 (dask#10042) Richard (Rick) Zamora

弃用¶

弃用 use_nullable_dtypes= 并添加 dtype_backend= (dask#10076) Irina Truong
弃用 Series.apply 中的 convert_dtype (dask#10133) Irina Truong

文档¶

记录基于 Generator 的随机数生成 (dask#10134) Eray Aslan

维护¶

将 dataframe.convert_string 更新为 dataframe.convert-string (dask#10191) Irina Truong
将 python-cityhash 添加到 CI 环境中 (dask#10190) Charles Blackmon-Luca
暂时锁定 scikit-image 版本以修复 Windows CI (dask#10186) Patrick Hoefler
处理 to_pydatetime 和 apply 的 pandas 弃用警告 (dask#10168) Patrick Hoefler
取消 bokeh<3 限制 (dask#10177) James Bourbeau
修复写时复制下的测试失败 (dask#10173) Patrick Hoefler
允许 pyarrow CI 失败 (dask#10176) James Bourbeau
在 dask.array 中切换到使用 Generator 进行随机数生成 (dask#10003) Eray Aslan
提升 peter-evans/create-pull-request 从 4 到 5 (dask#10166)
修复 test_arithmetic 中不稳定的 modf 操作 (dask#10162) Irina Truong
使用 pandas 2.0 时临时从 CI 中移除 xarray (dask#10153) James Bourbeau
修复 test_default_scheduler_on_worker 中的 update_graph 计数逻辑 (dask#10145) James Bourbeau
修复使用 pandas 2.0 构建文档的问题 (dask#10138) James Bourbeau
从 gpuCI 更新审阅者中移除 dask/gpu (dask#10135) Charles Blackmon-Luca
将 gpuCI RAPIDS_VER 更新到 23.06 (dask#10129)
提升 actions/stale 从 6 到 8 (dask#10121)
使用声明式 setuptools (dask#10102) Thomas Grainger
放宽对类似 Scalar 对象的 assert_eq 检查 (dask#10125) Matthew Rocklin
将 readthedocs 配置升级到 ubuntu 22.04 和 Python 3.11 (dask#10124) Thomas Grainger
提升 actions/checkout 从 3.4.0 到 3.5.0 (dask#10122)
修复 pyarrow CI 构建中的 test_null_partition_pyarrow 问题 (dask#10116) Irina Truong
放弃分布式包 (dask#9988) Florian Jetter
将 dask.compatibility 设为私有 (dask#10114) Jacob Tomlinson

2023.3.2¶

发布于 2023 年 3 月 24 日

改进¶

弃用对具有分类数据的 groupby 使用 observed=False (dask#10095) Irina Truong
弃用对某些分组操作使用 axis= (dask#10094) James Bourbeau
DataFrame.rolling/Series.rolling 中的 axis 关键字已弃用 (dask#10110) Irina Truong
DataFrame._data 在 pandas 中弃用 (dask#10081) Irina Truong
使用 importlib_metadata 反向移植以避免 CLI UserWarning 用户警告 (dask#10070) Thomas Grainger
将选项解析逻辑从 dask.dataframe.read_parquet 移植到 to_parquet (dask#9981) Anton Loukianov

Bug 修复¶

在 groupby-apply 中避免使用 dd.shuffle (dask#10043) Richard (Rick) Zamora
启用具有 pyarrow parquet 引擎的空 hive 分区 (dask#10007) Richard (Rick) Zamora
支持 *_like 函数中的未知形状 (dask#10064) Doug Davis

文档¶

将 to_backend 方法添加到 API 文档中 (dask#10093) Lawrence Mitchell
删除开发人员文档中损坏的 gpuCI 链接 (dask#10065) Charles Blackmon-Luca

维护¶

将 readthedocs sphinx 警告配置为错误 (dask#10104) Thomas Grainger
解除激活了 pyarrow 字符串的 test_division_or_partition 的 xfail 标记 (dask#10108) Irina Truong
解除激活了 pyarrow 字符串的 test_different_columns_are_allowed 的 xfail 标记 (dask#10109) Irina Truong
恢复 Entrypoints 兼容性 (dask#10113) Jacob Tomlinson
解除激活了 pyarrow 字符串的 test_to_dataframe_optimize_graph 的 xfail 标记 (dask#10087) Irina Truong
仅在可编辑安装上运行 test_development_guidelines_matches_ci (dask#10106) Charles Blackmon-Luca
解除激活了 pyarrow 字符串的 test_dataframe_cull_key_dependencies_materialized 的 xfail 标记 (dask#10088) Irina Truong
在 CI 环境中安装 mimesis (dask#10105) Charles Blackmon-Luca
修复没有名为 ipykernel 的模块的问题 (dask#10101) Irina Truong
通过安装 ipykernel 修复文档构建问题 (dask#10103) Thomas Grainger
允许 pyarrow 构建在失败时继续 (dask#10097) James Bourbeau
提升 actions/checkout 从 3.3.0 到 3.4.0 (dask#10096)
修复激活了 pyarrow 字符串的 test_set_index_on_empty 问题 (dask#10054) Irina Truong
解除 pyarrow pickle 测试的 xfail 标记 (dask#10082) James Bourbeau
CI 环境文件清理 (dask#10078) James Bourbeau
解除更多 pyarrow 测试的 xfail 标记 (dask#10066) Irina Truong
使用 p`andas 2.0 时临时跳过 pyarrow_compat 测试 (dask#10063) James Bourbeau
修复激活了 pyarrow 字符串的 test_melt 问题 (dask#10052) Irina Truong
修复激活了 pyarrow 字符串的 test_str_accessor 问题 (dask#10048) James Bourbeau
修复激活了 pyarrow 字符串的 test_better_errors_object_reductions 问题 (dask#10051) James Bourbeau
修复激活了 pyarrow 字符串的 test_loc_with_non_boolean_series 问题 (dask#10046) James Bourbeau
修复激活了 pyarrow 字符串的 test_values 问题 (dask#10050) James Bourbeau
暂时将 test_upstream_packages_installed 标记为 xfail (dask#10047) James Bourbeau

2023.3.1¶

发布于 2023 年 3 月 10 日

改进¶

在 MultiIndex 中支持 pyarrow 字符串 (dask#10040) Irina Truong
改进了对 pyarrow 字符串的支持 (dask#10000) Irina Truong
修复数组归约期间不稳定的 RuntimeWarning (dask#10030) James Bourbeau
扩展 complete 额外项 (dask#10023) James Bourbeau
当使用 dataframe.convert-string=True 和 pandas<2.0 时引发错误 (dask#10033) Irina Truong
将 shuffle/rechunk 配置选项/关键字参数重命名为 method (dask#10013) James Bourbeau
添加将 pandas 扩展数据类型转换为数组的初始支持 (dask#10018) James Bourbeau
删除对 randomgen 的支持 (dask#9987) Eray Aslan

Bug 修复¶

当重分块到具有未知大小的相同块时跳过重分块 (dask#10027) Hendrik Makait
用于将 parquet 过滤器转换为 pyarrow 表达式的自定义工具 (dask#9885) Richard (Rick) Zamora
在填充时将 numpy 标量和 0d 数组视为标量 (dask#9653) Justus Magin
修复自适应 read_parquet 操作后的 parquet 覆盖行为 (dask#10002) Richard (Rick) Zamora

文档¶

添加和更新数据传输部分的文档 (dask#10022) Miles

维护¶

从 pyarrow parquet 引擎中删除过时的 hive 分区代码 (dask#10039) Richard (Rick) Zamora
将支持的最小 pyarrow 版本提高到 7.0 (dask#10024) James Bourbeau
还原“准备删除 packunpack (dask#9994)” (dask#10037) Florian Jetter
让 codecov 在报告前等待更多构建 (dask#10031) James Bourbeau
准备删除 packunpack (dask#9994) Florian Jetter
添加打开 pyarrow 字符串的 CI 作业 (dask#10017) James Bourbeau
修复 pandas 2.0 的 test_groupby_dropna_with_agg (dask#10001) Irina Truong
修复 pandas 2.0 的 test_pickle_roundtrip (dask#10011) James Bourbeau

2023.3.0¶

发布于 2023 年 3 月 1 日

Bug 修复¶

Bag 不应将 p2p 选为 shuffle 默认值 (dask#10005) Florian Jetter

文档¶

P2P 默认设置的小幅跟进 (dask#10008) James Bourbeau

维护¶

为可选的 jinja2 依赖项添加最小版本 (dask#9999) Charles Blackmon-Luca

2023.2.1¶

发布于 2023 年 2 月 24 日

注意

此版本将默认的 DataFrame shuffle 算法更改为 p2p，以提高稳定性和性能。在此了解更多信息，并请在此讨论中提供反馈。

如果您在使用此新算法时遇到问题，请参阅文档获取更多信息，以及如何切换回旧模式。

改进¶

默认启用 P2P shuffling (dask#9991) Florian Jetter
P2P rechunking (dask#9939) Hendrik Makait
对 read_parquet 的 dataframe.convert-string 高效支持 (dask#9979) Irina Truong
允许 DataFrame 合并使用 p2p shuffle 关键字参数 (dask#9900) Florian Jetter
将 split_row_groups 默认值更改为 "infer" (dask#9637) Richard (Rick) Zamora
添加用于将字符串数据转换为使用 pyarrow 字符串的选项 (dask#9926) James Bourbeau
添加对多列 sort_values 的支持 (dask#8263) Charles Blackmon-Luca
在 ``dask.array`` 中基于 Generator 的随机数生成 (dask#9038) Eray Aslan
支持 numeric_only 用于简单分组聚合以实现 pandas 2.0 兼容性 (dask#9889) Irina Truong

Bug 修复¶

修复分析器图表与上下文管理器进入时间未对齐的问题 (dask#9739) David Hoese
放宽 dask.dataframe assert_eq 类型检查 (dask#9989) Matthew Rocklin
恢复 describe 对 pandas 2.0 的兼容性 (dask#9982) James Bourbeau

文档¶

改进部署 Dask 的文档 (dask#9912) Sarah Charlotte Johnson
关于 DataFrame.partitions 的更多文档 (dask#9976) Tom Augspurger
更新文档，提供更多关于默认 Delayed 调度器的信息 (dask#9903) Guillaume Eynard-Bontemps
部署考虑事项文档 (dask#9933) Gabe Joseph

维护¶

暂时重新运行不稳定的测试 (dask#9983) James Bourbeau
更新 FULL_RAPIDS_VER/FULL_UCX_PY_VER 的解析 (dask#9990) Charles Blackmon-Luca
将支持的最小版本提高到 pandas=1.3 和 numpy=1.21 (dask#9950) James Bourbeau
修复 std 以便与 numeric_only 一起工作，用于 pandas 2.0 (dask#9960) Irina Truong
暂时将 test_roundtrip_partitioned_pyarrow_dataset 标记为 xfail (dask#9977) James Bourbeau
修复 test_idxmaxmin 中的写时复制失败 (dask#9944) Patrick Hoefler
提升 pre-commit 版本 (dask#9955) crusaderky
修复 pandas 2.0 的 test_groupby_unaligned_index (dask#9963) Irina Truong
解除 pandas 2.0 的 test_set_index_overlap_2 的 xfail 标记 (dask#9959) James Bourbeau
修复 pandas 2.0 的 test_merge_by_index_patterns (dask#9930) Irina Truong
提升 jacobtomlinson/gha-find-replace 从 2 到 3 (dask#9953) James Bourbeau
修复 test_rolling_agg_aggregate 以实现 pandas 2.0 兼容性 (dask#9948) Irina Truong
提升 black 到 23.1.0 (dask#9956) crusaderky
在 python 3.8 和 3.10 上运行 GPU 测试 (dask#9940) Charles Blackmon-Luca
修复 pandas 2.0 的 test_to_timestamp (dask#9932) Irina Truong
修复 groupby value_counts 在 pandas 2.0 兼容性方面的错误 (dask#9928) Irina Truong
配置转换器：将所有短划线替换为下划线 (dask#9945) Jacob Tomlinson
CI：在上游测试构建中使用夜间轮子安装 pyarrow (dask#9873) Joris Van den Bossche

2023.2.0¶

发布于 2023 年 2 月 10 日

改进¶

更新 quantile 中 numeric_only 的默认值，用于 pandas 2.0 (dask#9854) Irina Truong
当分区匹配时，将 repartition 设为无操作 (dask#9924) James Bourbeau
更新 describe 中 datetime_is_numeric 的行为，用于 pandas 2.0 (dask#9868) Irina Truong
更新 value_counts 以在 pandas 2.0 中返回正确的名称 (dask#9919) Irina Truong
在 pandas 2.0 中支持某些归约的新 axis=None 行为 (dask#9867) James Bourbeau
在块级别过滤掉所有 NaN 的 RuntimeWarning，用于 nanmin 和 nanmax (dask#9916) Julia Signell
修复 pandas 2.0 的数值 meta_nonempty 索引创建 (dask#9908) James Bourbeau
修复 pandas 2.0 的 DataFrame.info() 测试 (dask#9909) James Bourbeau

Bug 修复¶

修复 GroupBy.value_counts 处理多个 groupby 列的问题 (dask#9905) Charles Blackmon-Luca

文档¶

修复开发指南中一些过时信息/拼写错误 (dask#9893) Patrick Hoefler
在 drop_duplicates docstring 中添加关于 keep=False 的说明 (dask#9887) Jayesh Manani
将 meta 详细信息添加到 dask Array (dask#9886) Jayesh Manani
澄清任务流显示行数多于线程数的问题 (dask#9906) Gabe Joseph

维护¶

修复 pandas 2.0 的 test_numeric_column_names (dask#9937) Irina Truong
修复 pandas 2.0 的 dask/dataframe/tests/test_utils_dataframe.py 测试 (dask#9788) James Bourbeau
将 index.is_numeric 替换为 is_any_real_numeric_dtype 以实现 pandas 2.0 兼容性 (dask#9918) Irina Truong
在 dask utils 中避免导入 pd.core (dask#9907) Matthew Roeschke
对拉取请求上的 upstream 构建使用标签 (dask#9910) James Bourbeau
扩大对 sqlalchemy.exc.RemovedIn20Warning 异常的捕获范围 (dask#9904) James Bourbeau
在 CI 中暂时限制 sqlalchemy < 2 (dask#9897) James Bourbeau
将 isort 版本更新到 5.12.0 (dask#9895) Lawrence Mitchell
删除 read_csv 中未使用的 skiprows 变量 (dask#9892) Patrick Hoefler

2023.1.1¶

发布于 2023 年 1 月 27 日

改进¶

向 Array 和 _Frame 添加 to_backend 方法 (dask#9758) Richard (Rick) Zamora
修复 pandas 2.0 中时间戳索引分区的微小问题 (dask#9872) Irina Truong
向 DataFrame.cov 和 DataFrame.corr 添加 numeric_only (dask#9787) James Bourbeau
与 pandas 2.0 中 group_keys 默认值更改相关的修复 (dask#9855) Irina Truong
infer_datetime_format 对 pandas 2.0 的兼容性 (dask#9783) James Bourbeau

Bug 修复¶

修复 BroadcastJoinLayer 中的序列化 bug (dask#9871) Richard (Rick) Zamora
满足 DataFrame.merge 中的 broadcast 参数 (dask#9852) Richard (Rick) Zamora
修复 pyarrow parquet 列统计信息的计算 (dask#9772) aywandji

文档¶

修复 collection backend 文档中的 url 链接拼写错误 (dask#9748) Shawn
修复“Defining a new collection backend”文档中的代码格式问题 (dask#9864) Chiara Marmo
更新仪表板关于内存图表的文档 (dask#9768) Jayesh Manani
添加关于 no-worker 任务的文档部分 (dask#9839) Florian Jetter

维护¶

检测 distributed 调度器的额外更新 (dask#9890) James Bourbeau
将 gpuCI RAPIDS_VER 更新到 23.04 (dask#9876)
反转集合和 distributed 默认值之间的优先级 (dask#9869) Florian Jetter
将 xarray-contrib/issue-from-pytest-log 更新到版本 1.2.6 (dask#9865) James Bourbeau
不需要 dask 配置 shuffle 默认值 (dask#9826) Florian Jetter
为新的 fastparquet 解除 datetime64 Parquet 往返测试的 xfail 标记 (dask#9811) James Bourbeau
添加手动运行 upstream CI 构建的选项 (dask#9853) James Bourbeau
在 CI 构建中使用自定义超时 (dask#9844) James Bourbeau
从 make_blockwise_graph 中移除 kwargs (dask#9838) Florian Jetter
在 test_setitem_extended_API_2d_mask 的 persist 调用中忽略警告 (dask#9843) Charles Blackmon-Luca
修复本地运行 S3 测试的问题 (dask#9833) James Bourbeau

2023.1.0¶

发布于 2023 年 1 月 13 日

改进¶

即使未设置配置也使用 distributed 默认客户端 (dask#9808) Florian Jetter
实现 ma.where 和 ma.nonzero (dask#9760) Erik Holmgren
更新 zarr 存储创建函数 (dask#9790) Ryan Abernathey
iteritems 对 pandas 2.0 的兼容性 (dask#9785) James Bourbeau
pandas string[python] 数据类型的精确 sizeof (dask#9781) crusaderky
压缩对 pandas 对象类型的重复引用的 sizeof() (dask#9776) crusaderky
GroupBy.__getitem__ 对 pandas 2.0 的兼容性 (dask#9779) James Bourbeau
append 对 pandas 2.0 的兼容性 (dask#9750) James Bourbeau
get_dummies 对 pandas 2.0 的兼容性 (dask#9752) James Bourbeau
is_monotonic 对 pandas 2.0 的兼容性 (dask#9751) James Bourbeau
numpy=1.24 兼容性 (dask#9777) James Bourbeau

文档¶

删除 to_json docstring 中重复的 encoding 关键字参数 (dask#9796) Sultan Orazbayev
在 LocalCluster 文档中提及 SubprocessCluster (dask#9784) Hendrik Makait
将 Prometheus 文档移至 dask/distributed (dask#9761) crusaderky

维护¶

在 test_setitem_extended_API_2d_mask 中暂时忽略 RuntimeWarning (dask#9828) James Bourbeau
修复不稳定的 test_threaded.py::test_interrupt (dask#9827) Hendrik Makait
更新 upstream 报告中的 xarray-contrib/issue-from-pytest-log (dask#9822) James Bourbeau
在 gpuCI 构建上通过 pip 安装 dask (dask#9816) Charles Blackmon-Luca
提升 actions/checkout 从 3.2.0 到 3.3.0 (dask#9815)
解决 mindeps 测试中的 sqlalchemy 导入失败问题 (dask#9809) Charles Blackmon-Luca
忽略 sqlalchemy.exc.RemovedIn20Warning (dask#9801) Thomas Grainger
将 datetime64 Parquet 往返测试标记为 xfail，用于 pandas 2.0 (dask#9786) James Bourbeau
删除 sqlachemy 1.3 兼容性 (dask#9695) McToel
减小预期 DoK 稀疏矩阵的大小 (dask#9775) Elliott Sales de Andrade
删除 dask/dataframe/io/orc/utils.py 中的可执行标志 (dask#9774) Elliott Sales de Andrade

2022.12.1¶

发布于 2022 年 12 月 16 日

改进¶

支持 dtype_backend="pandas|pyarrow" 配置 (dask#9719) James Bourbeau
在 dask.dataframe 中支持将 cupy.ndarray 调度到 cudf.DataFrame (dask#9579) Richard (Rick) Zamora
在 read_parquet 中使文件系统后端可配置 (dask#9699) Richard (Rick) Zamora
高效序列化所有 pyarrow 扩展数组 (dask#9740) James Bourbeau

Bug 修复¶

修复使用 tz 感知 datetime 索引进行重新分区时的 bug (dask#9741) James Bourbeau
aggs 中的部分函数可能带有参数 (dask#9724) Irina Truong
添加对使用 pyarrow 支持的扩展数据类型进行简单操作的支持 (dask#9717) James Bourbeau
在 SeriesGroupby 的情况下正确重命名列 (dask#9716) Lawrence Mitchell

文档¶

修复 collection backend 文档中的 url 链接拼写错误 (dask#9748) Shawn
更新 Prometheus 文档 (dask#9696) Hendrik Makait

维护¶

将 zarr 添加到 Python 3.11 CI 环境中 (dask#9771) James Bourbeau
添加对 Python 3.11 的支持 (dask#9708) Thomas Grainger
升级 actions/checkout 从 3.1.0 到 3.2.0 (dask#9753)
避免 np.bool8 弃用警告 (dask#9737) James Bourbeau
确保 upstream CI 构建中不会覆盖开发包 (dask#9731) James Bourbeau
在测试期间避免添加 data.h5 和 mydask.html 文件 (dask#9726) Thomas Grainger

2022.12.0¶

发布于 2022 年 12 月 2 日

功能增强¶

从 read_parquet 中移除基于统计的 set_index 逻辑 (dask#9661) Richard (Rick) Zamora
为 dd.read_parquet 添加对 use_nullable_dtypes 的支持 (dask#9617) Ian Rose
修复 map_overlap 以接受 pandas 参数 (dask#9571) Fabien Aulaire
修复 pandas 1.5+ 中 .str.split(..., expand=True) 的 FutureWarning (dask#9704) Jacob Hayes
为 groupby 切片启用列投影 (dask#9667) Richard (Rick) Zamora
支持重复列的累积函数 (dask#9685) Ben
改进后端调度调用失败的错误消息 (dask#9677) Richard (Rick) Zamora

错误修复¶

改进 arrow parquet 引擎中的元数据创建 (dask#9672) Richard (Rick) Zamora
修复 da.fft.fft 对于类似数组的输入 (dask#9688) James Bourbeau
修复按名称对索引进行分组时的 groupby 聚合 (dask#9646) Richard (Rick) Zamora

维护¶

在 test_inheriting_class 中避免 PytestReturnNotNoneWarning (dask#9707) Thomas Grainger
修复不稳定的 test_dataframe_aggregations_multilevel (dask#9701) Richard (Rick) Zamora
升级 mypy 版本 (dask#9697) crusaderky
在 test_map_partitions_df_input 中禁用仪表板 (dask#9687) James Bourbeau
在 upstream 构建中使用最新的 xarray-contrib/issue-from-pytest-log (dask#9682) James Bourbeau
对 upstream scipy xfail ttest_1samp (dask#9670) James Bourbeau
更新 gpuCI RAPIDS_VER 到 23.02 (dask#9678)

2022.11.1¶

发布于 2022 年 11 月 18 日

功能增强¶

限制对 bokeh=3 的支持 (dask#9673) Gabe Joseph
fastparquet 演进的更新 (dask#9650) Martin Durant

维护¶

更新 gpuCI 更新工作流中的 ga-yaml-parser 步骤 (dask#9675) Charles Blackmon-Luca
还原 importlib.metadata 变通方案 (dask#9658) James Bourbeau
修复 mindeps-distributed CI 构建以处理 numpy/pandas 未安装的情况 (dask#9668) James Bourbeau

2022.11.0¶

发布于 2022 年 11 月 15 日

功能增强¶

泛化 from_dict 实现以允许从其他后端使用 (dask#9628) GALI PREM SAGAR

错误修复¶

在 dask.dataframe.core 中避免使用 pandas 构造函数 (dask#9570) Richard (Rick) Zamora
修复带有 Timestamp 数据的 sort_values (dask#9642) James Bourbeau
泛化数组检查并移除 _get_partitions 中的 pd.Index 调用 (dask#9634) Benjamin Zaitlen
修复 read_csv 在 header=0 和 names 时的行为 (dask#9614) Richard (Rick) Zamora

文档¶

更新仪表板排队文档 (dask#9660) Gabe Joseph
从 docstrings 中移除 import dask as d (dask#9644) Matthew Rocklin
修复 read_parquet docstring 中指向分区文档的链接 (dask#9636) qheuristics
在 array/bag/dataframe 部分添加 API 文档链接 (dask#9630) Matthew Rocklin

维护¶

使用 conda-incubator/setup-miniconda@v2.2.0 (dask#9662) John A Kirkham
允许 bokeh=3 (dask#9659) James Bourbeau
使用 Python 3.10 运行 upstream 构建 (dask#9655) James Bourbeau
在 mindeps 测试中固定 pyyaml 版本 (dask#9640) Charles Blackmon-Luca
添加 pre-commit 以捕获 breakpoint() (dask#9638) James Bourbeau
升级 xarray-contrib/issue-from-pytest-log 从 1.1 到 1.2 (dask#9635)
移除 blosc 引用 (dask#9625) Naty Clementi
升级 mypy 并删除未使用的注释 (dask#9616) Hendrik Makait
加固 test_repartition_npartitions (dask#9585) Richard (Rick) Zamora

2022.10.2¶

发布于 2022 年 10 月 31 日

这是一个热修复，此仓库中没有更改。必要的修复在 dask/distributed 中，但我们决定为了保持一致性而提高此版本号。

2022.10.1¶

发布于 2022 年 10 月 28 日

功能增强¶

启用命名聚合语法 (dask#9563) ChrisJar
为 set_index 添加扩展 dtype 支持 (dask#9566) James Bourbeau
重新设计数组 HTML repr 以提高清晰度 (dask#9519) Shingo OKAWA

错误修复¶

修复与空左 DataFrame 的 merge (dask#9578) Ian Rose

文档¶

添加关于默认限制线程超额订阅的注意事项 (dask#9592) James Bourbeau
为 dask CLI 使用 sphinx-click (dask#9589) James Bourbeau
修复 Semaphore API 文档 (dask#9584) James Bourbeau
在 map_overlap docstring 中渲染元描述 (dask#9568) James Bourbeau

维护¶

Dask 中需要 Click 7.0+ (dask#9595) John A Kirkham
临时限制 bokeh<3 (dask#9607) James Bourbeau
解决 upstream CI 中与 importlib 相关的失败 (dask#9604) Charles Blackmon-Luca
改进 upstream CI 报告 (dask#9603) James Bourbeau
修复 upstream CI 报告 (dask#9602) James Bourbeau
移除 setuptools 主机依赖，添加 CLI 入口点 (dask#9600) Charles Blackmon-Luca
更多 Backend 调度类类型注解 (dask#9573) Ian Rose

2022.10.0¶

发布于 2022 年 10 月 14 日

新功能¶

Dask-Array 和 Dask-DataFrame 中 IO 的后端库调度 (dask#9475) Richard (Rick) Zamora
添加可扩展的新 CLI (dask#9283) Doug Davis

功能增强¶

Groupby 中位数 (dask#9516) Ian Rose
修复数组复制不是无操作的问题 (dask#9555) David Hoese
在 map_overlap 中添加对字符串 timedelta 的支持 (dask#9559) Nicolas Grandemange
基于 shuffle 的单函数 groupby (dask#9504) Ian Rose
使 datetime.datetime 幂等地进行 tokenization (dask#9532) Martin Durant
支持 tokenizing datetime.time (dask#9528) Tim Paine

错误修复¶

避免延迟调度注册中的竞态条件 (dask#9545) James Bourbeau
不允许对 int dtype 进行 np.nan 的 setitem (dask#9531) Doug Davis
稳定的 demo 列投影 (dask#9538) Ian Rose
确保 delayed 中的 binops 可 pickle (dask#9540) Ian Rose
修复选择时投影 CSV 列的问题 (dask#9534) Martin Durant

文档¶

更新 Parquet 最佳实践 (dask#9537) Matthew Rocklin

维护¶

限制 tiledb-py 版本以避免 CI 失败 (dask#9569) James Bourbeau
升级 actions/github-script 从 3 到 6 (dask#9564)
升级 actions/stale 从 4 到 6 (dask#9551)
升级 peter-evans/create-pull-request 从 3 到 4 (dask#9550)
升级 actions/checkout 从 2 到 3.1.0 (dask#9552)
升级 codecov/codecov-action 从 1 到 3 (dask#9549)
升级 the-coding-turtle/ga-yaml-parser 从 0.1.1 到 0.1.2 (dask#9553)
移动 dependabot 配置文件 (dask#9547) James Bourbeau
为 GitHub actions 添加 dependabot (dask#9542) James Bourbeau
在 Windows 和 Linux 上运行 mypy (dask#9530) crusaderky
更新 gpuCI RAPIDS_VER 到 22.12 (dask#9524)

2022.9.2¶

发布于 2022 年 9 月 30 日

功能增强¶

从数组自动分块中移除因子分解逻辑 (dask#9507) James Bourbeau

文档¶

添加关于在独立 Python 脚本中运行 Dask 的文档 (dask#9513) James Bourbeau
澄清自定义图多进程示例 (dask#9511) nouman

维护¶

Groupby sort 上游兼容性 (dask#9486) Ian Rose

2022.9.1¶

发布于 2022 年 9 月 16 日

新功能¶

添加 DataFrame 和 Series 的 median 方法 (dask#9483) James Bourbeau

功能增强¶

Shuffle groupby 默认设置 (dask#9453) Ian Rose
按列表过滤 (dask#9419) Greg Hayes
将 distributed.utils.key_split 功能添加到 dask.utils.key_split (dask#9464) Luke Conibear

错误修复¶

修复重叠问题，使 set_index 不会丢弃行 (dask#9423) Julia Signell
修复当 ddf.columns.min() 引发异常时将 pandas Series 分配给列的问题 (dask#9485) Erik Welch
修复元数据比较 stack_partitions (dask#9481) James Bourbeau
为 split_out 提供默认值 (dask#9493) Lawrence Mitchell

弃用¶

允许 split_out 为 None，此时在 groupby().aggregate() 中默认为 1 (dask#9491) Ian Rose

文档¶

修复 enforce_metadata 文档，不检查 dtypes (dask#9474) Nicolas Grandemange
修复 it's -> its 拼写错误 (dask#9484) Nat Tabris

维护¶

解决使用某些 datetime series 而不是其他系列时 parquet 写入失败的变通方法 (dask#9500) Ian Rose
过滤掉来自 pandas 的 numeric_only 警告 (dask#9496) James Bourbeau
在非必要时避免使用 set_index(..., inplace=True) (dask#9472) James Bourbeau
避免传递长度为一的 groupby 键列表 (dask#9495) James Bourbeau
基于 cudf 对 group_keys 的支持更新 test_groupby_dropna_cudf (dask#9482) James Bourbeau
移除 dd.from_bcolz (dask#9479) James Bourbeau
将 flake8-bugbear 添加到 pre-commit 钩子 (dask#9457) Luke Conibear
在函数定义中绑定循环变量 (B023) (dask#9461) Luke Conibear
添加断言用于比较 (B015) (dask#9459) Luke Conibear
在 CI 工作流中设置顶层默认 shell (dask#9469) James Bourbeau
移除未使用的循环控制变量 (B007) (dask#9458) Luke Conibear
替换常量属性的 getattr 调用 (B009) (dask#9460) Luke Conibear
固定 libprotobuf 以允许 upstream CI 构建中使用 nightly pyarrow (dask#9465) Joris Van den Bossche
替换默认参数的可变数据结构 (B006) (dask#9462) Luke Conibear
更改 flake8 镜像并更新版本 (dask#9456) Luke Conibear

2022.9.0¶

发布于 2022 年 9 月 2 日

功能增强¶

为 groupby 聚合启用自动列投影 (dask#9442) Richard (Rick) Zamora
在 NEP-13/17 调度中接受超类 (dask#6710) Gabe Joseph

错误修复¶

为了在相同的 by 列上进行累积操作，内部重命名 by 列 (dask#9430) Pavithra Eswaramoorthy
修复带有分类数据的 get_group (dask#9436) Pavithra Eswaramoorthy
修复与缓存相关的 MaterializedLayer.cull 性能退化 (dask#9413) Richard (Rick) Zamora

文档¶

添加维护者文档页面 (dask#9309) James Bourbeau

维护¶

还原跳过的 fastparquet 测试 (dask#9439) Pavithra Eswaramoorthy
tmpfile 在空扩展名时不会以点结尾文件 (dask#9429) Hendrik Makait
跳过最新版本中失败的 fastparquet 测试 (dask#9432) James Bourbeau

2022.8.1¶

发布于 2022 年 8 月 19 日

新功能¶

实现 ma.*_like functions (dask#9378) Ruth Comer

功能增强¶

合并兼容的注解 (dask#9402) Ian Rose
基于 Shuffle 的高基数组 groupby 聚合 (dask#9302) Richard (Rick) Zamora
解包 namedtuple (dask#9361) Hendrik Makait

错误修复¶

修复带有 axis=1 的 SeriesGroupBy 累积函数 (dask#9377) Pavithra Eswaramoorthy
稀疏数组缩减 (dask#9342) Ian Rose
修复在使用带有索引的分类列时的 make_meta (dask#9348) Pavithra Eswaramoorthy
不允许在 DataFrame.dropna 中使用不兼容的关键字 (dask#9366) Naty Clementi
使 set_index 处理完全空的 dataframe (dask#8896) Julia Signell
改进 unpack_collections 中的 dataclass 处理 (dask#9345) Hendrik Makait
修复存在一些较小分区时的 bag 采样问题 (dask#9349) Ian Rose
为 da.min/da.max 函数添加对空分区的支持 (dask#9268) geraninam

文档¶

澄清 bind() 等函数会重新生成键 (dask#9385) crusaderky
合并仪表板诊断文档 (dask#9357) Sarah Charlotte Johnson
移除过时的 meta 信息 Pavithra Eswaramoorthy

维护¶

在 sizeof 中使用 entry_points 工具 (dask#9390) James Bourbeau
添加 entry_points 兼容性工具 (dask#9388) Jacob Tomlinson
为每个 CI 构建上传环境文件 artifact (dask#9372) James Bourbeau
移除 CI 中的 werkzeug pin (dask#9371) James Bourbeau
修复 dd.from_pandas 和 dd.from_delayed 的类型注解 (dask#9362) Jordan Yap

2022.8.0¶

发布于 2022 年 8 月 5 日

功能增强¶

确保 make_meta 不持有数据的引用 (dask#9354) Jim Crist-Harif
修改 from_pandas 中的 divisions 逻辑 (dask#9221) Richard (Rick) Zamora
如果用户使用现有索引设置索引则发出警告 (dask#9341) Julia Signell
为 da.average 添加 keepdims 关键字 (dask#9332) Ruth Comer
更改 repr 方法以避免 Layer 实例化 (dask#9289) Richard (Rick) Zamora

错误修复¶

确保 order kwarg 不会导致 astype 方法崩溃 (dask#9317) Genevieve Buckley
修复 cumsum 在 cupy 分块 dask 数组上的 bug (dask#9320) Genevieve Buckley
在 _sample_reduce 中匹配输入和输出结构 (dask#9272) Pavithra Eswaramoorthy
在数组序列化中包含 meta (dask#9240) Frédéric BRIOL
修复 Index.memory_usage (dask#9290) James Bourbeau
修复 dask.dataframe.io.from_dask_array 中的 division 计算 (dask#9282) Jordan Yap

文档¶

如何在自定义任务图中使用 kwargs (dask#9322) Genevieve Buckley
在 da.from_array 中添加关于顺序不保留的注意事项 (dask#9346) Julia Signell
为异步函数添加 I/O 信息 (dask#9326) Logan Norman
整理 futures IO 函数的文档片段 (dask#9340) Julia Signell
在 dataframe-groupby.rst 中对 pandas df 和 Dask ddf 使用一致的变量名 (dask#9304) ivojuroro
在配置转换器中将 js-yaml 替换为 yaml.js (dask#9306) Jacob Tomlinson

维护¶

更新 da.linalg.solve 以兼容 SciPy 1.9.0 (dask#9350) Pavithra Eswaramoorthy
更新 test_getitem_avoids_large_chunks_missing (dask#9347) Pavithra Eswaramoorthy
修复文档标题“Extend sizeof”的格式 Doug Davis
在测试中导入 loop_in_thread fixture (dask#9337) James Bourbeau
临时 xfail test_solve_sym_pos (dask#9336) Pavithra Eswaramoorthy
修复 10分钟上手 Dask 页面中的一个小拼写错误 (dask#9329) Shaghayegh
在 CI 中临时固定 werkzeug 以避免测试套件挂起 (dask#9325) James Bourbeau
为 cupy.angle() 添加测试 (dask#9312) Peter Andreas Entschev
更新 gpuCI RAPIDS_VER 到 22.10 (dask#9314)
将 pandas[test] 添加到 test extra (dask#9110) Ben Beasley
将 bokeh 和 scipy 添加到 upstream CI 构建 (dask#9265) James Bourbeau

2022.7.1¶

发布于 2022 年 7 月 22 日

功能增强¶

如果所有轴都被压缩，则返回 Dask 数组 (dask#9250) Pavithra Eswaramoorthy
使 toposort 报告的循环更短 (dask#9068) Erik Welch
未知分块切片 - 抛出信息性错误 (dask#9285) Naty Clementi

错误修复¶

修复 HighLevelGraph.cull 中的 bug (dask#9267) Richard (Rick) Zamora
排序分类 (dask#9264) Pavithra Eswaramoorthy
使用 max (而不是 sum) 计算 warnsize (dask#9235) Pavithra Eswaramoorthy
修复使用 pyarrow 对分区列进行过滤时的 bug (dask#9252) Richard (Rick) Zamora

文档¶

更新 repartition 文档以添加关于 partition_size 的注意事项 (dask#9288) Dylan Stewart
不要在 Array 方法中包含文档，只引用模块文档 (dask#9244) Julia Signell
移除过时的 scheduler 和 worker 仪表板引用 (dask#9278) Pavithra Eswaramoorthy
修复一些拼写错误 (dask#9270) Tim Gates
添加一个使用 numpy 方法的自定义聚合示例 (dask#9260) geraninam

维护¶

为 dd.from_pandas 和 dd.from_delayed 添加类型注解 (dask#9237) Michael Milton
更新 calculate_divisions docstring (dask#9275) Tom Augspurger
为即将发布的 bokeh 版本更新 test_plot_multiple (dask#9261) James Bourbeau
为常见数组属性添加类型提示 (dask#9255) Illviljan

2022.7.0¶

发布于 2022 年 7 月 8 日

功能增强¶

在 normalize_token 中支持 pathlib.PurePath (dask#9229) Angus Hollands
为属性添加 AttributeNotImplementedError，以便 IPython glob 搜索正常工作 (dask#9231) Erik Welch
map_overlap: 多 dataframe 处理 (dask#9145) Fabien Aulaire
在 dask.sizeof 中读取 entrypoints (dask#7688) Angus Hollands

错误修复¶

修复使用 Client(processes=False) 写入 parquet 数据集时出现的 TypeError: 'Serialize' object is not subscriptable (dask#9015) Lucas Miguel Ponce
与空 dataframe 进行 concat 时校正 dtypes (dask#9193) Pavithra Eswaramoorthy

文档¶

突出显示关于 persist 的注意事项 (dask#9234) Pavithra Eswaramoorthy
更新 release-procedure 以包含更多细节和有用的命令 (dask#9215) Julia Signell
Futures 和 Dask vs. Spark 页面的更好 SEO (dask#9217) Sarah Charlotte Johnson

维护¶

对列表、元组和迭代器使用 math.prod 而不是 np.prod (dask#9232) crusaderky
仅在类型检查时导入 IPython (dask#9230) Florian Jetter
更严格的 mypy 检查 (dask#9206) crusaderky

2022.6.1¶

发布于 2022 年 6 月 24 日

功能增强¶

Dask 在 pyodide 中 (dask#9053) Ian Rose
创建 dask.utils.show_versions (dask#9144) Sultan Orazbayev
为 dask.dataframe 对象上不支持的 numpy 操作提供更好的错误消息。 (dask#9201) Julia Signell
为 dask.array.overlap 函数添加 allow_rechunk kwarg (dask#7776) Genevieve Buckley
为 dask.utils.format_time 添加分钟和小时 (dask#9116) Matthew Rocklin
向远程文件系统写入 parquet 时增加重试次数 (dask#9175) Ian Rose

错误修复¶

Timedelta 确定性哈希 (dask#9213) Fabien Aulaire
Enum 确定性哈希 (dask#9212) Fabien Aulaire
shuffle_group(): 避免转换为数组 (dask#9157) Mads R. B. Kristensen

弃用¶

弃用额外的 format_time 工具 (dask#9184) James Bourbeau

文档¶

10分钟上手 Dask 的更好 SEO (dask#9182) Sarah Charlotte Johnson
Delayed 和 Best Practices 的更好 SEO (dask#9194) Sarah Charlotte Johnson
在 DataFrame str.split accessor docstring 中包含已知不一致性 (dask#9177) Richard Pelgrim
为 derived_from 添加 inconsistencies 关键字 (dask#9192) Richard Pelgrim
在 delayed 最佳实践示例中添加缺失的 append (dask#9202) Ben
修复 Best Practices 中的缩进 (dask#9196) Sarah Charlotte Johnson
添加指向 Genevieve Buckley 关于 chunk sizes 博客的链接 (dask#9199) Pavithra Eswaramoorthy
更新 to_csv docstring (dask#9094) Sarah Charlotte Johnson

维护¶

更新 versioneer：从使用 SafeConfigParser 更改为 ConfigParser (dask#9205) Thomas A Caswell
移除 CI 中的 ipython hack (dask#9200) crusaderky

2022.6.0¶

发布于 2022 年 6 月 10 日

功能增强¶

添加在 HLG JupyterLab repr 中显示层依赖名称的功能 (dask#9081) Angelos Omirolis
添加 arrow schema 提取调度 (dask#9169) GALI PREM SAGAR
为 assert_eq 添加 sort_results 参数 (dask#9130) Pavithra Eswaramoorthy
为 parse_timedelta 添加周 (dask#9168) Matthew Rocklin
警告 cloudpickle 不总是确定性的 (dask#9148) Pavithra Eswaramoorthy
切换 parquet 默认引擎 (dask#9140) Jim Crist-Harif
使用确定性哈希处理 _iLocIndexer / _LocIndexer (dask#9108) Fabien Aulaire
在 to_parquet pyarrow 中强制执行一致的 schema (dask#9131) Jim Crist-Harif

错误修复¶

修复 pyarrow.StringArray pickle (dask#9170) Jim Crist-Harif
修复 pyarrow 引擎中的并行元数据收集 (dask#9165) Richard (Rick) Zamora
改进 pyarrow 分区逻辑 (dask#9147) James Bourbeau
pyarrow 8.0 分区修复 (dask#9143) James Bourbeau

文档¶

Installing Dask 和 Dask DataFrame Best Practices 的更好 SEO (dask#9178) Sarah Charlotte Johnson
更新文档中的 logos 页面 (dask#9167) Sarah Charlotte Johnson
在 map_partition docstring 中添加使用 pandas Series 的示例 (dask#9161) Alex-JG3
更新文档主题以适应品牌重塑 (dask#9160) Sarah Charlotte Johnson
Dask DataFrames 文档的更好 SEO (dask#9128) Sarah Charlotte Johnson

维护¶

从下游库的推荐实践中移除 ensure_file (dask#9171) Matthew Rocklin
测试 DataFrame parquet I/O 的往返，包括 pyspark (dask#9156) Ian Rose
尝试禁用 HDF5 锁定 (dask#9154) Ian Rose
将最佳实践链接到 DataFrame-parquet (dask#9150) Tom Augspurger
修复 map_partitions func 参数描述中的拼写错误 (dask#9149) Christopher Akiki
取消 xfail test_groupby_grouper_dispatch (dask#9139) GALI PREM SAGAR
临时从 distributed 导入 cleanup fixture (dask#9138) James Bourbeau
简化 pyarrow parquet 引擎中的分区逻辑 (dask#9041) Richard (Rick) Zamora

2022.05.2¶

发布于 2022 年 5 月 26 日

功能增强¶

为非 pandas Grouper 对象添加调度并在 GroupBy 中使用 (dask#9074) brandon-b-miller
如果 read_parquet 和 to_parquet 文件有交集则报错 (dask#9124) Jim Crist-Harif
使用 ipycytoscape 可视化任务图 (dask#9091) Ian Rose

文档¶

修复各种拼写错误 (dask#9126) Ryan Russell

维护¶

修复不稳定的 test_filter_nonpartition_columns (dask#9127) Pavithra Eswaramoorthy
更新 gpuCI RAPIDS_VER 到 22.08 (dask#9120)
在 sdists 中包含 conftest.py` (dask#9115) Ben Beasley

2022.05.1¶

发布于 2022 年 5 月 24 日

新功能¶

添加 DataFrame.from_dict 类方法 (dask#9017) Matthew Powers
为 Dask DataFrame 添加 from_map 函数 (dask#8911) Richard (Rick) Zamora

功能增强¶

改进 to_parquet 在附加 divisions 重叠时的错误消息 (dask#9102) Jim Crist-Harif
启用用户定义的进程初始化函数 (dask#9087) ParticularMiner
在 map_partitions 错误中提及 align_dataframes=False 选项 (dask#9075) Gabe Joseph
为 dask.array.map_blocks() 添加 enforce_ndim kwarg (dask#8865) ParticularMiner
实现 Series.GroupBy.fillna / DataFrame.GroupBy.fillna 方法 (dask#8869) Pavithra Eswaramoorthy
允许 Dask DataFrame 使用 fillna (dask#8950) Pavithra Eswaramoorthy
更新使用一维 dask 数组进行赋值时的错误消息 (dask#9036) Pavithra Eswaramoorthy
集合协议 (dask#8674) Doug Davis
针对 pandas ArrowStringArray pickling 的补丁 (dask#9024) Jim Crist-Harif
compute_as_if_collection 的权宜之计 (dask#8998) Ian Rose
添加 p2p shuffle 选项 (dask#8836) Matthew Rocklin

错误修复¶

修复无列的列投影 (dask#9106) Jim Crist-Harif
分块裁剪 NumPy dtype (dask#9100) Ian Rose
修复 from_map 中的列投影 bug (dask#9078) Richard (Rick) Zamora
防止非数值 dtypes 索引中出现 null 值 (dask#8963) Jorge López
修复 is_monotonic 方法，使其支持超过 8 个分区 (dask#9019) Julia Signell
处理 enumerate 和 generator 输入到 from_map (dask#9066) Richard (Rick) Zamora
回滚 is_dask_collection；恢复到先前的实现 (dask#9062) Doug Davis
修复 Blockwise.clone 未正确处理可迭代字面量参数的问题 (dask#8979) JSKenyon
数组 setitem 硬掩码 (dask#9027) David Hassell
修复追加时出现分区重叠错误 (dask#8997) Ian Rose

已弃用¶

为 read_parquet 的 kwargs chunksize 和 aggregate_files 添加预弃用警告 (dask#9052) Richard (Rick) Zamora

文档¶

记录 map_partitions 处理 args 与 kwargs 的方式以及 partition_info 的使用 (dask#9084) Charles Blackmon-Luca
更新自定义集合文档（利用新的集合协议）(dask#9097) Doug Davis
改进有关创建和存储 Dask DataFrame 的文档的 SEO (dask#9098) Sarah Charlotte Johnson
澄清 imread docstring 中的分块（chunking） (dask#9082) Genevieve Buckley
重新组织文档目录（TOC） (dask#9001) Matthew Rocklin
更正了 map_blocks() 关于关键字参数 enforce_ndim 的 docstring (dask#9071) ParticularMiner
更新 DataFrame SQL 文档中对其他库的引用 (dask#9077) Charles Blackmon-Luca
更新关于创建和存储 Dask DataFrame 的页面 (dask#9025) Sarah Charlotte Johnson

维护¶

在许可文件中包含 NUMPY_LICENSE.txt (dask#9113) Ben Beasley
安装每晚构建的 pandas 时增加重试次数 (dask#9103) James Bourbeau
在上游构建中强制使用每晚构建的 pyarrow (dask#9095) Joris Van den Bossche
改进 ensure_unicode 的对象处理和测试 (dask#9059) John A Kirkham
在上游构建中强制使用每晚构建的 pyarrow (dask#8993) Joris Van den Bossche
对 is_dask_collection 添加额外检查 (dask#9054) Doug Davis
更新 ensure_bytes (dask#9050) John A Kirkham
添加文件末尾 pre-commit 钩子 (dask#9045) James Bourbeau
添加 codespell pre-commit 钩子 (dask#9040) James Bourbeau
移除 HDFS 测试 (dask#9039) Jim Crist-Harif
修复不稳定的 test_reductions_2D (dask#9037) Jim Crist-Harif
防止 codecov 过早通知失败 (dask#9031) Jim Crist-Harif
仅在 macos 上的 Python 3.9 进行测试 (dask#9029) Jim Crist-Harif
更新 to_timedelta 默认单位 (dask#9010) Pavithra Eswaramoorthy

2022.05.0¶

Released on May 2, 2022

亮点¶

这是针对此问题的错误修复版本。

文档¶

在 2022.04.2 发行说明中添加亮点部分 (dask#9012) James Bourbeau

2022.04.2¶

Released on April 29, 2022

亮点¶

此版本包括对 dask.dataframe.read_parquet 和 dask.dataframe.to_parquet 的几项弃用/破坏性 API 更改

to_parquet 默认不再写入 _metadata 文件。如果您想写入 _metadata 文件，可以传入 write_metadata_file=True。
read_parquet 现在默认设置为 split_row_groups=False，这导致在读取 parquet 数据集时，每个 parquet 文件对应一个 Dask dataframe 分区。如果您正在处理大型 parquet 文件，您可能需要设置 split_row_groups=True 以减小分区大小。
read_parquet 默认不再计算 divisions。如果您要求 read_parquet 返回具有已知 divisions 的 dataframe，请设置 calculate_divisions=True。
read_parquet 已弃用关键字参数 gather_statistics。请改用关键字参数 calculate_divisions。
read_parquet 已弃用关键字参数 require_extensions。请改用关键字参数 parquet_file_extension。

新特性¶

将 removeprefix 和 removesuffix 添加为 StringMethods (dask#8912) Jorge López

改进¶

在 to_parquet 中调用 fs.invalidate_cache (dask#8994) Jim Crist-Harif
将 to_parquet 默认更改为 write_metadata_file=None (dask#8988) Jim Crist-Harif
允许 arg reductions 传递 keepdims (dask#8926) Julia Signell
在 read_parquet 中将 split_row_groups 默认更改为 False (dask#8981) Richard (Rick) Zamora
改进 da.reshape 的 NotImplementedError 消息 (dask#8987) Jim Crist-Harif
简化 to_parquet 计算路径 (dask#8982) Jim Crist-Harif
如果尝试将 vindex 与 Dask 对象一起使用，则引发错误 (dask#8945) Julia Signell
指定 precache 方法时避免使用 pre_buffer=True (dask#8957) Richard (Rick) Zamora
from_dask_array 使用 blockwise 而不是合并图 (dask#8889) Bryan Weber
对“pyarrow” Parquet 引擎使用 pre_buffer=True (dask#8952) Richard (Rick) Zamora

错误修复¶

在 da.full 中正确处理 dtype=None (dask#8954) Tom White
修复由 blockwise 合并导致的 dask-sql 错误 (dask#8989) Richard (Rick) Zamora
to_parquet 在非字符串列名时出错 (dask#8990) Jim Crist-Harif
确保 da.roll 即使 shape 为 0 也能正常工作 (dask#8925) Julia Signell
修复 set_index 的递归错误问题 (dask#8967) Paul Hobson
在 produces_keys=True 时将 BlockwiseDepDict 映射值字符串化 (dask#8972) Richard (Rick) Zamora
在 DataFrame.from_delayed 中使用 DataFrameIOLayer (dask#8852) Richard (Rick) Zamora
检查 read_parquet 中 in 谓词的值是否正确 (dask#8846) Bryan Weber
修复零维数组归约的错误 (dask#8930) Tom White
在 read_sql_query 中使用 np.linspace 决定 division 时指定 dtype (dask#8940) Cheun Hong

弃用¶

弃用 read_parquet 中的 gather_statistics (dask#8992) Richard (Rick) Zamora
将 require_extension 更改为顶层 parquet_file_extension read_parquet 关键字参数 (dask#8935) Richard (Rick) Zamora

文档¶

更新文档中关于 write_metadata_file 的讨论 (dask#8995) Richard (Rick) Zamora
更新 DataFrame.merge docstring (dask#8966) Pavithra Eswaramoorthy
添加了 array.blockwise() 中参数 align_arrays 的描述 (dask#8977) ParticularMiner
建议不要在数组的分块轴上使用 map_block(drop_axis=...) (dask#8921) ParticularMiner
在文档的代码片段中添加复制按钮 (dask#8956) James Bourbeau

维护¶

Pandas 1.5.0 兼容性 (dask#8961) Ian Rose
在 CI 的分布式环境中添加 pytest-timeout (dask#8986) Julia Signell
改进 read_parquet docstring 格式 (dask#8971) Bryan Weber
移除 pytest.warns(None) (dask#8924) Pavithra Eswaramoorthy
将 Python 3.10 标记为受支持的 (dask#8976) Eray Aslan
parse_timedelta 选项以强制显式单位 (dask#8969) crusaderky
mypy 兼容性 (dask#8854) Paul Hobson
添加 Dask 与 Parquet 的文档页面 (dask#8899) Jim Crist-Harif
添加配置以忽略 blame 中的修订版本 (dask#8933) Bryan Weber

2022.04.1¶

Released on April 15, 2022

新特性¶

添加缺失的 NumPy ufuncs: abs, left_shift, right_shift, positive。(dask#8920) Tom White

改进¶

当 write_metadata_file=False 时，避免在 pyarrow 中收集 parquet 元数据 (dask#8906) Richard (Rick) Zamora
改进 dd.read_csv() 中通配符路径失败时的错误提示 (修复 #8878) (dask#8908) Roger Filmyer
对于 dd.Series 上的非 ufunc 逐元素函数，返回 da.Array 而不是 dd.Series (dask#8558) Julia Signell
允许 get_dummies 在 map_partitions 中使用 meta 计算 (dask#8898) Julia Signell
带掩码标量输入到 da.from_array (dask#8895) David Hassell
在 merge_asof 中为重复的 kwargs 引发 ValueError (dask#8861) Bryan Weber

错误修复¶

使 is_monotonic 在某些分区为空时也能工作 (dask#8897) Julia Signell
当 inline_array=False 时，修复 da.from_array 中的自定义 getter (dask#8903) Ian Rose
正确处理 rechunk 的字典规范。(dask#8859) Richard
修复 merge_asof：如果 left_on == right_on，则丢弃索引列 (dask#8874) Gil Forsyth

弃用¶

警告用户 engine='auto' 将在未来更改 (dask#8907) Jim Crist-Harif
从 parquet API 中移除 pyarrow-legacy 引擎 (dask#8835) Richard (Rick) Zamora

文档¶

添加关于 dask.array.dot 中缺失参数 out 的说明 (dask#8913) Francesco Andreuzzi
更新 DataFrame.query docstring (dask#8890) Pavithra Eswaramoorthy

维护¶

不在大型整数数据上测试 da.prod (dask#8893) Jim Crist-Harif
为在没有互联网连接时失败的测试添加 network 标记 (dask#8881) Paul Hobson
修复 gpuCI GHA 版本 (dask#8891) Charles Blackmon-Luca
xfail/skip 一些不稳定的 distributed 测试 (dask#8887) Jim Crist-Harif
从 ArrowDatasetEngine 中移除未使用（已弃用）的代码 (dask#8885) Richard (Rick) Zamora
为通用工具函数添加轻度类型注解，第二部分 (dask#8867) crusaderky
sample() 局限性的文档 (dask#8858) Nadiem Sissouno

2022.04.0¶

Released on April 1, 2022

注意

这是第一个支持 Python 3.10 的版本

新特性¶

添加 Python 3.10 支持 (dask#8566) James Bourbeau

改进¶

对 dtype.itemsize 添加检查，以便产生有用的错误提示 (dask#8860) Davide Gavio
为通用工具函数添加轻度类型注解 (dask#8848) Matthew Rocklin
为 divisions 的 setter 添加合理性检查 (dask#8806) Jim Crist-Harif
对更多任务使用 Blockwise 和 map_partitions (dask#8831) Bryan Weber

错误修复¶

修复 dataframe.merge_asof 以保留 right_on 列 (dask#8857) Sarah Charlotte Johnson
修复 32 位系统上 pandas >= 1.3 的“Buffer dtype mismatch”错误 (dask#8851) Ben Greiner
通过修改 SubgraphCallable 的 getter 修复切片合并 (dask#8827) Ian Rose

弃用¶

移除对 PyPy 的支持 (dask#8863) James Bourbeau
运行时移除对 setuptools 的依赖 (dask#8855) crusaderky
移除 dataframe.tseries.resample.getnanos (dask#8834) Sarah Charlotte Johnson

文档¶

组织诊断和性能文档 (dask#8871) Naty Clementi
添加图片解释 map_blocks 的 drop_axis 选项 (dask#8868) ParticularMiner

维护¶

将 gpuCI 的 RAPIDS_VER 更新到 22.06 (dask#8828)
在 http 中恢复 test_parquet (dask#8850) Bryan Weber
简化 gpuCI 更新流程 (dask#8849) Charles Blackmon-Luca

2022.03.0¶

Released on March 18, 2022

新特性¶

Bag: 添加水库抽样（reservoir sampling）的实现 (dask#7636) Daniel Mesejo-León
向 Dask array 添加 ma.count (dask#8785) David Hassell
将 to_parquet 默认更改为 compression="snappy" (dask#8814) Jim Crist-Harif
向 dask.array.reduction 添加 weights 参数 (dask#8805) David Hassell
添加 ddf.compute_current_divisions 以获取已排序索引或列上的 divisions (dask#8517) Julia Signell

改进¶

在 DelayedLeaf 上透传 __name__ 和 __doc__ (dask#8820) Leo Gao
为未实现的 merge how 选项引发异常 (dask#8818) Naty Clementi
将 Bag.map_partitions 移至 Blockwise (dask#8646) Richard (Rick) Zamora
改进格式错误配置文件时的错误消息 (dask#8801) Jim Crist-Harif
修改列投影优化以捕捉常见的 dask-sql 模式 (dask#8692) Richard (Rick) Zamora
空 divisions 的有用错误提示 (dask#8789) Pavithra Eswaramoorthy
Scipy 1.8.0 兼容性: 将私有类复制到 dask/array/stats.py (dask#8694) Julia Signell
当使用多种类型的调度器且其中之一是 distributed 时，引发警告 (dask#8700) Pedro Silva

错误修复¶

修复在 read_parquet 中应用 != 过滤器的错误 (dask#8824) Richard (Rick) Zamora
修复当直接传入 dask Index 时 set_index 的问题 (dask#8680) Paul Hobson
快速修复 tensordot 中无限内存使用的问题 (dask#7980) Genevieve Buckley
如果 hdf 文件为空，则在 meta 创建时不要失败 (dask#8809) Julia Signell
更新 clone_key("x") 以保留前缀 (dask#8792) crusaderky
修复基于 pyarrow 的 read_parquet 中的“physical”列错误 (dask#8775) Richard (Rick) Zamora
修复 shuffle 后由于分区未排序导致的 groupby.shift 错误 (dask#8782) kori73
修复序列化错误 (dask#8786) Richard (Rick) Zamora

弃用¶

将 diagnostics bokeh 依赖项升级到 2.4.2 (dask#8791) Charles Blackmon-Luca
弃用 bcolz 支持 (dask#8754) Pavithra Eswaramoorthy
完成将 map_overlap 的默认 boundary kwarg 设为 'none' (dask#8743) Genevieve Buckley

文档¶

修复自定义集合示例文档 (dask#8807) Doug Davis
在文档中添加 Series.str, Series.dt, 和 Series.cat 访问器 (dask#8757) Sarah Charlotte Johnson
修复 ddf.compute_current_divisions 的 docstring (dask#8793) Julia Signell
在 /status 页面上的 Dashboard 文档 (dask#8648) Naty Clementi
澄清 repartition docstring 中的 divisions kwarg (dask#8781) Sarah Charlotte Johnson
更新 Docker 镜像以使用 ghcr.io (dask#8774) Jacob Tomlinson

维护¶

降低 gpuci pytest 的并行度 (dask#8826) GALI PREM SAGAR
absolufy-imports - 无相对导入 - PEP8 (dask#8796) Julia Signell
整理数组测试中的 assert_eq 调用 (dask#8812) Julia Signell
移除 pytest.warns(None) (dask#8718) LSturtew
修复 test_describe_empty 使其在没有全局 -Werror 的情况下也能工作 (dask#8291) Michał Górny
暂时将 windows 上的 graphviz 测试标记为 xfail (dask#8794) Jim Crist-Harif
使用 packaging.parse 实现 md5 兼容性 (dask#8763) James Bourbeau
使 tokenize 在 FIPS 140-2 环境中工作 (dask#8762) Jim Crist-Harif
在议题和 PR 开启时标记为‘needs triage’ (dask#8761) Julia Signell
增加一些额外的测试覆盖 (dask#8302) lrjball
指定 action 版本并将 pull_request_target 更改为 pull_request (dask#8767) Julia Signell
使 scheduler 的 kwarg 在 da.assert_eq 中透传到子函数 (dask#8755) Julia Signell

2022.02.1¶

Released on February 25, 2022

新特性¶

向 dask.dataframe.pivot_table 添加聚合函数 first 和 last (dask#8649) Knut Nordanger
为类似 pandas 的对象添加对 datetime64 dtype 的 std() 支持 (dask#8523) Ben Glossner
向 HighLevelGraph 和 Layer 的 html repr 中添加具体化任务计数 (dask#8589) kori73

改进¶

不允许迭代 DataFrameGroupBy (dask#8696) Bryan Weber
修复对空 DataFrame 调用 info() 后缺失换行符的问题 (dask#8727) Naty Clementi
将 groupby.compute 添加为未实现方法 (dask#8734) Dranaxel
改进多 dataframe join 性能 (dask#8740) Holden Karau
为 Index 包含 bool 类型 (dask#8732) Naty Clementi
允许 ArrowDatasetEngine 子类覆盖 pandas 到 arrow 的转换，也包括分区写入 (dask#8741) Joris Van den Bossche
提高 da.diag() 和 da.diagonal() 中 k 对角线提取的性能 (dask#8689) ParticularMiner
当 num 等于 0 时，更改 linspace 创建方式以匹配 numpy (dask#8676) Peter
对 dataclasses 进行 tokenize (dask#8557) Gabe Joseph
更新 tokenize 以区别对待 dict 和 kwargs (dask#8655) James Bourbeau

错误修复¶

修复 dask.array.roll() 中与输入数组大小匹配的 roll-shift 错误 (dask#8723) ParticularMiner
修复 normalize_function 的 dataclass 方法 (dask#8527) Sarah Charlotte Johnson
修复带有 zero-size-chunks 的 rechunking 问题 (dask#8703) ParticularMiner
移动 sqlalchemy 连接的创建，以提高可 picklability 性 (dask#8745) Julia Signell

弃用¶

停止支持 Python 3.7 (dask#8572) James Bourbeau
弃用 iteritems (dask#8660) James Bourbeau
弃用 dataframe.tseries.resample.getnanos (dask#8752) Sarah Charlotte Johnson
为 pyarrow-legacy 引擎添加弃用警告 (dask#8758) Richard (Rick) Zamora

文档¶

更新 changelog 中的链接拼写错误 (dask#8717) James Bourbeau
澄清 dask.visualize docstring (dask#8710) Dranaxel
更新 Docker 示例以使用当前最佳实践 (dask#8731) Jacob Tomlinson
更新文档以包含 distributed.Client.preload (dask#8679) Bryan Weber
记录月度社交会议 (dask#8595) Thomas Grainger
添加关于使用 RBAC/ACL (即 security principal) 访问 Gen2 的文档 (dask#8748) Martin Thøgersen
使用来自 dask-sphinx-theme 的 Dask 配置扩展 (dask#8751) Benjamin Zaitlen

维护¶

在 CI 中解除 coverage 的版本限制 (dask#8690) James Bourbeau
为运行测试套件添加手动触发器 (dask#8716) James Bourbeau
Xfail scheduler_HLG_unpack_import; 不稳定测试 (dask#8724) Mike McCarty
暂时移除 scipy 的上游 CI 构建 (dask#8725) James Bourbeau
将预发布版本升级到大于稳定版本 (dask#8728) Charles Blackmon-Luca
将自定义排序函数逻辑移至内部 sort_values (dask#8571) Charles Blackmon-Luca
在文档要求中限定 cloudpickle 和 scipy 的版本 (dask#8737) Julia Signell
使 labeler 不删除标签，并在正确的位置查找文档 (dask#8746) Julia Signell
修复文档构建警告 (dask#8432) Kristopher Overholt
更新测试状态徽章 (dask#8747) James Bourbeau
修复 parquet test_pandas_timestamp_overflow_pyarrow 测试 (dask#8733) Joris Van den Bossche
仅在相关文件更改时运行 PR 构建 (dask#8756) Charles Blackmon-Luca

2022.02.0¶

Released on February 11, 2022

注意

这是最后一个支持 Python 3.7 的版本

新特性¶

使用现有 array 时，向 to_zarr 添加 region (dask#8590) Chris Roat
向 dask.dataframe.to_sql 添加 engine_kwargs 支持 (dask#8609) Amir Kadivar
向 read_json 添加 include_path_column 参数 (dask#8603) Bryan Weber
向 Dask array 添加 expand_dims (dask#8687) Tom White

改进¶

向 assert_eq 工具函数添加 scheduler 选项 (dask#8610) Xinrong Meng
修复 dtype=None 与 NumPy 的 eye 不一致问题 (dask#8685) Tom White
修复 axis=None 与 NumPy 的 concatenate 不一致问题 (dask#8686) Tom White
类型注解，第一部分 (dask#8295) crusaderky
真正允许将任何可迭代对象作为 meta 传入 (dask#8629) Julia Signell
在 to_parquet 中使用 map_partitions (Blockwise) (dask#8487) Richard (Rick) Zamora

错误修复¶

数组归约的结果不应依赖于其 chunk-structure (dask#8637) ParticularMiner
在 ACA 代码路径中，向 map_partitions 传递占位符元数据 (dask#8643) Richard (Rick) Zamora

弃用¶

弃用 is_monotonic (dask#8653) James Bourbeau
移除一些弃用项 (dask#8605) James Bourbeau

文档¶

将 Domino Data Lab 添加到 Hosted / managed Dask 集群 (dask#8675) Ray Bell
修复内部链接并移除已弃用函数 (dask#8715) Julia Signell
修复不平衡的反引号。(dask#8693) Matthias Bussonnier
添加高级图可视化文档 (dask#8483) Genevieve Buckley
更新 ProgressBar 的 out 参数文档 (dask#8604) Pedro Silva
改进 dask.config.set 的文档 (dask#8705) crusaderky
恢复在 type checkers 中提及 mypy (dask#8699) crusaderky

维护¶

更新 get_dummies 测试中的警告处理 (dask#8651) James Bourbeau
添加 github changelog 模板 (dask#8714) Julia Signell
更新 LICENSE.txt 中的年份 (dask#8665) David Hoese
更新 pre-commit 版本 (dask#8691) James Bourbeau
在上游 CI 构建中包含 scipy (dask#8681) James Bourbeau
在 CI 中暂时限定 scipy < 1.8.0 的版本 (dask#8683) James Bourbeau
在 GPU CI 中将 scipy 限定为小于 1.8.0 (dask#8698) Julia Signell
在 test_multi.py 中避免使用 pytest.warns(None) (dask#8678) James Bourbeau
更新 GHA 并发作业取消 (dask#8652) James Bourbeau
使 test__get_paths 在设置了 site.PREFIXES 时更健壮 (dask#8644) James Bourbeau
将 gpuCI 的 PYTHON_VER 升级到 3.9 (dask#8642) Charles Blackmon-Luca

2022.01.1¶

Released on January 28, 2022

新特性¶

添加 dask.dataframe.series.view() (dask#8533) Pavithra Eswaramoorthy

改进¶

更新 tz 对于 fastparquet + pandas 1.4.0 (dask#8626) Martin Durant
清理 pandas 兼容性的杂项测试 (dask#8623) Julia Signell
迁移到 SQLAlchemy >= 1.4 (dask#8158) McToel
Pandas 兼容性：过滤稀疏警告 (dask#8621) Julia Signell
如果 meta 不是 pandas 对象，则失败 (dask#8563) Julia Signell
使用 fsspec.parquet 模块以获得更好的远程存储 read_parquet 性能 (dask#8339) Richard (Rick) Zamora
将 DataFrame 的 ACA 聚合移至 HLG (dask#8468) Richard (Rick) Zamora
在 DataFrameIOLayer 中添加关于原始函数调用的可选信息 (dask#8453) Richard (Rick) Zamora
Blockwise 数组创建的改进 (dask#7417) Ian Rose
重构配置默认搜索路径的检索 (dask#8573) James Bourbeau
向 Bag.to_dataframe 函数添加 optimize_graph 标志 (dask#8486) Maxim Lippeveld
确保延迟输出操作仍然返回路径列表 (dask#8498) Julia Signell
Pandas 兼容性：修复 to_frame 的 name 不传递 None 的问题 (dask#8554) Julia Signell
Pandas 兼容性：修复 axis=None 警告 (dask#8555) Julia Signell
扩展 Dask YAML 配置搜索目录 (dask#8531) abergou

错误修复¶

修复索引分组 series 的 groupby.cumsum (dask#8588) Julia Signell
修复 pandas 方法的 derived_from (dask#8612) Thomas J. Fan
强制 ascending 为布尔值以便用于 sort_values (dask#8440) Charles Blackmon-Luca
修复 __setitem__ 索引的解析 (dask#8601) David Hassell
避免切片中的除零错误 (dask#8597) Doug Davis

弃用¶

将 (dask#8563) 中的 meta 错误降级为警告 (dask#8628) Julia Signell
Pandas 兼容性：当 pandas >= 1.4.0 时弃用 append (dask#8617) Julia Signell

文档¶

在 DataFrame 构造函数中用 meta 替换过时的 columns 参数 (dask#8614) kori73
重构部署文档 (dask#8602) Jacob Tomlinson

维护¶

在 CI 中限定 coverage 的版本 (dask#8631) James Bourbeau
将 cached_cumsum 导入移至来自 dask.utils (dask#8606) James Bourbeau
将 gpuCI 的 RAPIDS_VER 更新到 22.04 (dask#8600)
更新 from_delayed 函数的 docstring (dask#8576) Kirito1397
处理 plot_width / plot_height 弃用 (dask#8544) Bryan Van de Ven
移除不必要的 pyyaml importorskip (dask#8562) James Bourbeau
在 DataFrame assert_eq 中指定 scheduler (dask#8559) Gabe Joseph

2022.01.0¶

Released on January 14, 2022

新特性¶

添加 groupby.shift 方法 (dask#8522) kori73
添加 DataFrame.nunique (dask#8479) Sarah Charlotte Johnson
添加 da.ndim 以匹配 np.ndim (dask#8502) Julia Signell

改进¶

仅当 NumPy 版本 >= 1.22 时，显示 percentile 的 interpolation= 关键字警告 (dask#8564) Julia Signell
当 limit 和 "array.slicing.split-large-chunks" 为 None 时，引发 PerformanceWarning (dask#8511) Julia Signell
在导入时定义 normalize_seq 函数 (dask#8521) Illviljan
确保 divisions 始终是 tuples (dask#8393) Charles Blackmon-Luca
允许对 bag.groupby 使用可调用调度器 (dask#8492) Julia Signell
使用 dask-on-ray 调度器保存 Zarr 数组 (dask#8472) TnTo
使 read_bytes 中的字节块更均匀 (dask#8459) Martin Durant
通过完全移除连接操作提高了 matmul() 的效率 (dask#8423) ParticularMiner
重塑 dask 数组时限制最大块大小 (dask#8124) Genevieve Buckley
fastparquet superthrift 的更改 (dask#8470) Martin Durant

错误修复¶

修复数组赋值中的布尔索引 (dask#8538) David Hassell
检测类数组对象的默认 dtype (dask#8501) aeisenbarth
修复 optimize_blockwise 处理重复依赖名称的 bug (dask#8542) Richard (Rick) Zamora
更新 DataFrame.GroupBy.apply 和 transform 的警告信息 (dask#8507) Sarah Charlotte Johnson
在 Delayed 中跟踪 HLG 层名称 (dask#8452) Gabe Joseph
修复单个项的 nanmin 和 nanmax 归约运算 (dask#8484) Julia Signell
使带有 comment kwarg 的 read_csv 在头部包含注释时也能正常工作 (dask#8433) Julia Signell

弃用¶

将 interpolation 替换为 method，将 method 替换为 internal_method (dask#8525) Julia Signell
移除每日股票演示工具 (dask#8477) James Bourbeau

文档¶

在文档中添加一个可复制/粘贴运行的 join 示例 (dask#8520) kori73
在配置中提及 dashboard 链接 (dask#8510) Ray Bell
修复 changelog 小节超链接 (dask#8534) Aneesh Nema
为保持一致性，将“single-machine scheduler”使用连字符连接 (dask#8519) Deepyaman Datta
规范 slicing.py 中 doctests 的空白符 (dask#8512) Maren Westermann
最佳实践存储行中的拼写错误 (dask#8529) Michael Delgado
更新图表 (dask#8401) Sarah Charlotte Johnson
移除 read_parquet docstring 中 split_row_groups 关于仅支持 pyarrow 的说明 (dask#8490) Naty Clementi

维护¶

移除对 fsspec>=2022.1.0 失效的过时 LocalFileSystem 测试 (dask#8565) Richard (Rick) Zamora
微调：“RuntimeWarning: invalid value encountered in reciprocal” (dask#8561) crusaderky
修复 DataFrame.sem 中 skipna=None 的问题 (dask#8556) Julia Signell
修复 PANDAS_GT_140 的问题 (dask#8552) Julia Signell
具有 HLG 的集合必须始终实现 __dask_layers__ (dask#8548) crusaderky
解决 import llvmlite 中的竞态条件问题 (dask#8550) crusaderky
为 pyyaml 设置最低版本 (dask#8545) Gaurav Sheni
在环境中添加 nodefaults 以解决 tiledb + mac 问题 (dask#8505) Julia Signell
为 setuptools 设置上限 (dask#8509) Julia Signell
添加用于生成 Dask 夜间版本的 workflow / recipe (dask#8469) Charles Blackmon-Luca
将 gpuCI CUDA_VER 提升至 11.5 (dask#8489) Charles Blackmon-Luca

2021.12.0¶

发布于 2021 年 12 月 10 日

新特性¶

添加 Series 和 Index 的 is_monotonic* 方法 (dask#8304) Daniel Mesejo-León

改进¶

使用 partition_info 进行块操作的 map_partitions (dask#8310) Gabe Joseph
对于具有未知块大小的数组，改进长度相关的错误信息 (dask#8436) Doug Davis
在 Groupby 类内部使用 by 代替 index (dask#8441) Julia Signell
允许对 sort_values 使用自定义排序函数 (dask#8345) Charles Blackmon-Luca
当统计信息和分区不一致时，为 read_parquet 添加警告信息 (dask#8416) Richard (Rick) Zamora
支持 ufuncs 中的 where 参数 (dask#8253) mihir
使 visualize 与 compute 更一致 (dask#8328) JSKenyon

错误修复¶

修复 map_blocks 在生成 name 时未使用自身参数的问题 (dask#8462) David Hoese
修复读取空 parquet 文件时的索引错误 (dask#8410) Sarah Charlotte Johnson
修复写入分区 parquet 数据时可空 dtype 的错误 (dask#8400) Richard (Rick) Zamora
修复 CSV 头部 bug (dask#8413) Richard (Rick) Zamora
修复空块在 nanmin/nanmax 中导致异常的问题 (dask#8375) Boaz Mohar

弃用¶

弃用 map_blocks 的 token 关键字参数 (dask#8464) James Bourbeau
map_overlap 中 boundary 参数默认值的弃用警告 (dask#8397) Genevieve Buckley

文档¶

澄清 block_info 文档 (dask#8425) Genevieve Buckley
alt text sprint 的输出 (dask#8456) Sarah Charlotte Johnson
更新讲座和演示文稿 (dask#8370) Naty Clementi
更新文档“付费支持”部分中的 Anaconda 链接 (dask#8427) Martin Durant
修复 ecosystem.rst 中损坏的 dask-gateway 链接 (dask#8424) ofirr
修复 CuPy doctest 错误 (dask#8412) Genevieve Buckley

维护¶

将 Bokeh 最低版本提升至 2.1.1 (dask#8431) Bryan Van de Ven
修复遵循 fsspec=2021.11.1 发布后出现的问题 (dask#8428) Martin Durant
将 dask/ml.py 添加到 pytest 排除列表 (dask#8414) Genevieve Buckley
更新 gpuCI RAPIDS_VER 至 22.02 (dask#8394)
解除 graphviz 的版本限制，并改进 environment-3.7 中的包管理 (dask#8411) Julia Signell

2021.11.2¶

发布于 2021 年 11 月 19 日

仅每日运行 gpuCI 提升脚本 (dask#8404) Charles Blackmon-Luca
在 assert_eq 中按要求实际忽略索引 (dask#8396) Gabe Joseph
确保单分区 join 的 divisions 是 tuple (dask#8389) Charles Blackmon-Luca
尝试使 divisions 的行为更清晰 (dask#8379) Julia Signell
修复 set_index partition_size 参数描述中的拼写错误 (dask#8384) FredericOdermatt
在 single_partition_join 中使用 blockwise (dask#8341) Gabe Joseph
使用更显式的关键字参数 (dask#8354) Boaz Mohar
修复带有可空布尔 dtype 的 DataFrame 的 .loc 问题 (dask#8368) Marco Rossi
在测试中参数化 shuffle 实现 (dask#8250) Ian Rose
移除一些文档构建警告 (dask#8369) Boaz Mohar
在 array API 文档中包含属性 (dask#8356) Julia Signell
修复 Zarr 的上游问题 (dask#8367) Julia Signell
限制 graphviz 版本以避免 windows 和 Python 3.7 的问题 (dask#8365) Julia Signell
从模块顶部导入 graphviz.Diagraph，而不是从 dot 导入 (dask#8363) Julia Signell

2021.11.1¶

发布于 2021 年 11 月 8 日

补丁版本，更新 distributed 依赖到版本 2021.11.1。

2021.11.0¶

发布于 2021 年 11 月 5 日

修复 read_parquet 中 required_extension 的行为 (dask#8351) Richard (Rick) Zamora
向 map_partitions 添加 align_dataframes 以广播作为参数传递的 dataframe (dask#6628) Julia Signell
改进 dask.dataframe.loc 中数组/系列键的处理方式 (dask#8254) Julia Signell
引导用户前往 Discourse (dask#8332) Ian Rose
向 to_parquet 添加 name_function 选项 (dask#7682) Matthew Powers
移除 environment-latest.yml 并更新到 Python 3.9 (dask#8275) Julia Signell
在 CI 中要求较新的 s3fs (dask#8336) James Bourbeau
Groupby Rolling (dask#8176) Julia Signell
向 dask.visualize 添加更多排序诊断信息 (dask#7992) Erik Welch
为 delayed 使用 HighLevelGraph 优化 (dask#8316) Ian Rose
demo_tuples 产生格式错误的 HighLevelGraph (dask#8325) crusaderky
Dask 日历应显示本地时间事件 (dask#8312) Genevieve Buckley
修复不稳定的 test_interrupt (dask#8314) crusaderky
弃用 AxisError (dask#8305) crusaderky
修复扩展文档中 cuDF 的名称 (dask#8311) Vyas Ramasubramani
在 parquet 过滤器中添加单一相等运算符 (=) (dask#8300) Ayush Dattagupta
改进 read_parquet 中 Spark 输出的支持 (dask#8274) Richard (Rick) Zamora
添加 dask.ml 模块 (dask#6384) Matthew Rocklin
CI 修复 (dask#8298) James Bourbeau
使切片错误与 NumPy 匹配 (dask#8248) Julia Signell
修复新 sphinx 主题下 API 文档渲染错误的问题 (dask#8296) Julia Signell
对于块上的类数组操作，用 blockview 替换 block 属性 (dask#8242) Davis Bennett
弃用 file_path，并使其能够在 notebook 中保存 (dask#8283) Julia Signell

2021.10.0¶

发布于 2021 年 10 月 22 日

da.store 创建格式正确的 HighLevelGraph (dask#8261) crusaderky
CI：在上游构建中强制使用夜间版 pyarrow (dask#8281) Joris Van den Bossche
移除 chest (dask#8279) James Bourbeau
如果未安装可选依赖项，则跳过 doctests (dask#8258) Genevieve Buckley
更新 tmpdir 和 tmpfile 上下文管理器 docstrings (dask#8270) Daniel Mesejo-León
在 doctests 中取消注册回调函数 (dask#8276) James Bourbeau
修复文档中的拼写错误 (dask#8277) JoranDox
Stale label GitHub action (dask#8244) Genevieve Buckley
Client-shutdown 方法出现两次 (dask#8273) German Shiklov
将 pre-commit 添加到测试依赖项 (dask#8257) Genevieve Buckley
重构 fastparquet 引擎中的 read_metadata (dask#8092) Richard (Rick) Zamora
支持 from_zarr 中的 Path 对象 (dask#8266) Samuel Gaist
使嵌套重定向生效 (dask#8272) Julia Signell
如果在 info 中 verbose 为 True，则将 memory_usage 设置为 True (dask#8222) Kinshuk Dua
从 sphinx toctree 移除单独的 API 文档页面 (dask#8238) James Bourbeau
忽略 gufunc signature 中的空白符 (dask#8267) James Bourbeau
添加 workflow 以更新 gpuCI (dask#8215) Charles Blackmon-Luca
当只有一个分区时，DataFrame.head 不应发出警告 (dask#8091) Pankaj Patil
如果未安装 pyarrow，则忽略 arrow doctests (dask#8256) Genevieve Buckley
修复 debugging.html 重定向 (dask#8251) James Bourbeau
修复单分区 dataframe 的空值排序问题 (dask#8225) Charles Blackmon-Luca
修复 setup.html 重定向 (dask#8249) Florian Jetter
在 CI 中运行 pyupgrade (dask#8246) crusaderky
修复上游 CI 构建中的 label 拼写错误 (dask#8237) James Bourbeau
添加对 DataFrame.assign 中“dependent”列的支持 (dask#8086) Suriya Senthilkumar
将 NumPy Dask keys 数组添加到 Array (dask#7922) Davis Bennett
移除文档中不必要的 dask.multiprocessing 导入 (dask#8240) Ray Bell
调整从 Executor 获取 _max_workers 的方式 (dask#8228) John A Kirkham
更新 delayed 最佳实践文档中的函数签名 (dask#8231) Vũ Trung Đức
文档重组 (dask#7984) Julia Signell
修复所有缺失数据上的 df.quantile 问题 (dask#8129) Julia Signell
添加 tokenize.ensure-deterministic 配置选项 (dask#7413) Hristo Georgiev
在 pandas>=1.4.0 和 pd.date_range 中使用 inclusive 而不是 closed (dask#8213) Julia Signell
将 dask-gateway, Coiled 和 Saturn-Cloud 添加到 Dask 设置工具列表 (dask#7814) Kristopher Overholt
确保在序列化 HighLevelGraph 层时，现有 future 作为依赖项传递 (dask#8199) Jim Crist-Harif
确保单分区合并的 divisions 在左侧 (dask#8162) Julia Signell
重构 pyarrow parquet 引擎中的 read_metadata (dask#8072) Richard (Rick) Zamora
支持 map_blocks 和 map_overlap 中的负 drop_axis (dask#8192) Gregory R. Lee
修复上游测试 (dask#8205) Julia Signell
添加对通过 Series 进行标量项赋值的支持 (dask#8195) Charles Blackmon-Luca
在 dask.bag all, any, count 方法的 doc strings 中添加一些基本示例 (dask#7630) Nathan Danielsen
不要让上游报告依赖于 commit message (dask#8202) James Bourbeau
确保上游 CI cron job 运行 (dask#8200) James Bourbeau
使用 pytest.param 正确标记特定参数的 GPU 测试 (dask#8197) Charles Blackmon-Luca
将 test_set_index 添加到 gpuCI 运行的测试中 (dask#8198) Charles Blackmon-Luca
抑制 tmpfile OSError (dask#8191) James Bourbeau
在 set_partitions_pre 中使用 s.isna 而不是 pd.isna(s) (修复 cudf CI) (dask#8193) Charles Blackmon-Luca
针对 test-upstream 失败打开一个 issue (dask#8067) Wallace Reis
修复 to_parquet 调用 pyarrow.parquet.read_metadata 时出现的 bug (dask#8186) Richard (Rick) Zamora
添加对 sort_values 中空值的处理 (dask#8167) Charles Blackmon-Luca
提升 gpuCI 的 RAPIDS_VER (dask#8184) Charles Blackmon-Luca
为延迟注册的 handler 调度遍历 MRO (dask#8185) Jim Crist-Harif
配置 SSHCluster 说明 (dask#8181) Ray Bell
在 DataFrame.from_delayed 中保留 HighLevelGraphs (dask#8174) Gabe Joseph
弃用 Dask series 重命名中的 inplace 参数 (dask#8136) Marcel Coetzee
修复 rolling 以兼容 pandas > 1.3.0 (dask#8150) Julia Signell
对未知块使用 setitem 时引发错误 (dask#8166) Julia Signell
在执行 Index.to_series 时包含 divisions (dask#8165) Julia Signell

2021.09.1¶

发布于 2021 年 9 月 21 日

修复未来 pandas 版本的 groupby 问题 (dask#8151) Julia Signell
移除测试中不再需要的警告过滤器 (dask#8155) Julia Signell
在本地诊断文档中添加诊断可视化功能的链接 (dask#8157) David Hoese
向 dataframe.describe 添加 datetime_is_numeric (dask#7719) Julia Signell
移除对即将弃用的 pd.Int64Index 的引用 (dask#8144) Julia Signell
如果需要，为 series __get_item__ 使用 loc (dask#7953) Julia Signell
专门忽略空切片平均值上的警告 (dask#8125) Julia Signell
对于 pandas >= 1.3.3，跳过 groupby nunique 测试 (dask#8142) Julia Signell
实现 sort_values 的 ascending 参数 (dask#8130) Charles Blackmon-Luca
替换 operator.getitem (dask#8015) Naty Clementi
弃用 zero_broadcast_dimensions 和 homogeneous_deepmap (dask#8134) SnkSynthesis
如果 drop_index 为负，则添加错误提示 (dask#8064) neel iyer
允许 scheduler 是一个 Executor (dask#8112) John A Kirkham
处理 asarray/asanyarray 中 like 是 dask.Array 的情况 (dask#8128) Peter Andreas Entschev
修复 index_col 类型为 str 时 index_col 重复的问题 (dask#7661) McToel
向 asarray 和 asanyarray 定义添加 dtype 和 order (dask#8106) Julia Signell
弃用 dask.dataframe.Series.__contains__ (dask#7914) Julia Signell
修复 _wrapped_qr 中 like 数组的边缘情况问题 (dask#8122) Peter Andreas Entschev
弃用 boundary_slice kwarg：用于 pandas 兼容性的 kind (dask#8037) Julia Signell

2021.09.0¶

发布于 2021 年 9 月 3 日

减少打开的文件数 (dask#7303) Julia Signell
将 FileNotFound 添加到预期的 http 错误中 (dask#8109) Martin Durant
将 DataFrame.sort_values 添加到 API 文档 (dask#8107) Benjamin Zaitlen
更改 dask.order：有时更积极一些 (dask#7929) Erik Welch
向 CI 添加 pytest 颜色 (dask#8090) James Bourbeau
修复：make_people 适用于 processes 调度器 (dask#8103) Dahn
向 Dataframe copy 方法添加 deep 参数并将其限制为 False (dask#8068) João Paulo Lacerda
修复配置文档中的拼写错误 (dask#8104) Robert Hales
更新 DataFrame.query docstring 的格式 (dask#8100) James Bourbeau
对 0.13.0 版本解除 sparse 测试的 xfail 标记 (dask#8102) James Bourbeau
向 DataFrame 和 Series 添加 axes 属性 (dask#8069) Jordan Jensen
在 da.unique 中添加 CuPy 支持 (仅限 values) (dask#8021) Peter Andreas Entschev
sparse.zeros_like 的单元测试 (xfail) (dask#8093) crusaderky
向数组创建函数添加显式 like kwarg 支持 (dask#8054) Peter Andreas Entschev
分离 Array 和 DataFrame mindeps 构建 (dask#8079) James Bourbeau
将 percentile_dispatch 分派到 dask.array (dask#8083) GALI PREM SAGAR
确保 to_parquet 中 filepath 存在 (dask#8057) James Bourbeau
更新 test_scheduler_highlevel_graph_unpack_import 中调度器插件的使用方式 (dask#8080) James Bourbeau
向 API 文档添加 DataFrame.shuffle (dask#8076) Martin Fleischmann
按字母顺序排列依赖项 (dask#8073) John A Kirkham

2021.08.1¶

发布于 2021 年 8 月 20 日

向 read_parquet 添加 ignore_metadata_file 选项 (仅支持 pyarrow-dataset 和 fastparquet) (dask#8034) Richard (Rick) Zamora
在 dev 文档中添加对 pytest-xdist 的引用 (dask#8066) Julia Signell
在 to_datetime 生成的 meta 中包含 tz (dask#8000) Julia Signell
CI 基础设施文档 (dask#7985) Benjamin Zaitlen
在 assert_eq 检查中包含无效的 DataFrame key (dask#8061) James Bourbeau
创建 DataFrame 时使用 __class__ (dask#8053) Mads R. B. Kristensen
在 gpuCI 构建中使用 distributed 的开发版本 (dask#7976) James Bourbeau
在 gufunc signature 时忽略空白符 (dask#8049) James Bourbeau
移动 pandas 导入和百分位数调度重构 (dask#8055) GALI PREM SAGAR
添加颜色以表示高层层类型 (dask#7974) Freyam Mehta
上游实例修复 (dask#8060) Jacob Tomlinson
添加 dask.widgets 并将 HTML repr 迁移到 jinja2 (dask#8019) Jacob Tomlinson
移除 wrap_func_like_safe，在 NumPy >= 1.17 中不再需要 (dask#8052) Peter Andreas Entschev
修复线程调度器内存背压回归问题 (dask#8040) David Hoese
添加百分位数调度 (dask#8029) GALI PREM SAGAR
在 groupby 中使用公开文档化的属性 obj，而不是私有的 _selected_obj (dask#8038) GALI PREM SAGAR
指定从哪个模块导入 rechunk (dask#8039) Illviljan
在某些情况下使用 dict 存储 {nan,}arg{min,max} 的数据 (dask#8014) Peter Andreas Entschev
修复 read_pandas 中 blocksize 描述格式 (dask#8047) Louis Maddox
修复文档中“point” -> “pointers” 的拼写错误 (dask#8043) David Chudzicki

2021.08.0¶

发布于 2021 年 8 月 13 日

修复 to_orc 延迟计算行为 (dask#8035) Richard (Rick) Zamora
不要在 compute_as_if_collection 中转换为低层任务图 (dask#7969) James Bourbeau
修复 hdf 的多文件读取问题 (dask#8033) Julia Signell
解决 distributed 测试中的警告问题 (dask#8025) James Bourbeau
更新 to_orc 集合名称 (dask#8024) James Bourbeau
解决 skipfooter 问题 (dask#7855) Ross
对于传递给 to_datetime 的不可索引参数，引发 NotImplementedError (dask#7989) Doug Davis
确保对 distributed 的警告引发错误 (dask#8002) James Bourbeau
在 DataFrame 的 to_bag 辅助函数中添加 dict 格式 (dask#7932) gurunath
Delayed 文档间接依赖项 (dask#8016) aa1371
为 graphviz 高级图添加工具提示 (dask#7973) Freyam Mehta
关闭 2021 用户调查 (dask#8007) Julia Signell
将 CuPy 测试重构到多个文件中 (dask#8013) Peter Andreas Entschev
重构和扩展 Dask-Dataframe ORC API (dask#7756) Richard (Rick) Zamora
如果 enforce=False，则不强制执行 columns (dask#7916) Julia Signell
修复 drop_axis 不为 None 时 map_overlap 的 trimming 行为 (dask#7894) Gregory R. Lee
标记 gpuCI CuPy 测试为 flaky (dask#7994) Peter Andreas Entschev
在 to_csv 和 to_parquet 中避免使用 Delayed (dask#7968) Matthew Rocklin
移除冗余的 check_dtypes (dask#7952) gurunath
使用 pytest.warns 而不是 raises 检查 parquet 引擎弃用警告 (dask#7993) Joris Van den Bossche
将 gpuCI 中的 RAPIDS_VER 提升至 21.10 (dask#7991) Charles Blackmon-Luca
为 pyarrow>=5 添加 pyarrow-legacy 测试覆盖 (dask#7988) Richard (Rick) Zamora
允许 to_parquet 和 read_parquet 中使用 pyarrow>=5 (dask#7967) Richard (Rick) Zamora
当 NumPy < 1.20 可用时，跳过需要 NEP-35 的 CuPy 测试 (dask#7982) Peter Andreas Entschev
将 tail 和 head 添加到 SeriesGroupby (dask#7935) Daniel Mesejo-León
更新月度会议的 Zoom 链接 (dask#7979) James Bourbeau
添加 gpuCI 构建脚本 (dask#7966) Charles Blackmon-Luca
弃用 daily_stock 工具 (dask#7949) James Bourbeau
将 distributed.nanny 添加到配置参考文档 (dask#7955) James Bourbeau
要求 NumPy 1.18+ & Pandas 1.0+ (dask#7939) John A Kirkham

2021.07.2¶

发布于 2021 年 7 月 30 日

注意

这是最后一个支持 NumPy 1.17 和 pandas 0.25 的版本。从下个版本开始，最低支持版本将是 NumPy 1.18 和 pandas 1.0。

将 dask.array SVG 添加到 HTML Repr (dask#7886) Freyam Mehta
在 to_parquet 中避免使用 Delayed (dask#7958) Matthew Rocklin
在 CI 中临时限制 pyarrow<5 版本 (dask#7960) James Bourbeau
添加对顶级 ucx 和 rmm 配置值的弃用警告 (dask#7956) James Bourbeau
移除 doctests 中的跳过标记 (4/6) (dask#7865) Zhengnan Zhao
移除 doctests 中的跳过标记 (5/6) (dask#7864) Zhengnan Zhao
向 da.diff 添加缺失的 prepend/append 功能 (dask#7946) Peter Andreas Entschev
将 graphviz 字体族更改为 sans (dask#7931) Freyam Mehta
修复 read-csv 名称 - 当路径不同时，为任务使用不同的名称 (dask#7942) Julia Signell
更新 ucx 和 rmm 更改的配置参考文档 (dask#7943) James Bourbeau
向 __setitem__ 添加 meta 支持 (dask#7940) Peter Andreas Entschev
支持带有整型 dask 数组切片的 NEP-35 (dask#7927) Peter Andreas Entschev
在 CI 中解除 fastparquet 的版本限制 (dask#7928) James Bourbeau
移除 doctests 中的跳过标记 (3/6) (dask#7872) Zhengnan Zhao

2021.07.1¶

发布于 2021 年 7 月 23 日

使 array assert_eq 检查 dtype (dask#7903) Julia Signell
移除 doctests 中的跳过标记 (6/6) (dask#7863) Zhengnan Zhao
从 actors 文档中移除实验性功能警告 (dask#7925) Matthew Rocklin
移除 doctests 中的跳过标记 (2/6) (dask#7873) Zhengnan Zhao
分离 Array 和 Bag API (dask#7917) Julia Signell
实现 lazy Array.__iter__ (dask#7905) Julia Signell
清理无意中遍历数组的地方 (dask#7913) Julia Signell
为 DataFrame reductions 添加 numeric_only kwarg (dask#7831) Julia Signell
为 GPU 测试添加 pytest 标记 (dask#7876) Charles Blackmon-Luca
在 dask.array 中添加对 histogram2d 的支持 (dask#7827) Doug Davis
移除 doctests 中的跳过标记 (1/6) (dask#7874) Zhengnan Zhao
为 Graphviz 输出的高级图添加节点大小缩放 (dask#7869) Freyam Mehta
更新旧的 Bokeh 链接 (dask#7915) Bryan Van de Ven
在 CI 中临时限制 fastparquet 版本 (dask#7907) James Bourbeau
向进度条文档添加 dask.array 导入 (dask#7910) Fabian Gebhart
为每个 DataFrame API 函数和方法使用单独的文件 (dask#7890) Julia Signell
修复 pyarrow-dataset 排序 bug (dask#7902) Richard (Rick) Zamora
泛化 unique aggregate (dask#7892) GALI PREM SAGAR
使用 pd.Grouper 时引发 NotImplementedError (dask#7857) Ruben van de Geer
添加 aggregate_files 参数，以在 read_parquet 中启用多文件分区 (dask#7557) Richard (Rick) Zamora
解除 test_daily_stock 的 xfail 标记 (dask#7895) James Bourbeau
更新访问配置文档 (dask#7837) Naty Clementi
使用 packaging 进行版本比较 (dask#7820) Elliott Sales de Andrade
处理 merge_asof 中的无限循环 (dask#7842) gerrymanoim

2021.07.0¶

发布于 2021 年 7 月 9 日

在上游 CI 构建中包含 fastparquet (dask#7884) James Bourbeau
块操作：处理非字符串常量依赖项 (dask#7849) Mads R. B. Kristensen
fastparquet 现在支持新的时间类型，包括纳秒精度 (dask#7880) Martin Durant
在 ArrowDatasetEngine 中追加时避免使用 ParquetDataset API (dask#7544) Richard (Rick) Zamora
为 test_shuffle_priority 添加重试逻辑 (dask#7879) Richard (Rick) Zamora
在 CI 中使用严格的通道优先级 (dask#7878) James Bourbeau
支持嵌套的 dask.distributed 导入 (dask#7866) Matthew Rocklin
应该只检查模块名称，而不是整个目录文件路径 (dask#7856) Genevieve Buckley
由于 https://github.com/dask/fastparquet/pull/623 导致的更新 (dask#7875) Martin Durant
da.eye 针对 chunks=-1 的修复 (dask#7854) Naty Clementi
暂时将 test_daily_stock 标记为预期失败 (xfail) (dask#7858) James Bourbeau
在 SimpleShuffleLayer 中设置优先级注解 (dask#7846) Richard (Rick) Zamora
Blockwise: 将常量键输入转换为字符串 (dask#7838) Mads R. B. Kristensen
允许在 @guvectorize 中混合使用 dask 和 numpy 数组 (dask#6863) Julia Signell
计算洗牌组的大小时，不对字典结果进行采样 (dask#7834) Florian Jetter
修复 scipy 测试 (dask#7841) Julia Signell
确定性地对 datetime.date 进行 tokenize (dask#7836) James Bourbeau
为类似 read_csv 的函数添加 sample_rows 参数 (dask#7825) Martin Durant
修复 config.deserialize 文档字符串中的拼写错误 (dask#7830) Geoffrey Lentner
移除 test_dataframe_picklable 中的警告过滤器 (dask#7822) James Bourbeau
histogramdd 的改进（用于处理数组序列作为输入的情况）。(dask#7634) Doug Davis
将 PY_VERSION 设为私有 (dask#7824) James Bourbeau

2021.06.2¶

发布于 2021 年 6 月 22 日

layers.py 比较 parts_out 和 set(self.parts_out) (dask#7787) Genevieve Buckley
使 check_meta 更好地理解 pandas dtypes (dask#7813) Julia Signell
移除“教育资源”文档页面 (dask#7818) James Bourbeau

2021.06.1¶

发布于 2021 年 6 月 18 日

将资金页面替换为 dask.org 上的“支持者”部分 (dask#7817) James Bourbeau
添加初步的废弃工具 (dask#7810) James Bourbeau
在显式使用 dtype= 的 ufuncs 中强制执行 dtype 保留 (dask#7808) Doug Davis
将 Coiled 添加到付费支持组织列表 (dask#7811) Kristopher Overholt
对 Layer 和 HighLevelGraph 的 HTML repr 进行微调 (dask#7812) Genevieve Buckley
为 HLG HTML repr 添加深色模式支持 (dask#7809) Jacob Tomlinson
移除旧版 distributed 的兼容性条目 (dask#7801) Elliott Sales de Andrade
实现 HighLevelGraph 层的 HTML repr (dask#7763) Genevieve Buckley
更新默认 blockwise token 以避免 DataFrame 列名冲突 (dask#6546) James Bourbeau
对 merge_asof 使用 dispatch concat (dask#7806) Julia Signell
修复上游 freq 测试 (dask#7795) Julia Signell
使用更多标准库中的上下文管理器 (dask#7796) James Bourbeau
简化 parquet 测试中的跳过项 (dask#7802) Elliott Sales de Andrade
移除对过时 bokeh 的检查 (dask#7804) Elliott Sales de Andrade
更多的测试覆盖率上传 (dask#7799) James Bourbeau
移除 dask/__init__.py 中的 ImportError 捕获 (dask#7797) James Bourbeau
允许 DataFrame.join() 接受 DataFrame 列表进行合并 (dask#7578) Krishan Bhasin
修复 dask.array.linspace 中的最大递归深度异常 (dask#7667) Daniel Mesejo-León
修复文档链接 (dask#7794) Julia Signell
初步实现 da.select() 并添加测试 (dask#7760) Gabriel Miretti
层必须实现 get_output_keys 方法 (dask#7790) Genevieve Buckley
在 divisions 中不包含或不期望 freq (dask#7785) Julia Signell
一个用于 map_overlap 的抽象 HighLevelGraph 层 (dask#7595) Genevieve Buckley
在 drop 中始终包含 kwarg 名称 (dask#7784) Julia Signell
仅在需要时重新分块以计算中位数 (dask#7782) Julia Signell
为 DataFrame 和 Series 添加 add_(prefix|suffix) 方法 (dask#7745) tsuga
将 read_hdf 移至 Blockwise (dask#7625) Richard (Rick) Zamora
使 Layer.get_output_keys 正式成为一个抽象方法 (dask#7775) Genevieve Buckley
在 ravel_multi_index 中处理非 dask 数组和广播 (dask#7594) Gabe Joseph
修复 parquet 覆盖中以“/”结尾的路径问题 (dask#7773) Martin Durant
修复使用 filename=None 调用 .visualize() 的问题 (dask#7740) Freyam Mehta
为 SubgraphCallable 生成唯一名称 (dask#7637) Bruce Merry
在 CI 中将 fsspec 固定到 2021.5.0 (dask#7771) James Bourbeau
在 from_delayed 中如果提供了 meta，则延迟评估图 (dask#7769) Florian Jetter
为 DatetimeTZDtype 添加 meta 支持 (dask#7627) gerrymanoim
为自动 PR 标签添加 dispatch 标签 (dask#7701) James Bourbeau
修复 HDFS 测试 (dask#7752) Julia Signell

2021.06.0¶

发布于 2021 年 6 月 4 日

在 rewrite_blockwise 中从图键中移除抽象 tokens (dask#7721) Richard (Rick) Zamora
确保 csv project_columns 中的列顺序正确 (dask#7761) Richard (Rick) Zamora
重命名内部循环变量以避免重复 (dask#7741) Boaz Mohar
不在 to_zarr 中返回 delayed 对象 (dask#7738) Chris Roat
Array: 在 apply_gufunc 中修正输出数量 (dask#7669) Gabe Joseph
使用 da.blockwise 重写 da.fromfunction (dask#7704) John A Kirkham
将 make_meta_util 重命名为 make_meta (dask#7743) GALI PREM SAGAR
如果请求的分区少于输入分区，则在 shuffle 之前重新分区 (dask#7715) Vibhu Jawa
Blockwise: 处理常量键输入 (dask#7734) Mads R. B. Kristensen
在 apply_gufunc 中添加 raise (dask#7744) Boaz Mohar
在 CI 中显示失败测试摘要 (dask#7735) Genevieve Buckley
Python 3.9 中的 sizeof sets (dask#7739) Mads R. B. Kristensen
如果在 dataframe.__getitem__ 中使用 pandas 日期时间字符串则发出警告 (dask#7749) Julia Signell
高亮显示 client.dashboard_link (dask#7747) Genevieve Buckley
更容易订阅 Google 日历的链接 (dask#7733) Genevieve Buckley
在 Jupyter notebooks 中自动显示图可视化 (dask#7716) Genevieve Buckley
在 API 文档中为 unify_chunks 添加 autofunction (dask#7730) James Bourbeau

2021.05.1¶

发布于 2021 年 5 月 28 日

Pandas 兼容性 (dask#7712) Julia Signell
修复 optimize_dataframe_getitem 错误 (dask#7698) Richard (Rick) Zamora
更新文档中的 make_meta 导入 (dask#7713) Benjamin Zaitlen
实现 da.searchsorted (dask#7696) Tom White
修复错误消息中的格式字符串 (dask#7706) Jiaming Yuan
修复 read_sql_table 在加载单列时返回错误结果的问题 (dask#7572) c-thiel
在 support.rst 中添加 slack 加入链接 (dask#7679) Naty Clementi
移除未使用的 alphabet 变量 (dask#7700) James Bourbeau
修复 object 类型下的 meta 创建问题 (dask#7586) GALI PREM SAGAR
为 union_categoricals 添加 dispatch (dask#7699) GALI PREM SAGAR
整合 array Dispatch 对象 (dask#7505) James Bourbeau
将 DataFrame dispatch.registers 移动到独立文件 (dask#7503) Julia Signell
修复 init=False 的 dataclasses delayed 问题 (dask#7656) Julia Signell
允许列名为 divisions (dask#7605) Julia Signell
使用未知块堆叠 nd array (dask#7562) Chris Roat
宣传 2021 年 Dask 用户调查 (dask#7694) Genevieve Buckley
修复 DataFrame.set_index() 中的拼写错误 (dask#7691) James Lamb
清理 array API 引用链接 (dask#7684) David Hoese
为了与 NumPy 一致，flip 接受 axis 元组 (dask#7675) Andrew Champion
更新 pre-commit hook 版本 (dask#7676) James Bourbeau
清理 to_zarr 文档字符串 (dask#7683) David Hoese
修复 read_orc 的文档字符串 (dask#7678) Justus Magin
记录 ipyparallel 和 mpi4py concurrent.futures (dask#7665) John A Kirkham
更新测试以支持 CuPy 9 (dask#7671) Peter Andreas Entschev
修复一些 HighLevelGraph 文档不准确之处 (dask#7662) Mads R. B. Kristensen
修复 Series getitem 错误消息中的拼写错误 (dask#7659) Maisie Marshall

2021.05.0¶

发布于 2021 年 5 月 14 日

移除废弃的 kind kwarg 以符合 pandas 1.3.0 (dask#7653) Julia Signell
修复 DataFrame 列投影中的错误 (dask#7645) Richard (Rick) Zamora
打包时合并全局注解 (dask#7565) Mads R. B. Kristensen
在 pandas set_categories 中避免使用 inplace= (dask#7633) James Bourbeau
将 Dask-Dataframe 的 active-fusion 默认值更改为 False (dask#7620) Richard (Rick) Zamora
Array: 移除 RandomState 中的多余代码 (dask#7487) Gabe Joseph
在 others=None 时实现 str.concat (dask#7623) Daniel Mesejo-León
修复沙盒环境中的 dask.dataframe 问题 (dask#7601) Noah D. Brenowitz
支持 cupyx.scipy.linalg (dask#7563) Benjamin Zaitlen
将 timeseries 和 daily-stock 移至 Blockwise (dask#7615) Richard (Rick) Zamora
修复广播连接中的错误 (dask#7617) Richard (Rick) Zamora
对 DataFrame IO (parquet, csv, 和 orc) 使用 Blockwise (dask#7415) Richard (Rick) Zamora
向 Dask HighLevelGraph 添加块和类型信息 (dask#7309) Genevieve Buckley
添加 pyarrow sphinx intersphinx_mapping (dask#7612) Ray Bell
移除测试 freq 的跳过项 (dask#7608) Julia Signell
read_parquet 参数中的默认值 (dask#7567) Ray Bell
移除 ignore_abc_warning (dask#7606) Julia Signell
强化 DataFrame 在列选择和索引之间的合并 (dask#7575) Richard (Rick) Zamora
去除 ignore_abc 装饰器 (dask#7604) Julia Signell
移除 bokeh 的 kwarg 验证 (dask#7597) Julia Signell
添加 loky 示例 (dask#7590) Naty Clementi
Delayed: 参数变为任务时的 nout (dask#7593) Gabe Joseph
更新 mindep CI 构建中的 distributed 版本 (dask#7602) James Bourbeau
支持分区列和实际列之间的全部或没有重叠 (dask#7541) Richard (Rick) Zamora

2021.04.1¶

发布于 2021 年 4 月 23 日

为 concatenate=True 处理 Blockwise HLG pack/unpack (dask#7455) Richard (Rick) Zamora
map_partitions: 使用 token 化的信息作为 SubgraphCallable 的名称 (dask#7524) Mads R. B. Kristensen
使用 tmp_path 和 tmpdir 避免仓库中临时文件和目录的残留 (dask#7592) Naty Clementi
贡献文档（开发指南） (dask#7591) Naty Clementi
为 Python 3.9 CI 构建添加更多软件包 (dask#7588) James Bourbeau
Array: 修复 finalize 中的 NEP-18 dispatching (dask#7508) Gabe Joseph
numpydoc 的杂项修复 (dask#7569) Matthias Bussonnier
避免 pandas level= 关键字废弃 (dask#7577) James Bourbeau
将例如 .repartition(freq="M") 映射到 .repartition(freq="MS") (dask#7504) Ruben van de Geer
在并行 CI 运行中移除 hash seeding (dask#7128) Elliott Sales de Andrade
在 to_parquet 的参数中添加默认值 (dask#7564) Ray Bell
简化 transpose 轴清理 (dask#7561) Julia Signell
将 ValueError in len(index_names) > 1 明确其正在使用 fastparquet (dask#7556) Ray Bell
修复 pyarrow parquet 引擎的 dict 列追加问题 (dask#7527) Richard (Rick) Zamora
添加文档自动标签 (dask#7560) Doug Davis
将 dask.delayed.Delayed 添加到文档中，以便其他 sphinx 文档可以引用它 (dask#7559) Doug Davis
修复上游 idxmaxmin 在 split_every 不均匀时的错误 (dask#7538) Julia Signell
使 pandas Series/DataFrame 的 normalize_token 更具前瞻性（无直接块访问） (dask#7318) Joris Van den Bossche
重新设计的 __setitem__ 实现 (dask#7393) David Hassell
histogram, histogramdd 改进（文档；返回一致性） (dask#7520) Doug Davis
在上游构建中强制使用 nightly pyarrow (dask#7530) Joris Van den Bossche
修复配置参考文档 (dask#7533) Benjamin Zaitlen
在文档字符串中使用 .to_parquet on dask.dataframe (dask#7528) Ray Bell
避免 HLG 的双重 msgpack 序列化 (dask#7525) Mads R. B. Kristensen
鼓励在配置文档中使用 yaml.safe_load() (dask#7529) Hristo Georgiev
修复 reshape 错误。添加相关测试。修复 #7171。 (dask#7523) JSKenyon
在 to_parquet 中支持 custom_metadata= 参数 (dask#7359) Richard (Rick) Zamora
清理一些文档警告 (dask#7518) Daniel Mesejo-León
去除更多文档警告 (dask#7426) Julia Signell
添加了 product (prod 的别名) (dask#7517) Freyam Mehta
修复上游 __array_ufunc__ 测试 (dask#7494) Julia Signell
如果深度为零，则从 map_overlap 退回至 map_blocks (dask#7481) Genevieve Buckley
在 array assert_eq 中添加 check_type (dask#7491) Julia Signell

2021.04.0¶

发布于 2021 年 4 月 2 日

通过 dask.array.histogramdd 添加对多维直方图的支持 (dask#7387) Doug Davis
更新关于默认 LocalCluster 中线程和 worker 数量的文档 (dask#7497) cameron16
在 PR 中某些文件被触及时自动添加标签 (dask#7506) Julia Signell
从 kwargs 中提取 ignore_order (dask#7500) GALI PREM SAGAR
仅在 distributed 缺失时提供安装说明 (dask#7498) Matthew Rocklin
开始添加 isort (dask#7370) Julia Signell
在 dd.concat 中添加 ignore_order 参数 (dask#7473) Daniel Mesejo-León
显示 RAM 时使用二次幂 (dask#7484) crusaderky
添加许可分类器 (dask#7485) Tom Augspurger
将 conda 替换为 mamba (dask#7227) crusaderky
修复 array 文档中的拼写错误 (dask#7478) James Lamb
在本地调度器中使用 concurrent.futures (dask#6322) John A Kirkham

2021.03.1¶

发布于 2021 年 3 月 26 日

为 is_categorical_dtype 添加 dispatch 以处理非 pandas 对象 (dask#7469) brandon-b-miller
在 test_read_text 中使用 multiprocessing.Pool (dask#7472) John A Kirkham
为 gufunc 类添加缺失的 meta kwarg (dask#7423) Peter Andreas Entschev
内存映射 Dask 数组示例 (dask#7380) Dieter Weber
修复 NumPy 上游失败 xfail pandas 和 fastparquet 失败 (dask#7441) Julia Signell
修复 repartition with freq 的错误 (dask#7357) Ruben van de Geer
修复 tril/triu 的 __array_function__ dispatching (dask#7457) Peter Andreas Entschev
在一些测试中使用 concurrent.futures.Executors (dask#7429) John A Kirkham
要求 NumPy >=1.16 (dask#7383) crusaderky
微小的 sort_values 内务管理 (dask#7462) Ryan Williams
确保 parquet 部分路径的自然排序顺序 (dask#7249) Ryan Williams
移除运行 test_config.py 时发生的全局环境变量变异 (dask#7464) Hristo Georgiev
更新 NumPy intersphinx URL (dask#7460) Gabe Joseph
添加 rot90 (dask#7440) Trevor Manz
更新文档中关于端点所需软件包的信息 (dask#7454) Nick Vazquez
在 slice_array 文档字符串中将 Master 改为 main (dask#7453) Gabe Joseph
扩展 dask.utils.is_arraylike 文档字符串 (dask#7445) Doug Davis
简化 BlockwiseIODeps 导入 (dask#7420) Richard (Rick) Zamora
更新层注解打包方法 (dask#7430) James Bourbeau
在 test_describe_empty 中删除重复测试 (dask#7431) John A Kirkham
向 dataframe 模块添加 Series.dot 方法 (dask#7236) Madhu94
添加了 df kurtosis 方法和测试 (dask#7273) Jan Borchmann
避免 HLG cull 的二次时间性能 (dask#7403) Bruce Merry
暂时跳过有问题的 sparse 测试 (dask#7421) James Bourbeau
更新一些 CI 工作流名称 (dask#7422) James Bourbeau
修复 HDFS 测试 (dask#7418) Julia Signell
使更新日志副标题与层级结构匹配 (dask#7419) Julia Signell
在 value_counts 中添加对 normalize 的支持 (dask#7342) Julia Signell
避免 HLG Layer 解包和实例化时进行不必要的导入 (dask#7381) Richard (Rick) Zamora
Bincount 修复切片问题 (dask#7391) Genevieve Buckley
添加 sliding_window_view (dask#7234) Deepak Cherian
修复 docs/source/develop.rst 中的拼写错误 (dask#7414) Hristo Georgiev
将 PR 的文档构建切换到 readthedocs (dask#7397) James Bourbeau
将 sort_values 添加到 dask.DataFrame (dask#7286) gerrymanoim
在 CI 中将 sqlalchemy 固定到 <1.4.0 (dask#7405) James Bourbeau
注释修复 (dask#7215) Ryan Williams
死代码移除 / 修复 (dask#7388) Ryan Williams
对 pa.Table.from_pandas 调用使用单线程 (dask#7347) Richard (Rick) Zamora
将 'container' 替换为 'image' (dask#7389) James Lamb
DOC: repartition 超链接 (dask#7394) Ray Bell
在 bag.read_text 中将 delimiter 传递给 fsspec (dask#7349) Martin Durant
更新 read_hdf 默认模式为 "r" (dask#7039) rs9w33
打包 Blockwise 时，在 SubgraphCallable 中嵌入 literals (dask#7353) Mads R. B. Kristensen
更新 test_hdf.py 以不重用文件句柄 (dask#7044) rs9w33
需要额外的依赖项: cloudpickle, partd, fsspec, toolz (dask#7345) Julia Signell
准备 Blockwise + IO 基础设施 (dask#7281) Richard (Rick) Zamora
移除 test_slicing.py 中的重复导入 (dask#7365) Hristo Georgiev
为 pip 开发添加测试依赖 (dask#7360) Julia Signell
支持非 NumPy 数组的整数切片 (dask#7364) Peter Andreas Entschev
自动取消之前的 CI 构建 (dask#7348) James Bourbeau
dask.array.asarray 应处理 xarray 类在顶级命名空间中的情况 (dask#7335) Tom White
无需实例化层的 HighLevelGraph 长度 (dask#7274) Gabe Joseph
弃用对 Python 3.6 的支持 (dask#7006) James Bourbeau
修复 create_metadata_file 中的 fsspec 用法 (dask#7295) Richard (Rick) Zamora
将默认分支从 master 改为 main (dask#7198) Julia Signell
将 Xarray 添加到 CI 软件环境 (dask#7338) James Bourbeau
更新错误文本中的 repartition 参数名称 (dask#7336) Eoin Shanaghy
根据提交消息运行上游测试 (dask#7329) James Bourbeau
对 util 模块使用 pytest.register_assert_rewrite (dask#7278) Bruce Merry
添加在 from_array() 中使用特定块大小的示例 (dask#7330) James Lamb
将 NumPy 跳过项移入测试 (dask#7247) Julia Signell

2021.03.0¶

发布于 2021 年 3 月 5 日

注意

这是第一个支持 Python 3.9 的版本，也是最后一个支持 Python 3.6 的版本

提升 distributed 的最低版本 (dask#7328) James Bourbeau
修复 dask_cudf 的 percentiles_summary 问题 (dask#7325) Peter Andreas Entschev
暂时回滚最近的 Array.__setitem__ 更新 (dask#7326) James Bourbeau
Blockwise.clone (dask#7312) crusaderky
NEP-35 duck array 更新 (dask#7321) James Bourbeau
不允许为 array 设置 .name (dask#7222) Julia Signell
对整数输入创建百分位数时使用最近邻插值 (dask#7305) Kyle Barron
使用 CuPy 数组测试 exp (dask#7322) John A Kirkham
检查计算出的块具有正确的大小和 dtype (dask#7277) Bruce Merry
pytest.mark.flaky (dask#7319) crusaderky
贡献文档: 添加关于在 pip 安装 Dask 之前拉取最新 git 标签的说明 (dask#7308) Genevieve Buckley
支持 Python 3.9 (dask#7289) crusaderky
添加基于广播的合并实现 (dask#7143) Richard (Rick) Zamora
将 split_every 添加到 graph_manipulation (dask#7282) crusaderky
优化文档中的拼写错误 (dask#7306) Julius Busecke
dask.graph_manipulation 支持 xarray.Dataset (dask#7276) crusaderky
为 Bokeh 2.3.0 添加 plot 宽度和高度支持 (dask#7297) James Bourbeau
添加 NumPy 函数 tri, triu_indices, triu_indices_from, tril_indices, tril_indices_from (dask#6997) Illviljan
移除 DataFrame 磁盘 shuffle 中的“清理”任务 (dask#7260) Sinclair Target
在 CI 中使用开发版 distributed (dask#7279) James Bourbeau
移动 high level graph pack/unpack Dask 代码 (dask#7179) Mads R. B. Kristensen
提高 merge_percentiles 的性能 (dask#7172) Ashwin Srinath
DOC: 添加 dask-sql 和 fugue (dask#7129) Ray Bell
处理 categorical 类型和 parquet 的示例 (dask#7085) McToel
将 tree reduction 添加到 bincount (dask#7183) Thomas J. Fan
改进 from_array 中 name 的文档 (dask#7264) Bruce Merry
修复空分区的 cumsum 问题 (dask#7230) Julia Signell
向 dask array 创建文档添加 map_blocks 示例 (dask#7221) Julia Signell
修复 dask.graph_manipulation.wait_on() 的性能问题 (dask#7258) crusaderky
将 coveralls 替换为 codecov.io (dask#7246) crusaderky
在 pre-commit 中固定到特定的 black 版本 (dask#7256) Julia Signell
文档中的小拼写错误: array-chunks.rst (dask#7254) Magnus Nord
修复 Blockwise 和 ShuffleLayer 中的错误 (dask#7213) Richard (Rick) Zamora
修复 "pyarrow-dataset" 引擎在 pyarrow-3.0.0 下的 parquet 过滤错误 (dask#7200) Richard (Rick) Zamora
无 NumPy 的 graph_manipulation (dask#7243) crusaderky
支持 NEP-35 (dask#6738) Peter Andreas Entschev
避免在 doctest CI 构建期间运行单元测试 (dask#7240) James Bourbeau
在 CI 上运行 doctests (dask#7238) Julia Signell
清理集合运算的代码质量 (dask#7196) crusaderky
添加 dask.array.delete (dask#7125) Julia Signell
新的 conda-forge recipe 构建完成后，取消 graphviz 固定 (dask#7235) Julia Signell
在 Mac 上不使用 conda-forge 中的 NumPy 1.20 (dask#7211) crusaderky
map_overlap: 对没有重叠的轴不进行 rechunk (dask#7233) Deepak Cherian
固定 graphviz 以避免与最新 conda-forge 构建的问题 (dask#7232) Julia Signell
在文档中使用 html_css_files 来添加自定义 CSS (dask#7220) James Bourbeau
Graph manipulation: clone, bind, checkpoint, wait_on (dask#7109) crusaderky
修复 parquet pyarrow-dataset 引擎中过滤表达式的处理问题 (dask#7186) Joris Van den Bossche
扩展 __setitem__ 以更接近 match numpy (dask#7033) David Hassell
清理 Python 2 语法 (dask#7195) crusaderky
修复 Delayed._length 中的回归问题 (dask#7194) crusaderky
__dask_layers__() 测试和调整 (dask#7177) crusaderky
在 multiprocessing 调度器中正确转换 HighLevelGraph (dask#7191) Jim Crist-Harif
不在 CI 中快速失败 (dask#7188) James Bourbeau

2021.02.0¶

发布于 2021 年 2 月 5 日

为 NEP-35 添加 percentile 支持 (dask#7162) Peter Andreas Entschev
添加了列赋值中对 Float64 的支持 (dask#7173) Nils Braun
Coarsen rechunking 错误 (dask#7127) Davis Bennett
修复上游 CI 测试 (dask#6896) Julia Signell
修改 HighLevelGraph Mapping API (dask#7160) crusaderky
更新低级别图规范以使用任何可哈希的对象作为键 (dask#7163) James Bourbeau
泛型地使用不同的键重建集合 (dask#7142) crusaderky
使在 PRs 中链接 issues 更容易 (dask#7130) Ray Bell
添加 dask.array.append (dask#7146) D-Stacks
允许 dask.array.ravel 接受 array_like 参数 (dask#7138) D-Stacks
修复 array design doc 中的链接 (dask#7152) Thomas J. Fan
修复使用 blockwise 计算外积的示例 (dask#7119) Bruce Merry
弃用 HighlevelGraph.dicts，推荐使用 .layers (dask#7145) Amit Kumar
将 FastParquetEngine 与 pyarrow 引擎对齐 (dask#7091) Richard (Rick) Zamora
合并注解 (dask#7102) Ian Rose
简化 read_parquet 中 parts list 的内容 (dask#7066) Richard (Rick) Zamora
check_meta(): 检查 DataFrame 类型时使用 __class__ (dask#7099) Mads R. B. Kristensen
缓存多个属性 (dask#7104) Illviljan
修复 parquet getitem 优化问题 (dask#7106) Richard (Rick) Zamora
将 cytoolz 重新添加到 CI 环境 (dask#7103) James Bourbeau

2021.01.1¶

发布于 2021 年 1 月 22 日

部分修复 cumprod (dask#7089) Julia Signell
测试 pandas 1.1.x / 1.2.0 版本和 pandas nightly (dask#6996) Joris Van den Bossche
使用 assign 避免 SettingWithCopyWarning (dask#7092) Julia Signell
将 'mode' 参数传递给 bokeh.output_file() (dask#7034) (dask#7075) patquem
在执行 groupby.value_counts 时跳过空分区 (dask#7073) Julia Signell
为 assert_eq() 添加错误消息 (dask#7083) James Lamb
使缓存属性为只读 (dask#7077) Illviljan

2021.01.0¶

发布于 2021 年 1 月 15 日

带有评审意见的 map_partitions (dask#6776) Kumar Bharath Prabhu
确保 population 是一个实际的 list (dask#7027) Julia Signell
在 read_csv 中传播 storage_options (dask#7074) Richard (Rick) Zamora
移除所有 BlockwiseIO 代码 (dask#7067) Richard (Rick) Zamora
修复 CI (dask#7069) James Bourbeau
添加选项以控制 reshape 中的 rechunking (dask#6753) Tom Augspurger
修复复杂输入的 linalg.lstsq 问题 (dask#7056) Johnnie Gray
为 read_csv 添加 compression='infer' 默认值 (dask#6960) Richard (Rick) Zamora
回滚 svd_compressed #7003 中的参数更改 (dask#7004) Eric Czech
跳过失败的 s3 测试 (dask#7064) Martin Durant
恢复 BlockwiseIO (dask#7048) Richard (Rick) Zamora
添加一些指向 DataFrame.to_bag() 和 Series.to_bag() 的交叉引用 (dask#7049) Rob Malouf
将 matmul 重写为不带 contraction/concatenate 的 blockwise (dask#7000) Rafal Wojdyla
在 da.shape 中使用 functools.cached_property (dask#7023) Illviljan
在 series non_empty 中使用 meta 值 (dask#6976) Julia Signell
恢复 “暂时锁定 sphinx 版本至 3.3.1 (dask#7002)” (dask#7014) Rafal Wojdyla
恢复 python-graphviz 的版本锁定 (dask#7037) Julia Signell
不小心提交了 print 语句 (dask#7038) Julia Signell
在 agg 中传递 dropna 和 observed (dask#6992) Julia Signell
在使用 expand 进行 .str.split 后将索引添加到 meta (dask#7026) Ruben van de Geer
CI: 测试 pyarrow 2.0 和 nightly 版本 (dask#7030) Joris Van den Bossche
在 CI 中暂时锁定 python-graphviz (dask#7031) James Bourbeau
在 numpydoc 中给节加上下划线 (dask#7013) Matthias Bussonnier
添加自定义优化时保留正常优化 (dask#7016) Matthew Rocklin
暂时锁定 sphinx 版本至 3.3.1 (dask#7002) Rafal Wojdyla
文档：杂项格式调整 (dask#6998) Matthias Bussonnier
为 from_array 添加 inline_array 选项 (dask#6773) Tom Augspurger
恢复 “blockwise 数组创建例程的初步尝试 (dask#6931)” (:pr:`6995) James Bourbeau
在 set_index 中设置 npartitions (dask#6978) Julia Signell
上游 config 序列化和继承 (dask#6987) Jacob Tomlinson
提高 test_minimum_time 中的最小时间 (dask#6988) Martin Durant
修复 read_parquet 的 pandas dtype 推断 (dask#6985) Richard (Rick) Zamora
避免在使用 sorted=True 时 set_index 中的数据丢失 (dask#6980) Richard (Rick) Zamora
修复 read_parquet 在使用 index=False 处理未命名索引时的错误 (dask#6969) Richard (Rick) Zamora
比较元数据时使用 __class__ (dask#6981) Mads R. B. Kristensen
比较字符串版本并非总是有效 (dask#6979) Rafal Wojdyla
修复 dask#6925 (dask#6982) sdementen
blockwise 数组创建例程的初步尝试 (dask#6931) Ian Rose
简化 has_parallel_type() (dask#6927) Mads R. B. Kristensen
在 BlockwiseIO 中处理注解解包 (dask#6934) Simon Perkins
在 test_sql.py 中避免使用已弃用的 yield_fixture (dask#6968) Richard (Rick) Zamora
移除 BlockwiseIO 中错误的图逻辑 (dask#6933) Richard (Rick) Zamora
如果变量为 None，则获取配置项 (dask#6862) Jacob Tomlinson
更新 from_pandas 文档字符串 (dask#6957) Richard (Rick) Zamora
防止 fuse_roots 覆盖注解 (dask#6955) Simon Perkins

2020.12.0¶

发布于 2020 年 12 月 10 日

亮点¶

版本方案切换为 CalVer。
引入新的 HighLevelGraph API，支持将任务图的高层表示发送到分布式调度器。
引入新的 HighLevelGraph 层对象，包括 BasicLayer, Blockwise, BlockwiseIO, ShuffleLayer 等。
使用 dask.annotations 上下文管理器添加对应用自定义 Layer 级别注解（如 priority, retries 等）的支持。
将 pandas 的最低支持版本更新到 0.25.0，NumPy 更新到 1.15.1。
支持 pyarrow.dataset 的 read_parquet API。
Dask 数组 SVD 的几处修复。

所有更改¶

使 observed 关键字参数可选 (dask#6952) Julia Signell
最低支持 pandas 0.25.0 numpy 1.15.1 (dask#6895) Julia Signell
使分类变量的顺序明确 (dask#6949) Julia Signell
改进 read_parquet 的 “pyarrow-dataset” 统计性能 (dask#6918) Richard (Rick) Zamora
为 groupby 添加 observed 关键字 (dask#6854) Julia Signell
确保当每个文件有多个分区时 include_path_column 正常工作 (dask#6911) Julia Signell
修复：当深度是无符号位类型时，array.overlap 和 array.map_overlap 块大小不正确 (dask#6909) GFleishman
修复 HLG 文档示例中的语法错误 (dask#6946) Mark
从 sample 返回一个 Bag (dask#6941) Shang Wang
添加 ravel_multi_index (dask#6939) Illviljan
启用 parquet 元数据并行收集 (dask#6921) Richard (Rick) Zamora
如果 _file 为 None，则避免在 progressbar 中使用它 (dask#6938) Mark Harfouche
将 Zarr 添加到上游 CI 构建中 (dask#6932) James Bourbeau
引入 BlockwiseIO 层 (dask#6878) Richard (Rick) Zamora
将 Layer 注解传输到调度器 (dask#6889) Simon Perkins
更新机会性缓存页面，移除实验性警告 (dask#6926) Timost
允许 pyarrow >2.0.0 (dask#6772) Richard (Rick) Zamora
支持 read_parquet 的 pyarrow.dataset API (dask#6534) Richard (Rick) Zamora
当粗化因子不能整除 shape 时，为 da.coarsen 添加更详细的错误消息 (dask#6908) Davis Bennett
只在 dask/dask 上运行 cron CI，不包括分支 (dask#6905) Jacob Tomlinson
为 ShuffleLayers 添加 annotations (dask#6913) Matthew Rocklin
暂时标记 test_from_s3 为预期失败 (dask#6915) James Bourbeau
添加 dataframe skew 方法 (dask#6881) Jan Borchmann
修复数组 meta 中的 dtype (dask#6893) Julia Signell
helm install ... 中缺少 name 参数 (dask#6903) Ruben van de Geer
修复：使用过滤器读取项时发生异常 (dask#6901) Martin Durant
为 dask.array.dot 添加对 cupyx sparse 的支持 (dask#6846) Akira Naruse
稍微提高 array mindeps 版本，以使测试通过 [test-mindeps] (dask#6894) Julia Signell
更新/移除 mindeps 中的 pandas 和 numpy (dask#6888) Julia Signell
修复 ArrowEngine 在使用 clear_known_categories 时的错误 (dask#6887) Richard (Rick) Zamora
修复关于任务调度器的文档 (dask#6879) Zhengnan Zhao
添加人类可读的相对时间格式化工具 (dask#6883) Jacob Tomlinson
6864 问题的可能修复 set_index 问题 (dask#6866) Richard (Rick) Zamora
BasicLayer: 移除依赖参数 (dask#6859) Mads R. B. Kristensen
Blockwise 的序列化 (dask#6848) Mads R. B. Kristensen
解决 columns=[] 错误 (dask#6871) Richard (Rick) Zamora
避免重复的 parquet schema 通信 (dask#6841) Richard (Rick) Zamora
为现有 parquet 数据集添加 create_metadata_file 工具 (dask#6851) Richard (Rick) Zamora
改进具有共同终点的工作负载的排序 (dask#6779) Tom Augspurger
字符串化工具 (dask#6852) Mads R. B. Kristensen
为 to_parquet 添加关键字 overwrite=True，以便在覆盖 pyarrow Dataset 时移除悬空文件。 (dask#6825) Greg Hayes
移除 map_tasks() 和 map_basic_layers() (dask#6853) Mads R. B. Kristensen
将 QR 迭代引入 svd_compressed (dask#6813) RogerMoens
__dask_distributed_pack__() 现在接受一个 client 参数 (dask#6850) Mads R. B. Kristensen
在 set_index 中使用 map_partitions 而不是 delayed (dask#6837) Mads R. B. Kristensen
为 as_completed().update(futures) 添加文档命中 (dask#6817) manuels
提高 GHA setup-miniconda 版本 (dask#6847) Jacob Tomlinson
设置有序索引时移除 NaN 值 (dask#6829) Rockwell Weiner
修复 SVD 中 u 的转置 (dask#6799) RogerMoens
迁移到 GitHub Actions (dask#6794) Jacob Tomlinson
修复 sphinx currentmodule 的用法 (dask#6839) James Bourbeau
修复最低依赖项 CI 构建 (dask#6838) James Bourbeau
避免在 Blockwise 剪枝期间图的实体化 (dask#6815) Richard (Rick) Zamora
修复拼写错误 (dask#6834) Devanshu Desai
在 collections_to_dsk 中使用 HighLevelGraph.merge (dask#6836) Mads R. B. Kristensen
在 svd compression_matrix 中尊重 dtype #2849 (dask#6802) RogerMoens
将 blocksize 添加到任务名称 (dask#6818) Julia Signell
检查全 NaN 分区 (dask#6821) Rockwell Weiner
将 “institutional” SQL 文档节指向主 SQL 文档 (dask#6823) Martin Durant
修复：DataFrame.join 不接受 Series 作为 other 参数 (dask#6809) David Katz
移除 to_parquet 中的 to_delayed 操作 (dask#6801) Richard (Rick) Zamora
层注解文档字符串改进 (dask#6806) Simon Perkins
Avro 读取器 (dask#6780) Martin Durant
如果最小块大小小于深度，则对数组进行 rechunk (dask#6708) Julia Signell
添加层注解 (dask#6767) Simon Perkins
为文档添加“查看代码”链接 (dask#6793) manuels
为 Blockwise 层添加可选的 IO 子图 (dask#6715) Richard (Rick) Zamora
添加分布式高层图的 pack/unpack 功能 (dask#6786) Mads R. B. Kristensen
添加 DataFrame API 中缺失的方法 (dask#6789) Stephannie Jimenez Gacha
添加关于管理环境的文档 (dask#6778) Martin Durant
HLG: get_all_external_keys() (dask#6774) Mads R. B. Kristensen
避免在 reshape 时使用 chunksize=1 进行 rechunking (dask#6748) Tom Augspurger
尝试使分类变量在 join 操作中正常工作 (dask#6205) Julia Signell
修复 array-slice.rst 中的一些小拼写错误和尾随空格 (dask#6771) Magnus Nord
修复空 DataFrame 分区的 parquet 元数据写入错误 (pyarrow) (dask#6741) Callum Noble
文档化 map_blocks 和 map_overlap 中的 meta 关键字参数。 (dask#6763) Peter Andreas Entschev
开始试验使用并行前缀扫描实现 cumsum 和 cumprod (dask#6675) Erik Welch
澄清 dask 数组和 numpy 数组之间布尔索引的差异 (dask#6764) Illviljan
Shuffle 层的搞笑序列化 (dask#6760) James Bourbeau
配置 array optimize 跳过融合并返回 HLG (dask#6751) Mads R. B. Kristensen
在 CI 中暂时使用 pyarrow<2 (dask#6759) James Bourbeau
修复 min/max 归约的 meta (dask#6736) Peter Andreas Entschev
为 da.linalg.lstsq 添加 2D 功能 - 模仿 numpy (dask#6749) Pascal Bourgault
CI: 修复导致 pivot 中测试不稳定失败的 bug (dask#6752) Tom Augspurger
层的序列化 (dask#6693) Mads R. B. Kristensen
为 Series/DataFrame 添加 attrs 属性 (dask#6742) Illviljan
移除可变默认参数 (dask#6747) Mads R. B. Kristensen
调整 parquet ArrowEngine 以便更容易编写子类 (dask#6505) Joris Van den Bossche
添加 ShuffleStage HLG 层 (dask#6650) Richard (Rick) Zamora
在 meta_from_array 中处理 literal (dask#6731) Peter Andreas Entschev
即使块大小相同，也要进行平衡的 rechunking (dask#6735) Chris Roat
修复 DataFrame.set_index 文档字符串 (dask#6739) Gil Forsyth
确保 HighLevelGraph 层始终包含 Layer 实例 (dask#6716) James Bourbeau
在 HighLevelGraph 层上进行 Map 操作 (dask#6689) Mads R. B. Kristensen
更新 overlap *_like 函数调用和 CuPy 测试 (dask#6728) Peter Andreas Entschev
修复使用 __array_function__ 的 svd 问题 (dask#6727) Peter Andreas Entschev
添加 doctest 扩展用于文档 (dask#6397) Jim Circadian
使用 @pentschev 的建议对 #5628 进行小幅修复 (dask#6724) John A Kirkham
当 meta 类型改变时改变 Dask 数组的类型 (dask#5628) Matthew Rocklin
添加 az (dask#6719) Ray Bell
HLG: 单个 key 的 get_dependencies() (dask#6699) Mads R. B. Kristensen
恢复 “恢复 “在集合中的任何地方使用 HighLevelGraph 层 (dask#6510)” (dask#6697)” (dask#6707) Tom Augspurger
允许 *_like 数组创建函数遵循输入数组类型 (dask#6680) Genevieve Buckley
更新 dask-sphinx-theme 版本 (dask#6700) Gil Forsyth

2.30.0 / 2020-10-06¶

数组¶

允许 rechunk 均匀分割成 N 块 (dask#6420) Scott Sievert

2.29.0 / 2020-10-02¶

数组¶

_repr_html_: 使侧面颜色更深，而不是绘制所有线条 (dask#6683) Julia Signell
移除 nanstd 和 nanvar 的警告 (dask#6667) Thomas J. Fan
从原数组获取输出 shape - map_overlap (dask#6682) Julia Signell
在索引中将 np.searchsorted 替换为 bisect (dask#6669) Joachim B Haga

Bag¶

确保子进程对于 bag groupby 具有一致的哈希值 (dask#6660) Itamar Turner-Trauring

核心¶

恢复 “在集合中的任何地方使用 HighLevelGraph 层 (dask#6510)” (dask#6697) Tom Augspurger
使用 pandas.testing (dask#6687) John A Kirkham
改进测试中 128 位浮点数的跳过 (dask#6676) Elliott Sales de Andrade

DataFrame¶

允许使用布尔 dataframe 设置 dataframe 项 (dask#6608) Julia Signell

文档¶

修复拼写错误 (dask#6692) garanews
修复几处拼写错误 (dask#6678) Pav A

2.28.0 / 2020-09-25¶

数组¶

部分恢复了 Array 索引更改，这些更改会导致大块产生。这恢复了 Dask 2.25.0 及更早版本的行为，并在生成大块时发出警告。提供了一个配置选项以避免创建大块，详见 Efficiency。 (dask#6665) Tom Augspurger
为 to_dask_array 添加 meta (dask#6651) Kyle Nicholson
修复 dask#6631 和 dask#6611 (dask#6632) Rafal Wojdyla
在数组归约中推断对象类型 (dask#6629) Daniel Saxton
为 svd_flip 添加 v_based 标志 (dask#6658) Eric Czech
修复数组 mean 的不稳定问题 (dask#6656) Sam Grayson

核心¶

移除 SubgraphCallable.__eq__ 中的 dsk 相等检查 (dask#6666) Mads R. B. Kristensen
在集合中的任何地方使用 HighLevelGraph 层 (dask#6510) Mads R. B. Kristensen
为 SubgraphCallable 添加 hash dunder 方法，用于缓存目的 (dask#6424) Andrew Fulton
默认情况下停止写入被注释掉的配置文件 (dask#6647) Matthew Rocklin

DataFrame¶

通过 agg API 添加对 collect list 聚合的支持 (dask#6655) Madhur Tandon
稍微更好的错误消息 (dask#6657) Julia Signell

2.27.0 / 2020-09-18¶

数组¶

在 svd 中保留 dtype (dask#6643) Eric Czech

核心¶

store(): 创建单个 HLG 层 (dask#6601) Mads R. B. Kristensen
添加 pre-commit CI 构建 (dask#6645) James Bourbeau
将 .pre-commit-config 更新到最新的 black。 (dask#6641) Julia Signell
更新 super 的用法，移除 Python 2 兼容性 (dask#6630) Poruri Sai Rahul
移除 u 字符串前缀 (dask#6633) Poruri Sai Rahul

DataFrame¶

改进 to_sql 的错误消息 (dask#6638) Julia Signell
使用空列表作为分类 (dask#6626) Julia Signell

文档¶

为数组 API 文档添加 autofunction 以包含更多 ufuncs (dask#6644) James Bourbeau
为 dask.array 文档添加一些缺失的 ufuncs (dask#6642) Ralf Gommers
添加 HelmCluster 文档 (dask#6290) Jacob Tomlinson

2.26.0 / 2020-09-11¶

数组¶

单块 SVD 的后端感知 dtype 推断 (dask#6623) Eric Czech
使 array.reduction 文档字符串与 dtype 匹配 (dask#6624) Martin Durant
使用行和列为 svd_compressed 设置压缩级别的下限 (dask#6622) Eric Czech
改进 SVD 一致性和小数组处理 (dask#6616) Eric Czech
添加 svd_flip #6599 (dask#6613) Eric Czech
处理包含 dask 数组的序列 (dask#6595) Gabe Joseph
避免从使用列表的 getitem 中产生大块 (dask#6514) Tom Augspurger
在 from_array 中立即切片 numpy 数组 (dask#6605) Deepak Cherian
恢复序列化 dask 数组的能力 (dask#6594) Noah D. Brenowitz
为短而胖的数组添加 SVD 支持 (dask#6591) Eric Czech
添加简单的块类型注册表并根据需要推迟到 upcast 类型 (dask#6393) Jon Thielen
默认情况下对齐 coarsen 块 (dask#6580) Deepak Cherian
修复未知维度上的 reshape 和其他测试修复 (dask#6578) Ryan Williams

核心¶

为 HighLevelGraph 依赖项添加验证和修复 (dask#6588) Mads R. B. Kristensen
修复 linting 问题 (dask#6598) Tom Augspurger
跳过 bokeh 版本 2.0.0 (dask#6572) John A Kirkham

DataFrame¶

使用 meta 时添加字节/行计算 (dask#6585) McToel
在 Series.sum / prod 中处理 min_count (dask#6618) Daniel Saxton
更新 DataFrame.set_index 文档字符串 (dask#6549) Timost
在分位数计算中始终计算 0 和 1 分位数 (dask#6564) Erik Welch
修复读取空 csv 文件时的错误路径 (dask#6573) Abdulelah Bin Mahfoodh

文档¶

文档：排查 dashboard 404 问题 (dask#6215) Kilian Lieret
修复 extraConfig 示例 (dask#6625) Tom Augspurger
更新支持的 Python 版本 (dask#6609) Julia Signell
文档化 dask/daskhub helm chart (dask#6560) Tom Augspurger

2.25.0 / 2020-08-28¶

核心¶

在 subs() 中比较 key hash (dask#6559) Mads R. B. Kristensen
使用最新的 black 版本重新运行 (dask#6568) James Bourbeau
许可更新 (dask#6554) Tom Augspurger

DataFrame¶

添加 gs read_parquet 示例 (dask#6548) Ray Bell

文档¶

从文档页面名称中移除版本 (dask#6558) James Bourbeau
更新 kubernetes-helm.rst (dask#6523) David Sheldon
停止 2020 调查 (dask#6547) Tom Augspurger

2.24.0 / 2020-08-22¶

数组¶

修复测试中设置随机种子的问题。 (dask#6518) Elliott Sales de Andrade
在 apply gufunc 中支持 meta (dask#6521) joshreback
将 cupy.sparse 替换为 cupyx.scipy.sparse (dask#6530) John A Kirkham

DataFrame¶

提高 rolling 测试的容忍度 (dask#6502) Julia Signell
实现 DatFrame.__len__ (dask#6515) Tom Augspurger
在 to_parquet 中推断 arrow schema (用于 ArrowEngine`) (dask#6490) Richard (Rick) Zamora
修复没有 pyarrow 时的 parquet 测试 (dask#6524) Martin Durant
移除 ArrowEngine 中有问题的 filter 参数 (dask#6527) Richard (Rick) Zamora
默认情况下避免在 ArrowEngine 中进行 schema 验证 (dask#6536) Richard (Rick) Zamora

核心¶

在 make_blockwise_graph 中使用 unpack_collections (dask#6517) Thomas J. Fan
将 key_split() 从 optimization.py 移到 utils.py (dask#6529) Mads R. B. Kristensen
使测试在 moto 服务器上运行 (dask#6528) Martin Durant

2.23.0 / 2020-08-14¶

数组¶

通过广播减少 np.zeros, ones, 和 full 数组的大小 (dask#6491) Matthias Bussonnier
在 map_overlap 中为 trim 添加缺失的 meta= (dask#6494) Peter Andreas Entschev

Bag¶

Bag repartition 分区大小 (dask#6371) joshreback

核心¶

Scalar.__dask_layers__() 返回 self._name 而不是 self.key (dask#6507) Mads R. B. Kristensen
在 fuse_root 优化中正确更新依赖项 (dask#6508) Mads R. B. Kristensen

DataFrame¶

向 dataframe 添加 items (dask#6503) Thomas J. Fan
在 write_table 调用中包含 compression (dask#6499) Julia Signell
修复 nonempty_series 中的警告 (dask#6485) Tom Augspurger
根据第一个参数的类型智能确定分区 (dask#6479) Matthew Rocklin
修复 pyarrow mkdirs (dask#6475) Julia Signell
修复 to_parquet 中的重复 parquet 输出 (dask#6451) michaelnarodovitch

文档¶

修复 da.histogram 文档 (dask#6439) Roberto Panai
添加 agg nunique 示例 (dask#6404) Ray Bell
修复 SQL 文档中的一些拼写错误 (dask#6489) Mike McCarty
SQL 文档 (dask#6453) Martin Durant

2.22.0 / 2020-07-31¶

数组¶

NumPy dtype 弃用的兼容性 (dask#6430) Tom Augspurger

核心¶

为某些 bytes 类似对象实现 sizeof (dask#6457) John A Kirkham
新 fsspec 的 HTTP 错误 (dask#6446) Martin Durant
当抛出 RecursionError 时，从 tokenize 函数返回 uuid (dask#6437) Julia Signell
安装 upstream-dev 包的依赖项 (dask#6431) Tom Augspurger
在 setup.cfg 中使用更新的链接 (dask#6426) Zhengnan Zhao

DataFrame¶

如果列名是字符串，则在其周围添加单引号 (dask#6471) Gil Forsyth
重构 ArrowEngine 以提高 read_parquet 性能 (dask#6346) Richard (Rick) Zamora
添加 tolist dispatch (dask#6444) GALI PREM SAGAR
与 pandas 1.1.0rc0 的兼容性 (dask#6429) Tom Augspurger
多值透视表 (dask#6428) joshreback
to_csv 文档字符串中的重复参数定义 (dask#6411) Jun Han (Johnson) Ooi

文档¶

在文档中添加工具，用于将 YAML 配置转换为环境变量并转换回来 (dask#6472) Jacob Tomlinson
修复参数服务器渲染 (dask#6466) Scott Sievert
修复断开的链接 (dask#6403) Jim Circadian
文档中完整的参数服务器实现 (dask#6449) Scott Sievert
修复拼写错误 (dask#6436) Jack Xiaosong Xu

2.21.0 / 2020-07-17¶

数组¶

纠正 array.routines.gradient() 中的错误消息 (dask#6417) johnomotani
修复包含某些 dimension=1 的数组的 blockwise concatenate (dask#6342) Matthias Bussonnier

Bag¶

修复 bag.take 示例 (dask#6418) Roberto Panai

核心¶

优化过程中的 group 值应该只包含 graph 和 keys，而不是 optimization + keys (dask#6409) Benjamin Zaitlen
调用自定义优化一次，并提供 kwargs (dask#6382) Clark Zinzow
在 Python 3.7 上测试时包含 pickle5 (dask#6379) John A Kirkham

DataFrame¶

纠正错误消息中的拼写错误 (dask#6422) Tom McTiernan
使用 pytest.warns 检查 UserWarning (dask#6378) Richard (Rick) Zamora
从字符串解析 bytes_per_chunk keyword 关键字 (dask#6370) Matthew Rocklin

文档¶

Numpydoc 格式化 (dask#6421) Matthias Bussonnier
在 1.1 发布后解除 numpydoc 的版本锁定 (dask#6407) Gil Forsyth
Numpydoc 格式化 (dask#6402) Matthias Bussonnier
添加开发环境安装代码时使用 conda 的说明 (dask#6399) Ray Bell
更新 visualize 文档字符串 (dask#6383) Zhengnan Zhao

2.20.0 / 2020-07-02¶

数组¶

为 numpy zero-strided 数组注册 sizeof (dask#6343) Matthias Bussonnier
在 concatenate 中使用 concatenate_lookup (dask#6339) John A Kirkham
修复包含某些零长度维度的数组的 rechunking 问题 (dask#6335) Matthias Bussonnier

DataFrame¶

将 iloc` 调用分派到 getitem (dask#6355) Gil Forsyth
在 fastparquet 引擎中处理未命名的 pandas RangeIndex (dask#6350) Richard (Rick) Zamora
使用 pyarrow 写入分区 parquet 数据集时保留索引 (dask#6282) Richard (Rick) Zamora
为 pandas 的 group_split_dispatch 使用 ignore_index (dask#6251) Richard (Rick) Zamora

文档¶

添加描述参数的文档 (dask#6318) asmith26

2.19.0 / 2020-06-19¶

数组¶

将块大小转换为 python int dtype (dask#6326) Gil Forsyth
为 *_like() 数组创建函数添加 shape=None (dask#6064) Anderson Banihirwe

核心¶

更新 fsspec 中协议差异的预期错误消息 (dask#6331) Gil Forsyth
修复 parse_bytes 中小于 1 的浮点数问题 (dask#6311) Gil Forsyth
修复代码库中各处的异常原因 (dask#6308) Ram Rachum
修复重复的测试 (dask#6303) James Lamb
移除未使用的测试函数 (dask#6304) James Lamb

DataFrame¶

添加高层 CSV 子图 (dask#6262) Gil Forsyth
修复合并仅包含索引的单分区 dataframe 时的 ValueError (dask#6309) Krishan Bhasin
使 index.map 清除 divisions。 (dask#6285) Julia Signell

文档¶

添加 2020 调查链接 (dask#6328) Tom Augspurger
更新 bag.rst (dask#6317) Ben Shaver

2.18.1 / 2020-06-09¶

数组¶

不要在 full 上尝试设置名称 (dask#6299) Julia Signell
直方图：支持 range/bins 的惰性值（另一种方式） (dask#6252) Gabe Joseph

核心¶

修复 utils.py 中的异常原因 (dask#6302) Ram Rachum
提高 HighLevelGraph 构建性能 (dask#6293) Julia Signell

文档¶

现在 readthedocs 构建未发布功能的文档字符串 (dask#6295) Antonio Ercole De Luca
添加 asyncssh intersphinx 映射 (dask#6298) Jacob Tomlinson

2.18.0 / 2020-06-05¶

数组¶

如果切片索引与原数组 shape 相同，则将其转换为 dask 数组 (dask#6273) Julia Signell
修复 stack 错误消息 (dask#6268) Stephanie Gott
full & full_like: 非标量 fill_value 时出错 (dask#6129) Huite
map_overlap 支持多个数组 (dask#6165) Eric Czech
填充重采样分区以计算边缘 (dask#6255) Julia Signell

Bag¶

从dask bag中随机抽样k个元素 #4799 (dask#6239) Antonio Ercole De Luca

DataFrame¶

向 sort_values 添加 dropna, sort 和 ascending (dask#5880) Julia Signell
泛化 from_dask_array (dask#6263) GALI PREM SAGAR
为 SeriesGroupby.nunique 添加派生文档字符串 (dask#6284) Julia Signell
移除带有规则的重采样中的 NotImplementedError (dask#6274) Abdulelah Bin Mahfoodh
添加 dd.to_sql (dask#6038) Ryan Williams

文档¶

更新远程数据部分 (dask#6258) Ray Bell

2.17.2 / 2020-05-28¶

核心¶

重新添加 complete extra (dask#6257) Jim Crist-Harif

DataFrame¶

如果 resample 不会给出正确答案，则抛出错误 (dask#6244) Julia Signell

2.17.1 / 2020-05-28¶

数组¶

空数组重新分块 (dask#6233) Andrew Fulton

核心¶

使 pyyaml 成为必需项 (dask#6250) Jim Crist-Harif
修复 ImportError 导致的安装命令错误 (dask#6238) Gaurav Sheni
移除 issue 模板 (dask#6249) Jacob Tomlinson

DataFrame¶

从 DataFrame.shuffle 向 dd_shuffle 传递 ignore_index (dask#6247) Richard (Rick) Zamora
处理缺失的 HDF 键 (dask#6204) Martin Durant
泛化 describe & quantile API (dask#5137) GALI PREM SAGAR

2.17.0 / 2020-05-26¶

数组¶

da.pad 的小改进 (dask#6213) Mark Boer
dask.array.apply_gufunc 中如果输出多个结果则返回 tuple，并添加测试检查 tuple (dask#6207) Kai Mühlbauer
支持未知块大小的 stack (dask#6195) swapna

Bag¶

Bag上的随机选择 (dask#6208) Antonio Ercole De Luca

核心¶

抛出警告 delayed.visualise() (dask#6216) Amol Umbarkar
确保其他 pickle 参数有效 (dask#6229) John A Kirkham
全面改革 fuse() 配置 (dask#6198) crusaderky
更新 dask.order.order 以同时使用 FIFO 和 LIFO 考虑“下一个”节点 (dask#5872) Erik Welch

DataFrame¶

为更多聚合方法使用 0 作为 fill_value (dask#6245) Julia Signell
泛化 rearrange_by_column_tasks 并添加 DataFrame.shuffle (dask#6066) Richard (Rick) Zamora
Xfail test_rolling_numba_engine 用于较新版本的numba和较旧版本的pandas (dask#6236) James Bourbeau
泛化 fix_overlap (dask#6240) GALI PREM SAGAR
修复没有列的 DataFrame.shape (dask#6237) noreentry
当使用重叠分区设置预排序索引时，避免 shuffle (dask#6226) Krishan Bhasin
调整 Parquet 引擎类，使其更容易进行子类化 (dask#6211) Marius van Niekerk
修复 dd.merge_asof 在 left_on='col' & right_index=True 时的 bug (dask#6192) noreentry
禁用 concat 的警告 (dask#6210) Tung Dang
将 AUTO_BLOCKSIZE 移出 read_csv 签名 (dask#6214) Jim Crist-Harif
使用可调用对象进行 .loc 索引 (dask#6185) Endre Mark Borza
避免在 _compute_sum_of_squares 中使用 apply 进行 groupby std 聚合 (dask#6186) Richard (Rick) Zamora
test_parquet 的微小更正 (dask#6190) Brian Larsen
遵守传递的 pat 进行分隔符连接并修复错误消息 (dask#6194) GALI PREM SAGAR
如果没有可用的 parquet 库，则跳过 test_to_parquet_with_get (dask#6188) Scott Sanderson

文档¶

添加了 distributed.Event 类的文档 (dask#6231) Nils Braun
文档：写入远程 (dask#6124) Ray Bell

2.16.0 / 2020-05-08¶

数组¶

修复数组通用 reduction 名称 (dask#6176) Nick Evans
在 unravel_index 中将 dim 替换为 shape (dask#6155) Julia Signell
Moment: 处理所有元素都被掩码的情况 (dask#5339) Gabe Joseph

核心¶

移除 dask 代码库中冗余的字符串拼接 (dask#6137) GALI PREM SAGAR
上游兼容性 (dask#6159) Tom Augspurger
确保 dict 和序列的 sizeof 返回一个整数 (dask#6179) James Bourbeau
使用随机采样估计 python 集合大小 (dask#6154) Florian Jetter
更新上游测试 (dask#6146) Tom Augspurger
跳过 mindeps 构建的测试 (dask#6144) Tom Augspurger
将默认多进程上下文切换到“spawn” (dask#4003) Itamar Turner-Trauring
更新 manifest 以包含 dask-schema (dask#6140) Benjamin Zaitlen

DataFrame¶

加强基于 pyarrow 的 read_parquet 中不一致 schema 的处理 (dask#6160) Richard (Rick) Zamora
向将数据写入磁盘的方法添加 compute kwargs (dask#6056) Krishan Bhasin
修复 unique 从后端返回类似索引结果的问题 (dask#6153) GALI PREM SAGAR
修复 map_partitions 使用集合时的内部错误 (dask#6103) Tom Augspurger

文档¶

向索引目录添加计算阶段 (dask#6157) Benjamin Zaitlen
移除调度脚本中未使用的导入 (dask#6138) James Lamb
修复缩进 (dask#6147) Martin Durant
添加 Tom 的日志配置示例 (dask#6143) Martin Durant

2.15.0 / 2020-04-24¶

数组¶

更新 dask.array.from_array，当传入 Dask 集合时发出警告 (dask#6122) James Bourbeau
dask.array.pad 中非 numpy 类似的行为 (dask#6042) Mark Boer
在 da.repeat 中添加对 repeats=0 的支持 (dask#6080) James Bourbeau

核心¶

修复 schema 的 yaml 布局 (dask#6132) Benjamin Zaitlen
配置参考 (dask#6069) Benjamin Zaitlen
添加配置选项以关闭任务融合 (dask#6087) Matthew Rocklin
在 windows 上跳过 pyarrow (dask#6094) Tom Augspurger
设置融合键最大长度的限制 (dask#6057) Lucas Rademaker
添加针对 #6062 的测试 (dask#6072) Martin Durant
升级 checkout action 到 v2 (dask#6065) James Bourbeau

DataFrame¶

泛化分类调用以支持 cudf Categorical (dask#6113) GALI PREM SAGAR
避免在每个 worker 上都读取 _metadata (dask#6017) Richard (Rick) Zamora
在 apply_concat_apply 中使用 group_split_dispatch 和 ignore_index (dask#6119) Richard (Rick) Zamora
使用 pyarrow 处理新的 (dtype) pandas 元数据 (dask#6090) Richard (Rick) Zamora
如果未安装 pyarrow，则跳过 test_partition_on_cats_pyarrow (dask#6112) James Bourbeau
更新 DataFrame len 以处理同名列 (dask#6111) James Bourbeau
ArrowEngine 错误修复和测试覆盖 (dask#6047) Richard (Rick) Zamora
添加了 mode (dask#5958) Adam Lewis

文档¶

更新“helm install”以使用 helm 3 (dask#6130) JulianWgs
扩展 preload 文档 (dask#6077) Matthew Rocklin
修复 DataFrame map_partitions() docstring 中的小拼写错误 (dask#6115) Eugene Huang
修复拼写错误：“double”应该是乘，不是加 (dask#6091) David Chudzicki
修复 array.random.* 文档的第一行 (dask#6063) Martin Durant
在 distributed 中添加关于 Semaphore 的部分 (dask#6053) Florian Jetter

2.14.0 / 2020-04-03¶

数组¶

添加了 np.iscomplexobj 实现 (dask#6045) Tom Augspurger

核心¶

更新 test_rearrange_disk_cleanup_with_exception，使其在未安装 cloudpickle 的情况下通过 (dask#6052) James Bourbeau
修复了不稳定的 test-rearrange (dask#5977) Tom Augspurger

DataFrame¶

在 stack_partitions 中使用 _meta_nonempty 进行 dtype 转换 (dask#6061) mlondschien
修复 parquet ArrowEngine 中 _metadata 创建和过滤的错误 (dask#6023) Richard (Rick) Zamora

文档¶

文档: 添加名称注意事项 (dask#6040) Tom Augspurger

2.13.0 / 2020-03-25¶

数组¶

在 da.random 中支持 dtype 和其他关键字参数 (dask#6030) Matthew Rocklin
注册支持 cupy 稀疏 hstack/vstack (dask#5735) Corey J. Nolet
在 dask.array 中强制 self.name 为 str (dask#6002) Chuanzhu Xu

Bag¶

在 bag.optimize 中默认将 rename_fused_keys 设置为 None (dask#6000) Lucas Rademaker

核心¶

在 to_graphviz 中复制 dict 以防止覆盖 (dask#5996) JulianWgs
更严格的 pandas xfail (dask#6024) Tom Augspurger
修复 CI 失败 (dask#6013) James Bourbeau
更新 toolz 到 0.8.2 并使用 tlz (dask#5997) Ryan Grout
将 Windows CI 构建移到 GitHub Actions (dask#5862) James Bourbeau

DataFrame¶

改进 read_hdf 中与路径相关的异常 (dask#6032) psimaj
修复 dd.concat 中的 dtype 处理 (dask#6006) mlondschien
处理 cudf 的 leftsemi 和 leftanti 连接 (dask#6025) Richard J Zamora
移除 dd.from_pandas 中未使用的 npartitions 变量 (dask#6019) Daniel Saxton
添加了 shuffle 到 DataFrame.random_split (dask#5980) petiop

文档¶

修复 scheduler-overview 文档中的缩进 (dask#6022) Matthew Rocklin
更新 optimize 文档中的任务图 (dask#5928) Julia Signell
可选地去除 visualize 中的中间框，并添加更多标签 (dask#5976) Julia Signell

2.12.0 / 2020-03-06¶

数组¶

改进临时对象与 numpy 的重用 (dask#5933) Bruce Merry
使带有 block_info 的 map_blocks 产生一个 Blockwise (dask#5896) Bruce Merry
优化 make_blockwise_graph (dask#5940) Bruce Merry
修复 da.tensordot 中的轴顺序 (dask#5975) Gil Forsyth
向 array.pad 添加 empty 模式 (dask#5931) Thomas J. Fan

核心¶

移除 dask.utils 中对 toolz.memoize 的依赖 (dask#5978) Ryan Grout
关闭泄露子进程的 pool (dask#5979) Tom Augspurger
将 numpydoc 固定到 0.8.0 (修复双重自动转义) (dask#5961) Gil Forsyth
注册 range 对象的确定性 tokenization (dask#5947) James Bourbeau
在 CI 中取消 msgpack 的固定 (dask#5930) JAmes Bourbeau
确保 dot 结果放置在唯一文件中。 (dask#5937) Elliott Sales de Andrade
向 Travis 3.8 CI 构建环境添加剩余的可选依赖项 (dask#5920) James Bourbeau

DataFrame¶

跳过某些键的 parquet getitem 优化 (dask#5917) Tom Augspurger
向 rearrange_by_column 代码路径添加 ignore_index 参数 (dask#5973) Richard J Zamora
添加 DataFrame 和 Series 的 memory_usage_per_partition 方法 (dask#5971) James Bourbeau
使用 Pandas 0.24.2 时 xfail test_describe (dask#5948) James Bourbeau
实现 dask.dataframe.to_numeric (dask#5929) Julia Signell
当列顺序不同时添加新的错误消息内容 (dask#5927) Julia Signell
如果可能，对赋值操作使用浅复制 (dask#5740) Richard J Zamora

文档¶

在 dask.array.triu 文档中将 above 改为 below (dask#5984) Henrik Andersson
数组切片: 修复 slice_with_int_dask_array 错误消息中的拼写错误 (dask#5981) Gabe Joseph
对 docstrings 进行语法和格式更新 (dask#5963) James Lamb
使用 conda 选项更新 develop 文档 (dask#5939) Ray Bell
更新 DataFrame 扩展文档的标题 (dask#5954) James Bourbeau
修复了文档中的拼写错误 (dask#5962) James Lamb
在 _bind_* 方法上将原始类或模块添加为 kwarg (dask#5946) Julia Signell
添加 collect list 示例 (dask#5938) Ray Bell
更新针对 python 3 的优化文档 (dask#5926) Julia Signell

2.11.0 / 2020-02-19¶

数组¶

缓存 Array.shape 的结果 (dask#5916) Bruce Merry
提高 rechunk 的 estimate_graph_size 的准确性 (dask#5907) Bruce Merry
跳过不改变分块的 rechunk 步骤 (dask#5909) Bruce Merry
在 coarsen 中支持 dtype 和其他 kwargs (dask#5903) Matthew Rocklin
将来自 map_blocks 的 chunk 覆盖推送到 blockwise (dask#5895) Bruce Merry
避免为单例使用 rewrite_blockwise (dask#5890) Bruce Merry
优化 slices_from_chunks (dask#5891) Bruce Merry
当 chunks 具有正确维度时，避免在 block() 中不必要的 __getitem__ (dask#5884) Thomas Robitaille

Bag¶

为 dask.bag.read_text 添加 include_path 选项 (dask#5836) Yifan Gu
修复打包 NumPy 数组延迟执行中的 ValueError (dask#5828) Surya Avala

核心¶

CI: 固定 msgpack (dask#5923) Tom Augspurger
将 test_inner 重命名为 test_outer (dask#5922) Shiva Raisinghani
quote 也应该引用字典 (dask#5905) Bruce Merry
注册 literal 的规范化器 (dask#5898) Bruce Merry
改进非 HLGs 的层名称合成 (dask#5888) Bruce Merry
替换 flake8 pre-commit-hook 为上游版本 (dask#5892) Julia Signell
以模块形式调用 pip 以避免警告 (dask#5861) Cyril Shcherbin
在退出时关闭 ThreadPool (dask#5852) Tom Augspurger
移除 tokenization 代码中的 dask.dataframe 导入 (dask#5855) James Bourbeau

DataFrame¶

要求 pandas>=0.23 (dask#5883) Tom Augspurger
移除 dataframe 聚合中的 lambda (dask#5901) Matthew Rocklin
修复 dataframe/__init__.py 中的异常链 (dask#5882) Ram Rachum
添加对空 dataframe 上 reduce 的支持 (dask#5804) Shiva Raisinghani
暴露 groupby 的 sort= 参数 (dask#5801) Richard J Zamora
添加 df.empty 属性 (dask#5711) rockwellw
使用来自 fastparquet.api.paths_to_cats 的 parquet 读取加速。 (dask#5821) Igor Gotlibovych

文档¶

废弃 doc_wraps (dask#5912) Tom Augspurger
更新 HighLevelGraph 时代的 array 内部设计文档 (dask#5889) Bruce Merry
移过来仪表板连接文档 (dask#5877) Matthew Rocklin
从 distributed.dask.org 移过来 prometheus 文档 (dask#5876) Matthew Rocklin
移除末尾重复的 DO 块 (dask#5878) K.-Michael Aye
map_blocks 参考另见 (dask#5874) Tom Augspurger
更多派生自 (dask#5871) Julia Signell
修复拼写错误 (dask#5866) Yetunde Dada
修复 cloud.rst 中的拼写错误 (dask#5860) Andrew Thomas
添加指向行为准则和多样性声明的注释 (dask#5844) Matthew Rocklin

2.10.1 / 2020-01-30¶

修复 Pandas 1.0 版本比较 (dask#5851) Tom Augspurger
修复 distributed diagnostics 文档中的拼写错误 (dask#5841) Gerrit Holl

2.10.0 / 2020-01-28¶

支持 pandas 1.0 的新 BooleanDtype 和 StringDtype (dask#5815) Tom Augspurger
与 pandas 1.0 的 API 破坏性更改和废弃的兼容性 (dask#5792) Tom Augspurger
修复了某些扩展数组支持的 pandas 对象的非确定性 tokenization (dask#5813) Tom Augspurger
修复了集合中 dataclass 类对象的处理 (dask#5812) Matteo De Wint
修复了使用时区感知日期进行重采样时，其中一个端点落在不存在的时间内的错误 (dask#5807) dfonnegra
延迟最初的 Zarr 数据集创建直到计算发生 (dask#5797) Chris Roat
在使用 pyarrow 引擎的情况下更多地使用 parquet 数据集统计信息 (dask#5799) Richard J Zamora
修复了当某些键是大整数时 groupby.std() 中的异常 (dask#5737) H. Thomson Comer

2.9.2 / 2020-01-16¶

数组¶

在 broadcast_arrays 中统一块 (dask#5765) Matthew Rocklin

核心¶

xfail CSV 编码测试 (dask#5791) Tom Augspurger
更新 order 以处理空的 dask 图 (dask#5789) James Bourbeau
重做 dask.order.order (dask#5646) Erik Welch

DataFrame¶

为磁盘上的 shuffle 添加透明压缩功能，使用 partd (dask#5786) Christian Wesp
修复空 dataframe 的 repr (dask#5781) Shiva Raisinghani
Pandas 1.0.0RC0 兼容性 (dask#5784) Tom Augspurger
移除有 bug 的断言 (dask#5783) Tom Augspurger
Pandas 1.0 兼容性 (dask#5782) Tom Augspurger
修复基于 pyarrow 的 read_parquet 在分区数据集上的 bug (dask#5777) Richard J Zamora
兼容 pandas 1.0 (dask#5779) Tom Augspurger
修复使用分类索引时的 groupby/mean 错误 (dask#5776) Richard J Zamora
在执行累积聚合时支持空分区 (dask#5730) Matthew Rocklin
set_index 接受包含单项的非嵌套列表 (dask#5760) Wes Roach
修复了有序 Categorical 在 set index 中的分区问题 (dask#5715) Tom Augspurger

文档¶

注意 normalize_token.register 的附加用例 (dask#5766) Thomas A Caswell
更新 bag repartition docstring (dask#5772) Timost
小拼写错误 (dask#5771) Maarten Breddels
修复 Task Expectations 文档中的拼写错误 (dask#5767) James Bourbeau
在图页面添加关于任务期望的文档部分 (dask#5764) Devin Petersohn

2.9.1 / 2019-12-27¶

数组¶

支持 Array.view 使用 dtype=None (dask#5736) Anderson Banihirwe
添加 dask.array.nanmedian (dask#5684) Deepak Cherian

核心¶

在 Python 3.8 上 xfail test_temporary_directory (dask#5734) James Bourbeau
添加对 Python 3.8 的支持 (dask#5603) James Bourbeau
在 rewrite_blockwise 中使用 id 去重常量 (dask#5696) Jim Crist

DataFrame¶

将 dask dataframe 标量转换为布尔值时抛出错误 (dask#5743) James Bourbeau
确保 dataframe groupby 方差大于零 (dask#5728) Matthew Rocklin
修复 DataFrame.__iter__ (dask#5719) Tom Augspurger
支持合取范式 (disjunctive normal form) 中的 Parquet 过滤器，类似于 PyArrow (dask#5656) Matteo De Wint
在基于 ArrowEngine 的 read_parquet 中自动检测分类列 (dask#5690) Richard J Zamora
如果未找到引擎，则跳过 parquet getitem 优化测试 (dask#5697) James Bourbeau
修复 parquet-getitem 的独立优化 (dask#5613) Tom Augspurger

文档¶

更新 helm 配置文档 (dask#5750) Ray Bell
在多处链接到 examples.dask.org (dask#5733) Tom Augspurger
在 performance report 示例中添加缺失的 " (dask#5724) James Bourbeau
解决多个文档构建警告 (dask#5685) James Bourbeau
添加关于 performance_report 的信息 (dask#5713) Benjamin Zaitlen
添加更多文档免责声明 (dask#5710) Julia Signell
修复简单拼写错误: wihout -> without (dask#5708) Tim Gates
更新 numpydoc 依赖项 (dask#5694) James Bourbeau

2.9.0 / 2019-12-06¶

数组¶

修复 da.std，使其适用于 NumPy 数组 (dask#5681) James Bourbeau

核心¶

注册 Numba 和 RMM 的 sizeof 函数 (dask#5668) John A Kirkham
更新会议时间 (dask#5682) Tom Augspurger

DataFrame¶

修改 dd.DataFrame.drop 以使用浅复制 (dask#5675) Richard J Zamora
修复 _get_md_row_groups 中的 bug (dask#5673) Richard J Zamora
查询数据库后关闭 sqlalchemy 引擎 (dask#5629) Krishan Bhasin
允许 dd.map_partitions 不强制执行 meta (dask#5660) Matthew Rocklin
泛化 concat_unindexed_dataframes 以支持 cudf 后端 (dask#5659) Richard J Zamora
添加 dataframe 重采样方法 (dask#5636) Benjamin Zaitlen
计算 dataframe 长度为第一列的长度 (dask#5635) Matthew Rocklin

文档¶

文档修复 (dask#5665) James Bourbeau
更新文档构建说明 (dask#5640) James Bourbeau
修复 ADL 链接 (dask#5639) Ray Bell
添加文档构建 (dask#5617) James Bourbeau

2.8.1 / 2019-11-22¶

数组¶

在 da.rechunk 中如果未给定值则使用自动重新分块 (dask#5605) Matthew Rocklin

核心¶

添加简单的 action 以激活 GH actions (dask#5619) James Bourbeau

DataFrame¶

修复 aggregate_row_groups 中的“file_path_0” bug (dask#5627) Richard J Zamora
向 read_parquet 添加 chunksize 参数 (dask#5607) Richard J Zamora
更改 test_repartition_npartitions 以支持 arch64 架构 (dask#5620) ossdev07
groupby + agg 后类别丢失 (dask#5423) Oliver Hofkens
修复了 parquet 元数据文件的相对路径问题 (dask#5608) Nuno Gomes Silva
在 dataframes 中启用 GPU 支持的协方差/相关性 (dask#5597) Richard J Zamora

文档¶

修复机构 faq 和未知文档警告 (dask#5616) James Bourbeau
添加一些工具函数的文档 (dask#5609) Tom Augspurger
移除 html_extra_path (dask#5614) James Bourbeau
修复参考另见引用错误 (dask#5612) Tom Augspurger

2.8.0 / 2019-11-14¶

数组¶

实现完整的 dask.array.tile 函数 (dask#5574) Bouwe Andela
添加沿轴的中位数，具有自动重新分块功能 (dask#5575) Matthew Rocklin
允许 da.asarray 对输入进行分块 (dask#5586) Matthew Rocklin

Bag¶

在 Bag 名称中使用 key_split (dask#5571) Matthew Rocklin

核心¶

将 Doctests 切换到 Py3.7 (dask#5573) Ryan Nazareth
放宽 get_colors 测试以适应新的 Bokeh 版本 (dask#5576) Matthew Rocklin
添加 dask.blockwise.fuse_roots 优化 (dask#5451) Matthew Rocklin
添加小字典的 sizeof 实现 (dask#5578) Matthew Rocklin
更新 fsspec, gcsfs, s3fs (dask#5588) Tom Augspurger

DataFrame¶

向 groupby 添加 dropna 参数 (dask#5579) Richard J Zamora
恢复“移除 dask_cudf 的导入，它现在是 cudf 的一部分 (dask#5568)” (dask#5590) Matthew Rocklin

文档¶

添加 dask.compute 函数的最佳实践 (dask#5583) Matthew Rocklin
创建 FUNDING.yml (dask#5587) Gina Helfrich
添加协调原语的截屏视频 (dask#5593) Matthew Rocklin
将 funding 移到 .github repo (dask#5589) Tom Augspurger
更新日历链接 (dask#5569) Tom Augspurger

2.7.0 / 2019-11-08¶

此版本取消对 Python 3.5 的支持

数组¶

重用 assert_eq 工具方法的代码 (dask#5496) Vijayant
更新 da.array 使其总是返回 dask 数组 (dask#5510) James Bourbeau
跳过简单输入的 transpose (dask#5523) Ryan Abernathey
在 tokenize 中避免 NumPy 标量字符串表示 (dask#5527) James Bourbeau
移除不必要的 tiledb 形状约束 (dask#5545) Norman Barker
移除稀疏数组 HTML repr 中的 bytes (dask#5556) James Bourbeau

核心¶

取消支持 Python 3.5 (dask#5528) James Bourbeau
更新 distributed 测试中 fixture 的使用 (dask#5497) Matthew Rocklin
更改废弃的 bokeh-port 为 dashboard-address (dask#5507) darindf
在 ensure_dict 中避免使用相同的 dict 进行更新 (dask#5501) James Bourbeau
测试上游 (dask#5516) Tom Augspurger
加速 reverse_dict (dask#5479) Ryan Grout
更新 test_imports.sh (dask#5534) James Bourbeau
在 multiprocess 和 threaded 调度器中支持 cgroups 对 cpu 计数的限制 (dask#5499) Albert DeFusco
更新 CI 上的最小 pyarrow 版本 (dask#5562) James Bourbeau
使 cloudpickle 成为可选依赖项 (dask#5511) crusaderky

DataFrame¶

添加 index_col 用法的示例 (dask#3072) Bruno Bonfils
显式使用 iloc 进行行索引 (dask#5500) Krishan Bhasin
在列赋值中接受 dask 数组 (dask#5224) Henrique Ribeiro-
为 SeriesGroupBy 实现 unique 和 value_counts (dask#5358) Scott Sievert
为 pyarrow 表和列添加 sizeof 定义 (dask#5522) Richard J Zamora
在基于 pyarrow 的 read_parquet 中启用行组任务分区 (dask#5508) Richard J Zamora
从 dd.merge 文档字符串中移除 npartitions=’auto’ (dask#5531) James Bourbeau
应用 enforce 错误消息显示非重叠列。(dask#5530) Tom Augspurger
优化重复 dtype 的 meta_nonempty (dask#5553) Petio Petrov
移除 dask_cudf 导入，它现在是 cudf 的一部分 (dask#5568) Mads R. B. Kristensen

文档¶

使 FAQ 文档中的大小写更一致 (dask#5512) Matthew Rocklin
添加 CONTRIBUTING.md (dask#5513) Jacob Tomlinson
记录可选依赖项 (dask#5456) Prithvi MK
更新 helm chart 文档以反映新的 chart 仓库 (dask#5539) Jacob Tomlinson
将 Resampler 添加到 API 文档 (dask#5551) James Bourbeau
修复 read_sql_table 中的拼写错误 (dask#5554) Eric Dill
添加自适应部署截屏视频 [skip ci] (dask#5566) Matthew Rocklin

2.6.0 / 2019-10-15¶

核心¶

在进入 toolz.merge 之前对图调用 ensure_dict (dask#5486) Matthew Rocklin
整合哈希分派函数 (dask#5476) Richard J Zamora

DataFrame¶

在 Parquet 代码中支持 Python 3.5 (dask#5491) Benjamin Zaitlen
避免在 warn_dtype_mismatch 中进行身份检查 (dask#5489) Tom Augspurger
启用未使用的 groupby 测试 (dask#3480) Jörg Dietrich
移除旧的 parquet 和 bcolz dataframe 优化 (dask#5484) Matthew Rocklin
为 read_parquet 添加 getitem 优化 (dask#5453) Tom Augspurger
使用 _constructor_sliced 方法确定 Series 类型 (dask#5480) Richard J Zamora
修复 map(series) 对于未排序的基础 series 索引的问题 (dask#5459) Justin Waugh
修复 Groupby 标签导致的 KeyError (dask#5467) Ryan Nazareth

文档¶

使用 Zoom 会议代替 appear.in (dask#5494) Matthew Rocklin
添加精选资源列表 (dask#5460) Javad
更新 SSH 文档以包含 SSHCluster (dask#5482) Matthew Rocklin
更新“为什么选择 Dask？”页面 (dask#5473) Matthew Rocklin
修复 docstrings 中的拼写错误 (dask#5469) garanews

2.5.2 / 2019-10-04¶

数组¶

修正不对称重叠的块大小逻辑 (dask#5449) Ben Jeffery
将 da.unify_chunks 公开为 API (dask#5443) Matthew Rocklin

DataFrame¶

修复 dask.dataframe.fillna 对 Scalar 对象的处理 (dask#5463) Zhenqing Li

文档¶

移除 Spark 比较页面中的框 (dask#5445) Matthew Rocklin
添加最新演示文稿 (dask#5446) Javad
更新云文档 (dask#5444) Matthew Rocklin

2.5.0 / 2019-09-27¶

核心¶

为 get_dependencies 任务添加 sentinel no_default (dask#5420) James Bourbeau
更新 fsspec 版本 (dask#5415) Matthew Rocklin
移除 PY2 检查 (dask#5400) Jim Crist

DataFrame¶

添加选项以不在 dd.from_delayed 中检查 meta (dask#5436) Christopher J. Wright
修复 pyarrow master 中 test_timeseries_nulls_in_schema 失败的问题 (dask#5421) Richard J Zamora
减少 pyarrow/parquet 中 read_metadata 的输出大小 (dask#5391) Richard J Zamora
测试带有 npartitions 的 repartition 的数字边缘情况。(dask#5433) amerkel2
取消 pandas-datareader 测试的 xfail 标记 (dask#5430) Tom Augspurger
添加 DataFrame.pop 实现 (dask#5422) Matthew Rocklin
为基于 cudf 的 dataframes 启用带有 cupy values 的 merge/set_index (dask#5322) Richard J Zamora
drop_duplicates 支持位置 subset 参数 (dask#5410) Wes Roach

文档¶

添加 screencasts 到 array, bag, dataframe, delayed, futures 和 setup (dask#5429) (dask#5424) Matthew Rocklin
修复 delimeter 解析文档 (dask#5428) Mahmut Bulut
更新 overview 图像 (dask#5404) James Bourbeau

2.4.0 / 2019-09-13¶

数组¶

添加显式 h5py.File mode (dask#5390) James Bourbeau
提供计算未知 array chunk sizes 的方法 (dask#5312) Scott Sievert
忽略 Array compute_meta 中的 runtime warning (dask#5356) estebanag
将 _meta 添加到 Array.__dask_postpersist__ (dask#5353) Benoit Bovy
为 datetime64 dtype 和 xarray 对象修复 da.asarray 和 da.asanyarray (dask#5334) Stephan Hoyer
添加 shape 实现 (dask#5293) Tom Augspurger
在 array text repr 中添加 chunktype (dask#5289) James Bourbeau
Array.random.choice: 处理类数组的非数组对象 (dask#5283) Gabe Joseph

核心¶

移除已弃用代码 (dask#5401) Jim Crist
修复 vectorized func 没有 __name__ 时的 funcname (dask#5399) James Bourbeau
截断 funcname 以避免过长的 key 名称 (dask#5383) Matthew Rocklin
在 funcname 中添加对 numpy.vectorize 的支持 (dask#5396) James Bourbeau
修复 HDFS upstream 测试 (dask#5395) Tom Augspurger
在 parse_bytes/timedelta 中支持数字和 None (dask#5384) Matthew Rocklin
修复 memmapped numpy 数组上 subindexes 的 tokenizing 问题 (dask#5351) Henry Pinkard
Upstream fixups (dask#5300) Tom Augspurger

DataFrame¶

允许 pandas cast 统计信息的类型 (dask#5402) Richard J Zamora
在应用 dd.pivot_table 后保留索引 dtype (dask#5385) therhaag
为 Series 和 DataFrame 实现 explode (dask#5381) Arpit Solanki
categorical 的 set_index 在 category 少于 partition 时失败 (dask#5354) Oliver Hofkens
支持输出到单个 CSV 文件 (dask#5304) Hongjiu Zhang
添加 groupby().transform() (dask#5327) Oliver Hofkens
向 pyarrow dataset 调用添加 filter kwarg (dask#5348) Richard J Zamora
为 parquet 实现并检查 compression defaults (dask#5335) Sarah Bird
将 sqlalchemy 参数传递给 delayed 对象 (dask#5332) Arpit Solanki
修复 arrow-parquet 中的 schema 处理问题 (dask#5307) Richard J Zamora
为 DF 和 Series 添加 groupby().idxmin/max() 支持 (dask#5273) Oliver Hofkens
添加关联计算并添加测试 (dask#5296) Benjamin Zaitlen

文档¶

Numpy docstring 标准已迁移 (dask#5405) Wes Roach
引用正确的 NumPy 数组名称 (dask#5403) Wes Roach
Array chunk 文档的微小编辑 (dask#5372) Scott Sievert
将方法添加到 API 文档 (dask#5387) Tom Augspurger
为配置示例添加命名空间 (dask#5374) Matthew Rocklin
将 get_task_stream 和 profile 添加到 diagnostics 页面 (dask#5375) Matthew Rocklin
添加使用 Dask 加载数据的最佳实践 (dask#5369) Matthew Rocklin
更新 institutional-faq.rst (dask#5345) DomHudson
在最佳实践中添加 threads 和 processes 注意事项 (dask#5340) Matthew Rocklin
更新 cuDF 链接 (dask#5328) James Bourbeau
修复括号位置的小拼写错误 (dask#5311) Eugene Huang
更新 reshape docstring 中的链接 (dask#5297) James Bourbeau

2.3.0 / 2019-08-16¶

数组¶

当 from_array 接收 dask array 时抛出异常 (dask#5280) David Hoese
避免 gufunc 的 meta dtype 两次调整 (dask#5274) Peter Andreas Entschev
为 map_blocks 添加 meta= 关键字并添加 sparse 测试 (dask#5269) Matthew Rocklin
添加 rollaxis 和 moveaxis (dask#4822) Tobias de Jong
始终递增旧 chunk 索引 (dask#5256) James Bourbeau
Shuffle dask array (dask#3901) Tom Augspurger
修复使用 bool dask array 索引 dask array 时的排序问题 (dask#5151) James Bourbeau

包¶

为 bag generators 添加 workaround 解决内存泄漏问题 (dask#5208) Marco Neumann

核心¶

设置 strict xfail 选项 (dask#5220) James Bourbeau
test-upstream (dask#5267) Tom Augspurger
修复 HDFS CI 失败问题 (dask#5234) Tom Augspurger
如果未推断出文件大小，则友善地报错 (dask#5231) Jim Crist
对 config.set 进行了一些更改 (dask#5226) Jim Crist
修复 black string normalization (dask#5227) Jim Crist
在 windows 测试中 Pin NumPy (dask#5228) Jim Crist
确保如果未安装 fastparquet 和 pyarrow，则跳过 parquet 测试 (dask#5217) James Bourbeau
在 readthedocs 中添加 fsspec (dask#5207) Matthew Rocklin
在 CI 测试中将 NumPy 和 Pandas 版本提升至 1.17 和 0.25 (dask#5179) John A Kirkham

DataFrame¶

修复 DataFrame.query docstring (numexpr API 不正确) (dask#5271) Doug Davis
Parquet 元数据处理改进 (dask#5218) Richard J Zamora
改善关于索引的已排序 parquet 列的消息传递 (dask#5265) Martin Durant
为 cudf 添加 rearrange_by_divisions 和 set_index 支持 (dask#5205) Richard J Zamora
修复带有整数列名的 groupby.std() 问题 (dask#5096) Nicolas Hug
添加 Series.__iter__ (dask#5071) Blane
泛化 hash_pandas_object 以支持非 pandas 后端 (dask#5184) GALI PREM SAGAR
添加 rolling cov (dask#5154) Ivars Geidans
在 drop 函数中添加 columns 参数 (dask#5223) Henrique Ribeiro

文档¶

更新 institutional FAQ 文档 (dask#5277) Matthew Rocklin
添加 institutional FAQ 草稿 (dask#5214) Matthew Rocklin
为 dask-spark 页面制作框 (dask#5249) Martin Durant
为 shuffle 文档添加动机 (dask#5213) Matthew Rocklin
修复 best-practices 的链接和 API 条目 (dask#5246) Martin Durant
移除“bytes”（内部数据摄取）文档页面 (dask#5242) Martin Durant
将本地 distributed 页面重定向到 distributed.dask.org (dask#5248) Matthew Rocklin
清理 API 页面 (dask#5247) Matthew Rocklin
移除 install 文档中多余的空行 (dask#5243) Matthew Rocklin
移除计算阶段文档中的项目列表 (dask#5245) Martin Durant
从 TOC 侧边栏移除 custom graphs (dask#5241) Matthew Rocklin
移除 custom collections 的实验状态 (dask#5236) James Bourbeau
将目录添加到 Why Dask? (dask#5244) James Bourbeau
将 bag overview 移动到顶层 bag 页面 (dask#5240) James Bourbeau
移除 use-cases，转而使用 stories.dask.org (dask#5238) Matthew Rocklin
移除 index.rst 中冗余的 TOC 信息 (dask#5235) James Bourbeau
提升 distributed diagnostics 文档中的 dashboard (dask#5239) Martin Durant
更新 HLG docs 示例中的“add”层 (dask#5237) James Bourbeau
更新 GUFunc 文档 (dask#5232) Matthew Rocklin

2.2.0 / 2019-08-01¶

数组¶

如果输入遵循 NEP-18，则使用 da.from_array(…, asarray=False) (dask#5074) Matthew Rocklin
添加 from_array 文档中缺失的属性 (dask#5108) Peter Andreas Entschev
修复某些 reduction 函数的 meta 计算问题 (dask#5035) Peter Andreas Entschev
如果在 to_zarr 中遇到未知 chunks，则抛出信息性错误 (dask#5148) James Bourbeau
移除无效的 pad 测试 (dask#5122) Tom Augspurger
忽略 compute_meta 中的 NumPy warnings (dask#5103) Peter Andreas Entschev
修复单维度输入数组的 kurtosis 计算 (dask#5177) @andrethrill
在测试中支持 Numpy 1.17 (dask#5192) Matthew Rocklin

包¶

为 bag 测试提供 pool 以解决间歇性失败 (dask#5172) Tom Augspurger

核心¶

基于 fsspec 构建 dask (dask#5064) (dask#5121) Martin Durant
各种 upstream 兼容性修复 (dask#5056) Tom Augspurger
再次使 distributed 测试成为可选。(dask#5128) Elliott Sales de Andrade
修复 dask 中的 HDFS 问题 (dask#5130) Martin Durant
忽略更多无效值警告。(dask#5140) Elliott Sales de Andrade

DataFrame¶

修复 pd.MultiIndex 大小估计 (dask#5066) Brett Naul
泛化 has_known_categories (dask#5090) GALI PREM SAGAR
重构 Parquet 引擎 (dask#4995) Richard J Zamora
为 series 和 dataframe 添加 divide 方法 (dask#5094) msbrown47
修复 flaky partd 测试 (dask#5111) Tom Augspurger
调整 is_dataframe_like 以适应 value_counts 更改 (dask#5143) Tom Augspurger
泛化 rolling windows 以支持非 Pandas dataframes (dask#5149) Nick Becker
避免 pivot_table 中不必要的聚合 (dask#5173) Daniel Saxton
向 apply_and_enforce 错误消息添加列名 (dask#5180) Matthew Rocklin
向 to_parquet 添加 schema 关键字参数 (dask#5150) Sarah Bird
移除 accessors 中的递归错误 (dask#5182) Jim Crist
允许 fastparquet 处理 file lists 的 gather_statistics=False (dask#5157) Richard J Zamora

文档¶

将 NumFOCUS 徽章添加到 README (dask#5086) James Bourbeau
更新 developer 文档 [ci skip] (dask#5093) Jim Crist
记录 DataFrame.set_index 计算行为 Natalya Rapstine
使用 pip install . 而不是调用 setup.py (dask#5139) Matthias Bussonier
关闭用户调查 (dask#5147) Tom Augspurger
修复 Google Calendar 会议链接 (dask#5155) Loïc Estève
添加 docker 镜像定制示例 (dask#5171) James Bourbeau
更新 fsspec 后的 remote-data-services 文档 (dask#5170) Martin Durant
修复 spark.rst 中的拼写错误 (dask#5164) Xavier Holt
更新 setup/python 文档以支持 async/await API (dask#5163) Matthew Rocklin
更新 Local Storage HPC 文档 (dask#5165) Matthew Rocklin

2.1.0 / 2019-07-08¶

数组¶

为 svd_compressed 添加 recompute= 关键字以降低内存使用 (dask#5041) Matthew Rocklin
更改 __array_function__ 实现以实现向后兼容 (dask#5043) Ralf Gommers
向 apply_along_axis 添加 dtype 和 shape kwargs (dask#3742) Davis Bennett
修复 axis 为空元组的 reduction 问题 (dask#5025) Peter Andreas Entschev
在 stack 中丢弃大小为 0 的数组 (dask#4978) John A Kirkham

核心¶

从 pandas to_parquet 调用中移除 index 关键字 (dask#5075) James Bourbeau
修复 upstream dev CI 构建安装问题 (dask#5072) James Bourbeau
确保 scalar 数组不渲染为 SVG (dask#5058) Willi Rath
环境创建大修 (dask#5038) Tom Augspurger
s3fs, moto 兼容性 (dask#5033) Tom Augspurger
pytest 5.0 兼容 (dask#5027) Tom Augspurger

DataFrame¶

修复 blockwise 中的 compute_meta 递归问题 (dask#5048) Peter Andreas Entschev
移除 get_dummies 中对 pandas 的硬依赖 (dask#5057) GALI PREM SAGAR
在使用 DataFrame.assign 时检查 dtypes 是否未更改 (dask#5047) asmith26
修复 cumulative 函数在 partitions 多于 1 的表上的问题 (dask#5034) tshatrov
处理 repartition 中不可整除的大小问题 (dask#5013) George Sakkis
处理 pyarrow 中 timestamp 和 preserve_index 的变化 (dask#5018) Richard J Zamora
修复 str.split(expand=False) 未定义 meta 的问题 (dask#5022) Brett Naul
移除用于调试 merge_asof 的检查 (dask#5011) Cody Johnson
在 dataframes 中获取 accessor 时不使用 type (dask#4992) Matthew Rocklin
将 melt 添加为 Dask DataFrame 的方法 (dask#4984) Dustin Tindall
为 to_hdf 添加 path-like 支持 (dask#5003) James Bourbeau

文档¶

在 JupyterHub 文档中指向最新的 K8s setup 文章 (dask#5065) Sean McKenna
将 vizualize 更改为 visualize (dask#5061) David Brochart
修复 delayed best practices 中的 from_sequence 拼写错误 (dask#5045) James Bourbeau
在文档中添加用户调查链接 (dask#5026) James Bourbeau
修复 optimization 文档中的拼写错误 (dask#5015) James Bourbeau
更新 community meeting 信息 (dask#5006) Tom Augspurger

2.0.0 / 2019-06-25¶

数组¶

支持 da.indices 中的自动分块 (dask#4981) James Bourbeau
如果没有要堆叠的数组，则报错 (dask#4975) John A Kirkham
不对称数组重叠 (dask#4863) Michael Eaton
在 dask array 中尽可能分派 concatenate (dask#4669) Hameer Abbasi
修复同一文件不同部分上 memmapped numpy 数组的 tokenization 问题 (dask#4931) Henry Pinkard
在 da.asarray 中保留 NumPy 条件以保留输出形状 (dask#4945) Alistair Miles
扩展 foo_like_safe 的使用范围 (dask#4946) Peter Andreas Entschev
将 einsum 的 order/casting 参数延迟到 NumPy 实现 (dask#4914) Peter Andreas Entschev
移除 moment 计算中的 numpy warning (dask#4921) Matthew Rocklin
修复 meta_from_array 以支持 Xarray 测试套件 (dask#4938) Matthew Rocklin
缓存整数切片的块边界 (dask#4923) Bruce Merry
在 concatenate 中丢弃大小为 0 的数组 (dask#4167) John A Kirkham
如果 concatenate 没有提供数组，则抛出 ValueError (dask#4927) John A Kirkham
使用 _meta 提升 concatenate 中的类型 (dask#4925) John A Kirkham
在 Dask array 的 html repr 中添加 chunk 类型 (dask#4895) Matthew Rocklin
添加 Dask Array._meta 属性 (dask#4543) Peter Andreas Entschev
- 修复 _meta 对 flexible 类型的切片问题 (dask#4912) Peter Andreas Entschev
- concatenate 中次要的 meta 构建清理 (dask#4937) Peter Andreas Entschev
- 进一步放宽 Array meta 检查以支持 Xarray (dask#4944) Matthew Rocklin
- 在 da.from_delayed 中支持 meta= 关键字 (dask#4972) Matthew Rocklin
- 沿 axis concatenate meta (dask#4977) John A Kirkham
- 在 stack 中使用 meta (dask#4976) John A Kirkham
- 将 blockwise_meta 移至更通用的 compute_meta 函数 (dask#4954) Matthew Rocklin
将 dask arrays 的 .partitions 别名为 .blocks 属性 (dask#4853) Genevieve Buckley
删除过时的 numpy_compat 函数 (dask#4850) John A Kirkham
允许 da.eye 通过 chunks=’auto’ 支持任意分块大小 (dask#4834) Anderson Banihirwe
修复 dask.array 测试中的 CI warnings (dask#4805) Tom Augspurger
使 map_blocks 适用于 drop_axis + block_info (dask#4831) Bruce Merry
在 Array._repr_html_ 中添加 SVG 图像和表格 (dask#4794) Matthew Rocklin
ufunc: 避免 __array_wrap__，倾向于 __array_function__ (dask#4708) Peter Andreas Entschev
确保 trivial padding 返回原始数组 (dask#4990) John A Kirkham
使用 0-size 数组测试 da.block (dask#4991) John A Kirkham

核心¶

停止支持 Python 2.7 (dask#4919) Jim Crist
在 CI 中抑制依赖安装的输出 (dask#4960) Tom Augspurger
在测试中警告即报错 (dask#4916) Tom Augspurger
为 setup.py 添加 diagnostics extra (包含 bokeh) (dask#4924) John A Kirkham
为 OpenFile 添加 newline delimter 关键字 (dask#4935) btw08
重载 HighLevelGraphs values 方法 (dask#4918) James Bourbeau
为 Dask collections 添加 __await__ 方法 (dask#4901) Matthew Rocklin
同时忽略如果安装了 snappy (而非 python-snappy) 可能发生的 AttributeError (dask#4908) Mark Bell
在 config.rename 中规范化 key 名称 (dask#4903) Ian Bolliger
将最低 partd 版本提升到 0.3.10 (dask#4890) Tom Augspurger
捕获 async def SyntaxError (dask#4836) James Bourbeau
在 ensure_file 中捕获 IOError (dask#4806) Justin Poehnelt
清理 CI warnings (dask#4798) Tom Augspurger
将 distributed 的 parse 和 format 函数移动到 dask.utils (dask#4793) Matthew Rocklin
应用 black formatting (dask#4983) James Bourbeau
在 wheels 中打包 license 文件 (dask#4988) John A Kirkham

DataFrame¶

为 repartition 添加可选的 partition_size 参数 (dask#4416) George Sakkis
merge_asof 和 prefix_reduction (dask#4877) Cody Johnson
允许使用 dask arrays 索引 dataframes (dask#4882) Endre Mark Borza
避免 pytest.raises 中已弃用的 message 参数 (dask#4962) James Bourbeau
更新 test_to_records 以测试 lengths 参数 (dask#4515) asmith26
移除 Dataframe accessors 中的 pandas pinning (dask#4955) Matthew Rocklin
修复具有相同名称的 series 的关联计算 (dask#4934) Philipp S. Sommer
将 Dask Series 映射到 Dask Series (dask#4872) Justin Waugh
在 dd.merge 中 dtype warning 时发出警告 (dask#4917) mcsoini
添加 groupby Covariance/Correlation (dask#4889) Benjamin Zaitlen
to_datetime 保留索引名称 (dask#4905) Ian Bolliger
为 dataframes 添加并行方差计算 (dask#4865) Ksenia Bobrova
为 arrays 和 dataframes 添加 divmod 实现 (dask#4884) Henrique Ribeiro
添加 dataframe reshape 方法的文档 (dask#4896) tpanza
避免使用 pandas.compat (dask#4881) Tom Augspurger
为 Series, DataFrame 和 Index 添加 accessor 注册 (dask#4829) Tom Augspurger
为 read_json 添加 read_function 关键字 (dask#4810) Richard J Zamora
在 check_meta 中提供完整的类型名称 (dask#4819) Matthew Rocklin
在 read_sql_table 中正确估计每行字节数 (dask#4807) Lijo Jose
添加对 describe() 的非数字数据支持 (dask#4791) Ksenia Bobrova
Extension dtypes 的 Scalars。(dask#4459) Tom Augspurger
在 dd.from_delayed 中在 compute 之前调用 head (dask#4802) Matthew Rocklin
为具有时间基准索引的 DataFrames 添加支持 rolling operations，其窗口可能大于 partition size (dask#4796) Jorge Pessoa
使用 warning 更新 groupby-apply 文档 (dask#4800) Tom Augspurger
更改 _maybe_slice 中的 groupby 相关测试 (dask#4786) Benjamin Zaitlen
添加 master best practices 文档 (dask#4745) Matthew Rocklin
添加 Dask 如何与 GPU 配合使用的文档 (dask#4792) Matthew Rocklin
添加 cli API 文档 (dask#4788) James Bourbeau
确保 concat 输出具有一致的 dtypes (dask#4692) Guillaume Lemaitre
修复 pandas_datareader 依赖安装问题 (dask#4989) James Bourbeau
允许 read_hdf 中的 pattern 接受 pathlib.Path (dask#3335) Jörg Dietrich

文档¶

将 CLI API 文档移动到相关页面 (dask#4980) James Bourbeau
将 to_datetime 函数添加到 dataframe API 文档 Matthew Rocklin
为 dask.array.ma.average 添加文档条目 (dask#4970) Bouwe Andela
将 bag.read_avro 添加到 bag API 文档 (dask#4969) James Bourbeau
修复拼写错误 (dask#4968) mbarkhau
文档：停止支持 Python 2.7 (dask#4932) Hugo
移除修改 changelog 的要求 (dask#4915) Matthew Rocklin
添加关于 meta 列顺序的文档 (dask#4887) Tom Augspurger
在 DataFrame.shift 中添加文档说明 (dask#4886) Tom Augspurger
文档：修复拼写错误 (dask#4868) Paweł Kordek
在 delayed best practice 文档中将 do/don’t 放入框中 (dask#3821) Martin Durant
文档修复 (dask#2528) Tom Augspurger
在 paid support 文档部分添加 quansight (dask#4838) Martin Durant
添加 custom startup 文档 (dask#4833) Matthew Rocklin
允许 utils.derive_from 接受函数，并在 array 上应用 (dask#4804) Martin Durant
在最佳实践中添加“避免大分区”部分 (dask#4808) Matthew Rocklin
更新 joblib 的 URL 到其新的文档网站 (dask#4816) Christian Hudon

1.2.2 / 2019-05-08¶

数组¶

澄清 array.store 的 regions kwarg (dask#4759) Martin Durant
为 da.random.randint 添加 dtype= 参数 (dask#4753) Matthew Rocklin
在 docstring 中使用“row major”而非“C order” (dask#4452) @asmith26
将 Xarray 数据集规范化为 Dask arrays (dask#4756) Matthew Rocklin
移除 da.histogram 中的 normed 关键字 (dask#4755) Matthew Rocklin

包¶

为 Bag.distinct 添加 key 参数 (dask#4423) Daniel Severo

核心¶

添加核心 dask 配置文件 (dask#4774) Matthew Rocklin
将核心 dask 配置文件添加到 MANIFEST.in (dask#4780) James Bourbeau
启用带有 HTTP 文件系统的 glob (dask#3926) Martin Durant
使用 whence=1 的 HTTPFile.seek (dask#4751) Martin Durant
移除 config key normalization (dask#4742) Jim Crist

DataFrame¶

移除 dask.dataframe.groupby 中对 Pandas 的显式引用 (dask#4778) Matthew Rocklin
在 DataFrame.groupby() 中添加对 group_keys kwarg 的支持 (dask#4771) Brian Chu
描述文档 (dask#4762) Martin Durant
移除累积聚合中的显式 pandas 检查 (dask#4765) Nick Becker
为 read_json 和测试添加元数据 (dask#4588) Abhinav Ralhan
添加 dtype 转换测试 (dask#4760) Martin Durant
文档化 map_partitions 中的对齐 (dask#4757) Jim Crist
实现 Series.str.split(expand=True) (dask#4744) Matthew Rocklin

文档¶

调整 develop.rst 以便运行测试 (dask#4772) Christian Hudon
添加描述计算阶段的文档 (dask#4766) Matthew Rocklin
在 spark 文档中引导用户使用 Dask-Yarn (dask#4770) Matthew Rocklin
更新延迟执行文档中的图片以移除标签 (dask#4768) Martin Durant
解释 dask 数组的中间存储 (dask#4025) John A Kirkham
在数组最佳实践中指定 bash 代码块 (dask#4764) James Bourbeau
添加数组最佳实践文档 (dask#4705) Matthew Rocklin
更新优化文档，因为 cull 已不再自动化 (dask#4752) Matthew Rocklin

1.2.1 / 2019-04-29¶

数组¶

修复带有 block_info 和广播的 map_blocks (dask#4737) Bruce Merry
使 da.bincount 中的 'minlength' 关键字参数可选 (dask#4684) Genevieve Buckley
添加对没有数组参数的 map_blocks 的支持 (dask#4713) Bruce Merry
添加 dask.array.trace (dask#4717) Danilo Horta
添加 sizeof 对 cupy.ndarray 的支持 (dask#4715) Peter Andreas Entschev
为 from_zarr 添加 name kwarg (dask#4663) Michael Eaton
为 from_array 添加 chunks='auto' (dask#4704) Matthew Rocklin
如果将 dask 数组作为 shape 传递给 da.ones, zeros, empty 或 full，则引发 TypeError (dask#4707) Genevieve Buckley
添加 TileDB 后端 (dask#4679) Isaiah Norton

核心¶

延迟长列表参数 (dask#4735) Matthew Rocklin
将 numpy 提升至 >= 1.13, pandas 提升至 >= 0.21.0 (dask#4720) Jim Crist
移除文件 "test" (dask#4710) James Bourbeau
重新启用开发构建，使用上游库 (dask#4696) Peter Andreas Entschev
移除 HighLevelGraph 构造函数中的断言 (dask#4699) Matthew Rocklin

数据框¶

改变累积聚合的最后一个非空值算法 (dask#4736) Nick Becker
修复 series-groupby-apply (dask#4738) Jim Crist
重构 array.percentile 和 dataframe.quantile 以使用 t-digest (dask#4677) Janne Vuorela
允许简单地拼接已排序的数据框 (dask#4725) Matthew Rocklin
修复 dd.Series.isin 中的性能问题 (dask#4727) Jim Crist
通过使用 methodcaller 移除 melt 对 pandas 的硬依赖 (dask#4719) Nick Becker
一些数据框元数据修复 (dask#4695) Jim Crist
添加 Dataframe.replace (dask#4714) Matthew Rocklin
添加 'threshold' 参数到 pd.DataFrame.dropna (dask#4625) Nathan Matare

文档¶

在 docstring 开头添加关于派生 docstring 的警告 (dask#4716) Matthew Rocklin
创建数据框最佳实践文档 (dask#4703) Matthew Rocklin
取消注释 dask_sphinx_theme (dask#4728) James Bourbeau
修复 Queue/fire_and_forget 示例中的小拼写错误 (dask#4709) Matthew Rocklin
更新 from_pandas docstring 以匹配签名 (dask#4698) James Bourbeau

1.2.0 / 2019-04-12¶

数组¶

修复稀疏数组上的 mean() 和 moment() (dask#4525) Peter Andreas Entschev
添加 NEP-18 测试。 (dask#4675) Hameer Abbasi
允许在 normalize_chunks 中使用 None 表示“不分块” (dask#4656) Matthew Rocklin
修复 auto_chunks 中的 limit 值 (dask#4645) Matthew Rocklin

核心¶

更新诊断 bokeh 测试以兼容 bokeh>=1.1.0 (dask#4680) Philipp Rudiger
调整 codecov 的目标/阈值，禁用补丁 (dask#4671) Peter Andreas Entschev
始终以空的 http 缓冲区开始，而不是 None (dask#4673) Martin Durant

数据框¶

从数组创建 dask 数据框时传播索引 dtype 和名称 (dask#4686) Henrique Ribeiro
修复 describe 中分位数的顺序 (dask#4647) gregrf
清理并文档化 rearrange_column_by_tasks (dask#4674) Matthew Rocklin
将某些 parquet 测试标记为 xfail (dask#4667) Peter Andreas Entschev
修复 arrow 0.13.0 导致的 parquet 问题 (dask#4668) Martin Durant
允许从远程 URL 读取 CSV 时 sample 为 False (dask#4634) Ian Rose
修复 parquet 加载时的时区元数据推断 (dask#4655) Martin Durant
在 dd.utils 中使用 is_dataframe/index_like (dask#4657) Matthew Rocklin
为 groupby sum 方法添加 min_count 参数 (dask#4648) Henrique Ribeiro
修正 quantile 以处理未排序的分位数 (dask#4650) gregrf

文档¶

为安装文档添加延迟执行的额外依赖项 (dask#4660) James Bourbeau

1.1.5 / 2019-03-29¶

数组¶

确保我们在 normalize_chunks 中使用 dtype 关键字 (dask#4646) Matthew Rocklin

核心¶

在 LocalFileSystem 中使用递归 glob (dask#4186) Brett Naul
避免 YAML 弃用 (dask#4603)
修复 CI 并添加 set -e (dask#4605) James Bourbeau
在 dask.visualize 中支持内置序列类型 (dask#4602)
unpack/repack orderedDict (dask#4623) Justin Poehnelt
将 da.random.randint 添加到 API 文档 (dask#4628) James Bourbeau
将 zarr 添加到 CI 环境 (dask#4604) James Bourbeau
启用 codecov (dask#4631) Peter Andreas Entschev

数据框¶

支持设置索引 (dask#4565)
DataFrame.itertuples 接受 index, name kwargs (dask#4593) Dan O’Donovan
在 dd.Series.unique 中支持非 Pandas Series (dask#4599) Benjamin Zaitlen
使用 ._is_partition_type 谓词替换显式类型检查的使用 (dask#4533)
移除测试中额外的 pandas 警告 (dask#4576)
检查对象是否具有 name/dtype 属性而不是检查类型 (dask#4606)
修复与 pd.Series 的比较 (dask#4613) amerkel2
修复设置分类代码为浮点数时出现的警告 (dask#4624) Julia Signell
修复索引 to_frame 方法的重命名问题 (dask#4498) Henrique Ribeiro
修复连接两个单分区数据框时的 divisions 问题 (dask#4636) Justin Waugh
在 compute_divisions 中，如果分区重叠则发出警告 (dask#4600) Brian Chu
给出信息丰富的 meta= 警告 (dask#4637) Matthew Rocklin
为 Series.__getitem__ 添加信息丰富的错误消息 (dask#4638) Matthew Rocklin
在使用 read_csv 中的 index 或 index_col 时添加明确的异常消息 (dask#4651) Álvaro Abella Bascarán

文档¶

添加自定义 groupby 聚合的文档 (dask#4571)
数据框连接文档 (dask#4569)
指定基于 fork 的贡献 (dask#4619) James Bourbeau
修正 docs 中 to_parquet 示例的代码 (dask#4641) Aaron Fowles
更新并保护一些引用 (dask#4649) Søren Fuglede Jørgensen

1.1.4 / 2019-03-08¶

数组¶

在 compress 中使用掩码选择 (dask#4548) John A Kirkham
在 extract 中使用 asarray (dask#4549) John A Kirkham
测试拼接时使用正确的 dtype。 (dask#4539) Elliott Sales de Andrade
修复 CuPy 测试或正确标记为 xfail (dask#4564) Peter Andreas Entschev

核心¶

修复本地调度器回调以处理自定义缓存 (dask#4542) Yu Feng
在 read_bytes(sample=…) 中使用 parse_bytes (dask#4554) Matthew Rocklin

数据框¶

再次修复对象 dtype 键上的 groupby 标准差 (dask#4541) Matthew Rocklin
TST/CI: pandas 0.24.1 更新 (dask#4551) Tom Augspurger
添加控制 time_series 中唯一元素数量的能力 (dask#4557) Matthew Rocklin
在 read_csv 中支持 parameter skiprows 用于其他可迭代对象 (dask#4560) @JulianWgs

文档¶

DataFrame 到 Array 的转换和未知块大小 (dask#4516) Scott Sievert
添加随机数组创建的文档 (dask#4566) Matthew Rocklin
修复 docstring 中的拼写错误 (dask#4572) Shyam Saladi

1.1.3 / 2019-03-01¶

数组¶

修改 mean chunk 函数以返回 dict 而不是数组 (dask#4513) Matthew Rocklin
更改 CI 中的稀疏安装以兼容 NumPy/Python2 (dask#4537) Matthew Rocklin

数据框¶

使 merge 能够在 pandas/其他数据框类型上进行分派 (dask#4522) Matthew Rocklin
read_sql_table - datetime 索引修复和索引类型检查 (dask#4474) Joe Corbett
使用泛化的索引检查形式 (is_index_like) (dask#4531) Benjamin Zaitlen
添加带有对象 dtypes 的 groupby 聚合测试 (dask#4535) Matthew Rocklin
修复 #4467：更新 time_series 以处理 pandas 弃用 (dask#4530) @HSR05

文档¶

添加文档索引中缺失的方法 (dask#4528) Bart Broere

1.1.2 / 2019-02-25¶

数组¶

修复 normalize_array 中的另一个 unicode/混合类型边界情况 (dask#4489) Marco Neumann
添加 dask.array.diagonal (dask#4431) Danilo Horta
在 unify_chunks 中调用 asanyarray (dask#4506) Jim Crist
修改 moment chunk 函数以返回 dicts (dask#4519) Peter Andreas Entschev

Bag¶

不要在 dask.bag 中内联输出键 (dask#4464) Jim Crist
确保 bag.from_sequence 总是包含至少一个分区 (dask#4475) Anderson Banihirwe
为 bag.fold 实现 out_type (dask#4502) Matthew Rocklin
从 bag keynames 中移除 map (dask#4500) Matthew Rocklin
避免在 map_partitions 中使用 itertools.repeat (dask#4507) Matthew Rocklin

数据框¶

修复 fastparquet 在 Windows 上解析相对路径的问题 (dask#4445) Janne Vuorela
修复 pyarrow 和 hdfs 中的错误 (dask#4453) (dask#4455) Michał Jastrzębski
df getitem 与整数切片未实现 (dask#4466) Jim Crist
将 cudf 特定代码替换为 dask-cudf 导入 (dask#4470) Matthew Rocklin
避免在 groupby-var 中使用 groupby.agg(callable) (dask#4482) Matthew Rocklin
在 check_meta 中将 uint 类型视为数值类型 (dask#4485) Marco Neumann
修复 groupby 注释中的一些拼写错误 (dask#4494) Daniel Saxton
添加关于 set_index(inplace=True) 的错误消息 (dask#4501) Matthew Rocklin
meta_nonempty 适用于分类索引 (dask#4505) Jim Crist
为预期的 meta 错误消息添加模块名称 (dask#4499) Matthew Rocklin
groupby-nunique 适用于空块 (dask#4504) Jim Crist
如果未指定，则传播索引元数据 (dask#4509) Jim Crist

文档¶

更新文档以使用 from_zarr (dask#4472) John A Kirkham
DOC: 为 remote-data-services 添加关于使用其他 S3 兼容服务的章节 (dask#4405) Aploium
修复 changelog 中章节的标题级别 (dask#4483) Bruce Merry
为 pip install [skip-ci] 添加引号 (dask#4508) James Bourbeau

核心¶

在状态初始化 *后* 扩展 started_cbs (dask#4460) Marco Neumann
修复 HTTPFile._fetch_range 带有 headers 的错误 (dask#4479) (dask#4480) Ross Petchler
重复 optimize_blockwise 以进行钻石融合 (dask#4492) Matthew Rocklin

1.1.1 / 2019-01-31¶

数组¶

添加对 cupy.einsum 的支持 (dask#4402) Johnnie Gray
在 chunks 关键字中提供字节大小 (dask#4434) Adam Beberg
为 histogram bins 和 range 引发更有信息量的错误 (dask#4430) James Bourbeau

数据框¶

延迟注册更多 cudf 函数并移至 backends 文件 (dask#4396) Matthew Rocklin
修复 pyarrow 0.12.0 的 ORC 测试 (dask#4413) Jim Crist
rearrange_by_column: 确保如果在 dask.config 中 shuffle 参数为 None，则默认值为 'disk' (dask#4414) George Sakkis
为 _read_pyarrow 实现 filters (dask#4415) George Sakkis
避免在 is_dataframe_like 中检查类型 (dask#4418) Matthew Rocklin
使用 pyarrow 时将 username 作为 'user' 传递 (dask#4438) Roma Sokolov

延迟执行¶

修复 DelayedAttr 返回值 (dask#4440) Matthew Rocklin

文档¶

流水线图使用 SVG 格式 (dask#4406) John A Kirkham
为 py.test 文档添加 doctest-modules (dask#4427) Daniel Severo

核心¶

解决 psutil 5.5.0 不允许 pickle Process 对象的问题 Janne Vuorela

1.1.0 / 2019-01-18¶

数组¶

修复存在掩码数组时的 average 函数 (dask#4236) Damien Garaud
为 hstack 和 vstack 添加 allow_unknown_chunksizes (dask#4287) Paul Vecchio
修复 27+ 维度的 tensordot 问题 (dask#4304) Johnnie Gray
修复带有轴的 block_info。 (dask#4301) Tom Augspurger
对 matmul 使用 safe_wraps (dask#4346) Mark Harfouche
在数组创建例程中使用 chunks="auto" (dask#4354) Matthew Rocklin
修复 dask.array.Array.__array_ufunc__ 中的 np.matmul 问题 (dask#4363) Stephan Hoyer
兼容性: 重新启用 multifield 复制->视图更改 (dask#4357) Diane Trout
对延迟执行对象调用 np.dtype 是可行的 (dask#4387) Jim Crist
重写 normalize_array 以处理 numpy 数据 (dask#4312) Marco Neumann

数据框¶

为 series 比较添加 fill_value 支持 (dask#4250) James Bourbeau
在空表的 read_sql_table 中添加 schema name (dask#4268) Mina Farid
调整 map_blocks 中对坏块的检查 (dask#4308) Tom Augspurger
添加 dask.dataframe.read_fwf (dask#4316) @slnguyen
在 dask 数据框中使用 atop 融合 (dask#4229) Matthew Rocklin
在 from_pandas 中使用 parallel_types() (dask#4331) Matthew Rocklin
将 DataFrame._repr_data 改为方法 (dask#4330) Matthew Rocklin
为 Appveyor 安装 pyarrow fastparquet (dask#4338) Gábor Lipták
移除显式 pandas 检查并提供 cudf 延迟注册 (dask#4359) Matthew Rocklin
将 isinstance(…, pandas) 替换为 is_dataframe_like (dask#4375) Matthew Rocklin
增强: 支持第三方 ExtensionArrays (dask#4379) Tom Augspurger
Pandas 0.24.0 兼容性 (dask#4374) Tom Augspurger

文档¶

修复 array api 文档中指向 'map_blocks' 函数的链接 (dask#4258) David Hoese
在云文档中添加关于 Dask-Yarn 的段落 (dask#4260) Jim Crist
复制编辑文档 (dask#4267), (dask#4263), (dask#4262), (dask#4277), (dask#4271), (dask#4279), (dask#4265), (dask#4295), (dask#4293), (dask#4296), (dask#4302), (dask#4306), (dask#4318), (dask#4314), (dask#4309), (dask#4317), (dask#4326), (dask#4325), (dask#4322), (dask#4332), (dask#4333), Miguel Farrajota
修复代码示例中的拼写错误 (dask#4272) Daniel Li
文档: 更新 array-api.rst (dask#4259) (dask#4282) Prabakaran Kumaresshan
更新 hpc 文档 (dask#4266) Guillaume Eynard-Bontemps
文档: 将文档中的 from_avro 替换为 read_avro (dask#4313) Prabakaran Kumaresshan
移除文档中对“get”调度器函数的引用 (dask#4350) Matthew Rocklin
修复 docstring 中的拼写错误 (dask#4376) Daniel Saxton
添加 dask.dataframe.merge 的文档 (dask#4382) Jendrik Jördening

核心¶

避免 dask.core.get 中的递归 (dask#4219) Matthew Rocklin
移除 pytest setup.cfg 中的 verbose 标志 (dask#4281) Matthew Rocklin
通过显式指定标记来支持 Pytest 4.0 (dask#4280) Takahiro Kojima
添加 High Level Graphs (dask#4092) Matthew Rocklin
修复 SerializableLock 的 locked 和 acquire 方法 (dask#4294) Stephan Hoyer
在测试中将 boto3 锁定到早期版本以避免 moto 冲突 (dask#4276) Martin Durant
更新 config 时，将 None 视为配置缺失 (dask#4324) Matthew Rocklin
将 Appveyor 更新到 Python 3.6 (dask#4337) Gábor Lipták
在 dask.dataframe/bytes/bag 中更普遍地使用 parse_bytes (dask#4339) Matthew Rocklin
在 cloudpickle 缺失时添加更好的错误消息 (dask#4342) Mark Harfouche
支持 threaded/multiprocessing get 函数中的 pool= 关键字参数 (dask#4351) Matthew Rocklin
在 config.update 中允许从任意 Mappings 进行更新，而不仅仅是 dicts。 (dask#4356) Stuart Berg
将 dask/array/top.py 代码移到 dask/blockwise.py (dask#4348) Matthew Rocklin
添加 has_parallel_type (dask#4395) Matthew Rocklin
CI: 更新 Appveyor (dask#4381) Tom Augspurger
忽略不可读的配置文件 (dask#4388) Jim Crist

1.0.0 / 2018-11-28¶

数组¶

添加 nancumsum/nancumprod 单元测试 (dask#4215) crusaderky

数据框¶

为 to_dask_dataframe docstring 添加 index (dask#4232) James Bourbeau
使用 fastparquet 时，处理和修复分类附加的问题 (dask#4245) Martin Durant
将 ParquetFile 传递给 read_parquet 时，不要重新读取元数据 (dask#4247) Martin Durant

文档¶

复制编辑文档 (dask#4222) (dask#4224) (dask#4228) (dask#4231) (dask#4230) (dask#4234) (dask#4235) (dask#4254) Miguel Farrajota
更新新 scheduler 关键字的文档 (dask#4251) @milesial

核心¶

避免一些警告 (dask#4223) Matthew Rocklin
移除 dask.store 模块 (dask#4221) Matthew Rocklin
移除 AUTHORS.md Jim Crist

0.20.2 / 2018-11-15¶

数组¶

避免融合 atop 聚合的依赖关系 (dask#4207) Matthew Rocklin

数据框¶

改进数据框相关性的内存占用 (dask#4193) Damien Garaud
为 boundary_slice 添加空 DataFrame 检查 (dask#4212) James Bourbeau

文档¶

复制编辑文档 (dask#4197) (dask#4204) (dask#4198) (dask#4199) (dask#4200) (dask#4202) (dask#4209) Miguel Farrajota
添加 stats 模块命名空间 (dask#4206) James Bourbeau
修复数据框文档中的链接 (dask#4208) James Bourbeau

0.20.1 / 2018-11-09¶

数组¶

只在 wrapped_pad_func 中分配结果空间 (dask#4153) John A Kirkham
将 expand_pad_width 泛化为 expand_pad_value (dask#4150) John A Kirkham
测试带有 2D linear_ramp 情况的 da.pad (dask#4162) John A Kirkham
修复 broadcast_to 的导入问题。 (dask#4168) samc0de
重写 Dask Array 的 pad 以仅添加新块 (dask#4152) John A Kirkham
验证 atop 的索引输入 (dask#4182) Matthew Rocklin

核心¶

Dask.config set 和 get 规范化下划线和连字符 (dask#4143) James Bourbeau
只对核心集合进行 subs，不对子类进行 (dask#4159) Matthew Rocklin
为 HTTPFileSystem 添加 block_size=0 选项。 (dask#4171) Martin Durant
添加对 dataclasses 的遍历支持 (dask#4165) Armin Berres
避免对没有依赖关系的 sharedicts 进行优化 (dask#4181) Matthew Rocklin
更新 TravisCI 的 pytest 版本 (dask#4189) Damien Garaud
在 visualize 名称中使用 key_split 而不是 funcname (dask#4160) Matthew Rocklin

数据框¶

为 DataFrame.__setitem__ 添加 index 的修复 (dask#4151) Anderson Banihirwe
修复将文件列表传递给 fastparquet 时的列选择问题 (dask#4174) Martin Durant
将 engine_kwargs 从 read_sql_table 传递给 sqlalchemy (dask#4187) Damien Garaud

文档¶

修复 Delayed 最佳实践示例中返回空列表的文档问题 (dask#4147) Jonathan Fraine
复制编辑文档 (dask#4164) (dask#4175) (dask#4185) (dask#4192) (dask#4191) (dask#4190) (dask#4180) Miguel Farrajota
修复 docstring 中的拼写错误 (dask#4183) Carlos Valiente

0.20.0 / 2018-10-26¶

数组¶

融合 Atop 操作 (dask#3998), (dask#4081) Matthew Rocklin
支持对 dask 数据框使用 da.asanyarray (dask#4080) Matthew Rocklin
移除 datetime 测试中不必要的 endianness 检查 (dask#4113) Elliott Sales de Andrade
在 array foo_like 函数中设置 name=False (dask#4116) Matthew Rocklin
移除 dask.array.ghost 模块 (dask#4121) Matthew Rocklin
修复 dask array 中 getargspec 的使用问题 (dask#4125) Stephan Hoyer
添加 dask.array.invert (dask#4127), (dask#4131) Anderson Banihirwe
对未知块大小的 arg-reduction 引发信息量大的错误 (dask#4128), (dask#4135) Matthew Rocklin
规范化 dask array 中的反向切片 (dask#4126) Matthew Rocklin

Bag¶

添加 bag.to_avro (dask#4076) Martin Durant

核心¶

从 config.get 中获取 num_workers (dask#4086), (dask#4093) James Bourbeau
修复带有原始字符串的无效转义序列 (dask#4112) Elliott Sales de Andrade
对使用 get= 关键字和 set_options 引发错误 (dask#4077) Matthew Rocklin
添加 Azure DataLake 存储的导入并添加文档 (dask#4132) Martin Durant
避免 collections.Mapping/Sequence (dask#4138) Matthew Rocklin

数据框¶

在 to_dask_dataframe 中包含 index 关键字 (dask#4071) Matthew Rocklin
添加对重复列名的支持 (dask#4087) Jan Koch
为 DataFrame 的 sum 和 prod 方法实现 min_count (dask#4090) Bart Broere
移除 concat 中的 pandas 警告 (dask#4095) Matthew Rocklin
DataFrame.to_csv header 选项仅在第一个块中输出 headers (dask#3909) Rahul Vaidya
移除 Series.to_parquet (dask#4104) Justin Dennison
避免警告和已弃用的 pandas 方法 (dask#4115) Matthew Rocklin
报告追加错误时交换 'old' 和 'previous' (dask#4130) Martin Durant

文档¶

复制编辑文档 (dask#4073), (dask#4074), (dask#4094), (dask#4097), (dask#4107), (dask#4124), (dask#4133), (dask#4139) Miguel Farrajota
修复代码示例中的拼写错误 (dask#4089) Antonino Ingargiola
添加 pycon 2018 演讲 (dask#4102) Javad
gcsfs 的快速描述 (dask#4109) Martin Durant
修复 read_sql_table 方法 docstrings 中的拼写错误 (dask#4114) TakaakiFuruse
如果目标目录不存在，则在重定向中创建 (dask#4136) Matthew Rocklin

0.19.4 / 2018-10-09¶

数组¶

实现 apply_gufunc(..., axes=..., keepdims=...) (dask#3985) Markus Gonser

Bag¶

修复 datasets.make_people 中的拼写错误 (dask#4069) Matthew Rocklin

数据框¶

为 dask.dataframe.describe 方法添加 percentiles 选项 (dask#4067) Zhenqing Li
添加类似 Array.blocks 的 DataFrame.partitions 访问器 (dask#4066) Matthew Rocklin

核心¶

通过 scheduler 关键字传递 get 函数和 Clients (dask#4062) Matthew Rocklin

文档¶

修复 hpc 示例中的拼写错误。（缺少 kwarg 中的 =）。 (dask#4068) Matthias Bussonier
大量复制编辑: (dask#4065), (dask#4064), (dask#4063) Miguel Farrajota

0.19.3 / 2018-10-05¶

数组¶

使 da.RandomState 可扩展到其他模块 (dask#4041) Matthew Rocklin
在 ravel 无操作情况下支持未知维度 (dask#4055) Jim Crist
添加 cupy 的基础架构 (dask#4019) Matthew Rocklin
避免 for from_array(getitem) 的 asarray 和 lock 参数 (dask#4044) Matthew Rocklin
将 corrcoef 中的局部导入移至全局导入 (dask#4030) John A Kirkham
将局部 indices 导入移至全局导入 (dask#4029) John A Kirkham
修复 Dask Array 的 fromfunction 中关于 dtype 和 kwargs 的问题 (dask#4028) John A Kirkham
在 overlapped 中不要使用 dummy expansion 进行 trim_internal (dask#3964) Mark Harfouche
添加 unravel_index (dask#3958) John A Kirkham

Bag¶

在 Bag.frequencies 中对结果排序 (dask#4033) Matthew Rocklin
在 groupby 中添加对 npartitions=1 边界情况的支持 (dask#4050) James Bourbeau
为人物添加新的随机数据集 (dask#4018) Matthew Rocklin
提高 bag.read_text 在小文件上的性能 (dask#4013) Eric Wolak
添加 bag.read_avro (dask#4000) (dask#4007) Martin Durant

Dataframe¶

为 dask.dataframe.from_dask_array() 添加了 index 参数，用于从给定索引的 Dask 数组创建 Dask DataFrame。(dask#3991) Tom Augspurger
改进 Dask DataFrame 的子类化能力 (dask#4015) Matthew Rocklin
修复失败的 hdfs 测试 [test-hdfs] (dask#4046) Jim Crist
fuse_subgraphs 在没有正常 fuse 的情况下也能工作 (dask#4042) Jim Crist
为无需预扫描读取多个 parquet 文件创建路径 (dask#3978) Martin Durant
dd.from_dask_array 中的 Index (dask#3991) Tom Augspurger
使 skiprows 参数接受列表 (dask#3975) Julia Signell
在 fastparquet 读取中对不存在的列尽早失败 (dask#3989) Martin Durant

Core¶

在 groupby 中添加对 npartitions=1 边界情况的支持 (dask#4050) James Bourbeau
在 map_blocks/partitions 中使用 dask.delayed 自动封装大参数 (dask#4002) Matthew Rocklin
融合线性子图链 (dask#3979) Jim Crist
使多进程上下文可配置 (dask#3763) Itamar Turner-Trauring

Documentation¶

大量文本编辑 (dask#4049), (dask#4034), (dask#4031), (dask#4020), (dask#4021), (dask#4022), (dask#4023), (dask#4016), (dask#4017), (dask#4010), (dask#3997), (dask#3996), Miguel Farrajota
更新 shuffle 方法选择文档 (dask#4048) James Bourbeau
移除 docs/source/examples，指向 examples.dask.org (dask#4014) Matthew Rocklin
将 readthedocs 链接替换为 dask.org (dask#4008) Matthew Rocklin
更新 DataFrame.to_hdf docstring 中的返回值 (dask#3992) James Bourbeau

0.19.2 / 2018-09-17¶

Array¶

apply_gufunc 实现函数输出 dtype 的自动推断 (dask#3936) Markus Gonser
修复数组包含 nan 时直方图范围错误 (dask#3980) James Bourbeau
Issue 3937 后续，整数类型检查。(dask#3956) Yu Feng
from_array: 添加 @martindurant 关于数组如何进行哈希的解释。(dask#3965) Mark Harfouche
支持带有坐标的梯度计算 (dask#3949) Keisuke Fujii

Core¶

修复 Python 2.7 中 has_keyword 与 partial 的使用错误 (dask#3966) Mark Harfouche
设置 pyarrow 为 HDFS 的默认引擎 (dask#3957) Matthew Rocklin

Documentation¶

使用 dask_sphinx_theme (dask#3963) Matthew Rocklin
在主页的 Binder 链接中使用 JupyterLab Matthew Rocklin
DOC: 修复 sphinx 语法错误 (dask#3960) Tom Augspurger

0.19.1 / 2018-09-06¶

Array¶

如果结果没有 dtype，则不强制执行 dtype (dask#3928) Matthew Rocklin
修复 NumPy issubtype 弃用警告 (dask#3939) Bruce Merry
修复 arg reduction 令牌，使其在不同参数下唯一 (dask#3955) Tobias de Jong
在切片代码中将 numpy 整数强制转换为 int (dask#3944) Yu Feng
部分修复 Linalg.norm ndim 沿轴计算 (dask#3933) Tobias de Jong

Dataframe¶

确定性 DataFrame.set_index (dask#3867) George Sakkis
修复 read_parquet 在处理 filters #3831 #3930 时 divisions 的错误 (dask#3923) (dask#3931) @andrethrill
修复 categorical.as_known 中的返回类型 (dask#3888) Sriharsha Hatwar
修复 DataFrame.assign 对可调用对象的问题 (dask#3919) Tom Augspurger
在 repartition 中包含宽度为零的分区 (dask#3941) Matthew Rocklin
在 dataframe shuffle 中不限制 stage/k dtype (dask#3942) Matthew Rocklin

Documentation¶

DOC: 添加如何水平渲染任务图的提示 (dask#3922) Uwe Korn
在主登陆页添加“立即尝试”按钮 (dask#3924) Matthew Rocklin

0.19.0 / 2018-08-29¶

Array¶

支持在梯度计算中指定坐标 (dask#3949) Keisuke Fujii
修复 argtopk split_every 错误 (dask#3810) crusaderky
确保计算 dask.array.isnull() 的结果总是返回一个 numpy 数组 (dask#3825) Stephan Hoyer
支持 dask 数组中 scipy.sparse 的 concatenate 操作 (dask#3836) Matthew Rocklin
修复 32 位系统上的 argtopk 问题。(dask#3823) Elliott Sales de Andrade
在 rechunk 中标准化 keys (dask#3820) Matthew Rocklin
允许 dask.array 的 shape 为 numpy 数组 (dask#3844) Mark Harfouche
修复关于元组索引的 numpy 弃用警告 (dask#3851) Tobias de Jong
将 ghost 模块重命名为 overlap (dask#3830) Robert Sare
将 ghost 导入重新添加到 da __init__ 中 (dask#3861) Jim Crist
确保复制保留 masked 数组 (dask#3852) Tobias de Jong

DataFrame¶

为 dask.dataframe.get_dummies() 添加了 dtype 和 sparse 关键字 (dask#3792) Tom Augspurger
添加了 dask.dataframe.to_dask_array()，用于将 Dask Series 或 DataFrame 转换为 Dask Array，可能包含已知块大小 (dask#3884) Tom Augspurger
更改了 dask.array.asarray() 对 Dask DataFrame 和 Series 输入的处理方式。之前，Series 会在创建具有已知块大小的 Dask 数组之前，急切地转换为内存中的 NumPy 数组，这导致了意外的高内存使用。现在，不创建中间 NumPy 数组，并返回具有未知块大小的 Dask 数组 (dask#3884) Tom Augspurger
DataFrame.iloc (dask#3805) Tom Augspurger
读取多个路径时，展开 glob。(dask#3828) Irina Truong
在 resample 后添加索引列名称 (dask#3833) Eric Bonfadini
为 dataframe 和 series 添加 (lazy) shape 属性 (dask#3212) Henrique Ribeiro
修复失败的 hdfs 测试 [test-hdfs] (dask#3858) Jim Crist
修复 pyarrow 0.10.0 版本问题 (dask#3860) Jim Crist
重命名 to_csv keys 以便诊断 (dask#3890) Matthew Rocklin
匹配 pandas 中 concat sort 的警告 (dask#3897) Tom Augspurger
在 read_csv 中包含文件名 (dask#3908) Julia Signell

Core¶

在缺少常见依赖项时提供更好的导入错误消息 (dask#3771) Danilo Horta
停止支持 Python 3.4 (dask#3840) Jim Crist
移除已过期的弃用警告 (dask#3841) Jim Crist
添加 DASK_ROOT_CONFIG 环境变量 (dask#3849) Joe Hamman
不在本地调度器中剔除，在 delayed 中剔除 (dask#3856) Jim Crist
增加 conda 下载重试次数 (dask#3857) Jim Crist
添加 python_requires 和 Trove 分类器 (dask#3855) @hugovk
修复 Python 3.7.0 中 collections.abc 的弃用警告 (dask#3876) Jan Margeta
允许 dot jpeg 在 visualize 测试中 xfail (dask#3896) Matthew Rocklin
在 travis.yml 中添加 Python 3.7 (dask#3894) Matthew Rocklin
为 dask.config 添加 expand_environment_variables (dask#3893) Joe Hamman

文档¶

修复 diagnostics 导入语句中的拼写错误 (dask#3826) John Mrziglod
添加 YARN 文档链接 (dask#3838) Jim Crist
修复登陆页 index.html 中的小拼写错误 (dask#3746) Christoph Moehl
更新 delayed-custom.rst (dask#3850) Anderson Banihirwe
DOC: 澄清 delayed docstring (dask#3709) Scott Sievert
添加新的演示文稿 (dask#3880) Javad
将 dask array normalize_chunks 添加到文档中 (dask#3878) Daniel Rothenberg
文档: 修复 snakeviz 链接 (dask#3900) Hans Moritz Günther
在 docstring 中添加缺失的 ` (dask#3915) @rtobar

0.18.2 / 2018-07-23¶

Array¶

重新实现 argtopk 以释放 GIL (dask#3610) crusaderky
在 map_overlap 中，不要在非重叠维度上重叠 (dask#3653) Matthew Rocklin
修复 linalg.tsqr 处理长度不确定维度的问题 (dask#3662) Jeremy Chen
将不均匀的整数数组切片拆分成单独的块 (dask#3648) Matthew Rocklin
将自动块大小与提供的块对齐，而不是与 shape 对齐 (dask#3679) Matthew Rocklin
为 linspace 添加 endpoint 和 retstep 支持 (dask#3675) James Bourbeau
实现 .blocks 访问器 (dask#3689) Matthew Rocklin
为 map_blocks 函数添加 block_info 关键字 (dask#3686) Matthew Rocklin
通过整数 Dask 数组进行切片 (dask#3407) crusaderky
支持 arange 中的 dtype 参数 (dask#3722) crusaderky
修复 argtopk 处理不均匀块的问题 (dask#3720) crusaderky
当 da.choice 中的 replace=False 时引发错误 (dask#3765) James Bourbeau
更新 Array.__setitem__ 中的块信息 (dask#3767) Itamar Turner-Trauring
添加一个 chunksize 便利属性 (dask#3777) Jacob Tomlinson
修复并简化当 step < 0 时数组切片行为 (dask#3702) Ziyao Wei
确保 to_zarr 在 return_stored 设置为 True 时返回 Dask Array (dask#3786) John A Kirkham

Bag¶

在 to_textfiles 中添加 last_endline 可选参数 (dask#3745) George Sakkis

Dataframe¶

为 rolling 对象添加聚合函数 (dask#3772) Gerome Pistre
正确标记累积 groupby 聚合的 token (dask#3799) Cloves Almeida

Delayed¶

为 delayed 对象添加 @ 运算符 (dask#3691) Mark Harfouche
为文档添加 delayed 最佳实践 (dask#3737) Matthew Rocklin
修复方法的 @delayed 装饰器并添加测试 (dask#3757) Ziyao Wei

Core¶

修复额外的进度条 (dask#3669) Mike Neish
如果任务只有一个依赖项，则允许其回到排序堆栈 (dask#3652) Matthew Rocklin
排序时优先选择依赖项数量少且下游依赖项多的结束任务 (dask#3588) Tom Augspurger
将 assert_eq 添加到顶级模块 (dask#3726) Matthew Rocklin
测试 dask collections 是否可以持有 scipy.sparse 数组 (dask#3738) Matthew Rocklin
修复 lz4 解压缩函数的设置 (dask#3782) Elliott Sales de Andrade
添加 datasets 模块 (dask#3780) Matthew Rocklin

0.18.1 / 2018-06-22¶

Array¶

from_array 现在支持输入中的标量类型和嵌套列表/元组，就像所有 numpy 函数一样；当输入是纯 ndarray 时，它也会生成一个更简单的图 (dask#3568) crusaderky
修复由于 cumsum dtype 错误导致的大切片问题 (dask#3620) Marco Rossi
添加 Dask Array 的 pad 实现 (dask#3578) John A Kirkham
修复数组随机 API 示例 (dask#3625) James Bourbeau
为 dask array 添加 average 函数 (dask#3640) James Bourbeau
用 axes 标记 ghost_internal 的 token (dask#3643) Matthew Rocklin
为 Dask Array 添加 outer 函数 (dask#3658) John A Kirkham

DataFrame¶

添加 Index.to_series 方法 (dask#3613) Henrique Ribeiro
修复 pyarrow-parquet 中缺失的分区列问题 (dask#3636) Martin Durant

Core¶

CI 的微小调整 (dask#3629) crusaderky
重新添加 dask.utils.effective_get (dask#3642) Matthew Rocklin
DASK_CONFIG 指定配置写入位置 (dask#3621) Jim Crist
将 unpack_collections 中的 ‘collections’ key 替换为唯一的 key (dask#3632) Yu Feng
在 dask.config.set 中避免深拷贝 (dask#3649) Matthew Rocklin

0.18.0 / 2018-06-14¶

Array¶

为 Zarr 格式数据集和数组添加 to/from_zarr (dask#3460) Martin Durant
实验性地添加泛化 ufunc 支持，包括 apply_gufunc, gufunc, 和 as_gufunc (dask#3109) (dask#3526) (dask#3539) Markus Gonser
避免不必要的 rechunking 任务 (dask#3529) Matthew Rocklin
在运行时计算 fft 的 dtypes (dask#3511) Matthew Rocklin
为所有 da.store 操作生成 UUID (dask#3540) Martin Durant
修正 Dask SVD 的内部维度 (dask#3517) John A Kirkham
BUG: 在 array.vindex 中，对于 identity slice 不应引发 IndexError (dask#3559) Scott Sievert
添加 isneginf 和 isposinf (dask#3581) John A Kirkham
移除 Dask Array 的 learn 模块 (dask#3580) John A Kirkham
添加 sfqr (short-and-fat) 作为 tsqr 的对应方法... (dask#3575) Jeremy Chen (dask#3396) crusaderky
允许 dask.array.rechunk 中存在宽度为 0 的块 (dask#3591) Marc Pfister
在公共 API 中记录 Dask Array 的 nan_to_num (dask#3599) John A Kirkham
显示块示例 (dask#3601) John A Kirkham
在 map_blocks 中将 token= 关键字替换为 name= (dask#3597) Matthew Rocklin
禁用 to_zarr 中的锁定 (在分布式环境中使用 to_zarr 所必需) (dask#3607) John A Kirkham
支持 to_zarr/from_zarr 中的 Zarr Arrays (dask#3561) John A Kirkham
为 array/linalg/tsqr 添加递归，以更好地管理单核瓶颈 (dask#3586) Jeremy Chan (dask#3396) crusaderky

Dataframe¶

添加 to/read_json (dask#3494) Martin Durant
将 index 添加到 DataFrame.rename 方法不支持的参数列表中 (dask#3522) James Bourbeau
添加使用 numpy.ndarray, pandas.Series 和 pandas.Index 对象对 Dask DataFrame 列进行子集选择的支持 (dask#3536) James Bourbeau
如果 meta 列与 dataframe 不匹配，则引发错误 (dask#3485) Christopher Ren
将 index 添加到 DataFrame.rename 不支持的参数列表中 (dask#3522) James Bourbeau
添加使用 pandas Index/Series 和 numpy ndarrays 对 DataFrames 进行子集选择的支持 (dask#3536) James Bourbeau
修复 dataframe sample 方法 docstring (dask#3566) James Bourbeau
修复 dd.read_json 以推断文件压缩方式 (dask#3594) Matt Lee
为 sample 方法添加 n 参数 (dask#3606) James Bourbeau
添加 fastparquet ParquetFile 对象支持 (dask#3573) @andrethrill

Bag¶

在 bag.groupby 中将 method= 关键字重命名为 shuffle= (dask#3470) Matthew Rocklin

Core¶

将 get= 关键字替换为 scheduler= 关键字 (dask#3448) Matthew Rocklin
添加集中式 dask.config 模块来处理所有 Dask 子项目的配置 (dask#3432) (dask#3513) (dask#3520) Matthew Rocklin
添加 dask-ssh CLI 选项和描述。(dask#3476) @beomi
修复 HTTP 完整文件读取，不依赖头部信息 (dask#3496) Martin Durant
将同步调度器语法添加到调试文档 (dask#3509) James Bourbeau
将 dask.set_options 替换为 dask.config.set (dask#3502) Matthew Rocklin
更新 sphinx readthedocs-theme (dask#3516) Matthew Rocklin
引入 normalize_chunks 的“auto”值 (dask#3507) Matthew Rocklin
修复 env=None 时配置检查的问题 (dask#3562) Simon Perkins
更新 sizeof 定义 (dask#3582) Matthew Rocklin
从 travis-ci 中移除 –verbose 标志 (dask#3477) Matthew Rocklin
从随机数组 keys 中移除“da.random” (dask#3604) Matthew Rocklin

0.17.5 / 2018-05-16¶

Array¶

修复字典中 chunksize 为 -1 时 rechunk 的问题 (dask#3469) Stephan Hoyer
einsum 现在接受 split_every 参数 (dask#3471) crusaderky
改进切片性能 (dask#3479) Yu Feng

DataFrame¶

与 pandas 0.23.0 的兼容性 (dask#3499) Tom Augspurger

0.17.4 / 2018-05-03¶

Dataframe¶

添加对使用字符串子类索引 Dask DataFrames 的支持 (dask#3461) James Bourbeau
允许在 read_hdf 中同时使用 sorted_index 和 chunksize (dask#3463) Pierre Bartet
将文件系统传递给 arrow piece reader (dask#3466) Martin Durant
切换到使用 dask.compat string_types (dask#3462) James Bourbeau

0.17.3 / 2018-05-02¶

Array¶

为 Dask Arrays 添加 einsum (dask#3412) Simon Perkins
为 Dask Arrays 添加 piecewise (dask#3350) John A Kirkham
修复 broadcast_shapes 处理 nan 的问题 (dask#3356) John A Kirkham
为 dask 数组添加 isin (dask#3363)。 Stephan Hoyer
大修了 Dask Arrays 的 topk：更快的算法，特别是对于大的 k 值；添加了对多个轴、递归聚合的支持，以及一个选择底部 k 个元素的选项。(dask#3395) crusaderky
topk API 已从 topk(k, array) 更改为更常规的 topk(array, k)。旧版 API 仍然可用，但现已弃用。(dask#2965) crusaderky
Dask Arrays 的新函数 argtopk (dask#3396) crusaderky
修复 map_overlap 处理 partial depth 和 boundary 的问题 (dask#3445) John A Kirkham
为 Dask Arrays 添加 gradient (dask#3434) John A Kirkham

DataFrame¶

为 to_hdf 允许 t 作为 table 的简写，以兼容 pandas (dask#3330) Jörg Dietrich
为 Dask DataFrames 添加顶层 isna 方法 (dask#3294) Christopher Ren
修复 read_parquet 中 engine="pyarrow" 对 partition column 的选择问题 (dask#3207) Uwe Korn
添加 DataFrame.squeeze 方法 (dask#3366) Christopher Ren
为 read_parquet 添加 infer_divisions 选项，用于指定读取引擎是否应该计算 divisions (dask#3387) Jon Mease
添加对 engine="pyarrow" 推断 division 的支持 (dask#3387) Jon Mease
为 meta= 错误提供更具信息性的错误消息 (dask#3343) Matthew Rocklin
添加 orc reader (dask#3284) Martin Durant
parquet 的默认压缩方式现在总是 Snappy，与 pandas 一致 (dask#3373) Martin Durant
修复 Dask DataFrame 和 Series 与 NumPy 标量比较时的错误 (dask#3436) James Bourbeau
移除 repartition docstring 中过时的要求 (dask#3440) Jörg Dietrich
修复只选择 Series 进行聚合时的错误 (dask#3446) Jörg Dietrich
为 make_timeseries 添加默认值 (dask#3421) Matthew Rocklin

Core¶

支持在 persist, visualize 和 optimize 中遍历 collections (dask#3410) Jim Crist
为 compute 和 persist 添加 schedule= 关键字。这取代了 get= 关键字的常见用法 (dask#3448) Matthew Rocklin

0.17.2 / 2018-03-21¶

Array¶

为 Dask Arrays 添加 broadcast_arrays (dask#3217) John A Kirkham
添加 bitwise_* ufuncs (dask#3219) John A Kirkham
为 squeeze 添加可选的 axis 参数 (dask#3261) John A Kirkham
验证 atop 的输入 (dask#3307) Matthew Rocklin
如果所有部分具有相同的 dtype，则避免在 concatenate 中调用 astype (dask#3301) Martin Durant

DataFrame¶

修复由于过度截断导致的 shuffle 错误 (dask#3201) Matthew Rocklin
支持在 read_parquet 中使用 categories=[…] 为 engine="pyarrow" 指定分类列 (dask#3177) Uwe Korn
添加 dd.tseries.Resampler.agg (dask#3202) Richard Postelnik
支持混合 dataframe 和 arrays 的操作 (dask#3230) Matthew Rocklin
支持在 dd.groupby._Groupby.apply 中添加额外的 Scalar 和 Delayed 参数 (dask#3256) Gabriele Lanaro

Bag¶

支持与单分区 bag 和 delayed 对象进行 join (dask#3254) Matthew Rocklin

Core¶

修复使用 unexpected 但可哈希的类型作为 keys 时的错误 (dask#3238) Daniel Collins
修复任务排序中的错误，使我们能够始终如一地按照 key name 打破平局 (dask#3271) Matthew Rocklin
当任务数量非常大时，避免按顺序排序任务 (dask#3298) Matthew Rocklin

0.17.1 / 2018-02-22¶

Array¶

修正 indices 中的维度分块问题 (dask#3166, dask#3167) Simon Perkins
将 `store`’s return_stored 选项的 store_chunk 调用内联 (dask#3153) John A Kirkham
与 NumPy 1.14.1 版本中 struct dtypes 变更的兼容性 (dask#3187) Matthew Rocklin

DataFrame¶

错误修复，允许列赋值 pandas datetime (dask#3164) Max Epstein

Core¶

新的 HTTP(S) 文件系统，允许直接从特定 URL 加载 (dask#3160) Martin Durant
修复 tokenizing 没有关键字的 partials 时的错误 (dask#3191) Matthew Rocklin
使用更新的 LZ4 API (dask#3157) Thrasibule
为进度条引入输出流参数 (dask#3185) Dieter Weber

0.17.0 / 2018-02-09¶

Array¶

为 nansum, nanmin 和 nanmax 添加了对对象类型数组的支持 (dask#3133) Keisuke Fujii
更新当 len 被空块调用时的错误处理 (dask#3058) Xander Johnson
修复 store 的 return_stored 选项的元数据错误 (dask#3064) John A Kirkham
修复 optimization.fuse_slice 中的错误，以正确处理第一个输入为 None 的情况 (dask#3076) James Bourbeau
支持 percentile 中具有未知块大小的数组 (dask#3107) Matthew Rocklin
Tokenize scipy.sparse 数组和 np.matrix (dask#3060) Roman Yurchak

DataFrame¶

支持 repartition(freq=…) 中的月份 timedeltas (dask#3110) Matthew Rocklin
避免 dataframe groupby 测试中的 mutation (dask#3118) Matthew Rocklin
read_csv, read_table, 和 read_parquet 接受可迭代的路径 (dask#3124) Jim Crist
弃用 dd.to_delayed 函数，推荐使用现有的方法 (dask#3126) Jim Crist
当 UDF 返回 numpy 数组时，从 df.map_partitions 调用中返回 dask.arrays (dask#3147) Matthew Rocklin
更改 dd.read_parquet 中 columns 和 index 的处理方式，使其更一致，尤其是在处理多重索引时 (dask#3149) Jim Crist
fastparquet append=True 允许创建新数据集 (dask#3097) Martin Durant
sql 查询的 dtype 合理化 (dask#3100) Martin Durant

Bag¶

文档 bag.map_paritions 函数可能接收列表或生成器。(dask#3150) Nir

Core¶

更改默认任务排序，优先选择依赖方少且下游依赖多的节点 (dask#3056) Matthew Rocklin
为 visualize 添加 color= 选项，按任务顺序着色 (dask#3057) (dask#3122) Matthew Rocklin
弃用 dask.bytes.open_text_files (dask#3077) Jim Crist
由于维护成本高，移除 short-circuit hdfs 读取处理。稍后可能会以更稳健的方式重新添加 (dask#3079) Jim Crist
添加 dask.base.optimize，用于在不计算的情况下优化多个 collections。(dask#3071) Jim Crist
将 dask.optimize 模块重命名为 dask.optimization (dask#3071) Jim Crist
更改任务排序以执行完整遍历 (dask#3066) Matthew Rocklin
为所有 to_delayed 方法添加 optimize_graph 关键字，以控制转换时是否进行优化。(dask#3126) Jim Crist
支持使用 pyarrow 进行 hdfs 集成 (dask#3123) Jim Crist
将 HDFS 集成和测试移入 dask 仓库 (dask#3083) Jim Crist
移除 write_bytes (dask#3116) Jim Crist

0.16.1 / 2018-01-09¶

Array¶

修复 percentile 中标量百分位数处理的问题 (dask#3021) James Bourbeau
阻止 bool() 强制类型转换调用 compute (dask#2958) Albert DeFusco
添加 matmul (dask#2904) John A Kirkham
支持带有 matmul 的 N 维数组 (dask#2909) John A Kirkham
添加 vdot (dask#2910) John A Kirkham
broadcast_to 的显式 chunks 参数 (dask#2943) Stephan Hoyer
添加 meshgrid (dask#2938) John A Kirkham 和 (dask#3001) Markus Gonser
在 fftshift/ifftshift 中保留单例块 (dask#2733) John A Kirkham
修复 vindex 中负数索引的处理问题，并对超出边界的索引引发错误 (dask#2967) Stephan Hoyer
添加 flip, flipud, fliplr (dask#2954) John A Kirkham
添加 float_power ufunc (dask#2962) (dask#2969) John A Kirkham
与即将发布的 NumPy 1.14 版本中结构化数组变更的兼容性 (dask#2964) Tom Augspurger
添加 block (dask#2650) John A Kirkham
添加 frompyfunc (dask#3030) Jim Crist
为 store 添加 return_stored 选项，用于链式存储结果 (dask#2980) John A Kirkham

DataFrame¶

修复累积聚合中的命名错误 (dask#3037) Martijn Arts
修复当给定 names 但未设置 header 为 None 时 dd.read_csv 的错误 (dask#2976) Martijn Arts
修复 dd.read_csv，使其在 dtype 中传入 CategoricalDtype 实例时能得到已知的分类数据 (dask#2997) Tom Augspurger
阻止 bool() 强制类型转换调用 compute (dask#2958) Albert DeFusco
DataFrame.read_sql() 读取空数据库表时返回空的 dask dataframe (dask#2928) Apostolos Vlachopoulos
与 PyArrow 0.8.0 写入的 Parquet 文件读取兼容性 (dask#2973) Tom Augspurger
在读取 dd.read_parquet 时正确处理列名 (df.columns.name) (dask#2973) Tom Augspurger
修复 dd.concat 在数据包含分类类型时丢失 index dtype 的错误 (dask#2932) Tom Augspurger
添加 dd.Series.rename (dask#3027) Jim Crist
DataFrame.merge() 现在支持按列和索引组合进行合并 (dask#2960) Jon Mease
移除了已弃用的 dd.rolling* 方法，为下个 pandas 版本中移除做准备 (dask#2995) Tom Augspurger
修复元数据推断错误，其中单分区 series 被错误地特殊处理 (dask#3035) Jim Crist
添加对 Series.str.cat 的支持 (dask#3028) Jim Crist

Core¶

改进 32 位兼容性 (dask#2937) Matthew Rocklin
改变任务优先级以避免向上分支 (dask#3017) Matthew Rocklin

0.16.0 / 2017-11-17¶

这是一个主要版本。它包含重大变更、新协议和大量错误修复。

Array¶

添加 atleast_1d, atleast_2d, 和 atleast_3d (dask#2760) (dask#2765) John A Kirkham
添加 allclose (dask#2771) by John A Kirkham
从 Dask Array API 文档中移除 random.different_seeds (dask#2772) John A Kirkham
弃用 vnorm，推荐使用 dask.array.linalg.norm (dask#2773) John A Kirkham
重新实现 unique 使其变为惰性 (dask#2775) John A Kirkham
支持 Dask Arrays 与 0 长度维度的广播 (dask#2784) John A Kirkham
将 asarray 和 asanyarray 添加到 Dask Array API 文档 (dask#2787) James Bourbeau
支持 unique 的 return_* 参数 (dask#2779) John A Kirkham
简化 _unique_internal (dask#2850) (dask#2855) John A Kirkham
避免在数组优化中移除部分 getter 调用 (dask#2826) Jim Crist

DataFrame¶

在 dd.to_parquet 中支持 pyarrow (dask#2868) Jim Crist
修复了当存在缺失值时 DataFrame.quantile 和 Series.quantile 返回 nan 的问题 (dask#2791) Tom Augspurger
修复了当 q 是标量时 DataFrame.quantile 丢失结果 .name 的问题 (dask#2791) Tom Augspurger
修复了沿列连接单个 Series 时 dd.concat 返回 dask.Dataframe 的问题，与 pandas 的行为一致 (dask#2800) James Munroe
修复了 DataFrame.eval 的默认 inplace 参数，使其与 pandas >= 0.21.0 的默认值匹配 (dask#2838) Tom Augspurger
修复了在文本列上调用 DataFrame.set_index 时，如果其中一个分区为空，则会引发异常的问题 (dask#2831) Jesse Vogt
在空 DataFrame 上调用 DataFrame.set_index 时不引发异常 (dask#2827) Jesse Vogt
修复了使用 Series 值填充时 Dataframe.fillna 中的 bug (dask#2810) Tom Augspurger
弃用 dd.to_parquet 中旧的参数顺序，以更好地匹配将 DataFrame 放在首位的约定 (dask#2867) Jim Crist
df.astype(categorical_dtype -> known categoricals (dask#2835) Jim Crist
针对 Pandas 发布候选版本进行测试 (dask#2814) Tom Augspurger
为 read_parquet(engine=’pyarrow’) 添加更多测试 (dask#2822) Uwe Korn
移除 aggregate 中不必要的 map_partitions (dask#2712) Christopher Prohm
修复了在空分区上调用 sample 的 bug (dask#2818) @xwang777
在 read_csv 中解析日期时提供友好的错误信息 (dask#2863) Jim Crist
清理将文件系统对象传递给 PyArrow 读者时的处理方式 (dask#2527) @fjetter
即使没有 divisions 也支持重新分区 (dask#2873) @Ced4
在 dd.to_parquet 中支持使用 pyarrow 读写 hdfs (dask#2894, dask#2881) Jim Crist

Core¶

允许元组作为 sharedict 键 (dask#2763) Matthew Rocklin
在 dask.distributed 任务中调用 compute 默认使用分布式调度器 (dask#2762) Matthew Rocklin
使用 gcs:// 协议时自动导入 gcsfs (dask#2776) Matthew Rocklin
完全移除 dask.async 模块，改用 dask.local (dask#2828) Thomas Caswell
与 bokeh 0.12.10 的兼容性 (dask#2844) Tom Augspurger
减少测试内存使用 (dask#2782) Jim Crist
添加 Dask collection 接口 (dask#2748) Jim Crist
在 XArray 集成期间更新 Dask collection 接口 (dask#2847) Matthew Rocklin
在 __exit__ 上关闭资源分析器进程 (dask#2871) Jim Crist
修复 S3 测试 (dask#2875) Jim Crist
修复文档中 bokeh dashboard 的端口 (dask#2889) Ian Hopkinson
包装 Dask 文件系统以实现 PyArrow 兼容性 (dask#2881) Jim Crist

0.15.4 / 2017-10-06¶

Array¶

da.random.choice 现在支持数组参数 (dask#2781)
支持使用 np.int 进行数组索引 (修复回归问题) (dask#2719)
处理 rechunking 时的零维度 (dask#2747)
支持在 chunks 中使用 -1 作为“维度的尺寸”的别名 (dask#2749)
在 array.to_npy_stack 中调用 mkdir (dask#2709)

DataFrame¶

为具有字符串类别的 Categoricals 添加了 .str 访问器 (dask#2743)
支持 parquet 写入器中的 int96 (spark) 日期时间 (dask#2711)
将文件方案传递给 fastparquet (dask#2714)
支持 Pandas 0.21 (dask#2737)

Bag¶

为 foldby 添加了树状归约支持 (dask#2710)

Core¶

从 pip install dask[complete] 中移除 s3fs (dask#2750)

0.15.3 / 2017-09-24¶

Array¶

添加 masked arrays (dask#2301)
添加 *_like array creation functions (dask#2640)
使用无符号整数数组进行索引 (dask#2647)
改进了使用不同维度布尔数组的切片 (dask#2658)
支持 top 和 atop 中的字面量 (dask#2661)
累积函数中的可选 axis 参数 (dask#2664)
使用 assert_eq 改进对标量的测试 (dask#2681)
修复 norm keepdims (dask#2683)
添加 ptp (dask#2691)
添加 apply_along_axis (dask#2690) 和 apply_over_axes (dask#2702)

DataFrame¶

添加了 Series.str[index] (dask#2634)
允许 groupby 的 by 参数处理列和索引级别 (dask#2636)
DataFrame.to_csv 和 Bag.to_textfiles 现在返回它们写入的文件名
的文件名 (dask#2655)
修复了 to_parquet 中 partition_on 和 append 的组合问题 (dask#2645)
修复了 parquet 文件方案问题 (dask#2667)
Repartition 支持混合 categoricals (dask#2676)

Core¶

python setup.py test 现在运行测试 (dask#2641)
添加了新的速查表 (dask#2649)
移除 Bokeh 绘图中的 resize 工具 (dask#2688)

0.15.2 / 2017-08-25¶

Array¶

从 map_overlap 图中移除冗余键 (dask#2520)
where 支持非布尔条件和标量值 (dask#2543) (dask#2549)
改进 compress (dask#2541) (dask#2545) (dask#2555)
添加 argwhere, _nonzero 和 where(cond) (dask#2539)
泛化 dask.array 中的 vindex 以处理多维索引 (dask#2573)
添加 choose 方法 (dask#2584)
将代码拆分为重新组织的文件 (dask#2595)
添加 linalg.norm (dask#2597)
添加 diff, ediff1d (dask#2607), (dask#2609)
改进 dtype 推断和反射 (dask#2571)

Bag¶

移除弃用的 Bag 行为 (dask#2525)

DataFrame¶

支持 assign 中的可调用对象 (dask#2513)
read_csv 的错误消息更友好 (dask#2522)
添加 dd.to_timedelta (dask#2523)
在 from_delayed 中验证元数据 (dask#2534) (dask#2591)
添加 DataFrame.isin (dask#2558)
Read_hdf 支持文件迭代器 (dask#2547)

Core¶

移除所有 bare except: 块 (dask#2590)

0.15.1 / 2017-07-08¶

为 to_textfiles 和 to_csv 添加 storage_options (dask#2466)
Rechunk 并简化 rfftfreq (dask#2473), (dask#2475)
更好地支持 ndarray 子类 (dask#2486)
在 dask.distributed 中导入 star (dask#2503)
线程安全的带 tokenization 的缓存处理 (dask#2511)

0.15.0 / 2017-06-09¶

Array¶

添加 dask.array.stats 子模块 (dask#2269)
支持 ufunc.outer (dask#2345)
通过减少图的开销来优化高级索引 (dask#2333) (dask#2394)
使用替代哈希算法提高数组 tokenization 速度 (dask#2377)
添加了 matmul @ 运算符 (dask#2349)
改进了 numpy.fft 模块的覆盖率 (dask#2320) (dask#2322) (dask#2327) (dask#2323)
支持 NumPy 的 __array_ufunc__ 协议 (dask#2438)

Bag¶

修复了对没有分区的 bags 进行归约会失败的 bug (dask#2324)
添加广播和可变参数 db.map 顶层函数。同时移除了将元组自动展开作为 map 参数的功能 (dask#2339)
将 Bag.concat 重命名为 Bag.flatten (dask#2402)

DataFrame¶

Parquet 改进 (dask#2277) (dask#2422)

Core¶

将 dask.async 模块移至 dask.local (dask#2318)
支持带有嵌套调度器调用的回调函数 (dask#2397)
支持 pathlib.Path 对象作为 uri (dask#2310)

0.14.3 / 2017-05-05¶

DataFrame¶

支持 Pandas 0.20.0

0.14.2 / 2017-05-03¶

Array¶

添加 da.indices (dask#2268), da.tile (dask#2153), da.roll (dask#2135)
da.map_blocks 同时支持 drop_axis 和 new_axis (dask#2264)
Rechunk 和 concatenate 支持未知块大小 (dask#2235) 和 (dask#2251)
支持非 numpy 容器数组，特别是稀疏数组 (dask#2234)
Tensordot 在多个轴上进行收缩 (dask#2186)
允许 da.store 中的 delayed 目标 (dask#2181)
支持与列表和元组的交互 (dask#2148)
用于调试的构造函数插件 (dask#2142)
多维 FFT (单块) (dask#2116)

Bag¶

to_dataframe 强制执行一致的类型 (dask#2199)

DataFrame¶

Set_index 始终完全排序索引 (dask#2290)
支持与 pandas 0.20.0 的兼容性 (dask#2249), (dask#2248), and (dask#2246)
支持 Arrow Parquet reader (dask#2223)
基于时间的滚动窗口 (dask#2198)
Repartition 现在可以创建更多分区，而不仅仅是减少分区 (dask#2168)

Core¶

在 POSIX 文件系统上始终使用绝对路径 (dask#2263)
支持用户提供的图优化 (dask#2219)
重构路径处理 (dask#2207)
提高融合性能 (dask#2129), (dask#2131), and (dask#2112)

0.14.1 / 2017-03-22¶

Array¶

微优化 (dask#2058)
更改切片优化以避免融合原始 numpy 数组 (dask#2075) (dask#2080)
Dask.array 操作现在支持 numpy 数组 (dask#2079)
Reshape 现在支持更广泛的情况 (dask#2089)
支持 deepcopy python 协议 (dask#2090)
允许用户在 da.fft 中提供 FFT 实现 (dask#2093)

DataFrame¶

修复了 to_parquet 在空分区上的问题 (dask#2020)
set_index 中的可选 npartitions='auto' 模式 (dask#2025)
优化 shuffle 性能 (dask#2032)
支持沿时间窗口的高效 repartitioning，例如 repartition(freq='12h') (dask#2059)
提高 categorize 的速度 (dask#2010)
支持单行 dataframe 算术运算 (dask#2085)
在设置索引时自动避免 shuffle，如果使用已排序的列 (dask#2091)
改进 read_csv 中整数-na 处理 (dask#2098)

Delayed¶

repeated attribute access on delayed objects uses the same key (dask#2084)

Core¶

改进点状图可视化中节点的命名，避免通用 apply (dask#2070)
确保工作进程具有不同的随机种子 (dask#2094)

0.14.0 / 2017-02-24¶

Array¶

修复 arange 中零形状和值未对齐的极端情况 (dask#1902), (dask#1904), (dask#1935), (dask#1955), (dask#1956)
提高拼接效率 (dask#1923)
如果在 from_array 中提供了 name，则避免哈希 (dask#1972)

Bag¶

Repartition 现在可以增加分区数量 (dask#1934)
修复了在空分区上进行某些归约操作的 bug (dask#1939), (dask#1950), (dask#1953)

DataFrame¶

支持非均匀 Categoricals (dask#1877), (dask#1930)
Groupby 累积归约 (dask#1909)
DataFrame.loc 索引现在支持列表 (dask#1913)
改进了多层 groupbys 的处理 (dask#1914)
改进了 DataFrames 的 HTML 和字符串表示 (dask#1637)
Parquet append (dask#1940)
添加 dd.demo.daily_stock 函数用于教学 (dask#1992)

Delayed¶

为 delayed 添加 traverse= 关键字，以便选择性地避免遍历嵌套数据结构 (dask#1899)
支持 Futures 在 from_delayed 函数中 (dask#1961)
改进装饰过的 delayed 函数的序列化 (dask#1969)

Core¶

改进极端情况下的 windows 路径解析 (dask#1910)
融合时重命名任务 (dask#1919)
添加顶层 persist 函数 (dask#1927)
在字节处理中传递 errors= 关键字 (dask#1954)
Dask.compute 遍历 Python 集合 (dask#1975)
dask.array 和 dask.delayed 图之间的结构共享 (dask#1985)

0.13.0 / 2017-01-02¶

Array¶

dask.array 的强制 dtypes。所有操作都保留 dtype 信息，如果无法推断，map_blocks 等 UDF 函数现在需要一个 dtype= 关键字。 (dask#1755)
支持没有已知形状的数组，例如通过数组切片数组或将 dataframe 转换为数组时产生的情况 (dask#1838)
通过设置一个数组来支持另一个数组的变异 (dask#1840)
协方差和相关性的树状归约。 (dask#1758)
添加 SerializableLock 以更好地与分布式调度一起使用 (dask#1766)
改进的 atop 支持 (dask#1800)
Rechunk 优化 (dask#1737), (dask#1827)

Bag¶

避免两次重新计算同一个 groupby 导致错误结果 (dask#1867)

DataFrame¶

添加 map_overlap 用于自定义滚动操作 (dask#1769)
添加 shift (dask#1773)
添加 Parquet 支持 (dask#1782) (dask#1792) (dask#1810), (dask#1843), (dask#1859), (dask#1863)
添加缺失的方法 combine, abs, autocorr, sem, nsmallest, first, last, prod, (dask#1787)
近似 nunique (dask#1807), (dask#1824)
具有多个输出分区的归约 (用于 drop_duplicates 等操作) (dask#1808), (dask#1823) (dask#1828)
添加 delitem 和 copy 到 DataFrames，增加变异支持 (dask#1858)

Delayed¶

更改了 delayed(nout=0) 和 delayed(nout=1) 的行为：delayed(nout=1) 不再默认为 out=None，并且也启用了 delayed(nout=0)。即，可以正确处理返回元组长度为 1 或 0 的函数。这对于被 delayed 包装的具有可变数量输出的函数尤其方便。例如，一个简单的例子：delayed(lambda *args: args, nout=len(vals))(*vals)

Core¶

重构核心字节摄取 (dask#1768), (dask#1774)
提高导入时间 (dask#1833)

0.12.0 / 2016-11-03¶

DataFrame¶

当提供给 dataframe.map_partitions 的函数返回标量时，返回 Series (dask#1515)
修复 Series 的类型大小推断问题 (dask#1513)
dataframe.DataFrame.categorize 不再包含 categories 中的缺失值。这是为了与 pandas 的一项更改兼容 (dask#1565)
修复 dataframe.read_csv 中的头部解析器错误，当某些行包含引号时 (dask#1495)
添加 dataframe.reduction 和 series.reduction 方法，将通用行级归约应用于 dataframes 和 series (dask#1483)
添加 dataframe.select_dtypes，它与 pandas 方法相似 (dask#1556)
dataframe.read_hdf 现在支持读取 Series (dask#1564)
支持 Pandas 0.19.0 (dask#1540)
实现 select_dtypes (dask#1556)
String accessor 支持索引 (dask#1561)
为 dask.dataframe 添加 pipe 方法 (dask#1567)
为 merge 添加 indicator 关键字 (dask#1575)
read_hdf 支持 Series (dask#1575)
支持带有缺失值的 Categories (dask#1578)
支持 inplace 运算符，例如 df.x += 1 (dask#1585)
Str accessor 传递 args 和 kwargs (dask#1621)
改进了对单机多进程调度器的 groupby 支持 (dask#1625)
树形归约 (dask#1663)
透视表 (dask#1665)
添加 clip (dask#1667), align (dask#1668), combine_first (dask#1725), 和 any/all (dask#1724)
改进了 dask-pandas merge 上的 divisions 处理 (dask#1666)
添加 groupby.aggregate 方法 (dask#1678)
添加 dd.read_table 函数 (dask#1682)
改进了对多级列的支持 (dask#1697) (dask#1712)
支持 loc 中的二维索引 (dask#1726)
扩展 resample 以包含 DataFrames (dask#1741)
支持 dask.array ufuncs on dask.dataframe objects (dask#1669)

Array¶

添加关于 dask.array chunks 参数如何工作的信息 (dask#1504)
修复 dask.array 中非标量字段的字段访问问题 (dask#1484)
为 atop 添加 concatenate= 关键字，用于连接收缩维度的块
优化切片性能 (dask#1539) (dask#1731)
扩展 atop，增加 concatenate= (dask#1609) new_axes= (dask#1612) 和 adjust_chunks= (dask#1716) 关键字
添加 clip (dask#1610) swapaxes (dask#1611) round (dask#1708) repeat
在 atop 支持的操作中自动对齐块 (dask#1644)
在切片时剔除 dask.arrays (dask#1709)

Bag¶

修复了 bag.from_sequence 中可调用对象被解释为任务的问题 (dask#1491)
避免在归约中非惰性地使用内存 (dask#1747)

Administration¶

添加了更新日志 (dask#1526)
在线程中操作时创建新的线程池 (dask#1487)
将示例文档页面合并为一个 (dask#1520)
添加 versioneer 用于基于 git-commit 的版本控制 (dask#1569)
在点状图可视化中传递 node_attr 和 edge_attr 关键字 (dask#1614)
添加 Windows 的持续测试，使用 Appveyor (dask#1648)
移除 multiprocessing.Manager 的使用 (dask#1653)
为 compute 添加全局优化关键字 (dask#1675)
微优化 get_dependencies (dask#1722)

0.11.0 / 2016-08-24¶

主要变化¶

DataFrames 现在强制在所有地方了解完整的元数据（列、dtypes）。以前，当函数丢失 dtype 信息（例如 apply）时，我们会在不明确的状态下操作。现在所有 DataFrames 都始终知道它们的 dtypes，并且如果无法推断（通常可以），会引发错误要求提供信息。一些内部属性，例如 _pd 和 _pd_nonempty 已被移动。

分布式调度器的内部结构已经重构，以在明确的状态之间转换任务。这提高了弹性、调度推理、插件操作和日志记录。它还使调度器代码更容易让新手理解。

重大更改¶

distributed.s3 和 distributed.hdfs 命名空间已移除。改为使用普通方法中的协议，例如 read_text('s3://...'。
Dask.array.reshape 现在在某些情况下会出错，而以前它会创建非常多的任务。

0.10.2 / 2016-07-27¶

更多的 Dataframe shuffle 现在可以在分布式设置中工作，范围从设置索引到哈希连接、排序连接和 groupbys。
在 Python 的 optimized-OO 模式下运行时，Dask 通过了完整的测试套件。
发现在某些高度并发的情况下，特别是 Windows 上，磁盘 shuffle 会产生错误结果。通过对 partd 库的修复，这个问题已得到解决。
修复了在大量数据通信下发生的打开文件描述符增长的问题
支持 --bokeh-whitelist 选项中的端口，以便更好地路由非简单网络设置后面的 web 界面消息
worker 失败的弹性得到了一些改进（尽管其他已知故障仍然存在）
现在可以在任何 worker 上启动 IPython 内核，以改进调试和分析
改进了 dask.dataframe.read_hdf，特别是在从多个文件和文档读取时

0.10.0 / 2016-06-13¶

主要变化¶

此版本放弃对 Python 2.6 的支持
Conda 包从 conda-forge 构建和提供
dask.distributed 可执行文件已从 dfoo 重命名为 dask-foo。例如，dscheduler 重命名为 dask-scheduler
Bag 和 DataFrame 都包含初步的分布式 shuffle。

Bag¶

为分布式 groupbys 添加基于任务的 shuffle
为累积归约添加 accumulate

DataFrame¶

添加了适用于分布式连接、groupby-apply 和 set_index 操作的基于任务的 shuffle。单机 shuffle 保持不变（效率更高）。
支持新的 Pandas rolling API，提高了分布式系统上的通信性能。
添加 groupby.std/var
在 read_csv 中传递 S3/HDFS 存储选项
改进分类分区
为 dataframes 添加 eval, info, isnull, notnull

Distributed¶

将可执行文件（如 dscheduler）重命名为 dask-scheduler
提高在许多快速任务情况下的调度器性能（对 shuffle 很重要）
改进 work stealing，使其了解预期的函数运行时间和数据大小。这极大地增加了可以在分布式调度器上高效运行的算法范围，而无需用户具备专业的知识。
支持流式队列中的最大缓冲区大小
使用 Bokeh 诊断 web 界面时改进 Windows 支持
支持协议中超大字节字符串的压缩
支持 Joblib 接口中提交 futures 的干净取消

其他¶

所有与 dask 相关的项目（dask, distributed, s3fs, hdfs, partd）现在都在 conda-forge 上构建 conda 包。
更改 s3fs 中的凭据处理方式，仅在明确给出 secret/key 时传递委托凭据。默认情况下，依赖托管环境。可以通过明确提供关键字参数来改回。如果需要匿名模式，必须明确声明。

0.9.0 / 2016-05-11¶

API 变化¶

dask.do 和 dask.value 已重命名为 dask.delayed
dask.bag.from_filenames 已重命名为 dask.bag.read_text
所有 S3/HDFS 数据摄取函数，例如 db.from_s3 或 distributed.s3.read_csv 已移入普通 read_text, read_csv functions，它们现在支持协议，例如 dd.read_csv('s3://bucket/keys*.csv')

Array¶

添加对 scipy.LinearOperator 的支持
改进磁盘数据结构的可选锁定
更改 rechunk 以暴露中间块

Bag¶

将 from_filenames 重命名为 read_text
移除 from_s3，改为使用 read_text('s3://...')

DataFrame¶

修复了相关性和协方差的数值稳定性问题
允许 from_pandas 无哈希，以便快速往返 pandas 对象
总体重新设计了 read_csv，使其更符合 Pandas 的行为
支持针对已排序列的快速 set_index 操作

Delayed¶

将 do/value 重命名为 delayed
将 to/from_imperative 重命名为 to/from_delayed

Distributed¶

将 s3 和 hdfs 功能移入 dask 仓库
针对非常快的任务，自适应超额分配 worker
改进 PyPy 支持
改进针对不均衡 worker 的 work stealing
使用 tree-scatters 高效分散数据

其他¶

添加 lzma/xz 压缩支持
尝试拆分不可拆分压缩类型（如 gzip 或 bz2）时发出警告
改进单机 shuffle 操作的哈希
添加新的 start state 回调方法
通用性能调优

0.8.1 / 2016-03-11¶

Array¶

修复了 range slicing 的 bug，该 bug 可能周期性地导致不正确的结果。
改进了对 arg 归约（argmin, argmax 等）的支持和弹性

Bag¶

添加 zip 函数

DataFrame¶

添加 corr 和 cov 函数
添加 melt 函数
修复了 io 到 bcolz 和 hdf5 的 bug

0.8.0 / 2016-02-20¶

Array¶

将默认数组归约拆分从 32 更改为 4
线性代数，tril, triu, LU, inv, cholesky, solve, solve_triangular, eye, lstsq, diag, corrcoef。

Bag¶

添加树状归约
添加 range 函数
移除 from_hdfs 函数（现在 hdfs3 和 distributed 项目中存在更好的功能）

DataFrame¶

重构 dask.dataframe 以包含完整的空 pandas dataframe 作为元数据。移除 Series 上的 .columns 属性
添加 Series 分类访问器，series.nunique，移除 series 的 .columns 属性。
read_csv 修复（多列 parse_dates，整数列名等）
内部更改以改进图序列化

其他¶

文档更新
为所有 collections 添加 from_imperative 和 to_imperative 函数
profiler 绘图的美学变化
将 dask 项目移至新的 dask 组织

0.7.6 / 2016-01-05¶

Array¶

改进线程安全
树状归约
添加 view, compress, hstack, dstack, vstack 方法
map_blocks 现在可以移除和添加维度

DataFrame¶

改进线程安全
扩展抽样以包含替换选项

Imperative¶

移除融合结果的优化 passes。

Core¶

移除 dask.distributed
提高块文件读取性能
序列化改进
测试 Python 3.5

0.7.4 / 2015-10-23¶

这主要是错误修复版本。一些值得注意的变化包括

修复与 numpy 1.10 和 pandas 0.17 发布相关的微小 bug
修复了随机数生成中的一个 bug，该 bug 会因生日悖论导致重复的块
dask.dataframe.read_hdf 默认使用锁，以避免并发问题
将 dask.get 默认指向 dask.async.get_sync
允许可视化函数接受通用 graphviz 图选项，例如 rankdir=’LR’
为 dask.array 添加 reshape 和 ravel
支持从 dask.imperative 对象创建 dask.arrays

弃用¶

此版本还包含对 dask.distributed 的弃用警告，该模块将在下一版本中移除。

dask 的分布式计算未来开发正在此处进行：https://distributed.dask.org.cn 。非常欢迎社区对该项目提供反馈。

0.7.3 / 2015-09-25¶

诊断¶

已在 dask.diagnostics 模块中添加了一个用于分析内存和 CPU 使用率的工具。

DataFrame¶

此版本改进了 pandas API 的覆盖率。其中包括 nunique, nlargest, quantile。修复了读取非 ascii csv 文件时的编码问题。改进了 resample 的性能并修复了 bug。更灵活的 read_hdf 支持 globbing。以及更多内容。修复了 dask.imperative 和 dask.bag 中的各种 bug。

0.7.0 / 2015-08-15¶

DataFrame¶

此版本包含重要的 bug 修复以及与 Pandas API 的对齐。这是使用以及 Pandas 核心开发人员最近参与的结果。

新操作：query, rolling operations, drop
改进的操作：quantiles, 对完整 dataframe 的算术运算, dropna, constructor logic, merge/join, elemwise operations, groupby aggregations

Bag¶

修复了 fold 在 null 默认参数时的 bug

Array¶

新操作：da.fft 模块，da.image.imread

基础设施¶

数组和 dataframe 集合使用确定性键创建图。这些键往往较长（哈希字符串），但在计算之间应该保持一致。这对于未来的缓存非常有用。
所有集合（Array, Bag, DataFrame）都继承自共同的子类

0.6.1 / 2015-07-23¶

Distributed¶

改进了（尽管尚未足够）dask.distributed 在 worker 死亡时的弹性

DataFrame¶

改进了写入各种格式的功能，包括 to_hdf, to_castra, 和 to_csv
改进了从 dask Arrays 和 Bags 创建 dask DataFrames 的功能
改进了对 categoricals 和各种其他方法的支持

Array¶

各种 bug 修复
Histogram 函数

调度¶

添加了并行工作负载中任务的平局排序，以便更好地处理和清除中间结果

其他¶

添加了 dask.do 函数，用于使用普通 python 代码显式构建图
将 pydot 替换为 graphviz 库用于图打印，以支持 Python3
还有一个 gitter 聊天室和 stackoverflow 标签

目录

更新日志¶

2025.5.0¶

亮点¶

2025.4.1¶

亮点¶

2025.4.0¶

亮点¶

破坏性变更¶

2025.3.0¶

亮点¶

在 xarray.apply_ufunc 中自动调整块大小¶

2025.2.0¶

亮点¶

2025.1.0¶

亮点¶

移除了旧版 Dask DataFrame 实现¶

减少 Xarray 工作负载的内存压力¶

2024.12.1¶

亮点¶

提高了大型任务图的调度器响应能力¶

2024.12.0¶

亮点¶

支持 Python 3.13¶

2024.11.2¶

亮点¶

旧版 Dask DataFrame 已废弃¶

Dask Array API 的新 quantile 方法¶

Xarray rolling-construct 中一致的分块大小¶

提高了 map overlap 的效率¶

爱因斯坦求和的一致分块大小¶

2024.10.0¶

重要变更¶

2024.9.1¶

亮点¶

提高了自适应缩放的弹性¶

2024.9.0¶

亮点¶

Bokeh 最低版本升级到 3.1.0¶

引入新的 Task 类¶

2024.8.2¶

亮点¶

自动选择 rechunking 方法¶

Dask Arrays 的新 shuffle API¶

Dask Arrays 的新 blockwise_reshape API¶

多维位置索引保持分块大小一致¶

2024.8.1¶

亮点¶

改进重塑 Dask Arrays 的输出分块大小¶

提高 Xarray Rechunk-GroupBy-Reduce 模式的调度效率¶

停止支持 Python 3.9¶

2024.8.0¶

亮点¶

提高使用位置索引器进行切片的效率和性能¶

提高 Xarray GroupBy-Reduce 模式的调度效率¶

2024.7.1¶

亮点¶

更具弹性的分布式锁¶

2024.7.0¶

主要亮点¶

停止支持 pandas 1.x¶

发布-订阅 API 已弃用¶

2024.6.2¶

2024.6.1¶

主要亮点¶

2024.6.0¶

主要亮点¶

memmap 数组 tokenization¶

2024.5.2¶

2024.5.1¶

主要亮点¶

支持 NumPy 2.0¶

增加对 Zarr 存储的支持¶

2024.5.0¶

主要亮点¶

2024.4.2¶

主要亮点¶

Trivial Merge 实现¶

read_parquet 中的自动分区¶

在 `xarray.apply_ufunc` 中自动调整块大小¶

`read_parquet` 中的自动分区¶

`read_parquet` 中的 Dtype 推断¶