更新日志

更新日志¶

注意

此处并非全部变更。有关完整的变更列表，请参阅 git log。

2025.5.0¶

重点¶

修复了当数组和索引器都具有未知形状时 Array setitem 的问题。详情请参阅 dask#11753 (由 Tom Augspurger 提交)。
修复了 2025.4.0 版本引入的几个 delayed 图处理问题。详情请参阅 dask#11917、dask#11907 和 distributed#9071 (由 Florian Jetter 提交)。

2025.4.1¶

重点¶

此版本包含针对 2025.4.0 版本中引入的几个图优化问题的修复。

详情请参阅 dask#11906、dask#11898、dask#11903 和 dask#11904 (由 Florian Jetter 提交)。

2025.4.0¶

重点¶

计算多个由 Dask-Expr 支持的集合（例如 DataFrames）时，它们现在是一起优化，而不是单独优化。
图具现化和低级优化现在在分布式集群的调度器上执行（如果可用）。
DataFrame.shuffle 新增关键字参数 force，它指示优化器在优化期间不要丢弃 shuffle 操作。
作为参数传递给 Dask 方法的集合现在可以被正确优化。如果传递多个集合作为参数，它们将一起优化。以这种方式传递的集合禁止被重复使用，即如果集合在另一个函数调用中再次使用，它将再次计算。这种模式用于避免通常导致内存使用增加的流水线中断。避免这些应该能减少集群上的内存压力，但可能导致运行时性能下降。
(以上一点的特例) 传递给 Delayed 对象的集合现在会自动优化。

破坏性变更¶

移除了对自定义低级优化器的支持。
顶级的 dask.optimize 现在将始终触发图具现化。此前并非总是如此。这也导致任何低级 HLG 注解被丢弃。
DataFrame 和 Array 的计算结果现在始终在集群上拼接。此前，其行为取决于用于调用 compute 的 API（dask.compute、DaskCollection.compute 或 Client.compute）。
dask.base.collections_to_dsk 已重命名为 collections_to_expr，并且不再返回 HighLevelGraph 或 dict 对象，而是保证返回一个 dask._expr.Expr 对象。此外，它不再立即执行低级优化，而是延迟到 Expr 实例被具现化时，即返回的对象不再是一个映射，因此无法将其转换为 dict 或对其进行迭代。

其他变更

确保 Future 值在 da.from_delayed 任务图中 (dask#11896) Tom Augspurger
修复传递给 delayed 的注解 (dask#11893) Florian Jetter
迁移 delayed 的 unpack_collections (dask#11881) Florian Jetter
移除文档中关于 Pub / Sub 的引用 (dask#11891) James Bourbeau
确保只有没有自定义 init 的类是单例 (dask#11886) Florian Jetter
移除 delayed 表达式的自定义初始化器 (dask#11888) Florian Jetter
修复同时持久化多个 DF 的问题 (dask#11887) Florian Jetter
避免总是将 DataFrame.isin 的列表输入解析为对象类型的 numpy 数组 (dask#11869) Matthew Roeschke
取消跳过 pandas-dev cov / corr 测试 (dask#11873) Tom Augspurger
HLG blockwise 修复 (dask#11871) Florian Jetter
确保正确生成 HLG 对象的注解 (dask#11866) Florian Jetter
从基础 Expr 类中提取单例逻辑 (dask#11868) Florian Jetter
确保 HLG 在优化中正确使用依赖项 (dask#11859) Florian Jetter
确保字典以确定性方式进行分词 (tokenize) (dask#11867) Florian Jetter
确保默认 dask 调度器仅计算所需内容 (dask#11861) Florian Jetter
加速 pd.RangeIndex 的分词 (tokenize) (dask#11863) Florian Jetter
更新社区文档中 Quansight 的链接 (dask#11860) Pavithra Eswaramoorthy
放宽 autocorr 测试的容差 (dask#11857) Tom Augspurger
在 array.store 中使用 map_blocks 以避免具现化和注解丢失 (dask#11844) Florian Jetter
确保 repartition 在降低阶段（即在调度器上）不触发内存大小计算 (dask#11855) Florian Jetter
支持滚动聚合中的 args 和 kwargs (dask#11856) Florian Jetter
从 upstream CI 作业中移除 nightly h5py (dask#11847) James Bourbeau
确保 HLGExpr 唯一分词 (tokenize) (dask#11849) Florian Jetter
在 pandas 3 的 describe 中不注入 median (dask#11846) Florian Jetter
修复子类的 Expr.__setattr__ 问题 (dask#11845) Tom Augspurger
将 HLG 包装在 Expr 中以避免客户端具现化 (dask#11736) Florian Jetter
改进关闭客户端后提交工作时的错误提示 (distributed#9049) James Bourbeau
地址解析失败时返回默认值 (distributed#9051) Sandro
提交图时避免 deepcopy (distributed#8633) Florian Jetter
动态调整心跳和 scheduler_info 间隔 (distributed#9046) Florian Jetter
通过避免在版本检查时导入包来加快进程启动时间 (distributed#9048) Florian Jetter
减小 scheduler_info 的大小 (distributed#9045) Florian Jetter
缓存 WorkerState 的 host 属性 (distributed#9044) Florian Jetter
清除 ci 环境缓存 (distributed#9047) Florian Jetter
移除已弃用的 Pub / Sub (distributed#9039) Florian Jetter
仅在提交 LLG 时执行显式剪枝步骤 (distributed#9040) Florian Jetter
不完全根据类型具现化全局注解 (distributed#9035) Florian Jetter
允许嵌套的 worker_client 调用 (distributed#9038) George Sakkis
转储 ci 缓存 (distributed#9037) Florian Jetter
调度器类型注解 (distributed#9030) Florian Jetter
通过移除 stripped_dep 计算来减少 dask.order 开销 (distributed#9031) Florian Jetter
使用 Expr 代替 HLG (distributed#9008) Florian Jetter

2025.3.0¶

重点¶

在 `xarray.apply_ufunc` 中自动调整块大小¶

apply_ufunc 要求核心维度具有 chunksize=-1。底层的 rechunking 操作会自动调整核心维度的块大小，但保持其他维度不变。这可能导致底层块大小爆炸。

此版本增加了一个中间步骤，该步骤会以核心维度增加的相同因子调整非核心维度的大小，以控制最大块大小。当设置 allow_rechunk=True 时，此行为自动启用。

import xarray as xr
import dask.array as da

arr = xr.DataArray(
    da.random.random((1, 750, 45910), chunks=(1, "auto", -1)),
    dims=["band", "y", "x"],
)

result = arr.interp(
    y=arr.coords["y"],
    method="linear",
)

此前

单个块大小爆炸到 25 GiB，很可能导致内存不足错误。

Individual chunks are exploding to 25 GiB, likely causing out of memory errors.

现在

Dask 现在会自动将单个块拆分为具有相同块大小减去少量容差的块。

Individual chunks are now roughly the same size

其他变更

修复数据集信息缓存分配 (dask#11840) Florian Jetter
Expr setattr (dask#11836) Florian Jetter
表达式分词 (tokenize) 缓存的跟进 (dask#11837) Florian Jetter
整合 expr 类的 getattr (dask#11835) Florian Jetter
减小 ReadParquet 表达式的 pickle 大小 (dask#11797) Florian Jetter
arange 在 ~2**63 处丢失精度 (dask#11801) Guido Imperiale
从 upstream 构建中移除 numbagg (dask#11821) Patrick Hoefler
将 nanmedian 和 nanquantile 分派到 numbagg (dask#11817) Patrick Hoefler
使缺少 meta 的警告更人性化 (dask#11814) Patrick Hoefler
从 from_pandas 中移除 name 文档 (dask#11812) Patrick Hoefler
实现 Array Scalar (dask#11810) Patrick Hoefler
将 to_orc 添加到 DataFrame API (dask#11807) Tom Augspurger
为 DataFrames 实现反向索引 (dask#11803) Patrick Hoefler
为 cudf 添加延迟的 to_pandas_dispatch 注册 (dask#11799) Richard (Rick) Zamora
修复 array-expr 中缺失的导入 (dask#11796) Florian Jetter
缓存表达式上的 tokens 并在 pickle 往返后恢复 (dask#11791) Florian Jetter
在分布式测试中使用随机 dashboard 端口进行 LocalCluster (dask#11795) Florian Jetter
为 array-expr 实现切片 (slicing) (dask#11783) Patrick Hoefler
调用顶级 compute 函数时，永远不要使用异步的 Client (dask#11790) Florian Jetter
重构导入测试 (dask#11794) Florian Jetter
将 base.unpack_collections 迁移到 Task 类 (dask#11793) Florian Jetter
确保 map_blocks 生成唯一的 tokens (dask#11792) Florian Jetter
将 normalize_pickle 的运行时加快 50% (dask#11788) Florian Jetter
修复包含重复项的 divisions 计算问题 (dask#11787) Patrick Hoefler
修复重复 divisions 的 assign align 问题 (dask#11786) Patrick Hoefler
确保 concat optimize project 不会抛出异常 (dask#11784) Florian Jetter
添加 array-expr from_array (dask#11772) Patrick Hoefler
在 apply_gufunc 中保持 chunksizes 一致 (dask#11683) Patrick Hoefler
测试 dask.dataframe.__all__ (dask#11782) Philipp A.
为 dask.bag 添加 __all__ (dask#11781) Philipp A.
为 dask.array.__all__ 添加测试 (dask#11780) Philipp A.
将 JamesIves/github-pages-deploy-action 从 4.7.2 升级到 4.7.3 (dask#11777)
导出 dask.array 成员 (dask#11779) Philipp A.
修复 sorted_divisions_locations 包含重复项的问题 (dask#11773) Tom Augspurger
修复 best-practices.rst 中的小拼写错误 (dask#11775) Sergey Kolesnikov
允许 blockwise adjust_chunks 中的未知块 (dask#11769) Lindsey Gray
修复 asarray(..., like=...) 与 scipy.sparse 对象冲突导致崩溃的问题 (dask#11755) Guido Imperiale
移除不稳定的可选依赖项 (dask#11771) Tom Augspurger
添加对 scipy sparray 的支持 (dask#11750) Philipp A.
将 flaky 添加到测试 extra (dask#11770) Tom Augspurger
确保 divisions 是普通标量 (dask#11767) Tom Augspurger
移除 divisions 代码重复 (dask#11764) Florian Jetter
确保 Merge 中 divisions 不与 npartitions 分歧 (dask#11762) Florian Jetter
在 windows 上跳过 test_visualize_int_overflow (dask#11761) Florian Jetter
减小 tasks 的 pickle 大小 (dask#11687) Florian Jetter
实现 unify_chunks 和 Rechunk (dask#11692) Patrick Hoefler
修复 expression getitem 以避免对齐问题 (dask#11760) Patrick Hoefler
arange(..., like=x) 嵌入了 x 的图 (dask#11754) Guido Imperiale
简化 assert_divisions (dask#11745) Florian Jetter
修复 Series 对象的 Projection 逻辑 (dask#11747) Patrick Hoefler
移除以 bytes 作为 keys 的用法 (dask#11757) Florian Jetter
确保如果函数返回标量，map_partitions 返回 Series 对象 (dask#11756) Florian Jetter
不上传 env 两次 (dask#11748) Patrick Hoefler
修复 readme 中的 badges (distributed#9029) Florian Jetter
正确转发取消原因 (distributed#9028) Florian Jetter
修复 bokeh circle (distributed#9026) Florian Jetter
确保 FileInfo 可以序列化 (distributed#9025) Florian Jetter
在代码采样中将 ipykernel 添加到跳过的模块 (distributed#9022) Matthew Rocklin
SpecCluster: 添加一个选项，以便在集群关闭时 *不* 关闭调度器 (distributed#9021) Taylor Braun-Jones
通过使用 client.persist(collection) 而不是 collection.persist() 来修复 CI (distributed#9020) Hendrik Makait
添加从前缀根到 status 的重定向 (distributed#9015) Isaac
将 JamesIves/github-pages-deploy-action 从 4.7.2 升级到 4.7.3 (distributed#9018)
移除测试中的 bytes keys (distributed#9017) Jacob Tomlinson

2025.2.0¶

重点¶

此版本包含一个关键修复，解决了当 seceded 任务被重新调度或取消并重新提交时（例如由于 worker 丢失）可能出现的死锁问题。

更多详细信息请参阅 distributed#8991 by Hendrik Makait。

其他变更

添加大数组示例 (dask#11744) James Bourbeau
修复 pad 在常量填充时块大小爆炸的问题 (dask#11743) Patrick Hoefler
将 optimize 方法移至基类 (dask#11742) Florian Jetter
为修复的死锁添加 changelog 条目 (dask#11741) Hendrik Makait
修复 dask-expr to_delayed 中图创建问题 (dask#11739) Patrick Hoefler
从 delayed 优化中移除剪枝 (culling) (dask#11737) Patrick Hoefler
在集群上计算 from_map 的 meta (dask#11738) Patrick Hoefler
使用 dask 布尔掩码时 __setitem__ 的 bug (dask#11728) Guido Imperiale
实现 infrastructure, random, blockwise 和 Elemwise (dask#11689) Patrick Hoefler
array / asarray 同时使用 like= 和 dtype= 的问题 (dask#11733) Guido Imperiale
修复注解警告测试 (dask#11734) Patrick Hoefler
使用 to_parquet 写入远程存储时捕获警告 (dask#11731) Patrick Hoefler
从测试中移除 LocalCluster (dask#11729) Patrick Hoefler
修复使用 from_array 时分区剪枝 (pruning) 的问题 (dask#11725) Patrick Hoefler
修复混合 dtype 列的拼接问题 (dask#11727) Patrick Hoefler
arange: 修复极端值问题 (dask#11707) Guido Imperiale
标量 getitem -> setitem 导致图损坏 (dask#11723) Guido Imperiale
compute() 后永不共享缓冲区 (dask#11697) Guido Imperiale
在 from_array 中从 xarray DataArray 提取 Dask Array (dask#11712) Patrick Hoefler
arange: 支持 kwargs (dask#11710) Guido Imperiale
确保 normalize_token 是线程安全的 (dask#11709) Florian Jetter
扩展关于实例类型和进程的建议 (dask#11705) Florian Jetter
删除遗留的时间序列实现 (dask#11704) Florian Jetter
更新 Dask Cloud Provider 文档，将 Nebius 包含为支持的云选项 (dask#11703) Alexander
修复 normalize_chunks 在压平到单个 chunk 时的问题 (dask#11702) Patrick Hoefler
修复带 newaxis 的位置索引问题 (dask#11699) Patrick Hoefler
在 scipy-sparse-indexing 中设置 array 后端 (dask#11700) Tom Augspurger
修复 value_counts shuffle 策略 (dask#11698) Patrick Hoefler
将核心 expression 类与 dataframe 特定代码解耦 (dask#11688) Patrick Hoefler
将 conda-incubator/setup-miniconda 从 3.1.0 升级到 3.1.1 (dask#11685)
修正从 array 方法转换 dataframe 的问题 (dask#11684) Patrick Hoefler
移除 fastparquet 的剩余痕迹 (dask#11682) Patrick Hoefler
移除 sizeof 失败警告中的追溯信息 (distributed#9006) Jacob Tomlinson
Hotfix: 忽略负数 occupancy (distributed#9012) Hendrik Makait
移除昂贵的 tokenization 以进行 key 唯一性检查 (distributed#9009) Patrick Hoefler
修复 from_map 更改后的 CI (distributed#9011) Patrick Hoefler
避免在调度器上处理过期的长时间运行消息 (distributed#8991) Hendrik Makait
增加 test_stress 超时时间 (distributed#9002) Tom Augspurger
在 test_rmm_metrics 测试中进行轮询 (distributed#9004) Tom Augspurger
在 WorkStealing.balance() 中缓存 occupancy (distributed#9005) Hendrik Makait
通过考虑进行中的请求实现同质平衡 (distributed#9003) Hendrik Makait
在 stealing、adaptive 和 occupancy 计算之间保持任务持续时间估计一致 (distributed#9000) Hendrik Makait
将默认 work-stealing 间隔增加 10 倍 (distributed#8997) Hendrik Makait
从 status dashboard 中移除 occupancy 图表 (distributed#8995) Hendrik Makait
将 conda-incubator/setup-miniconda 从 3.1.0 升级到 3.1.1 (distributed#8990)

2025.1.0¶

重点¶

移除了遗留的 Dask DataFrame 实现¶

此版本移除了遗留的 Dask DataFrame 实现。带查询规划的 API 现在是唯一的 Dask DataFrame 实现。

这强制执行了配置的弃用

dask.config.set({"dataframe.query-planning": False})

Dask-Expr 已合并到 dask 包以及 dask/dask 仓库中。不再需要单独安装 dask-expr。

减少 Xarray 工作负载的内存压力¶

Dask 在 2022 年引入了一种称为根任务排队（root task queuing）的机制。该机制允许 Dask 检测从存储中读取数据的任务，并防御性地调度它们，以避免通过过度生产这些任务而给集群带来内存压力。底层的机制非常脆弱，对于特定类型的计算（例如打开多个 zarr 存储或加载大量 netcdf 文件）会失败。

Dask 任务图表示的最新更改使得根任务的检测更加鲁棒。此更改使得检测机制独立于运行的工作负载，并且尤其有益于 Xarray 工作负载。

这显著提高了内存稳定性，并减少了此前根任务检测失败的工作负载的内存占用，使得预期的内存配置文件具有确定性且独立于任务图的拓扑结构。

2024.12.1¶

重点¶

提高了调度器对大型任务图的响应能力¶

此版本减少了 Dask 调度器用于跟踪任务的 Python 对象引用数量。这通过减少调度器运行垃圾回收所需的时间来提高调度器的响应能力。

更多详细信息请参阅 dask#8958, dask#11608, dask#11600, dask#11598, dask#11597, 和 distributed#8963 by Hendrik Makait。

2024.12.0¶

重点¶

支持 Python 3.13¶

此版本新增对 Python 3.13 的支持。Dask 现在支持 Python 3.10-3.13。

更多详细信息请参阅 dask#11456 和 distributed#8904 by Patrick Hoefler 和 James Bourbeau。

其他变更

恢复“添加 LLM 聊天机器人到 Dask 文档 (dask#11556)” (dask#11577) dchudz
如果 to_zarr 中的数组具有不规则块，则自动进行 rechunking (dask#11553) Patrick Hoefler
Blockwise 使用 Task 类 (dask#11568) Florian Jetter
将 rechunk 和 reshape 迁移到 task spec (dask#11555) Patrick Hoefler
缓存数组的 svg-表示 (dask#11560) Deepak Cherian
修复容器的空输入问题 (dask#11571) Florian Jetter
在优化期间将 Bag 图转换为 TaskSpec 图 (dask#11569) Florian Jetter
添加 LLM 聊天机器人到 Dask 文档 (dask#11556) dchudz
在线性融合中也融合数据节点 (dask#11549) Patrick Hoefler
将切片代码迁移到 task spec (dask#11548) Patrick Hoefler
加快 ArraySliceDep 的 tokenization (dask#11551) Patrick Hoefler
修复 p2p barrier 任务的融合问题 (dask#11543) Patrick Hoefler
移除 GPU CI 的基础设施/提及 (dask#11546) Charles Blackmon-Luca
暂时禁用 gpuCI 更新 CI 作业 (dask#11545) James Bourbeau
使用 BlockwiseDep 实现 map_blocks 关键字参数 (dask#11542) Patrick Hoefler
移除 optimize_slices (dask#11538) Patrick Hoefler
如果形状相同，将 reshape_blockwise 设为无操作 (noop) (dask#11541) Patrick Hoefler
移除 open_zarr 中 open_arry 的只读标志 (dask#11539) Patrick Hoefler
为 task spec 类实现 linear_fusion (dask#11525) Patrick Hoefler
移除 TaskSpec 中的递归 (dask#11477) Florian Jetter
修正 dask-expr 更改后的测试 (dask#11536) Patrick Hoefler
将 codecov/codecov-action 从 3 升级到 5 (dask#11532)
直接创建 dask-expr frame 而无需 roundtripping (dask#11529) Patrick Hoefler
将 scikit-image nightly 重新添加到 upstream CI (dask#11530) James Bourbeau
移除 from_dask_dataframe 导入 (dask#11528) Patrick Hoefler
确保 from_array 创建一个副本 (dask#11524) Patrick Hoefler
简化并提高 normalize chunks 的性能 (dask#11521) Patrick Hoefler
修复不稳定的 nanquantile 测试 (dask#11518) Patrick Hoefler
修复 zarr=3 中新的 read_only kwarg 导致的测试问题 (dask#11516) Patrick Hoefler
修复 test_jupyter.py::test_shutsdown_cleanly (distributed#8954) Hendrik Makait
在 Python 3.13 CI 中从 conda-forge 安装 tornado (distributed#8951) James Bourbeau
恢复 retire workers API (distributed#8939) Florian Jetter
正确将 finalize 依赖项转换为引用 (distributed#8949) Hendrik Makait
barrier 任务的 Block fusion (distributed#8944) Patrick Hoefler
移除 GPUCI 的基础设施/提及 (distributed#8946) Charles Blackmon-Luca
暂时禁用 gpuCI 更新 CI 作业 (distributed#8945) James Bourbeau
移除 task spec 中的递归 (distributed#8920) Florian Jetter
减少 remove 和 register worker 的日志消息详细程度 (distributed#8938) Florian Jetter
在 retire_workers 中不记录完整的 worker 信息 (distributed#8935) Florian Jetter

2024.11.2¶

注意

版本 2024.11.0 和 2024.11.1 包含一个关键的性能回归问题，所有用户都应跳过这两个版本。

重点¶

遗留 Dask DataFrame 已弃用¶

此版本弃用了遗留的 Dask DataFrame 实现。旧的实现将在未来的版本中完全移除。鼓励用户现在切换到新的实现，并报告遇到的任何问题。

也鼓励用户检查他们只从 dask.dataframe 导入函数，而不是任何子模块。

Dask Array API 新增 quantile 方法¶

Dask Array 新增了 quantile 和 nanquantile 方法。此前，Dask 分派给 NumPy 实现，这会大量阻塞 GIL。这导致 worker 在拥有多个线程时出现严重 slowdown，并且可能导致每个 chunk 的运行时超过 200 秒。

新的 quantile 实现避免了许多这些问题，并将运行时减少到每个 chunk 大约 1 秒，且与线程数量无关。

Xarray rolling-construct 中一致的块大小¶

在 Dask Arrays 中使用 Xarrays rolling(...).construct(...) 会导致非常大的块大小，这些块大小通常不适合单个 worker 的内存。

底层操作是对较小的 NumPy 数组的视图，但触发数据复制将导致非常大的内存使用。

import xarray as xr
import dask.array as da

arr = xr.DataArray(
    da.ones((93504, 721, 1440), chunks=("auto", -1, -1)),
    dims=["time", "lat", "longitude"],
)   # Initial chunks are ~128 MiB
arr.rolling(time=30).construct("window_dim")

此前

单个块大小爆炸到 10 GiB，很可能导致内存不足错误。

Individual chunks are exploding to 10 GiB, likely causing out of memory errors.

现在

Dask 现在会自动将单个块拆分为具有相同块大小减去少量容差的块。

提高了 map overlap 的效率¶

map_overlap 现在创建更小、更高效的图，以保持任务图整体小得多。

旧版本注入了许多不必要的任务，将任务数量增加了实际所需数量的 2-10 倍。这对调度器造成了很大压力。

爱因斯坦求和 (Einstein summation) 的一致块大小¶

如果应用于多个 Dask Array，爱因斯坦求和此前会导致非常大的块大小。此行为继承自 NumPy，但导致 worker 上出现内存不足错误。

import dask.array as da
arr = da.random.random((1024, 64, 64, 64, 64), chunks=(256, 16, 16, 16, 16)) # Initial chunks are 128 MiB
result = da.einsum("aijkl,amnop->ijklmnop", arr, arr)

此前

单个块大小爆炸到 32 GiB，很可能导致内存不足错误。

Individual chunks are exploding to 32 GiB, very likely causing out of memory errors

现在

该操作保持单个块大小不变。

2024.10.0¶

显著变化¶

Zarr-Python 3 兼容性 (dask#11388)
避免在 overlap 中任务图呈指数增长 (dask#11423)
确保 numba tokenization 不使用慢速 pickle 路径 (dask#11419)

2024.9.1¶

亮点¶

改进的自适应扩展弹性¶

自适应扩展集群现在可以从扩展期间的虚假错误中恢复。

更多详细信息请参见 distributed#8871，作者 Hendrik Makait。

2024.9.0¶

亮点¶

将 Bokeh 最低版本提升到 3.1.0¶

诊断和分布式集群仪表盘现在需要 bokeh>=3.1.0。

更多详细信息请参见 dask#11375 和 distributed#8861，作者 James Bourbeau。

引入新的 Task 类¶

添加 Task 类，用于替代 tuple 进行任务规范。

更多详细信息请参见 dask#11248，作者 Florian Jetter。

2024.8.2¶

亮点¶

rechunking 方法的自动选择¶

为了使用户能够以比以前更大的规模重新分块数据，Dask 现在在集群上进行 rechunking 时会自动选择合适的 rechunking 方法。这不需要额外的配置，并且默认启用。

具体来说，Dask 在基于任务的 rechunking 和 P2P rechunking 之间进行选择。基于任务的 rechunking 是以前的默认方法，而当 rechunking 需要新旧块之间几乎所有对所有的通信时（例如，在空间和时间分块之间切换时），P2P rechunking 更具优势。在这些情况下，P2P rechunking 提供恒定的内存使用量并创建更小的任务图。因此，它适用于以前基于任务的 rechunking 会失败的情况。

要禁用自动选择，用户可以通过配置选择他们偏好的方法

import dask.config
# Choose either "tasks" or "p2p"
dask.config.set({"array.rechunk.method": "tasks"})

或在 rechunking 时

import dask.array as da
arr = da.random.random(size=(1000, 1000, 365), chunks=(-1, -1, "auto"))
# Choose either "tasks" or "p2p"
arr = arr.rechunk(("auto", "auto", -1), method="tasks")

更多详细信息请参见 dask#11337，作者 Hendrik Makait。

Dask 数组的新 shuffle API¶

Dask 为 Dask 数组添加了一个 shuffle API。这个 API 允许沿单个维度对数据进行混洗 (shuffling)。它将确保沿此维度的每组元素都恰好位于一个块中。这对于 Xarray 中的 GroupBy-Map 模式来说是一个非常有用的操作。有关更多信息和 API 签名，参见 shuffle()。

更多详细信息请参见 dask#11267、dask#11311 和 dask#11326，作者 Patrick Hoefler。

Dask 数组的新 blockwise_reshape API¶

新的 blockwise_reshape() 可以在你不关心底层数组顺序的情况下进行“非常并行化”(embarassingly parallel) 的重塑操作。它是“非常并行化”的，并且不再在底层触发 rechunking 操作。这在你不需要关心结果数组的顺序时很有用，例如对数组应用归约（reduction）时，或者重塑只是临时操作时。

arr = da.random.random(size=(100, 100, 48_000), chunks=(1000, 100, 83)
result = reshape_blockwise(arr, (10_000, 48_000))
result.sum()

# or: do something that preserves the shape of each chunk

result = reshape_blockwise(result, (100, 100, 48_000), chunks=arr.chunks)

如果维度数量减少，Dask 将自动计算结果块；如果维度数量增加，则必须指定结果块。

重塑 Dask 数组通常会在中间产生包含 rechunk 操作的非常复杂的计算，因为 Dask 默认遵循数组的 C 顺序。这确保了生成的 Dask 数组以与相应 NumPy 数组相同的顺序返回。然而，这可能导致非常低效的计算。如果你不关心顺序，blockwise_reshape 比默认实现效率高得多。

警告

Blockwise 重塑操作比默认操作更有效率，但它们会返回顺序不同的数组。请谨慎使用！

更多详细信息请参见 dask#11328，作者 Patrick Hoefler。

保持块大小一致的多维位置索引¶

以前，使用 vindex() 索引 Dask 数组会在被索引的维度上创建一个单一的输出块。vindex 通常在 Xarray 中用于一次性索引多个维度，例如：

arr = xr.DataArray(
    da.random.random((100, 100, 100), chunks=(5, 5, 50)),
    dims=['a', "b", "c"],
)

以前，这将索引的维度放入一个单一的块中

Size of each individual chunk increases to over 1GB

Dask 现在使用改进的算法来确保块大小保持一致

更多详细信息请参见 dask#11330，作者 Patrick Hoefler。

其他变更

为 shuffle、vindex 和 blockwise_reshape 添加更新日志条目 (dask#11350) Patrick Hoefler
确保持久化集合在没有 GC 的情况下释放 (dask#11348) Florian Jetter
更新 dask 会议的 zoom 链接 (dask#11357) Sarah Charlotte Johnson
为 normalize_chunks 添加更多 docstring 示例 (dask#11271) Illviljan
自动选择基于任务的 rechunking 或 P2P rechunking (dask#11337) Hendrik Makait
为数组实现 blockwise 重塑 API (dask#11328) Patrick Hoefler
使 shuffle 中的 rechunking 更智能，以便在必要时进行不均匀分布 (dask#11326) Patrick Hoefler
提高 GPU CI 更新的可见性 (dask#11345) Charles Blackmon-Luca
更新安装文档中的 numpy 和 pyarrow 版本 (dask#11340) James Bourbeau
修复 dask 和 distributed 依赖问题 (dask#11338) Patrick Hoefler
将 numpy>=1.24 和 pyarrow>=14.0.1 的最低版本提升 (dask#11331) James Bourbeau
将 crick 添加回 Python 3.11+ CI 构建 (dask#11335) James Bourbeau
在 vindex 中保留 chunksizes (dask#11330) Patrick Hoefler
修复 dask.array.fft 与 Numpy 接口不匹配的问题（添加对 norm 参数的支持）(dask#10665) joanrue
将额外参数传递给 rechunk_p2p (dask#11319) Hendrik Makait
修复 map_overlap 的 docstring 格式问题 (dask#11332) Tao Xin
修复 NumPy 2.0 上 prod 的溢出问题 (dask#11327) Patrick Hoefler
确保 axes 是正数 / 添加负数轴的测试 (dask#10812) joanrue
修复带有 new_axis 的 map_overlap 问题 (dask#11128) David Stansby
避免捕获 xdist 的代码 (distributed#8846) Florian Jetter
减少剔除 P2P rechunking 的内存占用 (distributed#8845) Hendrik Makait
添加选择默认 rechunking 方法的测试 (distributed#8843) Hendrik Makait
提高 GPU CI 更新的可见性 (distributed#8841) Charles Blackmon-Luca
增加 test_pause_while_idle 超时时间 (distributed#8844) Florian Jetter
在 P2P rechunking 之前连接小的输入块 (distributed#8832) Hendrik Makait
从 gen_cluster 中移除 dump cluster 功能 (distributed#8823) Florian Jetter
将 numpy>=1.24 和 pyarrow>=14.0.1 的最低版本提升 (distributed#8837) James Bourbeau
修复 Worker 上的 PipInstall 插件问题 (distributed#8839) Hendrik Makait
移除更多 Python 3.10 兼容性代码 (distributed#8824) James Bourbeau
使用基于任务的 rechunking 沿着部分边界进行预分块 (distributed#8831) Hendrik Makait
确保 client_desires_keys 不会损坏 Scheduler 状态 (distributed#8827) Florian Jetter
将 `cloudpickle` 的最低版本提升到 3 (distributed#8836) James Bourbeau

2024.8.1¶

亮点¶

改进重塑 Dask 数组的输出块大小¶

重塑 Dask 数组通常会将需要重塑的维度压缩到一个单一的块中。这导致了非常大的输出块，随后产生了许多内存不足错误和性能问题。

arr = da.ones(shape=(1000, 100, 48_000), chunks=(1000, 100, 83))
arr.reshape(1000, 100, 4, 12_000)

以前，这将最后一个维度放入一个大小为 12_000 的单一块中。

新算法将确保输入和输出之间的块大小保持一致。这将避免块大小的大幅增加和块的碎片化。

Size of each individual chunk stays the same

提高 Xarray Rechunk-GroupBy-Reduce 模式的调度效率¶

以前，scheduler 为使用 cohorts 策略的 Xarray GroupBy-Reduction 模式创建了低效的执行图

import xarray as xr

arr = xr.open_zarr(...)
arr.chunk(time=TimeResampler("ME")).groupby("time.month").mean()

生成任务图执行顺序的算法存在一个问题，导致了低效的执行策略，在集群上累积了许多不必要的内存。这项改进与 2024.08.0 中的先前排序改进非常相似。

放弃对 Python 3.9 的支持¶

根据 NEP 29，此版本放弃对 Python 3.9 的支持。Python 3.10 现在是运行 Dask 所需的最低版本。

更多详细信息请参见 dask#11245 和 distributed#8793，作者 Patrick Hoefler。

2024.8.0¶

亮点¶

提高使用位置索引器进行切片的效率和性能¶

使用位置索引器对 Dask 数组进行切片的性能改进。现在随机访问模式更稳定，并产生更易于使用的结果。

x[slice(None), [1, 1, 3, 6, 3, 4, 5]]

以前使用位置索引器容易导致输出块数量急剧增加并生成非常大的任务图。这已通过更高效的算法得到修复。

新算法将沿被索引的轴保持相同的块大小，以避免块的碎片化或块大小的大幅增加。

更多详细信息和性能基准测试请参见 dask#11262 和 dask#11267，作者 Patrick Hoefler。

提高 Xarray GroupBy-Reduce 模式的调度效率¶

以前，scheduler 为诸如以下 Xarray GroupBy-Reduction 模式创建了低效的执行图：

import xarray as xr

arr = xr.open_zarr(...)
arr.groupby("time.month").mean()

生成任务图执行顺序的算法存在一个问题，导致了低效的执行策略，在集群上累积了许多不必要的内存。

Memory keeps accumulating on the cluster when running an embarassingly parallel operation.

该操作本身是“非常并行化”的。使用正确的执行策略，scheduler 现在可以用恒定内存执行操作，避免溢出，并允许我们扩展到更大的数据集。

Same operation is running with constant memory usage for the whole computation and can scale for bigger datasets.

更多详细信息和示例请参见 distributed#8818，作者 Patrick Hoefler。

2024.7.1¶

亮点¶

更具弹性的分布式锁¶

distributed.Lock (¶) 现在对 worker 故障具有弹性。以前，在持有锁的 worker 丢失和/或因错误未能释放锁的情况下，可能会发生死锁。

更多详细信息请参见 distributed#8770，作者 Florian Jetter。

2024.7.0¶

亮点¶

放弃对 pandas 1.x 的支持¶

此版本放弃对 pandas<2 的支持。pandas 2.0 现在是运行 Dask DataFrame 所需的最低版本。

partd 的最低版本也提升到 1.4.0。1.4 版本之前的不兼容 pandas 2。

更多详细信息请参见 dask#11199，作者 Patrick Hoefler。

2024.6.2¶

这是为了解决 2024.6.1 版本中 dask 和 distributed 版本固定问题而发布的补丁版本。

2024.6.1¶

亮点¶

此版本包含一个关键修复，修复了当 root-ish 任务的依赖被重新调度时（例如由于 worker 丢失）可能出现的死锁问题。

更多详细信息请参见 distributed#8703，作者 Hendrik Makait。

2024.6.0¶

亮点¶

memmap 数组 tokenization¶

现在对 memmap 数组进行 tokenization 将避免将数组实体化到内存中。

更多详细信息请参见 dask#11161，作者 Florian Jetter。

2024.5.2¶

此版本主要包含一些小的错误修复。

2024.5.1¶

亮点¶

支持 NumPy 2.0¶

此版本包含对即将发布的 NumPy 2.0 版本的兼容性更新。

详见 dask#11096 (由 Benjamin Zaitlen 提交) 和 dask#11106 (由 James Bourbeau 提交) 了解更多详情。

增加对 Zarr 存储的支持¶

此版本增加了对 MutableMapping 支持的 Zarr 存储（如 zarr.storage.DirectoryStore 等）的支持。

详见 dask#10422 (由 Greg M. Fleishman 提交) 了解更多详情。

2024.5.0¶

亮点¶

此版本主要包含一些小的错误修复。

2024.4.2¶

亮点¶

简化合并实现¶

查询优化器将检查查询以确定 merge(...) 或 groupby(...).apply(...) 是否需要 shuffle。如果 DataFrame 在之前的步骤中已在相同列上进行了 shuffle，并且中间没有任何操作改变分区布局或每个分区中的相关值，则可以避免 shuffle。

>>> result = df.merge(df2, on="a")
>>> result = result.merge(df3, on="a")

查询优化器将识别出 result 之前也在 "a" 上进行了 shuffle，因此在执行块式合并之前，只对 df3 进行 shuffle。

在 `read_parquet` 中自动分区¶

如果单个分区过小，查询优化器将自动对从 Parquet 文件读取的数据集进行重新分区。这将减少分区的数量，从而减小任务图的大小。

优化器旨在生成至少 75MB 的分区，并在必要时合并多个文件以达到此阈值。该值可以通过以下方式配置

>>> dask.config.set({"dataframe.parquet.minimum-partition-size": 100_000_000})

该值以字节为单位。默认阈值相对保守，以避免每个线程内存量相对较小的工作节点上的内存问题。

2024.4.1¶

这是一个小的错误修复版本，它修复了在 Python 3.11.9 中导入 dask.dataframe 时出现的错误。

详见 dask#11035 和 dask#11039 (由 Richard (Rick) Zamora 提交) 了解详情。

2024.4.0¶

亮点¶

查询规划修复¶

此版本包含 Dask DataFrame 新查询规划器的各种错误修复。

GPU 指标仪表板修复¶

GPU 内存和利用率仪表板功能已恢复。此前这些图表意外留白。

详见 distributed#8572 (由 Benjamin Zaitlen 提交) 了解详情。

2024.3.1¶

这是一个小型版本，主要将未安装 dask-expr 时的异常降级为警告。

2024.3.0¶

发布于 2024 年 3 月 11 日

亮点¶

查询规划¶

此版本默认对所有 dask.dataframe 用户启用查询规划。

查询规划功能表示使用 dask-expr 重写了 DataFrame。这是一个直接替换，我们预计大多数用户无需调整任何代码。任何反馈都可以在 Dask 问题跟踪器或查询规划反馈问题上报告。

如果遇到任何问题，您仍然可以通过设置以下选项来选择退出：

>>> import dask
>>> dask.config.set({'dataframe.query-planning': False})

结束对 Pandas 1.X 的支持¶

新的查询规划后端至少需要 pandas 2.0。如果您通过 conda 安装，或者通过 pip 使用 dask[complete] 或 dask[dataframe] 安装，将自动安装此 pandas 版本。

如果您在安装 dask 时不带 extras，旧的 DataFrame 实现仍然支持 pandas 1.X。

其他变更

使用 dask-expr 更新 pandas nightlies 的测试 (dask#10989) Patrick Hoefler
使用 dask-expr 文档作为 DataFrame 的主要参考文档 (dask#10990) Patrick Hoefler
为 dask-expr 调整 from_array 测试 (dask#10988) Patrick Hoefler
取消跳过 to_delayed 测试 (dask#10985) Patrick Hoefler
将 conda-incubator/setup-miniconda 从 3.0.1 升级到 3.0.3 (dask#10978)
修复启用 dask-expr 时的错误 (dask#10977) Patrick Hoefler
更新 dask-expr 的文档和要求，并移除警告 (dask#10976) Patrick Hoefler
修复 numpy 2 与 ogrid 用法的兼容性问题 (dask#10929) David Hoese
开启 dask-expr 开关 (dask#10967) Patrick Hoefler
强制使用相同的字节顺序解释器初始化随机种子... (dask#10970) Elliott Sales de Andrade
读取 CSV 时使用正确的行终止符编码 (dask#10972) Elliott Sales de Andrade
性能：在 _optimize_blockwise 中不要不必要地重新计算输入/输出索引 (dask#10966) Lindsey Gray
为 dask-expr 中的字符串选项调整测试 (dask#10968) Patrick Hoefler
为 dask-expr 中的数组转换调整测试 (dask#10973) Patrick Hoefler
TST: 修复 32 位上的 sizeof 测试 (dask#10971) Elliott Sales de Andrade
TST: 为 pyarrow 添加缺少的跳过项 (dask#10969) Elliott Sales de Andrade
实现 bag.to_dataframe 的 dask-expr 转换 (dask#10963) Patrick Hoefler
修复 dask-expr 导入错误 (dask#10964) Miles
清理 dask.config 的 Sphinx 文档 (dask#10959) crusaderky
在 Python 3.12+ 上使用 stdlib importlib.metadata (dask#10955) wim glenn
将 partitioning_index 转换为较小的尺寸 (dask#10953) Florian Jetter
重用 dask/dask groupby Aggregation (dask#10952) Patrick Hoefler
确保 futures 上的 tokens 是唯一的 (distributed#8569) Florian Jetter
不要模糊细微性能指标故障 (distributed#8568) crusaderky
在 dask-expr 中标记 shuffle fast 任务 (distributed#8563) crusaderky
按持续时间权重计算 gilknocker Prometheus metric (distributed#8558) crusaderky
修复调度器在 memory->erred 上的转换错误 (distributed#8549) Hendrik Makait
再次让 CI 满意 (distributed#8560) Miles
修复不稳定的 test_Future_release_sync (distributed#8562) crusaderky
修复不稳定的 test_flaky_connect_recover_with_retry (distributed#8556) Hendrik Makait
scheduler.py 中的类型调整 (distributed#8551) crusaderky
将 conda-incubator/setup-miniconda 从 3.0.2 升级到 3.0.3 (distributed#8553)
在 CI 上安装 dask-expr (distributed#8552) Hendrik Makait
P2P shuffle 可以在写入磁盘前删除分区列 (distributed#8531) Hendrik Makait
worker 移除的更好日志记录 (distributed#8517) crusaderky
为 merge 添加 indicator 支持 (distributed#8539) Patrick Hoefler
将 conda-incubator/setup-miniconda 从 3.0.1 升级到 3.0.2 (distributed#8535)
获取模块路径时避免迭代错误 (distributed#8533) James Bourbeau
在代码收集时忽略 stdlib threading 模块 (distributed#8532) James Bourbeau
防止 P2P 重试时日志过多 (distributed#8511) Hendrik Makait
防止 retire_workers 参数中出现拼写错误 (distributed#8524) crusaderky
test_steal 的清理 (回溯 #8185) (distributed#8509) crusaderky
修复不稳定的 test_compute_per_key (distributed#8521) crusaderky
修复不稳定的 test_no_workers_timeout_queued (distributed#8523) crusaderky

2024.2.1¶

发布于 2024 年 2 月 23 日

亮点¶

允许静默 dask.DataFrame 弃用警告¶

上一个版本包含一个 DeprecationWarning，它提醒用户 dask.dafaframe 即将切换到支持查询规划的新后端（详见 dask#10934）。

此 DeprecationWarning 在导入 dask.dataframe 模块时触发，社区对此过于冗长表示担忧。

现在可以静默此警告：

# via Python
>>> dask.config.set({'dataframe.query-planning-warning': False})

# via CLI
dask config set dataframe.query-planning-warning False

详见 dask#10936 和 dask#10925 (由 Miles 提交) 了解详情。

针对罕见键冲突的更健壮的分布式调度器¶

块式融合优化可能导致任务键冲突，分布式调度器未能正确处理（详见 dask#9888）。用户通常会通过看到导致系统死锁或关键故障的各种内部异常之一来注意到这一点。虽然此问题无法修复，但调度器现在实现了一种机制，可以缓解大多数情况，并在检测到问题时发出警告。

详见 distributed#8185 (由 crusaderky 和 Florian Jetter 提交) 了解详情。

在此过程中，对 tokenization 进行了各种改进。详见 dask#10913, dask#10884, dask#10919, dask#10896，以及主要由 crusaderky 提交的 dask#10883 了解更多详情。

在大型集群上更健壮的自适应扩缩容¶

以前，如果在缩减时需要移动大量任务，自适应扩缩容可能会丢失数据。这通常（但不限于）发生在大型集群上，表现为任务的重新计算，可能导致集群在扩容和缩减之间振荡而永远无法完成。

详见 distributed#8522 (由 crusaderky 提交) 了解更多详情。

2024.2.0¶

发布于 2024 年 2 月 9 日

亮点¶

弃用 Dask DataFrame 实现¶

当前的 Dask DataFrame 实现已被弃用。在未来的版本中，Dask DataFrame 将使用包含多项改进（包括逻辑查询规划）的新实现。面向用户的 DataFrame API 将保持不变。

新实现已可用，可通过安装 dask-expr 库来启用

$ pip install dask-expr

并开启查询规划选项

>>> import dask
>>> dask.config.set({'dataframe.query-planning': True})
>>> import dask.dataframe as dd

新实现的 API 文档可在 https://docs.dask.org.cn/en/stable/dataframe-api.html 查看。

任何反馈都可以在 Dask 问题跟踪器 https://github.com/dask/dask/issues 上报告。

详见 dask#10912 (由 Patrick Hoefler 提交) 了解详情。

改进的 tokenization¶

此版本包含 Dask 对象 tokenization 逻辑的多项改进。现在有更多对象生成确定性的 tokens，这可以通过缓存中间结果来提高性能。

详见 dask#10898, dask#10904, dask#10876, dask#10874, 和 dask#10865 (由 crusaderky 提交) 了解详情。

其他变更

修复字符串转换时对只读数组进行原地修改的问题 (dask#10886) Patrick Hoefler
为 dask-expr 添加变更日志条目 (dask#10915) Patrick Hoefler
修复 cudf 的 leftsemi 合并问题 (dask#10914) Patrick Hoefler
略微更新 dask-expr 警告 (dask#10916) James Bourbeau
提高 groupby.nunique 的性能 (dask#10910) Patrick Hoefler
为 dask-expr 中的 leftsemi 合并添加配置 (dask#10908) Patrick Hoefler
调整 dask-expr 的 assign 测试 (dask#10907) Patrick Hoefler
在 GPU CI 中避免 test_to_datetime 中的 pytest.warns (dask#10902) Richard (Rick) Zamora
更新文档主页中的部署选项 (dask#10901) James Bourbeau
修复 dataframe 文档中的拼写错误 (dask#10900) Matthew Rocklin
将 peter-evans/create-pull-request 从 5 升级到 6 (dask#10894)
修复 mimesis API >=13.1.0 - 使用 random.randint (dask#10888) Miles
调整无效测试 (dask#10897) Patrick Hoefler
Pickle da.argwhere 和 da.count_nonzero (dask#10885) crusaderky
修复 singleton pr 后的 dask-expr 测试 (dask#10892) Patrick Hoefler
为 s3fs 设置下限版本 (dask#10889) Miles
为新的 parquet 缓存添加几个 dask-expr 修复 (dask#10880) Florian Jetter
更新部署文档 (dask#10882) Matthew Rocklin
开始构建 dask-expr 文档 (dask#10879) Patrick Hoefler
测试静态方法和类方法的 tokenization (dask#10872) crusaderky
将 distributed.print 和 distributed.warn 添加到 API 文档 (dask#10878) James Bourbeau
在 M1 架构上运行 macos ci (dask#10877) Patrick Hoefler
更新 dask-expr 测试 (dask#10838) Patrick Hoefler
更新 parquet 测试以与 dask-expr 修复保持一致 (dask#10851) Richard (Rick) Zamora
修复 test_graph_manipulation 中的回归 (dask#10873) crusaderky
为 dask-expr ci 调整 pytest 错误 (dask#10871) Patrick Hoefler
当 pandas<2.1 时，为 numba 设置上限版本 (dask#10890) Miles
弃用 DataFrame.fillna 中的 method 参数 (dask#10846) Miles
从 pyproject.toml 中移除警告过滤器 (dask#10867) Patrick Hoefler
跳过 fastparquet 的 test_append_with_partition (dask#10828) Patrick Hoefler
修复 pytest 8 的问题 (dask#10868) Patrick Hoefler
调整测试以支持 dask-expr 中 Groupby.aggregate 对 median 的支持 (2/2) (dask#10870) Hendrik Makait
在 sort_values 中允许 ascending 的长度大于一 (dask#10864) Florian Jetter
允许在 Python 3.9 中抛出其他消息 (dask#10862) Hendrik Makait
在病态情况下获取计算代码时不要崩溃 (distributed#8502) James Bourbeau
将 peter-evans/create-pull-request 从 5 升级到 6 (distributed#8494)
修复 cudf spilling metrics 测试 (distributed#8478) Mads R. B. Kristensen
升级到 pytest 8 (distributed#8482) crusaderky
修复 test_two_consecutive_clients_share_results (distributed#8484) crusaderky
客户端单词混淆 (distributed#8481) templiert

2024.1.1¶

发布于 2024 年 1 月 26 日

亮点¶

支持 Pandas 2.2 和 Scipy 1.12¶

此版本包含对最新 pandas 和 scipy 版本的兼容性更新。

详见 dask#10834, dask#10849, dask#10845, 和 distributed#8474 (由 crusaderky 提交) 了解详情。

弃用项¶

弃用 apply 中的 convert_dtype (dask#10827) Miles
弃用 DataFrame.rolling 中的 axis (dask#10803) Miles
在大多数 DataFrame 方法中弃用 out= 和 dtype= 参数 (dask#10800) crusaderky
弃用 groupby 累积变换器中的 axis (dask#10796) Miles
在剩余方法中将 shuffle 重命名为 shuffle_method (dask#10797) Miles

其他变更

在部署文档中添加推荐的部署选项 (dask#10866) James Bourbeau
改进 _agg_finalize 以符合输出预期 (dask#10835) Hendrik Makait
实现 hlg 的确定性 tokenization (dask#10817) Patrick Hoefler
重构：将 tokenize() 的测试移到其自己的模块 (dask#10863) crusaderky
更新 DataFrame 示例部分 (dask#10856) James Bourbeau
暂时 pin mimesis<13.1.0 (dask#10860) James Bourbeau
对 _testing.py 进行简单的装饰性调整 (dask#10857) crusaderky
取消跳过并调整使用 dask-expr 对 median 进行 groupby-aggregate 的测试 (dask#10832) Hendrik Makait
修复上游 CI 中 sizeof(pd.MultiIndex) 的测试 (dask#10850) crusaderky
numpy 2.0: 修复通过 uint64 数组进行切片的问题 (dask#10854) crusaderky
重命名 numpy 版本常量以匹配 pandas (dask#10843) crusaderky
将 actions/cache 从 3 升级到 4 (dask#10852)
将 gpuCI RAPIDS_VER 更新到 24.04 (dask#10841)
修复 doctest 中的弃用问题 (dask#10844) crusaderky
在 numpy 2.x 中更改 dtype 算术 (dask#10831) crusaderky
调整测试以支持 dask-expr 中的 median 支持 (dask#10839) Patrick Hoefler
调整测试以支持 dask-expr 中 groupby-aggregate 对 median 的支持 (dask#10840) Hendrik Makait
numpy 2.x: 修复 MaskedArray 上的 std() 问题 (dask#10837) crusaderky
如果测试失败，则使 dask-expr ci 失败 (dask#10829) Patrick Hoefler
导出测试时激活 query_planning (dask#10833) Patrick Hoefler
暴露 dataframe 测试 (dask#10830) Patrick Hoefler
numpy 2: n 维 fft 函数中的弃用 (dask#10821) crusaderky
为 dask-expr 泛化 CreationDispatch (dask#10794) Richard (Rick) Zamora
启用 dask-expr 时移除循环导入 (dask#10824) Miles
Minor[CI]: publish-test-results 未标记为失败 (dask#10825) Miles
修复更多使用 pytest.warns() 的测试 (dask#10818) Michał Górny
np.unique(): 在 numpy 2 中 inverse 已整形 (dask#10819) crusaderky
将 test_split_adaptive_files 锁定到 pyarrow 引擎 (dask#10820) Patrick Hoefler
调整 dask/dask 中剩余的测试 (dask#10813) Patrick Hoefler
将测试限制为仅使用 Arrow (dask#10814) Patrick Hoefler
过滤来自 std 测试的警告 (dask#10815) Patrick Hoefler
主要调整索引测试 (dask#10790) Patrick Hoefler
更新部署文档 (dask#10778) Sarah Charlotte Johnson
解除文档构建的阻塞 (dask#10807) Miles
调整 test_to_datetime 以兼容 dask-expr Hendrik Makait
上游 CI 微调 (dask#10806) crusaderky
改进 to_numeric 的测试 (dask#10804) Hendrik Makait
修复测试报告缓存键缩进 (dask#10798) Miles
添加测试报告工作流程 (dask#10783) Miles
处理矩阵子类序列化 (distributed#8480) Florian Jetter
在 P2P 中对分区列使用最小的数据类型 (distributed#8479) Florian Jetter
pandas 2.2: 修复 test_dataframe_groupby_tasks (distributed#8475) crusaderky
将 actions/cache 从 3 升级到 4 (distributed#8477)
pandas 2.2 对比 pyarrow 14: 废弃的 DatetimeTZBlock (distributed#8476) crusaderky
pandas 2.2.0: 废弃了频率别名 M，推荐使用 ME (distributed#8473) Hendrik Makait
修复文档构建 (distributed#8472) Hendrik Makait
修复带有显式 npartitions 的 P2P 合并 (distributed#8470) Hendrik Makait
在 test_report.py 脚本中忽略 dask-expr (distributed#8464) Miles
细微调整：在测试报告环境中硬编码 Python 版本 (distributed#8462) crusaderky
更改 test_report.py - 跳过 dask/dask 中不好的构件 (distributed#8461) Miles
替换所有出现的 sys.is_finalizing (distributed#8449) Florian Jetter

2024.1.0¶

发布于 2024 年 1 月 12 日

亮点¶

P2P 内的部分重新分块¶

P2P 重新分块现在利用了输入和输出块之间的关系。对于不需要全对全数据传输的情况，这可以显著减少运行时间和内存/磁盘占用。它还支持任务裁剪。

详情请参阅 distributed#8330，由 Hendrik Makait 贡献。

Fastparquet 引擎已废弃¶

fastparquet Parquet 引擎已被废弃。用户应迁移到 pyarrow 引擎，方法是安装 PyArrow 并在 read_parquet 或 to_parquet 调用中移除 engine="fastparquet"。

详情请参阅 dask#10743，由 crusaderky 贡献。

改进了任意数据的序列化¶

此版本提高了任意数据的序列化健壮性。以前在某些情况下，对于非 msgpack 可序列化的数据，序列化可能会失败。在这些情况下，我们现在回退到使用 pickle。

详情请参阅 dask#8447，由 Hendrik Makait 贡献。

额外废弃项¶

废弃 DataFrame 方法中的 shuffle 关键字，推荐使用 shuffle_method (dask#10738) Hendrik Makait
废弃 repartition 中的自动参数推断 (dask#10691) Patrick Hoefler
废弃 set_index 中的 compute 参数 (dask#10784) Miles
废弃 eval 中的 inplace (dask#10785) Miles
废弃 Series.view (dask#10754) Miles
废弃 set_index 和 sort_values 的 npartitions="auto" (dask#10750) Miles

其他变更

避免任务 shuffle 中的快捷方式导致数据丢失 (dask#10763) Patrick Hoefler
排序时忽略数据任务 (dask#10706) Florian Jetter
从 dask-expr 添加 get_dummies (dask#10791) Patrick Hoefler
调整 IO 测试以适应 dask-expr 迁移 (dask#10776) Patrick Hoefler
移除关于 groupby 中 sort 和 split_out 的废弃警告 (dask#10788) Patrick Hoefler
处理 pandas 废弃项 (dask#10789) Patrick Hoefler
在 get_scheduler 中只导入 distributed 一次 (dask#10771) Florian Jetter
简化 GitHub actions (dask#10781) crusaderky
添加单元测试概览 (dask#10769) Miles
清理 CI 中冗余的部分 (dask#10768) crusaderky
更新 ufunc 的测试 (dask#10773) Patrick Hoefler
使用 pytest.mark.skipif(DASK_EXPR_ENABLED) (dask#10774) crusaderky
调整 shuffle 测试以兼容 dask-expr (dask#10759) Patrick Hoefler
修复来自 pandas 的一些废弃警告 (dask#10749) Patrick Hoefler
调整 shuffle 测试以兼容 dask-expr (dask#10762) Patrick Hoefler
更新 pre-commit (dask#10767) Hendrik Makait
清理 CI 中的配置开关 (dask#10766) crusaderky
改进 validate_key 的异常处理 (dask#10765) Hendrik Makait
处理 set_index 中带有未知划分的 datetimeindexes (dask#10757) Patrick Hoefler
添加 decimals 的哈希计算 (dask#10758) Patrick Hoefler
审查 is_monotonic 的测试 (dask#10756) crusaderky
更改 value_counts_aggregate 中的参数顺序 (dask#10751) Patrick Hoefler
调整一些 groupby 测试以兼容 dask-expr (dask#10752) Patrick Hoefler
将 mimesis 限制在 < 12 以进行 3.9 构建 (dask#10755) Patrick Hoefler
不在跳过条件中评估配置 (dask#10753) Patrick Hoefler
调整一些测试以兼容 dask-expr (dask#10714) Patrick Hoefler
使 dask.array.utils 函数更通用以适用于其他 Dask Arrays (dask#10676) Matthew Rocklin
移除重复的“单机”部分 (dask#10747) Matthew Rocklin
调整 ORC engine= 参数 (dask#10746) crusaderky
为 pandas 3.0 废弃项和 dask-expr 迁移准备添加内容 (dask#10723) Miles
在文档主页添加任务图动画 (dask#10730) Sarah Charlotte Johnson
使用新的 Xarray logo (dask#10729) James Bourbeau
更新“Dask 十分入门”页面上的 Tab 样式 (dask#10728) James Bourbeau
更新 CI 中的环境文件上传步骤 (dask#10726) James Bourbeau
如果 split_out>1，不要在 GroupBy.nunique 中复制未观测到的分类 (dask#10716) Patrick Hoefler
用于更新 dask.order 的更新日志条目 (dask#10715) Florian Jetter
放宽 _check_dsk 中的冗余键检查 (dask#10701) Richard (Rick) Zamora
修复 test_report.py (distributed#8459) Miles
恢复 pickle 更改 (distributed#8456) Florian Jetter
调整 test_report.py 以支持 dask/dask 仓库 (distributed#8450) Miles
为 P2P shuffle 保持稳定的排序 (distributed#8453) Hendrik Makait
为调度器添加无 worker 超时 (distributed#8371) FTang21
允许由维护者手动分派测试工作流程 (distributed#8445) Erik Sundell
将调度器相关的转换功能设为私有 (distributed#8448) Hendrik Makait
更新 pre-commit 钩子 (distributed#8444) Hendrik Makait
pickling 时不要总是检查 __main__ in result (distributed#8443) Florian Jetter
仅在实现时将 wait_for_workers 委托给集群实例 (distributed#8441) Erik Sundell
延长 test_pandas 中的休眠时间 (distributed#8440) Julian Gilbey
避免使用废弃的 shuffle 关键字 (distributed#8439) Hendrik Makait
Shuffle 指标 4/4: 移除定制诊断 (distributed#8367) crusaderky
不要在测试套件中运行 gilknocker (distributed#8423) Florian Jetter
调整 abstractmethods (distributed#8427) crusaderky
Shuffle 指标 3/4: 捕获后台指标 (distributed#8366) crusaderky
Shuffle 指标 2/4: 添加后台指标 (distributed#8365) crusaderky
Shuffle 指标 1/4: 添加前台指标 (distributed#8364) crusaderky
将 actions/upload-artifact 从 3 升级到 4 (distributed#8420)
修复 test_merge_p2p_shuffle_reused_dataframe_with_different_parameters (distributed#8422) Hendrik Makait
扩展 Client.upload_file 文档示例 (distributed#8313) Miles
改进 P2P 调度器插件中的日志记录 (distributed#8410) Hendrik Makait
重新启用 test_decide_worker_coschedule_order_neighbors (distributed#8402) Florian Jetter
将 cuDF 溢出统计信息添加到 RMM/GPU 内存图表 (distributed#8148) Charles Blackmon-Luca
修复 Nanny 启动的 workers 的哈希不一致问题 (distributed#8400) Charles Stern
如果 workers 正在运行耗时任务 (例如 worker_client)，不允许其下扩 (distributed#7481) Florian Jetter
修复不稳定的 test_subprocess_cluster_does_not_depend_on_logging (distributed#8417) crusaderky

2023.12.1¶

发布于 2023 年 12 月 15 日

亮点¶

Dask DataFrame 现已支持逻辑查询计划¶

Dask DataFrame 通过使用逻辑查询规划器，现在性能显著提升。此功能目前默认关闭，但可以通过以下方式开启：

dask.config.set({"dataframe.query-planning": True})

您还需要安装 dask-expr

pip install dask-expr

我们已经看到有希望的性能改进，更多信息请参阅这篇博文和这些定期更新的基准测试。关于查询优化器工作原理的更详细解释可以在这篇博文中找到。

此功能仍在积极开发中，API 尚未稳定，因此可能会发生重大更改。我们预计明年初将查询优化器设为默认选项。

详情请参阅 dask#10634，由 Patrick Hoefler 贡献。

`read_parquet` 中的 Dtype 推断¶

read_parquet 现在将把 Arrow 类型 pa.date32(), pa.date64() 和 pa.decimal() 推断为 pandas 中的 ArrowDtype。这些 dtypes 由原始 Arrow 数组支持，因此避免了转换为 NumPy object。此外，read_parquet 将不再将嵌套和二进制类型推断为字符串，它们将存储在 NumPy object 数组中。

详情请参阅 dask#10698 和 dask#10705，由 Patrick Hoefler 贡献。

改进调度以减少内存使用¶

此版本包括对我们调度逻辑核心部分的重大重写。它包括 dask.order 中拓扑排序算法的新方法，该方法确定任务的运行顺序。已知不当的排序是导致集群内存压力过大的主要因素。

此版本中的更新修复了 2023.10.0 版本中引入的一些性能回退（参阅 dask#10535）。通常，如果数据不再需要存在于内存中，计算现在会更积极地释放数据。

详情请参阅 dask#10660 和 dask#10697，由 Florian Jetter 贡献。

改进了基于 P2P 的合并健壮性和性能¶

此版本包含多项更新，修复了 2023.9.2 中引入的可能死锁问题，并提高了集群动态扩容时基于 P2P 合并的健壮性。

详情请参阅 distributed#8415, distributed#8416, 和 distributed#8414，由 Hendrik Makait 贡献。

移除禁用 pickle 选项¶

distributed.scheduler.pickle 配置选项不再支持。从 2023.4.0 版本开始，pickle 用于传输任务图，因此无法再禁用。当 distributed.scheduler.pickle 设置为 False 时，我们现在会抛出一个信息性错误。

详情请参阅 distributed#8401，由 Florian Jetter 贡献。

其他变更

为最近的 P2P 合并修复添加更新日志条目 (dask#10712) Hendrik Makait
更新 DataFrame 页面 (dask#10710) Matthew Rocklin
为 dask-expr 开关添加更新日志条目 (dask#10704) Patrick Hoefler
改进 PipInstall 更改的更新日志条目 (dask#10711) Hendrik Makait
移除 PR labeler (dask#10709) James Bourbeau
为 Delayed 对象添加 .__wrapped__ (dask#10695) Andrew S. Rosen
将 actions/labeler 从 4.3.0 升级到 5.0.0 (dask#10689)
将 actions/stale 从 8 升级到 9 (dask#10690)
[Dask.order] 从排序中移除不可运行的叶节点 (dask#10697) Florian Jetter
更新安装文档 (dask#10699) Matthew Rocklin
修复文档中的软件环境链接 (dask#10700) James Bourbeau
避免将非字符串转换为 arrow 字符串用于 read_parquet (dask#10692) Patrick Hoefler
将 xarray-contrib/issue-from-pytest-log 从 1.2.7 升级到 1.2.8 (dask#10687)
修复 pd.DateOffset 的 tokenize (dask#10664) jochenott
写入空数组到 zarr 的 Bugfix (dask#10506) Ben
文档更新，修复样式，提及 free (dask#10679) Matthew Rocklin
更新部署文档 (dask#10680) Matthew Rocklin
使用关键路径方法重写 Dask.order (dask#10660) Florian Jetter
避免替换多次出现的键 (dask#10646) Florian Jetter
在文档中添加缺失的图片 (dask#10694) Matthew Rocklin
将 actions/setup-python 从 4 升级到 5 (dask#10688)
更新 landing 页面 (dask#10674) Matthew Rocklin
在 dispatch 中简化元信息检查 (dask#10638) Patrick Hoefler
锁定 PR Labeler (dask#10675) Matthew Rocklin
稍微重新组织文档索引 (dask#10669) Matthew Rocklin
将 actions/setup-java 从 3 升级到 4 (dask#10667)
将 conda-incubator/setup-miniconda 从 2.2.0 升级到 3.0.1 (dask#10668)
将 xarray-contrib/issue-from-pytest-log 从 1.2.6 升级到 1.2.7 (dask#10666)
使用 nightly pyarrow 修复 test_categorize_info (dask#10662) James Bourbeau
重写 test_subprocess_cluster_does_not_depend_on_logging (distributed#8409) Hendrik Makait
当 pickling SpillBuffer 中的 key 失败并使用 tblib=3 时，避免 RecursionError (distributed#8404) Hendrik Makait
允许任务覆盖 is_rootish 启发式算法 (distributed#8412) Hendrik Makait
移除 GPU 执行器 (distributed#8399) Hendrik Makait
subprocess cluster 不要依赖日志记录 (distributed#8398) Hendrik Makait
更新 gpuCI RAPIDS_VER 到 24.02 (distributed#8384)
将 actions/setup-python 从 4 升级到 5 (distributed#8396)
确保 P2P rechunking 中的输出块均匀分布 (distributed#8207) Florian Jetter
小调整：修复拼写错误 (distributed#8395) crusaderky
将 JamesIves/github-pages-deploy-action 从 4.4.3 升级到 4.5.0 (distributed#8387)
将 conda-incubator/setup-miniconda 从 3.0.0 升级到 3.0.1 (distributed#8388)

2023.12.0¶

发布于 2023 年 12 月 1 日

亮点¶

PipInstall 重启和环境变量¶

distributed.PipInstall 插件现在具有更健壮的重启逻辑，并且还支持环境变量。

下面展示了用户如何使用 distributed.PipInstall 插件和 TOKEN 环境变量来安全地从私有仓库安装包

from dask.distributed import PipInstall
plugin = PipInstall(packages=["private_package@git+https://${TOKEN}@github.com/dask/private_package.git])
client.register_plugin(plugin)

详情请参阅 distributed#8374, distributed#8357, 和 distributed#8343，由 Hendrik Makait 贡献。

Bokeh 3.3.0 兼容性¶

此版本包含使用 bokeh>=3.3.0 与代理 Dask dashboards 的兼容性更新。之前 dashboard plots 的内容不会显示。

详情请参阅 distributed#8347 和 distributed#8381，由 Jacob Tomlinson 贡献。

2023.11.0¶

发布于 2023 年 11 月 10 日

亮点¶

零拷贝 P2P 数组重新分块¶

在使用内存中 P2P 数组重新分块时，用户应看到显著的性能提升。这是由于不再复制底层数据缓冲区。

下面展示了一个简单的示例，我们比较了不同 rechunking 方法的性能。

shape = (30_000, 6_000, 150) # 201.17 GiB
input_chunks = (60, -1, -1) # 411.99 MiB
output_chunks = (-1, 6, -1) # 205.99 MiB

arr = da.random.random(size, chunks=input_chunks)
with dask.config.set({
    "array.rechunk.method": "p2p",
    "distributed.p2p.disk": True,
}):
    (
      da.random.random(size, chunks=input_chunks)
      .rechunk(output_chunks)
      .sum()
      .compute()
    )

A comparison of rechunking performance between the different methods tasks, p2p with disk and p2p without disk on different cluster sizes. The graph shows that p2p without disk is up to 60% faster than the default tasks based approach.

详情请参阅 distributed#8282, distributed#8318, distributed#8321，由 crusaderky 贡献；以及 (distributed#8322)，由 Hendrik Makait 贡献。

废弃 PyArrow <14.0.1¶

从本版本开始废弃使用 pyarrow<14.0.1。建议所有用户升级他们的 pyarrow 版本或安装 pyarrow-hotfix。详情请参阅此 CVE。

详情请参阅 dask#10622，由 Florian Jetter 贡献。

改进 Parquet 的 PyArrow 文件系统¶

读取 Parquet 数据集时使用 filesystem="arrow" 现在可以正确推断访问远程、云托管数据时的正确云区域。

详情请参阅 dask#10590，由 Richard (Rick) Zamora 贡献。

改进 P2P Shuffling 中的类型协调¶

详情请参阅 distributed#8332，由 Hendrik Makait 贡献。

2023.10.1¶

发布于 2023 年 10 月 27 日

亮点¶

Python 3.12¶

此版本添加了对 Python 3.12 的官方支持。

详情请参阅 dask#10544 和 distributed#8223，由 Thomas Grainger 贡献。

其他变更

避免过于激进地将 parquet 文件拆分为行组 (dask#10600) Matthew Rocklin
加快常见情况下的 normalize_chunks (dask#10579) Martin Durant
upstream 和 doctests CI 构建使用 Python 3.11 (dask#10596) Thomas Grainger
将 actions/checkout 从 4.1.0 升级到 4.1.1 (dask#10592)
切换到 PyTables HEAD (dask#10580) Thomas Grainger
移除 numpy.core 警告过滤器，链接到 pyarrow 引起的 BlockManager 警告的问题 (dask#10571) Thomas Grainger
取消忽略并修复废弃的 freq 别名 (dask#10577) Thomas Grainger
将 register_assert_rewrite 移到 conftest 中更早的位置以修复警告 (dask#10578) Thomas Grainger
将 versioneer 升级到 0.29 (dask#10575) Thomas Grainger
更改 test_concat_categorical 为非严格模式 (dask#10574) Thomas Grainger
使用 NumPy 2.0 启用 SciPy 测试 Thomas Grainger
使用 NumPy 2.0 启用 scikit-image 测试 (dask#10569) Thomas Grainger
修复 upstream 构建 (dask#10549) Thomas Grainger
为 drop_duplicates 添加优化代码路径 (dask#10542) Richard (Rick) Zamora
在 dd.DataFrame.sort_values 中支持 cudf 后端 (dask#10551) Richard (Rick) Zamora
在图表标签中将“GIL Contention”重命名为 GIL (distributed#8305) Matthew Rocklin
将 actions/checkout 从 4.1.0 升级到 4.1.1 (distributed#8299)
修复 dashboard (distributed#8293) Hendrik Makait
异步任务使用 @log_errors 装饰器 (distributed#8294) crusaderky
serialize_bytes 的注解和更好测试 (distributed#8300) crusaderky
临时将 test_decide_worker_coschedule_order_neighbors 标记为 xfail 以解除 CI 阻塞 (distributed#8298) James Bourbeau
在代码示例中跳过 xdist 和 matplotlib (distributed#8290) Matthew Rocklin
numpy>=2.dev0 时使用 numpy._core (distributed#8291) Thomas Grainger
修复 MemoryShardsBuffer.bytes_read 的计算 (distributed#8289) crusaderky
允许 P2P 在内存中存储数据 (distributed#8279) Hendrik Makait
将 versioneer 升级到 0.29 (distributed#8288) Thomas Grainger
允许 ResourceLimiter 无限制 (distributed#8276) Hendrik Makait
运行 pre-commit 自动更新 (distributed#8281) Thomas Grainger
为 P2P 层注解实例变量 (distributed#8280) Hendrik Makait
优雅地移除 worker 不应将任务标记为可疑 (distributed#8234) Thomas Grainger
为 dask spec 添加信号处理 (distributed#8261) Thomas Grainger
为 sync 添加类型提示 (distributed#8275) Hendrik Makait
改进 shuffle offload 的注解 (distributed#8277) crusaderky
测试 p2p shuffle 的最低版本 (distributed#8270) crusaderky
在测试失败时运行 coverage (distributed#8269) crusaderky
使用带有扩展的 aiohttp (distributed#8274) Thomas Grainger

2023.10.0¶

发布于 2023 年 10 月 13 日

亮点¶

减少多数组规约的内存压力¶

此版本包含对 Dask 任务图调度逻辑核心部分的重大更新。此处的更新显著减少了数组规约的内存压力。我们预计这将对数组计算社区产生强烈影响。

详情请参阅 dask#10535 （作者：Florian Jetter）。

改进的 P2P Shuffle 稳健性¶

以下列出了几项更新，它们使得 P2P Shuffle 更加稳健，失败的可能性更低。

详情请参阅 distributed#8262、distributed#8264、distributed#8242、distributed#8244 和 distributed#8235 （作者：Hendrik Makait），以及 distributed#8124 （作者：Charles Blackmon-Luca）。

减少大型图的调度器 CPU 负载¶

用户在计算大型任务图时，应该会发现其调度器的 CPU 负载降低了。

详情请参阅 distributed#8238 和 dask#10547 （作者：Florian Jetter），以及 distributed#8240 （作者：crusaderky）。

2023.9.3¶

发布于 2023 年 9 月 29 日

亮点¶

恢复之前的配置覆盖行为¶

2023.9.2 版本引入了非预期的破坏性更改，影响了在 dask.config.get 中使用 override_with= 关键字覆盖配置选项的方式（参见 dask#10519）。本次发布恢复了之前的行为。

详情请参阅 dask#10521 （作者：crusaderky）。

Dask Array Reduction 中的复数 dtype¶

本次发布改进了对在 Dask Array 中使用常见 Reduction（例如 var、std、moment）处理复数 dtype 的支持。

详情请参阅 dask#10009 （作者：wkrasnicki）。

2023.9.2¶

发布于 2023 年 9 月 15 日

亮点¶

P2P Shuffle 在安装过时 PyArrow 时抛出错误¶

之前，如果安装了旧版本的 pyarrow，默认的 Shuffle 方法会静默地从 P2P 回退到基于任务的 Shuffle。现在，我们不再静默回退，而是抛出一个包含 P2P 所需最低 pyarrow 版本的提示性错误。

详情请参阅 dask#10496 （作者：Hendrik Makait）。

admin.traceback.shorten 的弃用周期¶

2023.9.0 版本修改了 admin.traceback.shorten 配置选项，但未引入弃用周期。这导致在某些情况下无法创建 Dask 集群。本次发布为这项配置更改引入了弃用周期。

详情请参阅 dask#10509 （作者：crusaderky）。

2023.9.1¶

发布于 2023 年 9 月 6 日

注意

这是一个热修复版本，修复了 2023.9.0 版本引入的 P2P Shuffle Bug（参见 dask#10493）。

改进¶

对 dask keys 使用更严格的数据类型（dask#10485） crusaderky
对 DASK_ 环境变量中的 None 进行特殊处理（dask#10487） crusaderky

Bug 修复¶

修复 DataFrame.set_index 和 DataFrame.sort_values 中 meta 的 _partitions dtype 问题（dask#10493） Hendrik Makait
处理 derived_from 中的 cached_property 装饰器（dask#10490） Lawrence Mitchell

维护¶

将 actions/checkout 从 3.6.0 升级到 4.0.0 （dask#10492）
简化一些导入 distributed 的测试（dask#10484） crusaderky

2023.9.0¶

发布于 2023 年 9 月 1 日

Bug 修复¶

移除对 keys 中 np.int64 的支持（dask#10483） crusaderky
修复 Shuffle 中 meta 的 _partitions dtype 问题（dask#10462） Hendrik Makait
不使用异常钩子缩短回溯（dask#10456） crusaderky

文档¶

在 DataFrame 文档中添加 p2p Shuffle 选项（dask#10477） Patrick Hoefler

维护¶

跳过 pandas=2.1.0 时失败的测试（dask#10488） Patrick Hoefler
更新 pandas=2.1.0 的测试（dask#10439） Patrick Hoefler
启用 pytest-timeout （dask#10482） crusaderky
将 actions/checkout 从 3.5.3 升级到 3.6.0 （dask#10470）

2023.8.1¶

发布于 2023 年 8 月 18 日

改进¶

添加对 cgroup v2 在 cpu_count 中的支持（dask#10419） Johan Olsson
支持 sort=True 和 split_out>1 的多列 groupby （dask#10425） Richard (Rick) Zamora
添加 DataFrame.enforce_runtime_divisions 方法（dask#10404） Richard (Rick) Zamora
允许 Dask DataFrame to_csv 在 single_file=True 时使用文件 mode="x" （dask#10443） Genevieve Buckley

Bug 修复¶

修复在附加模式且 single_file 为 True 时运行 to_csv 导致的 ValueError （dask#10441） Ben

维护¶

为 pandas 添加默认的 types_mapper 到 from_pyarrow_table_dispatch （dask#10446） Richard (Rick) Zamora

2023.8.0¶

发布于 2023 年 8 月 4 日

改进¶

修复 make_timeseries 性能回归问题（dask#10428） Irina Truong

文档¶

将 distributed.print 添加到调试文档（dask#10435） James Bourbeau
记录 NumPy 函数与 Dask 函数的兼容性（dask#9941） Chiara Marmo

维护¶

在 license 元数据中使用 SPDX （dask#10437） John A Kirkham
在 dask[dataframe] 中要求 dask[array] （dask#10357） John A Kirkham
将 gpuCI RAPIDS_VER 更新到 23.10 （dask#10427）
简化兼容性代码（dask#10426） Hendrik Makait
修复兼容性变量命名问题（dask#10424） Hendrik Makait
修复 upstream pandas 和 pyarrow 的一些错误（dask#10412） Irina Truong

2023.7.1¶

发布于 2023 年 7 月 20 日

注意

本次发布更新了 Dask DataFrame，如果安装了 pandas>=2 和 pyarrow>=12，将自动把使用 object 数据类型的文本数据转换为 string[pyarrow]。

这应该会显著减少许多处理文本数据的工作流程的内存消耗，并提高计算性能。

您可以通过设置配置值 dataframe.convert-string 为 False 来禁用此更改：

dask.config.set({"dataframe.convert-string": False})

改进¶

如果安装了适当的依赖项，转换为 pyarrow 字符串（dask#10400） James Bourbeau
对于 p2p，避免在 shuffle 前进行 repartition （dask#10421） Patrick Hoefler
生成随机 Dask DataFrame 的 API （dask#10392） Irina Truong
加速 dask.bag.Bag.random_sample （dask#10356） crusaderky
为无效的时间单位抛出有用的 ValueError （dask#10408） Nat Tabris
当 divisions 匹配时（divisions 以列表形式提供），使 repartition 成为无操作（dask#10395） Nicolas Grandemange

Bug 修复¶

在 read_parquet token 中使用 dataframe.convert-string （dask#10411） James Bourbeau
连接 MultiIndex 时，Category dtype 会丢失（dask#10407） Irina Truong
修复 FutureWarning: The provided callable... 警告（dask#10405） Irina Truong
在 read_parquet 中启用非分类的 Hive 分区列（dask#10353） Richard (Rick) Zamora
忽略没有列的 DataFrame 进行 concat （dask#10359） Patrick Hoefler

2023.7.0¶

发布于 2023 年 7 月 7 日

改进¶

尝试加载 CLI 入口点时捕获异常（dask#10380） Jacob Tomlinson

Bug 修复¶

修复 _clean_ipython_traceback 中的拼写错误（dask#10385） Alexander Clausen
确保 df 在 from_pandas 后是不可变的（dask#10383） Patrick Hoefler
对 Series.rename 中的 inplace 始终发出警告（dask#10313） Patrick Hoefler

文档¶

在 rechunk 文档中添加关于输出形状和重塑的说明（dask#10377） Swayam Patil

维护¶

简化 astype 实现（dask#10393） Patrick Hoefler
修复 test_first_and_last 以适应已弃用的 last （dask#10373） James Bourbeau
将 level 添加到 create_merge_tree （dask#10391） Patrick Hoefler
不从 scipy.stats.chisquare 文档字符串中派生（dask#10382） Doug Davis

2023.6.1¶

发布于 2023 年 6 月 26 日

改进¶

移除不再支持的 clip_lower 和 clip_upper （dask#10371） Patrick Hoefler
支持 DataFrame.set_index(..., sort=False) （dask#10342） Miles
清理远程回溯（dask#10354） Irina Truong
为 pyarrow.Table 转换添加分派机制（dask#10312） Richard (Rick) Zamora
即使启用了融合，也选择 P2P （dask#10344） Hendrik Makait
在图生成早期验证 rechunking 是否可能（dask#10336） Hendrik Makait

Bug 修复¶

修复传递给 read_csv 的 header 问题（dask#10355） GALI PREM SAGAR
在 GroupBy.var 和 GroupBy.std 中尊重 dropna 和 observed （dask#10350） Patrick Hoefler
修复使用 distributed client 写入 hdf 时出现的 H5FD_lock 错误（dask#10309） Irina Truong
修复 bag.map() 的 total_mem_usage 问题（dask#10341） Irina Truong

弃用¶

弃用带 method 参数的 DataFrame.fillna/Series.fillna （dask#10349） Irina Truong
弃用 DataFrame.first 和 Series.first （dask#10352） Irina Truong

维护¶

弃用 numpy.compat （dask#10370） Irina Truong
修复注解和跨度在线程间泄漏的问题（dask#10367） Irina Truong
在 pyarrow_table_dispatch 函数中使用通用 kwargs （dask#10364） Richard (Rick) Zamora
移除 isna 中不必要的 try/except （dask#10363） Patrick Hoefler
对 numpy 1.25 的 mypy 支持（dask#10362） crusaderky
将 actions/checkout 从 3.5.2 升级到 3.5.3 （dask#10348）
在 upstream 构建中恢复 numba （dask#10330） James Bourbeau
更新 pandas/numpy/scipy 的每夜 wheel 索引（dask#10346） Matthew Roeschke
将 rechunk 配置值添加到 yaml （dask#10343） Hendrik Makait

2023.6.0¶

发布于 2023 年 6 月 9 日

改进¶

在 read_parquet 中添加缺失的 not in 谓词支持（dask#10320） Richard (Rick) Zamora

Bug 修复¶

修复不正确的 value_counts （dask#10323） Irina Truong
更新空的 describe top 和 freq 值（dask#10319） James Bourbeau

文档¶

修复 hetzner 拼写错误（dask#10332） Sarah Charlotte Johnson

维护¶

在 Python 3.11 上使用 numba 和 sparse 进行测试（dask#10329） Thomas Grainger
移除 numpy.find_common_type 警告忽略（dask#10311） James Bourbeau
将 gpuCI RAPIDS_VER 更新到 23.08 （dask#10310）

2023.5.1¶

发布于 2023 年 5 月 26 日

注意

此版本取消对 Python 3.8 的支持。截至本版本，Dask 支持 Python 3.9、3.10 和 3.11。详情请参阅此社区议题。

改进¶

取消对 Python 3.8 的支持（dask#10295） Thomas Grainger
更改 Dask Bag 分区方案以提高集群饱和度（dask#10294） Jacob Tomlinson
泛化 GPU 加速集合的 dd.to_datetime，引入 get_meta_library 工具（dask#9881） Charles Blackmon-Luca
将 na_action 添加到 DataFrame.map （dask#10305） Patrick Hoefler
当未提供 columns 时，在 DataFrame.nsmallest 和 DataFrame.nlargest 中抛出 TypeError （dask#10301） Patrick Hoefler
改进 pd.MultiIndex 的 sizeof （dask#10230） Patrick Hoefler
支持在许多 DataFrame 方法中使用重复列（dask#10261） Patrick Hoefler
为 DataFrame.idxmin 和 DataFrame.idxmax 添加 numeric_only 支持（dask#10253） Patrick Hoefler
实现 DataFrame.quantile 的 numeric_only 支持（dask#10259） Patrick Hoefler
在 DataFrame.std 中添加对 numeric_only=False 的支持（dask#10251） Patrick Hoefler
实现 GroupBy.cumprod 和 GroupBy.cumsum 的 numeric_only=False （dask#10262） Patrick Hoefler
实现 skew 和 kurtosis 的 numeric_only （dask#10258） Patrick Hoefler
mask 和 where 应该接受一个 callable （dask#10289） Irina Truong
修复 read_parquet 中从 Categorical 到 pa.dictionary 的转换问题（dask#10285） Patrick Hoefler

Bug 修复¶

嵌套注解中出现多余配置（dask#10318） crusaderky
修复已知和未知块大小维度上的 rechunking 行为问题（dask#10157） Hendrik Makait
启用 drop 支持分区不匹配的情况（dask#10300） James Bourbeau
修复 to_timestamp 的 divisions 构造问题（dask#10304） Patrick Hoefler
在 Series Reduction 操作中抛出 pandas ExtensionDtype 异常（dask#10149） Patrick Hoefler
修复 da.random 接口的回归问题（dask#10247） Eray Aslan
da.coarsen 不会裁剪 meta 中的空块（dask#10281） Irina Truong
修复 read_csv 中 engine="pyarrow" 的 dtype 推断问题（dask#10280） Patrick Hoefler

文档¶

将 meta_from_array 添加到 API 文档（dask#10306） Ruth Comer
更新 Coiled 链接（dask#10296） Sarah Charlotte Johnson
添加演示日文档（dask#10288） Matthew Rocklin

维护¶

上传 conda nightly 版本时，从 conda-forge 显式安装 anaconda-client （dask#10316） Charles Blackmon-Luca
配置 isort 添加 from __future__ import annotations （dask#10314） Thomas Grainger
避免在测试中出现 pandas Series.__getitem__ 弃用警告（dask#10308） James Bourbeau
忽略 pandas numpy.find_common_type 警告（dask#10307） James Bourbeau
添加测试以检查 DataFrame.__setitem__ 不会就地修改 df （dask#10223） Patrick Hoefler
清理 value_counts 中 dropna 的默认值（dask#10299） Patrick Hoefler
将 pytest-cov 添加到 test extra （dask#10271） James Bourbeau

2023.5.0¶

发布于 2023 年 5 月 12 日

改进¶

为 GroupBy.corr 和 GroupBy.cov 实现 numeric_only=False （dask#10264） Patrick Hoefler
在 DataFrame.var 中添加对 numeric_only=False 的支持（dask#10250） Patrick Hoefler
为 DataFrame.mode 添加 numeric_only 支持（dask#10257） Patrick Hoefler
将 DataFrame.map 添加到 dask.DataFrame API （dask#10246） Patrick Hoefler
调整以适应 DataFrame.applymap 弃用和所有 NA concat 行为变更（dask#10245） Patrick Hoefler
在 DataFrame.count 中启用 numeric_only=False （dask#10234） Patrick Hoefler
mask 和 where 应该接受 callable （dask#10163） Irina Truong
支持 GroupBy.corr 和 GroupBy.cov 的 numeric_only=True （dask#10227） Patrick Hoefler
为 GroupBy.median 添加 numeric_only 支持（dask#10236） Patrick Hoefler
支持 dask.datasets 中的 mimesis=9 （dask#10241） James Bourbeau
为 min、max 和 prod 添加 dask#10219） Patrick Hoefler


为 GroupBy.cumsum 和 GroupBy.cumprod 添加 numeric_only=True 支持 （dask#10224） Patrick Hoefler
添加解包 numeric_only 关键字的辅助函数 （dask#10228） Patrick Hoefler



Bug 修复¶

修复 clone + from_array 失败问题 （dask#10211） crusaderky
修复 ea dtypes 的 DataFrame Reduction 问题 （dask#10150） Patrick Hoefler
避免在 numpy=1.25 中出现标量转换弃用警告 （dask#10248） James Bourbeau
确保 transform 输出与输入具有相同的索引 （dask#10184） Irina Truong
修复在单行分区上执行 corr 和 cov 的问题 （dask#9756） Irina Truong
修复 test_groupby_numeric_only_supported 和 test_groupby_aggregate_categorical_observed 上游错误 （dask#10243） Irina Truong



文档¶

清理 futures 文档 （dask#10266） Matthew Rocklin
添加 Index API 参考 （dask#10263） hotpotato



维护¶

在将 meta 传递给 apply 时发出警告 （dask#10256） Patrick Hoefler
移除 CI 中 imageio 的版本限制 （dask#10260） Patrick Hoefler
移除未使用的 DataFrame 方差方法 （dask#10252） Patrick Hoefler
取消将 test_categories 标记为预期失败（在使用 pyarrow 字符串和 pyarrow>=12 时） （dask#10244） Irina Truong
将 gpuCI 的 PYTHON_VER 从 3.8 升级到 3.9 （dask#10233） Charles Blackmon-Luca



2023.4.1¶
发布于 2023 年 4 月 28 日

改进¶

为 DataFrame.sum 实现 numeric_only 支持 （dask#10194） Patrick Hoefler
在 GroupBy 操作中添加对 numeric_only=True 的支持 （dask#10222） Patrick Hoefler
在针对 pandas 1.4 及更高版本时，避免在 DataFrame.__setitem__ 中进行深拷贝 （dask#10221） Patrick Hoefler
避免使用 _meta_nonempty 调用 Series.apply （dask#10212） Patrick Hoefler
取消锁定 sqlalchemy 并修复兼容性问题 （dask#10140） Patrick Hoefler



Bug 修复¶

部分回退默认客户端发现 （dask#10225） Florian Jetter
在 Index meta 创建中支持 arrow dtypes （dask#10170） Patrick Hoefler
在截断浮点数时，使用扩展 dtype 进行重新分区会抛出错误 （dask#10169） Patrick Hoefler
将来自 fastparquet 的空 Index 调整为 object dtype （dask#10179） Patrick Hoefler



文档¶

更新 Kubernetes 文档 （dask#10232） Jacob Tomlinson
将 DataFrame.reduction 添加到 API 文档 （dask#10229） James Bourbeau
将 DataFrame.persist 添加到文档并修复链接 （dask#10231） Patrick Hoefler
添加关于 GroupBy.transform 的文档 （dask#10185） Irina Truong
修复随机数生成文档中的格式问题 （dask#10189） Eray Aslan



维护¶

将 imageio 锁定到 <2.28 版本 （dask#10216） Patrick Hoefler
添加关于 importlib_metadata backport 的注释 （dask#10207） James Bourbeau
将 xarray 重新添加到 Python 3.11 CI 构建中 （dask#10200） James Bourbeau
添加包含所有可选依赖项的 mindeps 构建 （dask#10161） Charles Blackmon-Luca
在 percentiles_summary 中为 array_safe 提供合适的 like 值 （dask#10156） Charles Blackmon-Luca
避免在 read_hdf 中多次重新打开 hdf 文件 （dask#10205） Thomas Grainger
添加关于可空列的合并测试 （dask#10071） Charles Blackmon-Luca
修复 coverage 配置 （dask#10203） Thomas Grainger
移除 is_period_dtype 和 is_sparse_dtype (dask#10197) Patrick Hoefler
将 actions/checkout 从 3.5.0 升级到 3.5.2 (dask#10201)
避免使用 pandas 中已废弃的 is_categorical_dtype (dask#10180) Patrick Hoefler
调整以适应已废弃的 is_interval_dtype 和 is_datetime64tz_dtype (dask#10188) Patrick Hoefler




2023.4.0¶
发布于 2023 年 4 月 14 日

改进¶

在 update_defaults 中覆盖旧的默认值 (dask#10159) Gabe Joseph
添加一个 CLI 命令，用于从 Dask 配置中 list 和 get 值 (dask#9936) Irina Truong
处理 read_json 中的基于字符串的 engine 参数 (dask#9947) Richard (Rick) Zamora
避免使用已废弃的 GroupBy.dtypes (dask#10111) Irina Truong



Bug 修复¶

恢复与 grouper 相关的更改 (dask#10182) Irina Truong
GroupBy.cov 在非数字分组列时引发异常 (dask#10171) Patrick Hoefler
更新了支持 numpy 数字 dtype 的 Index (dask#10154) Irina Truong
使用 pyarrow 读取时，保留分区列的 dtype (dask#10115) Patrick Hoefler
修复 to_hdf 的注释 (dask#10123) Hendrik Makait
检查列是否全部为数字时，处理 None 列名 (dask#10128) Lawrence Mitchell
修复 valid_divisions 在传入 tuple 时的行为 (dask#10126) Brian Phillips
在 DataFrame.categorize 中保持注释 (dask#10120) Hendrik Makait
修复过滤时处理缺失的 parquet 最小/最大统计信息的问题 (dask#10042) Richard (Rick) Zamora



废弃项¶

废弃 use_nullable_dtypes= 并添加 dtype_backend= (dask#10076) Irina Truong
废弃 Series.apply 中的 convert_dtype (dask#10133) Irina Truong



文档¶

记录基于 Generator 的随机数生成 (dask#10134) Eray Aslan



维护¶

将 dataframe.convert_string 更新为 dataframe.convert-string (dask#10191) Irina Truong
将 python-cityhash 添加到 CI 环境中 (dask#10190) Charles Blackmon-Luca
临时锁定 scikit-image 版本以修复 Windows CI (dask#10186) Patrick Hoefler
处理 to_pydatetime 和 apply 的 pandas 废弃警告 (dask#10168) Patrick Hoefler
移除 bokeh<3 限制 (dask#10177) James Bourbeau
修复写时复制模式下的测试失败问题 (dask#10173) Patrick Hoefler
允许 pyarrow CI 失败 (dask#10176) James Bourbeau
在 dask.array 中切换到 Generator 进行随机数生成 (dask#10003) Eray Aslan
将 peter-evans/create-pull-request 从 4 升级到 5 (dask#10166)
修复 test_arithmetic 中不稳定的 modf 操作 (dask#10162) Irina Truong
在使用 pandas 2.0 的 CI 中临时移除 xarray (dask#10153) James Bourbeau
修复 test_default_scheduler_on_worker 中的 update_graph 计数逻辑 (dask#10145) James Bourbeau
修复使用 pandas 2.0 构建文档的问题 (dask#10138) James Bourbeau
从 gpuCI 更新评审人中移除 dask/gpu (dask#10135) Charles Blackmon-Luca
将 gpuCI RAPIDS_VER 更新到 23.06 (dask#10129)
将 actions/stale 从 6 升级到 8 (dask#10121)
使用声明式 setuptools (dask#10102) Thomas Grainger
放宽对 Scalar 类对象的 assert_eq 检查 (dask#10125) Matthew Rocklin
将 readthedocs 配置升级到 ubuntu 22.04 和 Python 3.11 (dask#10124) Thomas Grainger
将 actions/checkout 从 3.4.0 升级到 3.5.0 (dask#10122)
修复 `pyarrow` CI 构建中的 test_null_partition_pyarrow 问题 (dask#10116) Irina Truong
移除分布式 pack (dask#9988) Florian Jetter
将 dask.compatibility 设为私有 (dask#10114) Jacob Tomlinson




2023.3.2¶
发布于 2023 年 3 月 24 日

改进¶

对于使用分类变量的 `groupby`，废弃 observed=False (dask#10095) Irina Truong
废弃一些 groupby 操作中的 axis= 参数 (dask#10094) James Bourbeau
DataFrame.rolling/Series.rolling 中的 axis 关键字已废弃 (dask#10110) Irina Truong
pandas 中的 DataFrame._data 已废弃 (dask#10081) Irina Truong
使用 importlib_metadata 向后移植以避免 CLI UserWarning (dask#10070) Thomas Grainger
将选项解析逻辑从 dask.dataframe.read_parquet 移植到 to_parquet (dask#9981) Anton Loukianov



Bug 修复¶

避免在 groupby-apply 中使用 dd.shuffle (dask#10043) Richard (Rick) Zamora
使用 pyarrow parquet 引擎时启用空 hive 分区 (dask#10007) Richard (Rick) Zamora
支持 *_like 函数中的未知形状 (dask#10064) Doug Davis



文档¶

将 to_backend 方法添加到 API 文档中 (dask#10093) Lawrence Mitchell
移除开发者文档中损坏的 gpuCI 链接 (dask#10065) Charles Blackmon-Luca



维护¶

将 readthedocs sphinx 警告配置为错误 (dask#10104) Thomas Grainger
在启用 pyarrow 字符串时，取消对 test_division_or_partition 的 `xfail` 标记 (dask#10108) Irina Truong
在启用 pyarrow 字符串时，取消对 test_different_columns_are_allowed 的 `xfail` 标记 (dask#10109) Irina Truong
恢复 Entrypoints 兼容性 (dask#10113) Jacob Tomlinson
在启用 pyarrow 字符串时，取消对 test_to_dataframe_optimize_graph 的 `xfail` 标记 (dask#10087) Irina Truong
仅在可编辑安装中运行 test_development_guidelines_matches_ci (dask#10106) Charles Blackmon-Luca
在启用 pyarrow 字符串时，取消对 test_dataframe_cull_key_dependencies_materialized 的 `xfail` 标记 (dask#10088) Irina Truong
在 CI 环境中安装 mimesis (dask#10105) Charles Blackmon-Luca
修复没有名为 ipykernel 的模块的问题 (dask#10101) Irina Truong
通过安装 ipykernel 修复文档构建问题 (dask#10103) Thomas Grainger
允许 pyarrow 构建在失败时继续执行 (dask#10097) James Bourbeau
将 actions/checkout 从 3.3.0 升级到 3.4.0 (dask#10096)
修复在启用 pyarrow 字符串时 test_set_index_on_empty 的问题 (dask#10054) Irina Truong
取消对 pyarrow pickling 测试的 `xfail` 标记 (dask#10082) James Bourbeau
CI 环境文件清理 (dask#10078) James Bourbeau
取消对更多 pyarrow 测试的 `xfail` 标记 (dask#10066) Irina Truong
使用 pandas 2.0 时，临时跳过 pyarrow_compat 测试 (dask#10063) James Bourbeau
修复在启用 pyarrow 字符串时 test_melt 的问题 (dask#10052) Irina Truong
修复在启用 pyarrow 字符串时 test_str_accessor 的问题 (dask#10048) James Bourbeau
修复在启用 pyarrow 字符串时 test_better_errors_object_reductions 的问题 (dask#10051) James Bourbeau
修复在启用 pyarrow 字符串时 test_loc_with_non_boolean_series 的问题 (dask#10046) James Bourbeau
修复在启用 pyarrow 字符串时 test_values 的问题 (dask#10050) James Bourbeau
临时将 test_upstream_packages_installed 标记为 `xfail` (dask#10047) James Bourbeau




2023.3.1¶
发布于 2023 年 3 月 10 日

改进¶

支持 MultiIndex 中的 pyarrow 字符串 (dask#10040) Irina Truong
改进对 pyarrow 字符串的支持 (dask#10000) Irina Truong
修复数组规约期间不稳定的 RuntimeWarning 问题 (dask#10030) James Bourbeau
扩展 complete extras (dask#10023) James Bourbeau
当 dataframe.convert-string=True 且 pandas<2.0 时引发错误 (dask#10033) Irina Truong
将 shuffle/rechunk 配置选项/关键字参数重命名为 method (dask#10013) James Bourbeau
添加对将 pandas 扩展 dtype 转换为数组的初步支持 (dask#10018) James Bourbeau
移除 randomgen 支持 (dask#9987) Eray Aslan



Bug 修复¶

当 rechunk 到相同块且大小未知时跳过 rechunk 操作 (dask#10027) Hendrik Makait
用于将 parquet 过滤器转换为 pyarrow 表达式的自定义工具 (dask#9885) Richard (Rick) Zamora
填充时将 numpy 标量和 0d 数组视为标量 (dask#9653) Justus Magin
修复自适应 read_parquet 操作后的 parquet 覆盖行为 (dask#10002) Richard (Rick) Zamora



文档¶

添加和更新数据传输部分的文档 (dask#10022) Miles



维护¶

从 pyarrow parquet 引擎中移除过时的 hive 分区代码 (dask#10039) Richard (Rick) Zamora
将 pyarrow 的最低支持版本提高到 7.0 (dask#10024) James Bourbeau
恢复“准备移除 packunpack (dask#9994)” (dask#10037) Florian Jetter
让 codecov 等待更多构建完成后再报告 (dask#10031) James Bourbeau
准备移除 packunpack (dask#9994) Florian Jetter
添加启用 pyarrow 字符串的 CI 作业 (dask#10017) James Bourbeau
修复针对 pandas 2.0 的 test_groupby_dropna_with_agg 问题 (dask#10001) Irina Truong
修复针对 pandas 2.0 的 test_pickle_roundtrip 问题 (dask#10011) James Bourbeau




2023.3.0¶
发布于 2023 年 3 月 1 日

Bug 修复¶

Bag 不得将 p2p 选为默认 shuffle 方法 (dask#10005) Florian Jetter



文档¶

对默认使用 P2P 的次要跟进 (dask#10008) James Bourbeau



维护¶

为可选的 jinja2 依赖项添加最低版本要求 (dask#9999) Charles Blackmon-Luca




2023.2.1¶
发布于 2023 年 2 月 24 日

注意
此版本将默认的 DataFrame shuffle 算法更改为 p2p，以提高稳定性和性能。在此了解更多信息，并请在此讨论中提供反馈。
如果您在使用此新算法时遇到问题，请参阅文档以获取更多信息以及如何切换回旧模式。


改进¶

默认启用 P2P shuffle (dask#9991) Florian Jetter
P2P rechunking (dask#9939) Hendrik Makait
为 read_parquet 提供高效的 dataframe.convert-string 支持 (dask#9979) Irina Truong
允许在 DataFrame 合并时使用 p2p shuffle kwarg (dask#9900) Florian Jetter
将 split_row_groups 默认值更改为“infer” (dask#9637) Richard (Rick) Zamora
添加用于将字符串数据转换为使用 pyarrow 字符串的选项 (dask#9926) James Bourbeau
添加对多列 sort_values 的支持 (dask#8263) Charles Blackmon-Luca
在``dask.array`` 中基于 Generator 的随机数生成 (dask#9038) Eray Aslan
支持针对 pandas 2.0 兼容性的简单 groupby 聚合中的 numeric_only (dask#9889) Irina Truong



Bug 修复¶

修复 profilers 绘图未与上下文管理器进入时间对齐的问题 (dask#9739) David Hoese
放宽 dask.dataframe assert_eq 类型检查 (dask#9989) Matthew Rocklin
恢复针对 pandas 2.0 的 describe 兼容性 (dask#9982) James Bourbeau



文档¶

改进部署 Dask 的文档 (dask#9912) Sarah Charlotte Johnson
补充 DataFrame.partitions 的文档 (dask#9976) Tom Augspurger
更新文档，补充有关默认 Delayed 调度器的信息 (dask#9903) Guillaume Eynard-Bontemps
部署注意事项文档 (dask#9933) Gabe Joseph



维护¶

临时重新运行不稳定的测试 (dask#9983) James Bourbeau
更新 FULL_RAPIDS_VER/FULL_UCX_PY_VER 的解析逻辑 (dask#9990) Charles Blackmon-Luca
将最低支持版本提高到 pandas=1.3 和 numpy=1.21 (dask#9950) James Bourbeau
修复 std 以支持 pandas 2.0 中的 numeric_only (dask#9960) Irina Truong
临时将 test_roundtrip_partitioned_pyarrow_dataset 标记为 `xfail` (dask#9977) James Bourbeau
修复 test_idxmaxmin 中的写时复制失败问题 (dask#9944) Patrick Hoefler
升级 pre-commit 版本 (dask#9955) crusaderky
修复针对 pandas 2.0 的 test_groupby_unaligned_index 问题 (dask#9963) Irina Truong
针对 pandas 2.0，取消对 test_set_index_overlap_2 的 `xfail` 标记 (dask#9959) James Bourbeau
修复 test_merge_by_index_patterns 以兼容 pandas 2.0 (dask#9930) Irina Truong
将 jacobtomlinson/gha-find-replace 从 2 升级到 3 (dask#9953) James Bourbeau
修复 test_rolling_agg_aggregate 以兼容 pandas 2.0 (dask#9948) Irina Truong
将 black 升级到 23.1.0 (dask#9956) crusaderky
在 python 3.8 和 3.10 上运行 GPU 测试 (dask#9940) Charles Blackmon-Luca
修复 test_to_timestamp 以兼容 pandas 2.0 (dask#9932) Irina Truong
修复 groupby value_counts 在 pandas 2.0 兼容性方面的问题 (dask#9928) Irina Truong
配置转换器：将所有破折号替换为下划线 (dask#9945) Jacob Tomlinson
CI：在上游测试构建中使用 nightly wheel 安装 pyarrow (dask#9873) Joris Van den Bossche




2023.2.0¶
发布于 2023 年 2 月 10 日

改进¶

更新 numeric_only 在 quantile 中的默认值以兼容 pandas 2.0 (dask#9854) Irina Truong
当 divisions 匹配时，使 repartition 成为无操作 (dask#9924) James Bourbeau
更新 datetime_is_numeric 在 describe 中的行为以兼容 pandas 2.0 (dask#9868) Irina Truong
更新 value_counts 在 pandas 2.0 中返回正确的名称 (dask#9919) Irina Truong
支持 pandas 2.0 中某些归约操作的新 axis=None 行为 (dask#9867) James Bourbeau
在 chunk 级别过滤掉 nanmin 和 nanmax 的全 nan RuntimeWarning (dask#9916) Julia Signell
修复 pandas 2.0 中数值型 meta_nonempty index creation 的问题 (dask#9908) James Bourbeau
修复 DataFrame.info() 测试以兼容 pandas 2.0 (dask#9909) James Bourbeau



错误修复¶

修复 GroupBy.value_counts 处理多个 groupby 列的问题 (dask#9905) Charles Blackmon-Luca



文档¶

修复开发指南中一些过时信息/拼写错误 (dask#9893) Patrick Hoefler
在 drop_duplicates 文档字符串中添加关于 keep=False 的说明 (dask#9887) Jayesh Manani
向 dask Array 添加 meta 详细信息 (dask#9886) Jayesh Manani
澄清任务流显示行数多于线程数的问题 (dask#9906) Gabe Joseph



维护¶

修复 test_numeric_column_names 以兼容 pandas 2.0 (dask#9937) Irina Truong
修复 dask/dataframe/tests/test_utils_dataframe.py 测试以兼容 pandas 2.0 (dask#9788) James Bourbeau
将 index.is_numeric 替换为 is_any_real_numeric_dtype 以兼容 pandas 2.0 (dask#9918) Irina Truong
避免在 dask 工具中导入 pd.core (dask#9907) Matthew Roeschke
在 pull request 上使用标签进行 upstream 构建 (dask#9910) James Bourbeau
拓宽对 sqlalchemy.exc.RemovedIn20Warning 的异常捕获范围 (dask#9904) James Bourbeau
在 CI 中临时限制 sqlalchemy < 2 (dask#9897) James Bourbeau
将 isort 版本更新到 5.12.0 (dask#9895) Lawrence Mitchell
在 read_csv 中移除未使用的 skiprows 变量 (dask#9892) Patrick Hoefler




2023.1.1¶
发布于 2023 年 1 月 27 日

改进¶

向 Array 和 _Frame 添加 to_backend 方法 (dask#9758) Richard (Rick) Zamora
修复 pandas 2.0 中时间戳索引 divisions 的一个小问题 (dask#9872) Irina Truong
向 DataFrame.cov 和 DataFrame.corr 添加 numeric_only 参数 (dask#9787) James Bourbeau
修复与 pandas 2.0 中 group_keys 默认值更改相关的问题 (dask#9855) Irina Truong
infer_datetime_format 兼容 pandas 2.0 (dask#9783) James Bourbeau



错误修复¶

修复 BroadcastJoinLayer 中的序列化错误 (dask#9871) Richard (Rick) Zamora
满足 DataFrame.merge 中的 broadcast 参数 (dask#9852) Richard (Rick) Zamora
修复 pyarrow parquet 列统计信息计算问题 (dask#9772) aywandji



文档¶

修复文档警告“duplicate explicit target name” (dask#9863) Chiara Marmo
修复“Defining a new collection backend”文档中的代码格式问题 (dask#9864) Chiara Marmo
更新仪表盘关于内存图表的文档 (dask#9768) Jayesh Manani
添加关于 no-worker 任务的文档章节 (dask#9839) Florian Jetter



维护¶

检测 distributed 调度器的额外更新 (dask#9890) James Bourbeau
将 gpuCI 的 RAPIDS_VER 更新到 23.04 (dask#9876)
颠倒 collection 和 distributed 默认设置之间的优先级 (dask#9869) Florian Jetter
将 xarray-contrib/issue-from-pytest-log 更新到版本 1.2.6 (dask#9865) James Bourbeau
不再需要 dask config 中的 shuffle 默认设置 (dask#9826) Florian Jetter
取消 xfail 标记，修复新的 fastparquet 的 datetime64 Parquet 往返测试 (dask#9811) James Bourbeau
添加手动运行 upstream CI 构建的选项 (dask#9853) James Bourbeau
在 CI 构建中使用自定义超时设置 (dask#9844) James Bourbeau
从 make_blockwise_graph 中移除 kwargs (dask#9838) Florian Jetter
在 test_setitem_extended_API_2d_mask 中的 persist 调用上忽略警告 (dask#9843) Charles Blackmon-Luca
修复在本地运行 S3 测试的问题 (dask#9833) James Bourbeau




2023.1.0¶
发布于 2023 年 1 月 13 日

改进¶

即使没有设置配置，也使用 distributed 默认客户端 (dask#9808) Florian Jetter
实现 ma.where 和 ma.nonzero (dask#9760) Erik Holmgren
更新 zarr 存储创建函数 (dask#9790) Ryan Abernathey
iteritems 兼容 pandas 2.0 (dask#9785) James Bourbeau
pandas string[python] 数据类型的准确 sizeof (dask#9781) crusaderky
减小 pandas 对象类型重复引用的 sizeof() (dask#9776) crusaderky
GroupBy.__getitem__ 兼容 pandas 2.0 (dask#9779) James Bourbeau
append 兼容 pandas 2.0 (dask#9750) James Bourbeau
get_dummies 兼容 pandas 2.0 (dask#9752) James Bourbeau
is_monotonic 兼容 pandas 2.0 (dask#9751) James Bourbeau
numpy=1.24 兼容性 (dask#9777) James Bourbeau



文档¶

在 to_json 的文档字符串中移除重复的 encoding kwarg (dask#9796) Sultan Orazbayev
在 LocalCluster 文档中提及 SubprocessCluster (dask#9784) Hendrik Makait
将 Prometheus 文档移到 dask/distributed (dask#9761) crusaderky



维护¶

在 test_setitem_extended_API_2d_mask 中临时忽略 RuntimeWarning (dask#9828) James Bourbeau
修复 test_threaded.py::test_interrupt 中的不稳定性问题 (dask#9827) Hendrik Makait
在 upstream 报告中更新 xarray-contrib/issue-from-pytest-log (dask#9822) James Bourbeau
在 gpuCI 构建中通过 pip 安装 dask (dask#9816) Charles Blackmon-Luca
将 actions/checkout 从 3.2.0 升级到 3.3.0 (dask#9815)
解决 mindeps 测试中 sqlalchemy 导入失败的问题 (dask#9809) Charles Blackmon-Luca
忽略 sqlalchemy.exc.RemovedIn20Warning (dask#9801) Thomas Grainger
对 pandas 2.0 的 datetime64 Parquet 往返测试标记为 xfail (dask#9786) James Bourbeau
移除 sqlachemy 1.3 兼容性 (dask#9695) McToel
减小预期 DoK 稀疏矩阵的大小 (dask#9775) Elliott Sales de Andrade
从 dask/dataframe/io/orc/utils.py 中移除可执行标志 (dask#9774) Elliott Sales de Andrade




2022.12.1¶
发布于 2022 年 12 月 16 日

改进¶

支持 dtype_backend="pandas|pyarrow" 配置 (dask#9719) James Bourbeau
在 dask.dataframe 中支持 cupy.ndarray 到 cudf.DataFrame 的调度 (dask#9579) Richard (Rick) Zamora
在 read_parquet 中使文件系统后端可配置 (dask#9699) Richard (Rick) Zamora
高效序列化所有 pyarrow 扩展数组 (dask#9740) James Bourbeau



错误修复¶

修复使用 tz-aware datetime 索引进行 repartitioning 时的错误 (dask#9741) James Bourbeau
aggs 中的部分函数可能包含参数 (dask#9724) Irina Truong
添加对 pyarrow-backed 扩展数据类型的简单操作支持 (dask#9717) James Bourbeau
在 SeriesGroupby 情况下正确重命名列 (dask#9716) Lawrence Mitchell



文档¶

修复 collection backend 文档中的 url 链接拼写错误 (dask#9748) Shawn
更新 Prometheus 文档 (dask#9696) Hendrik Makait



维护¶

将 zarr 添加到 Python 3.11 CI 环境 (dask#9771) James Bourbeau
添加对 Python 3.11 的支持 (dask#9708) Thomas Grainger
将 actions/checkout 从 3.1.0 升级到 3.2.0 (dask#9753)
避免 np.bool8 弃用警告 (dask#9737) James Bourbeau
确保在 upstream CI 构建中开发包不会被覆盖 (dask#9731) James Bourbeau
在测试期间避免添加 data.h5 和 mydask.html 文件 (dask#9726) Thomas Grainger




2022.12.0¶
发布于 2022 年 12 月 2 日

改进¶

从 read_parquet 中移除基于统计的 set_index 逻辑 (dask#9661) Richard (Rick) Zamora
向 dd.read_parquet 添加对 use_nullable_dtypes 的支持 (dask#9617) Ian Rose
修复 map_overlap 以便接受 pandas 参数 (dask#9571) Fabien Aulaire
修复 pandas 1.5+ 中 .str.split(..., expand=True) 的 FutureWarning (dask#9704) Jacob Hayes
为 groupby 切片启用列投影 (dask#9667) Richard (Rick) Zamora
支持重复列的累积函数 (dask#9685) Ben
改进后端调度调用失败时的错误消息 (dask#9677) Richard (Rick) Zamora



错误修复¶

修改 arrow parquet 引擎中的 meta 创建 (dask#9672) Richard (Rick) Zamora
修复 da.fft.fft 处理类数组输入的问题 (dask#9688) James Bourbeau
修复按名称对索引进行分组时的 groupby 聚合问题 (dask#9646) Richard (Rick) Zamora



维护¶

在 test_inheriting_class 中避免 PytestReturnNotNoneWarning (dask#9707) Thomas Grainger
修复 test_dataframe_aggregations_multilevel 中的不稳定性问题 (dask#9701) Richard (Rick) Zamora
升级 mypy 版本 (dask#9697) crusaderky
在 test_map_partitions_df_input 中禁用 dashboard (dask#9687) James Bourbeau
在 upstream 构建中使用最新的 xarray-contrib/issue-from-pytest-log (dask#9682) James Bourbeau
将 ttest_1samp 对于上游 scipy 标记为 xfail (dask#9670) James Bourbeau
将 gpuCI 的 RAPIDS_VER 更新到 23.02 (dask#9678)




2022.11.1¶
发布于 2022 年 11 月 18 日

改进¶

限制 bokeh=3 的支持 (dask#9673) Gabe Joseph
fastparquet 演进的更新 (dask#9650) Martin Durant



维护¶

更新 gpuCI 更新工作流中的 ga-yaml-parser 步骤 (dask#9675) Charles Blackmon-Luca
恢复 importlib.metadata 临时解决方案 (dask#9658) James Bourbeau
修复 mindeps-distributed CI 构建中处理 numpy/`pandas` 未安装的问题 (dask#9668) James Bourbeau




2022.11.0¶
发布于 2022 年 11 月 15 日

改进¶

泛化 from_dict 实现以允许从其他后端使用 (dask#9628) GALI PREM SAGAR



错误修复¶

在 dask.dataframe.core 中避免使用 pandas 构造函数 (dask#9570) Richard (Rick) Zamora
修复使用 Timestamp 数据进行 sort_values 的问题 (dask#9642) James Bourbeau
泛化数组检查并移除 _get_partitions 中的 pd.Index 调用 (dask#9634) Benjamin Zaitlen
修复 read_csv 在 header=0 和 names 时的行为 (dask#9614) Richard (Rick) Zamora



文档¶

更新仪表盘关于队列的文档 (dask#9660) Gabe Joseph
从文档字符串中移除 import dask as d (dask#9644) Matthew Rocklin
修复 read_parquet 文档字符串中指向 partitions 文档的链接 (dask#9636) qheuristics
向 array/bag/dataframe 部分添加 API 文档链接 (dask#9630) Matthew Rocklin



维护¶

使用 conda-incubator/setup-miniconda@v2.2.0 (dask#9662) John A Kirkham
允许使用 bokeh=3 (dask#9659) James Bourbeau
使用 Python 3.10 运行 upstream 构建 (dask#9655) James Bourbeau
在 mindeps 测试中固定 pyyaml 版本 (dask#9640) Charles Blackmon-Luca
添加 pre-commit 以捕获 breakpoint() (dask#9638) James Bourbeau
将 xarray-contrib/issue-from-pytest-log 从 1.1 升级到 1.2 (dask#9635)
移除 blosc 引用 (dask#9625) Naty Clementi
升级 mypy 并移除未使用的注释 (dask#9616) Hendrik Makait
加固 test_repartition_npartitions (dask#9585) Richard (Rick) Zamora




2022.10.2¶
发布于 2022 年 10 月 31 日
这是一个热修复版本，此仓库中没有更改。必要的修复在 dask/distributed 中，但为了保持一致性，我们决定升级此版本号。


2022.10.1¶
发布于 2022 年 10 月 28 日

改进¶

启用命名聚合语法 (dask#9563) ChrisJar
向 set_index 添加扩展数据类型支持 (dask#9566) James Bourbeau
重新设计数组的 HTML repr 以提高清晰度 (dask#9519) Shingo OKAWA



错误修复¶

修复使用空的左侧 DataFrame 进行 merge 的问题 (dask#9578) Ian Rose



文档¶

添加关于默认限制线程超额订阅的说明 (dask#9592) James Bourbeau
为 dask CLI 使用 sphinx-click (dask#9589) James Bourbeau
修复 Semaphore API 文档 (dask#9584) James Bourbeau
在 map_overlap 文档字符串中渲染 meta 描述 (dask#9568) James Bourbeau



维护¶

Dask 中要求 Click 7.0+ (dask#9595) John A Kirkham
临时限制 bokeh<3 (dask#9607) James Bourbeau
解决 upstream CI 中与 importlib 相关的失败 (dask#9604) Charles Blackmon-Luca
改进 upstream CI 报告 (dask#9603) James Bourbeau
修复 upstream CI 报告 (dask#9602) James Bourbeau
移除 setuptools host dep，添加 CLI 入口点 (dask#9600) Charles Blackmon-Luca
更多 Backend 调度类的类型注解 (dask#9573) Ian Rose




2022.10.0¶
发布于 2022 年 10 月 14 日

新特性¶

Dask-Array 和 Dask-DataFrame 中 IO 的后端库调度 (dask#9475) Richard (Rick) Zamora
添加可扩展的新 CLI (dask#9283) Doug Davis



改进¶

Groupby 中位数 (dask#9516) Ian Rose
修复数组复制不是无操作的问题 (dask#9555) David Hoese
在 map_overlap 中添加对字符串 timedelta 的支持 (dask#9559) Nicolas Grandemange
基于 shuffle 的单函数 groupby (dask#9504) Ian Rose
使 datetime.datetime 幂等地标记化 (dask#9532) Martin Durant
支持标记化 datetime.time (dask#9528) Tim Paine



错误修复¶

避免延迟调度注册中的竞态条件 (dask#9545) James Bourbeau
不允许对 int 数据类型使用 setitem 设置 np.nan (dask#9531) Doug Davis
稳定的 demo 列投影 (dask#9538) Ian Rose
确保 delayed 中的 binops 可以被 pickle (dask#9540) Ian Rose
修复选择时 CSV 列投影问题 (dask#9534) Martin Durant



文档¶

更新 Parquet 最佳实践 (dask#9537) Matthew Rocklin



维护¶

限制 tiledb-py 版本以避免 CI 失败 (dask#9569) James Bourbeau
将 actions/github-script 从 3 升级到 6 (dask#9564)
将 actions/stale 从 4 升级到 6 (dask#9551)
将 peter-evans/create-pull-request 从 3 升级到 4 (dask#9550)
将 actions/checkout 从 2 升级到 3.1.0 (dask#9552)
将 codecov/codecov-action 从 1 升级到 3 (dask#9549)
将 the-coding-turtle/ga-yaml-parser 从 0.1.1 升级到 0.1.2 (dask#9553)
移动 dependabot 配置文件 (dask#9547) James Bourbeau
为 GitHub actions 添加 dependabot (dask#9542) James Bourbeau
在 Windows 和 Linux 上运行 mypy (dask#9530) crusaderky
将 gpuCI 的 RAPIDS_VER 更新到 22.12 (dask#9524)




2022.9.2¶
发布于 2022 年 9 月 30 日

改进¶

从数组自动分块中移除因式分解逻辑 (dask#9507) James Bourbeau



文档¶

添加关于在独立 Python 脚本中运行 Dask 的文档 (dask#9513) James Bourbeau
澄清自定义图多进程示例 (dask#9511) nouman



维护¶

Groupby sort 上游兼容性 (dask#9486) Ian Rose




2022.9.1¶
发布于 2022 年 9 月 16 日

新特性¶

添加 DataFrame 和 Series 的 median 方法 (dask#9483) James Bourbeau



改进¶

Shuffle groupby 默认设置 (dask#9453) Ian Rose
按列表过滤 (dask#9419) Greg Hayes
将 distributed.utils.key_split 功能添加到 dask.utils.key_split (dask#9464) Luke Conibear



错误修复¶

修复 overlap，使得 set_index 不会丢弃行 (dask#9423) Julia Signell
修复当 ddf.columns.min() 抛出异常时将 pandas Series 赋值给列的问题 (dask#9485) Erik Welch
修复元数据比较 stack_partitions 的问题 (dask#9481) James Bourbeau
为 split_out 提供默认值 (dask#9493) Lawrence Mitchell



弃用¶

允许 split_out 为 None，此时在 groupby().aggregate() 中默认值为 1 (dask#9491) Ian Rose



文档¶

修正 enforce_metadata 文档，不检查数据类型 (dask#9474) Nicolas Grandemange
修复 it's –> its 拼写错误 (dask#9484) Nat Tabris



维护¶

解决使用某些 datetime Series 写入 parquet 失败，但其他不失败的问题 (dask#9500) Ian Rose
过滤掉来自 pandas 的 numeric_only 警告 (dask#9496) James Bourbeau
在非必要情况下避免使用 set_index(..., inplace=True) (dask#9472) James Bourbeau
避免传递长度为一的 groupby 键列表 (dask#9495) James Bourbeau
基于 cudf 对 group_keys 的支持更新 test_groupby_dropna_cudf (dask#9482) James Bourbeau
移除 dd.from_bcolz (dask#9479) James Bourbeau
将 flake8-bugbear 添加到 pre-commit hook (dask#9457) Luke Conibear
在函数定义中绑定循环变量 (B023) (dask#9461) Luke Conibear
添加比较断言 (B015) (dask#9459) Luke Conibear
在 CI 工作流中设置顶级默认 shell (dask#9469) James Bourbeau
移除未使用的循环控制变量 (B007) (dask#9458) Luke Conibear
将 getattr 调用替换为常量属性 (B009) (dask#9460) Luke Conibear
固定 libprotobuf 以允许在上游 CI 构建中使用 nightly pyarrow (dask#9465) Joris Van den Bossche
将可变数据结构替换为默认参数 (B006) (dask#9462) Luke Conibear
更改 flake8 镜像并更新版本 (dask#9456) Luke Conibear




2022.9.0¶
发布于 2022 年 9 月 2 日

改进¶

为 groupby 聚合启用自动列投影 (dask#9442) Richard (Rick) Zamora
在 NEP-13/17 调度中接受超类 (dask#6710) Gabe Joseph



错误修复¶

在对相同 by 列进行累积操作时，内部重命名 by 列 (dask#9430) Pavithra Eswaramoorthy
修复使用 categoricals 进行 get_group 的问题 (dask#9436) Pavithra Eswaramoorthy
修复与缓存相关的 MaterializedLayer.cull 性能回归 (dask#9413) Richard (Rick) Zamora



文档¶

添加维护者文档页面 (dask#9309) James Bourbeau



维护¶

恢复跳过的 fastparquet 测试 (dask#9439) Pavithra Eswaramoorthy
tmpfile 在空扩展名时不会以点结束文件名 (dask#9429) Hendrik Makait
跳过最新版本中失败的 fastparquet 测试 (dask#9432) James Bourbeau




2022.8.1¶
发布于 2022 年 8 月 19 日

新特性¶

实现 ma.*_like functions (dask#9378) Ruth Comer



改进¶

合并兼容的注解 (dask#9402) Ian Rose
基于 shuffle 的高基数分组聚合 (dask#9302) Richard (Rick) Zamora
解包 namedtuple (dask#9361) Hendrik Makait



错误修复¶

修复 SeriesGroupBy 在 axis=1 时的累积函数问题 (dask#9377) Pavithra Eswaramoorthy
稀疏数组归约 (dask#9342) Ian Rose
修复在使用带有索引的 categorical 列时 make_meta 的问题 (dask#9348) Pavithra Eswaramoorthy
不允许在 DataFrame.dropna 中使用不兼容的关键词 (dask#9366) Naty Clementi
使 set_index 能够处理完全空的 dataframes (dask#8896) Julia Signell
改进 unpack_collections 中 dataclass 的处理 (dask#9345) Hendrik Makait
修复存在一些较小分区时 bag 采样的问题 (dask#9349) Ian Rose
为 da.min/da.max 函数添加对空分区的支持 (dask#9268) geraninam



文档¶

澄清 bind() 等会重新生成键 (dask#9385) crusaderky
整合仪表盘诊断文档 (dask#9357) Sarah Charlotte Johnson
移除过时的 meta 信息 Pavithra Eswaramoorthy



维护¶

在 sizeof 中使用 entry_points 工具 (dask#9390) James Bourbeau
添加 entry_points 兼容性工具 (dask#9388) Jacob Tomlinson
为每个 CI 构建上传环境文件 artifact (dask#9372) James Bourbeau
移除 CI 中的 werkzeug pin (dask#9371) James Bourbeau
修复 dd.from_pandas 和 dd.from_delayed 的类型注解 (dask#9362) Jordan Yap




2022.8.0¶
发布于 2022 年 8 月 5 日

改进¶

确保 make_meta 不持有数据引用 (dask#9354) Jim Crist-Harif
修改 from_pandas 中的 divisions 逻辑 (dask#9221) Richard (Rick) Zamora
如果用户使用现有索引设置索引，则发出警告 (dask#9341) Julia Signell
为 da.average 添加 keepdims 关键词 (dask#9332) Ruth Comer
更改 repr 方法以避免 Layer 具体化 (dask#9289) Richard (Rick) Zamora



错误修复¶

确保 order kwarg 不会使 astype 方法崩溃 (dask#9317) Genevieve Buckley
修复在 cupy 分块 dask 数组上 cumsum 的错误 (dask#9320) Genevieve Buckley
在 _sample_reduce 中匹配输入和输出结构 (dask#9272) Pavithra Eswaramoorthy
在数组序列化中包含 meta (dask#9240) Frédéric BRIOL
修复 Index.memory_usage (dask#9290) James Bourbeau
修复 dask.dataframe.io.from_dask_array 中的 division 计算问题 (dask#9282) Jordan Yap



文档¶

如何在自定义任务图中使用 kwargs (dask#9322) Genevieve Buckley
为 da.from_array 添加关于顺序不保留的说明 (dask#9346) Julia Signell
为异步函数添加 I/O 信息 (dask#9326) Logan Norman
整理 futures I/O 函数的文档代码片段 (dask#9340) Julia Signell
在 dataframe-groupby.rst 中，对 pandas df 和 Dask ddf 使用一致的变量名 (dask#9304) ivojuroro
在配置转换器中将 js-yaml 替换为 yaml.js (dask#9306) Jacob Tomlinson



维护¶

更新 da.linalg.solve 以兼容 SciPy 1.9.0 (dask#9350) Pavithra Eswaramoorthy
更新 test_getitem_avoids_large_chunks_missing (dask#9347) Pavithra Eswaramoorthy
修复文档标题“扩展 sizeof”的格式 Doug Davis
在测试中导入 loop_in_thread fixture (dask#9337) James Bourbeau
暂时将 test_solve_sym_pos 标记为预期失败 (dask#9336) Pavithra Eswaramoorthy
修复 Dask 10 分钟教程页面中的小拼写错误 (dask#9329) Shaghayegh
在 CI 中暂时锁定 werkzeug 版本以避免测试套件挂起 (dask#9325) James Bourbeau
为 cupy.angle() 添加测试 (dask#9312) Peter Andreas Entschev
将 gpuCI RAPIDS_VER 更新到 22.10 (dask#9314)
将 pandas[test] 添加到 test extra 中 (dask#9110) Ben Beasley
将 bokeh 和 scipy 添加到 upstream CI 构建中 (dask#9265) James Bourbeau




2022.7.1¶
发布于 2022 年 7 月 22 日

改进¶

如果所有轴都被 squeezed，则返回 Dask 数组 (dask#9250) Pavithra Eswaramoorthy
缩短 toposort 报告的循环 (dask#9068) Erik Welch
未知分块切片 - 抛出信息性错误 (dask#9285) Naty Clementi



Bug 修复¶

修复 HighLevelGraph.cull 中的 bug (dask#9267) Richard (Rick) Zamora
对类别进行排序 (dask#9264) Pavithra Eswaramoorthy
使用 max（而不是 sum）计算 warnsize (dask#9235) Pavithra Eswaramoorthy
修复使用 pyarrow 对分区列进行过滤时的 bug (dask#9252) Richard (Rick) Zamora



文档¶

更新了 repartition 文档，添加关于 partition_size 的说明 (dask#9288) Dylan Stewart
不在 Array 方法中包含文档，只引用模块文档 (dask#9244) Julia Signell
删除对 scheduler 和 worker 控制面板的过时引用 (dask#9278) Pavithra Eswaramoorthy
修复了一些拼写错误 (dask#9270) Tim Gates
添加了一个使用 numpy 方法的自定义聚合示例 (dask#9260) geraninam



维护¶

为 dd.from_pandas 和 dd.from_delayed 添加类型注解 (dask#9237) Michael Milton
更新 calculate_divisions 的 docstring (dask#9275) Tom Augspurger
更新 test_plot_multiple 以适应即将发布的 bokeh 版本 (dask#9261) James Bourbeau
为常见的数组属性添加类型提示 (dask#9255) Illviljan




2022.7.0¶
发布于 2022 年 7 月 8 日

改进¶

在 normalize_token 中支持 pathlib.PurePath (dask#9229) Angus Hollands
为属性添加 AttributeNotImplementedError，以便 IPython 的 glob 搜索能正常工作 (dask#9231) Erik Welch
map_overlap：处理多个 dataframe (dask#9145) Fabien Aulaire
在 dask.sizeof 中读取入口点 (dask#7688) Angus Hollands



Bug 修复¶

修复使用 Client(processes=False) 写入 parquet 数据集时出现的 TypeError: 'Serialize' object is not subscriptable 错误 (dask#9015) Lucas Miguel Ponce
使用空 dataframe 进行 concat 时校正 dtypes (dask#9193) Pavithra Eswaramoorthy



文档¶

突出显示关于 persist 的说明 (dask#9234) Pavithra Eswaramoorthy
更新发布流程，包含更多细节和有用的命令 (dask#9215) Julia Signell
改进 Futures 和 Dask vs. Spark 页面的 SEO (dask#9217) Sarah Charlotte Johnson



维护¶

在列表、元组和迭代器上使用 math.prod 而不是 np.prod (dask#9232) crusaderky
仅在进行类型检查时导入 IPython (dask#9230) Florian Jetter
更严格的 mypy 检查 (dask#9206) crusaderky




2022.6.1¶
发布于 2022 年 6 月 24 日

改进¶

pyodide 中的 Dask (dask#9053) Ian Rose
创建 dask.utils.show_versions (dask#9144) Sultan Orazbayev
为 dask.dataframe 对象上不支持的 numpy 操作提供更好的错误消息。 (dask#9201) Julia Signell
为 dask.array.overlap 函数添加 allow_rechunk 关键字参数 (dask#7776) Genevieve Buckley
为 dask.utils.format_time 添加分钟和小时 (dask#9116) Matthew Rocklin
将 parquet 写入远程文件系统时增加重试次数 (dask#9175) Ian Rose



Bug 修复¶

Timedelta 确定性哈希 (dask#9213) Fabien Aulaire
Enum 确定性哈希 (dask#9212) Fabien Aulaire
shuffle_group()：避免转换为数组 (dask#9157) Mads R. B. Kristensen



弃用¶

弃用额外的 format_time 工具函数 (dask#9184) James Bourbeau



文档¶

改进 Dask 10 分钟教程页面的 SEO (dask#9182) Sarah Charlotte Johnson
改进 Delayed 和最佳实践页面的 SEO (dask#9194) Sarah Charlotte Johnson
在 DataFrame str.split accessor 的 docstring 中包含已知不一致之处 (dask#9177) Richard Pelgrim
为 derived_from 添加 inconsistencies 关键字 (dask#9192) Richard Pelgrim
在 delayed 最佳实践示例中添加缺失的 append (dask#9202) Ben
修复最佳实践中的缩进 (dask#9196) Sarah Charlotte Johnson
添加链接到 Genevieve Buckley 关于分块大小的博客 (dask#9199) Pavithra Eswaramoorthy
更新 to_csv 的 docstring (dask#9094) Sarah Charlotte Johnson



维护¶

更新 versioneer：从使用 SafeConfigParser 更改为 ConfigParser (dask#9205) Thomas A Caswell
移除 CI 中的 ipython hack(dask#9200) crusaderky




2022.6.0¶
发布于 2022 年 6 月 10 日

改进¶

添加功能以在 HLG JupyterLab repr 中显示层依赖项的名称 (dask#9081) Angelos Omirolis
添加 arrow schema 提取 dispatch (dask#9169) GALI PREM SAGAR
为 assert_eq 添加 sort_results 参数 (dask#9130) Pavithra Eswaramoorthy
为 parse_timedelta 添加周支持 (dask#9168) Matthew Rocklin
警告 cloudpickle 并不总是确定性的 (dask#9148) Pavithra Eswaramoorthy
切换 parquet 默认引擎 (dask#9140) Jim Crist-Harif
使用 _iLocIndexer / _LocIndexer 进行确定性哈希 (dask#9108) Fabien Aulaire
在 to_parquet pyarrow 中强制执行一致的 schema (dask#9131) Jim Crist-Harif



Bug 修复¶

修复 pyarrow.StringArray 的 pickle 问题 (dask#9170) Jim Crist-Harif
修复 pyarrow 引擎中并行元数据收集的 bug (dask#9165) Richard (Rick) Zamora
改进 pyarrow 分区逻辑 (dask#9147) James Bourbeau
pyarrow 8.0 分区修复 (dask#9143) James Bourbeau



文档¶

改进安装 Dask 和 Dask DataFrame 最佳实践页面的 SEO (dask#9178) Sarah Charlotte Johnson
更新文档中的徽标页面 (dask#9167) Sarah Charlotte Johnson
为 map_partition 的 docstring 添加使用 pandas Series 的示例 (dask#9161) Alex-JG3
更新文档主题以进行品牌重塑 (dask#9160) Sarah Charlotte Johnson
改进 Dask DataFrames 文档的 SEO (dask#9128) Sarah Charlotte Johnson



维护¶

从下游库的推荐实践中移除 ensure_file (dask#9171) Matthew Rocklin
测试包括 pyspark 在内的 DataFrame parquet I/O 往返 (dask#9156) Ian Rose
尝试禁用 HDF5 锁定 (dask#9154) Ian Rose
将最佳实践链接到 DataFrame-parquet (dask#9150) Tom Augspurger
修复 map_partitions func 参数描述中的拼写错误 (dask#9149) Christopher Akiki
取消 xfail test_groupby_grouper_dispatch 的预期失败标记 (dask#9139) GALI PREM SAGAR
暂时从 distributed 导入 cleanup fixture (dask#9138) James Bourbeau
简化 pyarrow parquet 引擎中的分区逻辑 (dask#9041) Richard (Rick) Zamora




2022.05.2¶
发布于 2022 年 5 月 26 日

改进¶

为非 pandas 的 Grouper 对象添加 dispatch，并在 GroupBy 中使用它 (dask#9074) brandon-b-miller
如果 read_parquet 和 to_parquet 文件有交集，则抛出错误 (dask#9124) Jim Crist-Harif
使用 ipycytoscape 可视化任务图 (dask#9091) Ian Rose



文档¶

修复各种拼写错误 (dask#9126) Ryan Russell



维护¶

修复不稳定的 test_filter_nonpartition_columns (dask#9127) Pavithra Eswaramoorthy
将 gpuCI RAPIDS_VER 更新到 22.08 (dask#9120)
在 sdists 中包含 conftest.py` (dask#9115) Ben Beasley




2022.05.1¶
发布于 2022 年 5 月 24 日

新功能¶

添加 DataFrame.from_dict 类方法 (dask#9017) Matthew Powers
为 Dask DataFrame 添加 from_map 函数 (dask#8911) Richard (Rick) Zamora



改进¶

改进 to_parquet 关于追加分区重叠的错误提示 (dask#9102) Jim Crist-Harif
启用用户定义的进程初始化函数 (dask#9087) ParticularMiner
在 map_partitions 错误中提及 align_dataframes=False 选项 (dask#9075) Gabe Joseph
为 dask.array.map_blocks() 添加 enforce_ndim 关键字参数 (dask#8865) ParticularMiner
实现 Series.GroupBy.fillna / DataFrame.GroupBy.fillna 方法 (dask#8869) Pavithra Eswaramoorthy
允许将 fillna 用于 Dask DataFrame (dask#8950) Pavithra Eswaramoorthy
更新一维 dask 数组赋值的错误消息 (dask#9036) Pavithra Eswaramoorthy
集合协议 (dask#8674) Doug Davis
修复 pandas ArrowStringArray pickling 相关问题 (dask#9024) Jim Crist-Harif
对 compute_as_if_collection 进行临时修复 (dask#8998) Ian Rose
添加 p2p shuffle 选项 (dask#8836) Matthew Rocklin



Bug 修复¶

修复列投影没有指定列时的 bug (dask#9106) Jim Crist-Harif
Blockwise 剔除 NumPy dtype (dask#9100) Ian Rose
修复 from_map 中的列投影 bug (dask#9078) Richard (Rick) Zamora
防止非数字 dtypes 索引中出现空值 (dask#8963) Jorge López
修复超过 8 个分区的 is_monotonic 方法 (dask#9019) Julia Signell
处理传递给 from_map 的 enumerate 和 generator 输入 (dask#9066) Richard (Rick) Zamora
恢复 is_dask_collection；回到之前的实现 (dask#9062) Doug Davis
修复 Blockwise.clone 未正确处理可迭代字面值参数的 bug (dask#8979) JSKenyon
数组 setitem 硬掩码 (dask#9027) David Hassell
修复追加时分区重叠的错误 (dask#8997) Ian Rose



弃用¶

为 read_parquet 的关键字参数 chunksize 和 aggregate_files 添加预弃用警告 (dask#9052) Richard (Rick) Zamora



文档¶

文档说明 map_partitions 如何处理 args 和 kwargs，以及如何使用 partition_info (dask#9084) Charles Blackmon-Luca
更新自定义集合文档（利用新的集合协议）(dask#9097) Doug Davis
改进创建和存储 Dask DataFrames 文档的 SEO (dask#9098) Sarah Charlotte Johnson
澄清 imread docstring 中的分块说明 (dask#9082) Genevieve Buckley
重新组织文档目录 (dask#9001) Matthew Rocklin
更正了 map_blocks() 的 docstring 中关于关键字参数 enforce_ndim 的说明 (dask#9071) ParticularMiner
更新 DataFrame SQL 文档中对其他库的引用 (dask#9077) Charles Blackmon-Luca
更新关于创建和存储 Dask DataFrames 的页面 (dask#9025) Sarah Charlotte Johnson



维护¶

在许可证文件中包含 NUMPY_LICENSE.txt (dask#9113) Ben Beasley
安装夜间构建的 pandas 时增加重试次数 (dask#9103) James Bourbeau
在上游构建中强制使用夜间构建的 pyarrow (dask#9095) Joris Van den Bossche
改进 ensure_unicode 的对象处理和测试 (dask#9059) John A Kirkham
在上游构建中强制使用夜间构建的 pyarrow (dask#8993) Joris Van den Bossche
对 is_dask_collection 进行额外检查 (dask#9054) Doug Davis
更新 ensure_bytes (dask#9050) John A Kirkham
添加文件末尾 pre-commit hook (dask#9045) James Bourbeau
添加 codespell pre-commit hook (dask#9040) James Bourbeau
移除 HDFS 测试 (dask#9039) Jim Crist-Harif
修复不稳定的 test_reductions_2D (dask#9037) Jim Crist-Harif
防止 codecov 过早报告失败 (dask#9031) Jim Crist-Harif
仅在 macos 上测试 Python 3.9 (dask#9029) Jim Crist-Harif
更新 to_timedelta 的默认单位 (dask#9010) Pavithra Eswaramoorthy




2022.05.0¶
发布于 2022 年 5 月 2 日

亮点¶
这是针对 this issue 的一个 bug 修复版本。


文档¶

在 2022.04.2 版本说明中添加亮点部分 (dask#9012) James Bourbeau




2022.04.2¶
发布于 2022 年 4 月 29 日

亮点¶
此版本包含对 dask.dataframe.read_parquet 和 dask.dataframe.to_parquet 的一些弃用/破坏性 API 更改

to_parquet 默认不再写入 _metadata 文件。如果您想写入 _metadata 文件，可以传入 write_metadata_file=True。
read_parquet 现在默认为 split_row_groups=False，这在读取 parquet 数据集时会导致每个 parquet 文件对应一个 Dask dataframe 分区。如果您处理的是大型 parquet 文件，可能需要将 split_row_groups=True 设置为 True 来减小分区大小。
read_parquet 默认不再计算 divisions。如果您需要 read_parquet 返回具有已知 divisions 的 dataframe，请设置 calculate_divisions=True。
read_parquet 已弃用 gather_statistics 关键字参数。请改用 calculate_divisions 关键字参数。
read_parquet 已弃用 require_extensions 关键字参数。请改用 parquet_file_extension 关键字参数。



新功能¶

添加 removeprefix 和 removesuffix 作为 StringMethods (dask#8912) Jorge López



改进¶

在 to_parquet 中调用 fs.invalidate_cache (dask#8994) Jim Crist-Harif
将 to_parquet 的默认值更改为 write_metadata_file=None (dask#8988) Jim Crist-Harif
允许 arg reductions 传递 keepdims (dask#8926) Julia Signell
在 read_parquet 中将 split_row_groups 的默认值更改为 False (dask#8981) Richard (Rick) Zamora
改进 da.reshape 的 NotImplementedError 错误消息 (dask#8987) Jim Crist-Harif
简化 to_parquet 的计算路径 (dask#8982) Jim Crist-Harif
如果尝试将 vindex 用于 Dask 对象，则抛出错误 (dask#8945) Julia Signell
指定 precache 方法时避免使用 pre_buffer=True (dask#8957) Richard (Rick) Zamora
from_dask_array 使用 blockwise 而不是合并图 (dask#8889) Bryan Weber
为 “pyarrow” Parquet 引擎使用 pre_buffer=True (dask#8952) Richard (Rick) Zamora



Bug 修复¶

在 da.full 中正确处理 dtype=None (dask#8954) Tom White
修复由 blockwise fusion 引起的 dask-sql bug (dask#8989) Richard (Rick) Zamora
to_parquet 对非字符串列名抛出错误 (dask#8990) Jim Crist-Harif
确保 da.roll 即使形状为 0 也正常工作 (dask#8925) Julia Signell
修复 set_index 的递归错误问题 (dask#8967) Paul Hobson
当 produces_keys=True 时，将 BlockwiseDepDict 映射值转换为字符串 (dask#8972) Richard (Rick) Zamora
在 DataFrame.from_delayed 中使用 DataFram`eIOLayer (dask#8852) Richard (Rick) Zamora
检查 read_parquet 中 in predicate 的值是否正确 (dask#8846) Bryan Weber
修复零维数组 reduction 的 bug (dask#8930) Tom White
在 read_sql_query 中使用 np.linspace 决定分区时指定 dtype (dask#8940) Cheun Hong



弃用¶

弃用 read_parquet 中的 gather_statistics (dask#8992) Richard (Rick) Zamora
将 require_extension 更改为顶层 parquet_file_extension read_parquet 关键字参数 (dask#8935) Richard (Rick) Zamora



文档¶

更新文档中关于 write_metadata_file 的讨论 (dask#8995) Richard (Rick) Zamora
更新 DataFrame.merge 的 docstring (dask#8966) Pavithra Eswaramoorthy
添加了 array.blockwise() 中参数 align_arrays 的描述 (dask#8977) ParticularMiner
建议不要在数组的分块轴上使用 map_block(drop_axis=...) (dask#8921) ParticularMiner
在文档中的代码片段添加复制按钮 (dask#8956) James Bourbeau



维护¶

兼容 Pandas 1.5.0 (dask#8961) Ian Rose
在 CI 的 distributed 环境中添加 pytest-timeout (dask#8986) Julia Signell
改进 read_parquet 的 docstring 格式 (dask#8971) Bryan Weber
移除 pytest.warns(None) (dask#8924) Pavithra Eswaramoorthy
将 Python 3.10 标记为支持版本 (dask#8976) Eray Aslan
parse_timedelta 选项，用于强制指定单位 (dask#8969) crusaderky
兼容 mypy (dask#8854) Paul Hobson
添加一个关于 Dask 和 Parquet 的文档页面 (dask#8899) Jim Crist-Harif
添加配置以忽略 blame 中的修订 (dask#8933) Bryan Weber




2022.04.1¶
发布于 2022 年 4 月 15 日

新功能¶

添加缺失的 NumPy ufuncs：abs、left_shift、right_shift、positive。 (dask#8920) Tom White



改进¶

当 write_metadata_file=False 时，避免在 pyarrow 中收集 parquet 元数据 (dask#8906) Richard (Rick) Zamora
改进 dd.read_csv() 中通配符路径失败的错误提示（修复 #8878）(dask#8908) Roger Filmyer
对于 dd.Series 上的非 ufunc 元素级函数，返回 da.Array 而不是 dd.Series (dask#8558) Julia Signell
允许 get_dummies 在 map_partitions 中使用 meta 计算 (dask#8898) Julia Signell
传递给 da.from_array 的掩码标量输入 (dask#8895) David Hassell
在 merge_asof 中对重复的 kwargs 抛出 ValueError 错误 (dask#8861) Bryan Weber



Bug 修复¶

确保 is_monotonic 在某些分区为空时也正常工作 (dask#8897) Julia Signell
修复当 inline_array=False 时 da.from_array 中的自定义 getter (dask#8903) Ian Rose
正确处理 rechunk 的字典规范。 (dask#8859) Richard
修复 merge_asof：如果 left_on == right_on 则丢弃索引列 (dask#8874) Gil Forsyth



弃用¶

警告用户 engine='auto' 在未来将发生变化 (dask#8907) Jim Crist-Harif
从 parquet API 中移除 pyarrow-legacy 引擎 (dask#8835) Richard (Rick) Zamora



文档¶

添加关于 dask.array.dot 中缺失参数 out 的说明 (dask#8913) Francesco Andreuzzi
更新 DataFrame.query 的 docstring (dask#8890) Pavithra Eswaramoorthy



维护¶

不要在大整数数据上测试 da.prod (dask#8893) Jim Crist-Harif
为断网时会失败的测试添加 network 标记 (dask#8881) Paul Hobson
修复 gpuCI GHA 版本 (dask#8891) Charles Blackmon-Luca
xfail/skip 一些不稳定的 distributed 测试 (dask#8887) Jim Crist-Harif
移除 ArrowDatasetEngine 中未使用（已弃用）的代码 (dask#8885) Richard (Rick) Zamora
为常用工具函数添加轻微类型提示，第二部分 (dask#8867) crusaderky
关于 sample() 限制的文档 (dask#8858) Nadiem Sissouno




2022.04.0¶
发布于 2022 年 4 月 1 日

注意
这是首次支持 Python 3.10 的版本


新特性¶

添加 Python 3.10 支持 (dask#8566) James Bourbeau



改进¶

添加对 dtype.itemsize 的检查以生成有用的错误信息 (dask#8860) Davide Gavio
为通用工具函数添加轻度类型提示 (dask#8848) Matthew Rocklin
为 divisions setter 添加健全性检查 (dask#8806) Jim Crist-Harif
在更多任务中使用 Blockwise 和 map_partitions (dask#8831) Bryan Weber



错误修复¶

修复 dataframe.merge_asof 以保留 right_on 列 (dask#8857) Sarah Charlotte Johnson
修复 32 位系统上 pandas >= 1.3 的“Buffer dtype mismatch”错误 (dask#8851) Ben Greiner
通过更改 SubgraphCallable getter 修复切片融合问题 (dask#8827) Ian Rose



弃用¶

移除对 PyPy 的支持 (dask#8863) James Bourbeau
在运行时移除对 setuptools 的依赖 (dask#8855) crusaderky
移除 dataframe.tseries.resample.getnanos (dask#8834) Sarah Charlotte Johnson



文档¶

组织诊断和性能文档 (dask#8871) Naty Clementi
添加图片以解释 map_blocks 的 drop_axis 选项 (dask#8868) ParticularMiner



维护¶

将 gpuCI RAPIDS_VER 更新至 22.06 (dask#8828)
在 http 中恢复 test_parquet (dask#8850) Bryan Weber
简化 gpuCI 更新工作流程 (dask#8849) Charles Blackmon-Luca




2022.03.0¶
发布于 2022 年 3 月 18 日

新特性¶

Bag：添加水塘抽样（reservoir sampling）实现 (dask#7636) Daniel Mesejo-León
将 ma.count 添加到 Dask 数组 (dask#8785) David Hassell
将 to_parquet 的默认压缩方式更改为 compression="snappy" (dask#8814) Jim Crist-Harif
为 dask.array.reduction 添加 weights 参数 (dask#8805) David Hassell
添加 ddf.compute_current_divisions 以获取排序索引或列的分区信息（divisions） (dask#8517) Julia Signell



改进¶

在 DelayedLeaf 中传递 __name__ 和 __doc__ (dask#8820) Leo Gao
对未实现的 merge how 选项抛出异常 (dask#8818) Naty Clementi
将 Bag.map_partitions 移至 Blockwise (dask#8646) Richard (Rick) Zamora
改进配置格式错误时的错误消息 (dask#8801) Jim Crist-Harif
修订列投影优化以捕获常见的 dask-sql 模式 (dask#8692) Richard (Rick) Zamora
为空分区（divisions）提供有用的错误提示 (dask#8789) Pavithra Eswaramoorthy
Scipy 1.8.0 兼容性：将私有类复制到 dask/array/stats.py (dask#8694) Julia Signell
在使用多种类型调度器（其中之一是 distributed）时发出警告 (dask#8700) Pedro Silva



错误修复¶

修复在 read_parquet 中应用 != 过滤器的 bug (dask#8824) Richard (Rick) Zamora
修复直接传入 dask Index 时 set_index 的问题 (dask#8680) Paul Hobson
快速修复 tensordot 中无限内存使用的问题 (dask#7980) Genevieve Buckley
如果 hdf 文件为空，创建元数据（meta）时不再失败 (dask#8809) Julia Signell
更新 clone_key("x") 以保留前缀 (dask#8792) crusaderky
修复基于 pyarrow 的 read_parquet 中的“物理”列 bug (dask#8775) Richard (Rick) Zamora
修复 shuffle 后由于分区未排序导致的 groupby.shift bug (dask#8782) kori73
修复序列化 bug (dask#8786) Richard (Rick) Zamora



弃用¶

将 diagnostics bokeh 依赖项版本提升至 2.4.2 (dask#8791) Charles Blackmon-Luca
弃用对 bcolz 的支持 (dask#8754) Pavithra Eswaramoorthy
完成将 map_overlap 的默认 boundary kwarg 设置为 'none' 的工作 (dask#8743) Genevieve Buckley



文档¶

修复自定义集合示例文档 (dask#8807) Doug Davis
将 Series.str, Series.dt, 和 Series.cat 访问器添加到文档中 (dask#8757) Sarah Charlotte Johnson
修复 ddf.compute_current_divisions 的 docstring (dask#8793) Julia Signell
关于 /status 页面的 Dashboard 文档 (dask#8648) Naty Clementi
在 repartition docstring 中澄清 divisions kwarg (dask#8781) Sarah Charlotte Johnson
更新 Docker 镜像以使用 ghcr.io (dask#8774) Jacob Tomlinson



维护¶

减少 gpuci pytest 并行度 (dask#8826) GALI PREM SAGAR
absolufy-imports - 无相对导入 - PEP8 (dask#8796) Julia Signell
整理数组测试中的 assert_eq 调用 (dask#8812) Julia Signell
避免使用 pytest.warns(None) (dask#8718) LSturtew
修复 test_describe_empty 使其在没有全局 -Werror 的情况下也能工作 (dask#8291) Michał Górny
暂时在 windows 上 xfail graphviz 测试 (dask#8794) Jim Crist-Harif
使用 packaging.parse 实现 md5 兼容性 (dask#8763) James Bourbeau
使 tokenize 在 FIPS 140-2 环境中工作 (dask#8762) Jim Crist-Harif
在 issue 和 PR 打开时添加“needs triage”标签 (dask#8761) Julia Signell
增加一些额外的测试覆盖率 (dask#8302) lrjball
指定 action 版本并将 pull_request_target 更改为 pull_request (dask#8767) Julia Signell
在 da.assert_eq 中使 scheduler kwarg 传递给子函数 (dask#8755) Julia Signell




2022.02.1¶
发布于 2022 年 2 月 25 日

新特性¶

为 dask.dataframe.pivot_table 添加聚合函数 first 和 last (dask#8649) Knut Nordanger
为类 pandas 对象的 datetime64 dtype 添加 std() 支持 (dask#8523) Ben Glossner
为 HighLevelGraph 和 Layer 的 html reprs 添加具体化任务计数 (dask#8589) kori73



改进¶

不允许迭代 DataFrameGroupBy (dask#8696) Bryan Weber
修复在空 DataFrame 上调用 info() 后缺失换行符的问题 (dask#8727) Naty Clementi
将 groupby.compute 添加为未实现的方法 (dask#8734) Dranaxel
改进多 DataFrame join 的性能 (dask#8740) Holden Karau
为 Index 包含 bool 类型 (dask#8732) Naty Clementi
允许 ArrowDatasetEngine 子类覆盖 pandas->arrow 转换，也适用于分区写入 (dask#8741) Joris Van den Bossche
提高 da.diag() 和 da.diagonal() 中 k 对角线提取的性能 (dask#8689) ParticularMiner
当 num 等于 0 时，更改 linspace 的创建方式以匹配 numpy (dask#8676) Peter
对 dataclasses 进行 Tokenize (dask#8557) Gabe Joseph
更新 tokenize 以区分处理 dict 和 kwargs (dask#8655) James Bourbeau



错误修复¶

修复 dask.array.roll() 中，当 roll-shifts 值与输入数组大小时一致时的 bug (dask#8723) ParticularMiner
修复 normalize_function dataclass 方法的问题 (dask#8527) Sarah Charlotte Johnson
修复使用零大小块进行 rechunking 的问题 (dask#8703) ParticularMiner
移动 sqlalchemy 连接的创建位置以支持 pickle 序列化 (dask#8745) Julia Signell



弃用¶

停止支持 Python 3.7 (dask#8572) James Bourbeau
弃用 iteritems (dask#8660) James Bourbeau
弃用 dataframe.tseries.resample.getnanos (dask#8752) Sarah Charlotte Johnson
为 pyarrow-legacy 引擎添加弃用警告 (dask#8758) Richard (Rick) Zamora



文档¶

更新变更日志中的链接拼写错误 (dask#8717) James Bourbeau
澄清 dask.visualize 的 docstring (dask#8710) Dranaxel
更新 Docker 示例以使用当前最佳实践 (dask#8731) Jacob Tomlinson
更新文档以包含 distributed.Client.preload (dask#8679) Bryan Weber
记录每月社交会议 (dask#8595) Thomas Grainger
添加关于使用 RBAC/ACL (即安全主体) 进行 Gen2 访问的文档 (dask#8748) Martin Thøgersen
使用 dask-sphinx-theme 中的 Dask 配置扩展 (dask#8751) Benjamin Zaitlen



维护¶

在 CI 中解除 coverage 的版本锁定 (dask#8690) James Bourbeau
添加手动触发测试套件运行的机制 (dask#8716) James Bourbeau
Xfail scheduler_HLG_unpack_import；不稳定测试 (dask#8724) Mike McCarty
暂时移除 scipy 上游 CI 构建 (dask#8725) James Bourbeau
提升预发布版本号使其大于稳定版本号 (dask#8728) Charles Blackmon-Luca
将自定义排序函数逻辑移至内部 sort_values (dask#8571) Charles Blackmon-Luca
在文档要求中固定 cloudpickle 和 scipy 的版本 (dask#8737) Julia Signell
使标签机器人不删除标签，并在正确位置查找文档 (dask#8746) Julia Signell
修复文档构建警告 (dask#8432) Kristopher Overholt
更新测试状态徽章 (dask#8747) James Bourbeau
修复 parquet test_pandas_timestamp_overflow_pyarrow 测试 (dask#8733) Joris Van den Bossche
仅在相关文件更改时运行 PR 构建 (dask#8756) Charles Blackmon-Luca




2022.02.0¶
发布于 2022 年 2 月 11 日

注意
这是最后一个支持 Python 3.7 的版本


新特性¶

在使用现有数组时，为 to_zarr 添加 region 参数 (dask#8590) Chris Roat
为 dask.dataframe.to_sql 添加 engine_kwargs 支持 (dask#8609) Amir Kadivar
为 read_json 添加 include_path_column 参数 (dask#8603) Bryan Weber
将 expand_dims 添加到 Dask 数组 (dask#8687) Tom White



改进¶

为 assert_eq 工具函数添加调度器选项 (dask#8610) Xinrong Meng
修复 dtype=None 时 eye 与 NumPy 的不一致问题 (dask#8685) Tom White
修复 axis=None 时 concatenate 与 NumPy 的不一致问题 (dask#8686) Tom White
类型注解，第一部分 (dask#8295) crusaderky
确实允许将任何可迭代对象作为 meta 传入 (dask#8629) Julia Signell
在 to_parquet 中使用 map_partitions (Blockwise) (dask#8487) Richard (Rick) Zamora



错误修复¶

数组归约的结果不应依赖于其块结构 (dask#8637) ParticularMiner
在 ACA 代码路径中将占位符元数据传递给 map_partitions (dask#8643) Richard (Rick) Zamora



弃用¶

弃用 is_monotonic (dask#8653) James Bourbeau
移除一些弃用项 (dask#8605) James Bourbeau



文档¶

将 Domino Data Lab 添加到托管 Dask 集群列表 (dask#8675) Ray Bell
修复内部链接并移除弃用函数 (dask#8715) Julia Signell
修复不平衡的反引号。 (dask#8693) Matthias Bussonnier
添加高层图可视化文档 (dask#8483) Genevieve Buckley
更新 ProgressBar 的 out 参数文档 (dask#8604) Pedro Silva
改进 dask.config.set 的文档 (dask#8705) crusaderky
撤回在类型检查器中提及 mypy 的部分 (dask#8699) crusaderky



维护¶

更新 get_dummies 测试中的警告处理 (dask#8651) James Bourbeau
添加 GitHub 变更日志模板 (dask#8714) Julia Signell
更新 LICENSE.txt 中的年份 (https://github.com/dask/dask/pull/8665) David Hoese
更新 pre-commit 版本 (dask#8691) James Bourbeau
在上游 CI 构建中包含 scipy (dask#8681) James Bourbeau
暂时在 CI 中固定 scipy < 1.8.0 (dask#8683) James Bourbeau
在 GPU CI 中固定 scipy 版本低于 1.8.0 (dask#8698) Julia Signell
在 test_multi.py 中避免使用 pytest.warns(None) (dask#8678) James Bourbeau
更新 GHA 并发作业取消机制 (dask#8652) James Bourbeau
使 test__get_paths 在设置了 site.PREFIXES 时也能健壮工作 (dask#8644) James Bourbeau
将 gpuCI PYTHON_VER 提升至 3.9 (dask#8642) Charles Blackmon-Luca




2022.01.1¶
发布于 2022 年 1 月 28 日

新特性¶

添加 dask.dataframe.series.view() (dask#8533) Pavithra Eswaramoorthy



改进¶

更新 fastparquet + pandas 1.4.0 的 tz (dask#8626) Martin Durant
清理杂项测试以兼容 pandas (dask#8623) Julia Signell
迁移到 SQLAlchemy >= 1.4 (dask#8158) McToel
Pandas 兼容性：过滤稀疏警告 (dask#8621) Julia Signell
如果 meta 不是 pandas 对象则失败 (dask#8563) Julia Signell
使用 fsspec.parquet 模块以提高远程存储 read_parquet 的性能 (dask#8339) Richard (Rick) Zamora
将 DataFrame ACA 聚合移至 HLG (dask#8468) Richard (Rick) Zamora
在 DataFrameIOLayer 中添加关于原始函数调用的可选信息 (dask#8453) Richard (Rick) Zamora
Blockwise 数组创建再探 (dask#7417) Ian Rose
重构配置默认搜索路径检索逻辑 (dask#8573) James Bourbeau
为 Bag.to_dataframe 函数添加 optimize_graph 标志 (dask#8486) Maxim Lippeveld
确保延迟输出操作仍然返回路径列表 (dask#8498) Julia Signell
Pandas 兼容性：修复 to_frame 的 name 参数不传递 None 的问题 (dask#8554) Julia Signell
Pandas 兼容性：修复 axis=None 警告 (dask#8555) Julia Signell
扩展 Dask YAML 配置搜索目录 (dask#8531) abergou



错误修复¶

修复按索引分组的序列（series）使用 groupby.cumsum 的问题 (dask#8588) Julia Signell
修复 pandas 方法的 derived_from 问题 (dask#8612) Thomas J. Fan
强制 sort_values 的 ascending 为布尔值 (dask#8440) Charles Blackmon-Luca
修复 __setitem__ 索引的解析问题 (dask#8601) David Hassell
避免切片中的零除错误 (dask#8597) Doug Davis



弃用¶

将 (dask#8563) 中的 meta 错误降级为警告 (dask#8628) Julia Signell
Pandas 兼容性：当 pandas >= 1.4.0 时弃用 append (dask#8617) Julia Signell



文档¶

在 DataFrame 构造函数中，用 meta 替换过时的 columns 参数 (dask#8614) kori73
重构部署文档 (dask#8602) Jacob Tomlinson



维护¶

在 CI 中固定 coverage 版本 (dask#8631) James Bourbeau
将 cached_cumsum 导入移至来自 dask.utils (dask#8606) James Bourbeau
将 gpuCI RAPIDS_VER 更新至 22.04 (dask#8600)
更新 from_delayed 函数的 docstring (dask#8576) Kirito1397
处理 plot_width / plot_height 弃用问题 (dask#8544) Bryan Van de Ven
移除不必要的 pyyaml importorskip (dask#8562) James Bourbeau
在 DataFrame assert_eq 中指定调度器 (dask#8559) Gabe Joseph




2022.01.0¶
发布于 2022 年 1 月 14 日

新特性¶

添加 groupby.shift 方法 (dask#8522) kori73
添加 DataFrame.nunique (dask#8479) Sarah Charlotte Johnson
添加 da.ndim 以匹配 np.ndim (dask#8502) Julia Signell



改进¶

仅当 NumPy 版本 >= 1.22 时显示 percentile interpolation= 关键字警告 (dask#8564) Julia Signell
当 limit 和 "array.slicing.split-large-chunks" 为 None 时抛出 PerformanceWarning (dask#8511) Julia Signell
在导入时定义 normalize_seq 函数 (dask#8521) Illviljan
确保 divisions 始终是元组 (tuple) (dask#8393) Charles Blackmon-Luca
允许为 bag.groupby 使用可调用调度器 (dask#8492) Julia Signell
使用 dask-on-ray 调度器保存 Zarr 数组 (dask#8472) TnTo
在 read_bytes 中使字节块更均匀 (dask#8459) Martin Durant
通过完全移除连接操作，提高了 matmul() 的效率 (dask#8423) ParticularMiner
重塑 dask 数组时限制最大块大小 (dask#8124) Genevieve Buckley
针对 fastparquet superthrift 的更改 (dask#8470) Martin Durant



错误修复¶

修复数组赋值中的布尔索引问题 (dask#8538) David Hassell
检测类数组对象的默认 dtype (dask#8501) aeisenbarth
修复 optimize_blockwise 中依赖项名称重复导致的 bug (dask#8542) Richard (Rick) Zamora
更新 DataFrame.GroupBy.apply 和 transform 的警告 (dask#8507) Sarah Charlotte Johnson
在 Delayed 中跟踪 HLG 层名称 (dask#8452) Gabe Joseph
修复单项 nanmin 和 nanmax 归约的问题 (dask#8484) Julia Signell
使带 comment kwarg 的 read_csv 即使在头部有注释也能工作 (dask#8433) Julia Signell



弃用¶

将 interpolation 替换为 method，并将 method 替换为 internal_method (dask#8525) Julia Signell
移除每日股票演示工具 (dask#8477) James Bourbeau



文档¶

在文档中添加一个可以通过复制/粘贴运行的 join 示例 (dask#8520) kori73
在配置中提及 dashboard 链接 (dask#8510) Ray Bell
修复变更日志章节超链接 (dask#8534) Aneesh Nema
为保持一致性，给“single-machine scheduler”加上连字符 (dask#8519) Deepyaman Datta
规范化 slicing.py 中 doctests 的空白符 (dask#8512) Maren Westermann
最佳实践存储行中的拼写错误 (dask#8529) Michael Delgado
更新图示 (dask#8401) Sarah Charlotte Johnson
从 read_parquet docstring 中移除 split_row_groups 的 pyarrow 特有引用 (dask#8490) Naty Clementi



维护¶

移除对 fsspec>=2022.1.0 失败的过时 LocalFileSystem 测试 (dask#8565) Richard (Rick) Zamora
调整：“RuntimeWarning: invalid value encountered in reciprocal” (dask#8561) crusaderky
修复 DataFrame.sem 中 skipna=None 的问题 (dask#8556) Julia Signell
修复 PANDAS_GT_140 (dask#8552) Julia Signell
使用 HLG 的集合必须始终实现 __dask_layers__ (dask#8548) crusaderky
解决 import llvmlite 中的竞态条件 (dask#8550) crusaderky
设置 pyyaml 的最低版本 (dask#8545) Gaurav Sheni
向环境添加 nodefaults 以修复 tiledb + mac 问题 (dask#8505) Julia Signell
设置 setuptools 的最高版本限制 (dask#8509) Julia Signell
添加生成 Dask nightly 版本的工作流/配方 (dask#8469) Charles Blackmon-Luca
将 gpuCI CUDA_VER 提升至 11.5 (dask#8489) Charles Blackmon-Luca




2021.12.0¶
发布于 2021 年 12 月 10 日

新特性¶

添加 Series 和 Index 的 is_monotonic* 方法 (dask#8304) Daniel Mesejo-León



改进¶

带有 partition_info 的 Blockwise map_partitions (dask#8310) Gabe Joseph
改进未知块大小数组长度的错误消息 (dask#8436) Doug Davis
在 Groupby 类内部使用 by 替换 index (dask#8441) Julia Signell
允许为 sort_values 使用自定义排序函数 (dask#8345) Charles Blackmon-Luca
当统计信息和分区不一致时，向 read_parquet 添加警告 (dask#8416) Richard (Rick) Zamora
在 ufuncs 中支持 where 参数 (dask#8253) mihir
使 visualize 与 compute 更一致 (dask#8328) JSKenyon



错误修复¶

修复 map_blocks 在生成 name 时未使用自身参数的问题 (dask#8462) David Hoese
修复读取空 parquet 文件时的索引错误 (dask#8410) Sarah Charlotte Johnson
修复写入分区 parquet 数据时可空 dtype 错误 (dask#8400) Richard (Rick) Zamora
修复 CSV 头部 bug (dask#8413) Richard (Rick) Zamora
修复空块导致 nanmin/nanmax 抛出异常的问题 (dask#8375) Boaz Mohar



弃用¶

弃用 map_blocks 的 token 关键字参数 (dask#8464) James Bourbeau
针对 map_overlap 中 boundary kwarg 默认值的弃用警告 (dask#8397) Genevieve Buckley



文档¶

澄清 block_info 文档 (dask#8425) Genevieve Buckley
来自 alt text sprint 的输出 (dask#8456) Sarah Charlotte Johnson
更新讲座和演示文稿 (dask#8370) Naty Clementi
更新文档“付费支持”部分中的 Anaconda 链接 (dask#8427) Martin Durant
修复 ecosystem.rst 中损坏的 dask-gateway 链接 (dask#8424) ofirr
修复 CuPy doctest 错误 (dask#8412) Genevieve Buckley



维护¶

将 Bokeh 最低版本提升至 2.1.1 (dask#8431) Bryan Van de Ven
修复 fsspec=2021.11.1 发布后的问题 (dask#8428) Martin Durant
将 dask/ml.py 添加到 pytest 排除列表 (dask#8414) Genevieve Buckley
将 gpuCI RAPIDS_VER 更新至 22.02 (dask#8394)
解除 graphviz 的版本锁定并改进 environment-3.7 中的包管理 (dask#8411) Julia Signell




2021.11.2¶
发布于 2021 年 11 月 19 日

仅每日运行 gpuCI bump 脚本 (dask#8404) Charles Blackmon-Luca
在 assert_eq 中要求时实际忽略索引 (dask#8396) Gabe Joseph
确保单分区 join 的 divisions 是 tuple (dask#8389) Charles Blackmon-Luca
尝试使 divisions 的行为更清晰 (dask#8379) Julia Signell
修复 set_index 的 partition_size 参数描述中的拼写错误 (dask#8384) FredericOdermatt
在 single_partition_join 中使用 blockwise (dask#8341) Gabe Joseph
使用更明确的关键字参数 (dask#8354) Boaz Mohar
修复带有可空布尔 dtype 的 DataFrame 的 .loc 问题 (dask#8368) Marco Rossi
在测试中参数化 shuffle 实现 (dask#8250) Ian Rose
移除一些文档构建警告 (dask#8369) Boaz Mohar
在数组 API 文档中包含 properties (dask#8356) Julia Signell
修复 Zarr 的上游问题 (dask#8367) Julia Signell
固定 graphviz 版本以避免 windows 和 Python 3.7 的问题 (dask#8365) Julia Signell
从模块顶部导入 graphviz.Diagraph，而不是从 dot (dask#8363) Julia Signell



2021.11.1¶
发布于 2021 年 11 月 8 日
补丁版本，将 distributed 依赖更新至 2021.11.1 版本。


2021.11.0¶
发布于 2021 年 11 月 5 日

修复 read_parquet 中 required_extension 的行为 (dask#8351) Richard (Rick) Zamora
在 map_partitions 中添加 align_dataframes 以广播作为参数传递的 dataframe (dask#6628) Julia Signell
改进 dask.dataframe.loc 中对键数组/系列的处理 (dask#8254) Julia Signell
引导用户至 Discourse (dask#8332) Ian Rose
在 to_parquet 中添加 name_function 选项 (dask#7682) Matthew Powers
移除 environment-latest.yml 并更新至 Python 3.9 (dask#8275) Julia Signell
在 CI 中要求使用更新的 s3fs (dask#8336) James Bourbeau
Groupby Rolling (dask#8176) Julia Signell
向 dask.visualize 添加更多排序诊断信息 (dask#7992) Erik Welch
对 delayed 使用 HighLevelGraph 优化 (dask#8316) Ian Rose
demo_tuples 生成了格式错误的 HighLevelGraph (dask#8325) crusaderky
Dask 日历应显示本地时间事件 (dask#8312) Genevieve Buckley
修复不稳定的 test_interrupt 测试 (dask#8314) crusaderky
废弃 AxisError (dask#8305) crusaderky
修复扩展文档中 cuDF 的名称。 (dask#8311) Vyas Ramasubramani
向 parquet 过滤器添加单个等号运算符 (=) (dask#8300) Ayush Dattagupta
改进 read_parquet 中对 Spark 输出的支持 (dask#8274) Richard (Rick) Zamora
添加 dask.ml 模块 (dask#6384) Matthew Rocklin
CI 修复 (dask#8298) James Bourbeau
使切片错误与 NumPy 匹配 (dask#8248) Julia Signell
修复使用新的 sphinx 主题时 API 文档渲染错误的问题 (dask#8296) Julia Signell
将 block 属性替换为 blockview 用于块的类数组操作 (dask#8242) Davis Bennett
废弃 file_path 并使其可以在 notebook 中保存 (dask#8283) Julia Signell



2021.10.0¶
发布于 2021 年 10 月 22 日

da.store 创建格式良好的 HighLevelGraph (dask#8261) crusaderky
CI：在上游构建中强制使用每夜版 pyarrow (dask#8281) Joris Van den Bossche
移除 chest (dask#8279) James Bourbeau
如果未安装可选依赖项，则跳过 doctest (dask#8258) Genevieve Buckley
更新 tmpdir 和 tmpfile 上下文管理器的 docstrings (dask#8270) Daniel Mesejo-León
在 doctest 中注销回调 (dask#8276) James Bourbeau
修复文档中的拼写错误 (dask#8277) JoranDox
陈旧标签 GitHub action (dask#8244) Genevieve Buckley
Client-shutdown 方法出现两次 (dask#8273) German Shiklov
将 pre-commit 添加到测试要求中 (dask#8257) Genevieve Buckley
重构 fastparquet 引擎中的 read_metadata (dask#8092) Richard (Rick) Zamora
在 from_zarr 中支持 Path 对象 (dask#8266) Samuel Gaist
使嵌套重定向生效 (dask#8272) Julia Signell
如果在 info 中 verbose 为 True，则将 memory_usage 设置为 True (dask#8222) Kinshuk Dua
从 sphinx toctree 中移除单个 API 文档页面 (dask#8238) James Bourbeau
忽略 gufunc signature 中的空格 (dask#8267) James Bourbeau
添加更新 gpuCI 的工作流程 (dask#8215) Charles Blackmon-Luca
DataFrame.head 在只有一个分区时应该不发出警告 (dask#8091) Pankaj Patil
如果未安装 pyarrow，则忽略 arrow doctest (dask#8256) Genevieve Buckley
修复 debugging.html 重定向 (dask#8251) James Bourbeau
修复单个分区 dataframe 的 null 排序问题 (dask#8225) Charles Blackmon-Luca
修复 setup.html 重定向 (dask#8249) Florian Jetter
在 CI 中运行 pyupgrade (dask#8246) crusaderky
修复上游 CI 构建中的标签拼写错误 (dask#8237) James Bourbeau
在 DataFrame.assign 中添加对“依赖”列的支持 (dask#8086) Suriya Senthilkumar
向 Array 添加 Dask 键的 NumPy 数组 (dask#7922) Davis Bennett
移除文档中不必要的 dask.multiprocessing 导入 (dask#8240) Ray Bell
调整从 Executor 中检索 _max_workers 的方式 (dask#8228) John A Kirkham
更新 delayed 最佳实践文档中的函数签名 (dask#8231) Vũ Trung Đức
文档重组 (dask#7984) Julia Signell
修复 df.quantile 在所有数据都缺失时的问题 (dask#8129) Julia Signell
添加 tokenize.ensure-deterministic 配置选项 (dask#7413) Hristo Georgiev
在 pandas>=1.4.0 和 pd.date_range 中使用 inclusive 而不是 closed (dask#8213) Julia Signell
将 dask-gateway、Coiled 和 Saturn-Cloud 添加到 Dask 设置工具列表中 (dask#7814) Kristopher Overholt
确保在序列化 HighLevelGraph 层时将现有 future 作为依赖项传递 (dask#8199) Jim Crist-Harif
确保单个分区合并的 division 是左侧的 (dask#8162) Julia Signell
重构 pyarrow parquet 引擎中的 read_metadata (dask#8072) Richard (Rick) Zamora
在 map_blocks 和 map_overlap 中支持负数 drop_axis (dask#8192) Gregory R. Lee
修复上游测试 (dask#8205) Julia Signell
添加对通过 Series 进行标量项赋值的支持 (dask#8195) Charles Blackmon-Luca
向 dask.bag 的 all、any、count 方法的 doc string 添加一些基本示例 (dask#7630) Nathan Danielsen
不要让上游报告依赖于提交消息 (dask#8202) James Bourbeau
确保上游 CI cron 作业运行 (dask#8200) James Bourbeau
使用 pytest.param 正确标记特定参数的 GPU 测试 (dask#8197) Charles Blackmon-Luca
将 test_set_index 添加到 gpuCI 上运行的测试中 (dask#8198) Charles Blackmon-Luca
抑制 tmpfile 的 OSError 错误 (dask#8191) James Bourbeau
在 set_partitions_pre 中使用 s.isna 代替 pd.isna(s) (修复 cudf CI) (dask#8193) Charles Blackmon-Luca
为 test-upstream 失败开一个 issue (dask#8067) Wallace Reis
修复调用 pyarrow.parquet.read_metadata 时 to_parquet 中的 bug (dask#8186) Richard (Rick) Zamora
在 sort_values 中添加对 null 值的处理 (dask#8167) Charles Blackmon-Luca
提高 gpuCI 的 RAPIDS_VER 版本 (dask#8184) Charles Blackmon-Luca
Dispatch 在惰性注册的处理器中遍历 MRO (dask#8185) Jim Crist-Harif
配置 SSHCluster 说明 (dask#8181) Ray Bell
在 DataFrame.from_delayed 中保留 HighLevelGraphs (dask#8174) Gabe Joseph
废弃用于 Dask series 重命名的 inplace 参数 (dask#8136) Marcel Coetzee
修复 rolling 以兼容 pandas > 1.3.0 (dask#8150) Julia Signell
在对未知块执行 setitem 时抛出错误 (dask#8166) Julia Signell
在执行 Index.to_series 时包含 division (dask#8165) Julia Signell



2021.09.1¶
发布于 2021 年 9 月 21 日

修复面向未来 pandas 版本的 groupby (dask#8151) Julia Signell
移除测试中不再需要的警告过滤器 (dask#8155) Julia Signell
在本地诊断文档中添加指向诊断可视化函数的链接 (dask#8157) David Hoese
向 dataframe.describe 添加 datetime_is_numeric (dask#7719) Julia Signell
在 pd.Int64Index 废弃之前移除对其的引用 (dask#8144) Julia Signell
如果需要，对 series 的 __get_item__ 使用 loc (dask#7953) Julia Signell
对于空切片的 mean 专门忽略警告 (dask#8125) Julia Signell
对于 pandas >= 1.3.3 跳过 groupby nunique 测试 (dask#8142) Julia Signell
为 sort_values 实现 ascending 参数 (dask#8130) Charles Blackmon-Luca
替换 operator.getitem (dask#8015) Naty Clementi
废弃 zero_broadcast_dimensions 和 homogeneous_deepmap (dask#8134) SnkSynthesis
如果 drop_index 为负数则添加错误提示 (dask#8064) neel iyer
允许 scheduler 是一个 Executor (dask#8112) John A Kirkham
处理 like 是 dask.Array 的 asarray / asanyarray 情况 (dask#8128) Peter Andreas Entschev
修复当 index_col 类型为 str 时 index_col 重复的问题 (dask#7661) McToel
向 asarray 和 asanyarray 定义添加 dtype 和 order (dask#8106) Julia Signell
废弃 dask.dataframe.Series.__contains__ (dask#7914) Julia Signell
修复 _wrapped_qr 中 like-数组的边缘情况问题 (dask#8122) Peter Andreas Entschev
废弃 boundary_slice 的 kwarg: 为了兼容 pandas 废弃 kind (dask#8037) Julia Signell



2021.09.0¶
发布于 2021 年 9 月 3 日

减少打开的文件数 (dask#7303) Julia Signell
将 FileNotFound 添加到预期的 http 错误中 (dask#8109) Martin Durant
将 DataFrame.sort_values 添加到 API 文档中 (dask#8107) Benjamin Zaitlen
更改 dask.order: 有时更积极 (dask#7929) Erik Welch
向 CI 添加 pytest 颜色 (dask#8090) James Bourbeau
修复: make_people 在 processes 调度器下工作 (dask#8103) Dahn
向 Dataframe copy 方法添加 deep 参数并将其限制为 False (dask#8068) João Paulo Lacerda
修复配置文档中的拼写错误 (dask#8104) Robert Hales
更新 DataFrame.query docstring 中的格式 (dask#8100) James Bourbeau
解除 sparse 测试在 0.13.0 版本中的 xfail (dask#8102) James Bourbeau
向 DataFrame 和 Series 添加 axes 属性 (dask#8069) Jordan Jensen
在 da.unique 中添加 CuPy 支持 (仅限值) (dask#8021) Peter Andreas Entschev
sparse.zeros_like 的单元测试 (xfailed) (dask#8093) crusaderky
向数组创建函数添加明确的 like kwarg 支持 (dask#8054) Peter Andreas Entschev
分离 Array 和 DataFrame 的最小依赖构建 (dask#8079) James Bourbeau
将 percentile_dispatch 分离到 dask.array 中 (dask#8083) GALI PREM SAGAR
确保 to_parquet 中的 filepath 存在 (dask#8057) James Bourbeau
更新 test_scheduler_highlevel_graph_unpack_import 中的调度器插件用法 (dask#8080) James Bourbeau
向 API 文档添加 DataFrame.shuffle (dask#8076) Martin Fleischmann
按字母顺序排序要求 (dask#8073) John A Kirkham



2021.08.1¶
发布于 2021 年 8 月 20 日

向 read_parquet 添加 ignore_metadata_file 选项 (仅支持 pyarrow-dataset 和 fastparquet) (dask#8034) Richard (Rick) Zamora
在开发文档中添加对 pytest-xdist 的引用 (dask#8066) Julia Signell
在 to_datetime 生成的 meta 中包含 tz (dask#8000) Julia Signell
CI 基础设施文档 (dask#7985) Benjamin Zaitlen
在 assert_eq 检查中包含无效的 DataFrame 键 (dask#8061) James Bourbeau
在创建 DataFrames 时使用 __class__ (dask#8053) Mads R. B. Kristensen
在 gpuCI 构建中使用开发版本 distributed (dask#7976) James Bourbeau
忽略 gufunc signature 中的空格 (dask#8049) James Bourbeau
移动 pandas 导入并重构 percentile dispatch (dask#8055) GALI PREM SAGAR
添加颜色表示高级层类型 (dask#7974) Freyam Mehta
上游实例修复 (dask#8060) Jacob Tomlinson
添加 dask.widgets 并将 HTML reprs 迁移到 jinja2 (dask#8019) Jacob Tomlinson
移除 wrap_func_like_safe，NumPy >= 1.17 后不再需要 (dask#8052) Peter Andreas Entschev
修复线程调度器内存背压回退问题 (dask#8040) David Hoese
添加 percentile dispatch (dask#8029) GALI PREM SAGAR
在 groupby 中使用公开文档记录的属性 obj，而不是私有的 _selected_obj (dask#8038) GALI PREM SAGAR
指定从哪个模块 import rechunk (dask#8039) Illviljan
在某些情况下使用 dict 存储 {nan,}arg{min,max} 的数据 (dask#8014) Peter Andreas Entschev
修复 read_pandas 中 blocksize 描述的格式问题 (dask#8047) Louis Maddox
修复文档中“point” -> “pointers” 的拼写错误 (dask#8043) David Chudzicki



2021.08.0¶
发布于 2021 年 8 月 13 日

修复 to_orc 延迟计算行为 (dask#8035) Richard (Rick) Zamora
在 compute_as_if_collection 中不转换为低级任务图 (dask#7969) James Bourbeau
修复 hdf 的多文件读取 (dask#8033) Julia Signell
解决 distributed 测试中的警告 (dask#8025) James Bourbeau
更新 to_orc 集合名称 (dask#8024) James Bourbeau
解决 skipfooter 问题 (dask#7855) Ross
对传递给 to_datetime 的不可索引参数抛出 NotImplementedError (dask#7989) Doug Davis
确保对来自 distributed 的警告报告错误 (dask#8002) James Bourbeau
在 DataFrame 的 to_bag 辅助功能中添加 dict 格式 (dask#7932) gurunath
Delayed 文档的间接依赖项 (dask#8016) aa1371
为 graphviz 高级图添加工具提示 (dask#7973) Freyam Mehta
关闭 2021 用户调查 (dask#8007) Julia Signell
将 CuPy 测试重组到多个文件中 (dask#8013) Peter Andreas Entschev
重构和扩展 Dask-Dataframe ORC API (dask#7756) Richard (Rick) Zamora
如果 enforce=False 则不强制执行列检查 (dask#7916) Julia Signell
修复当 drop_axis 不是 None 时 map_overlap 的修剪行为 (dask#7894) Gregory R. Lee
将 gpuCI CuPy 测试标记为不稳定 (dask#7994) Peter Andreas Entschev
避免在 to_csv 和 to_parquet 中使用 Delayed (dask#7968) Matthew Rocklin
移除冗余的 check_dtypes (dask#7952) gurunath
使用 pytest.warns 而不是 raises 检查 parquet 引擎废弃 (dask#7993) Joris Van den Bossche
将 gpuCI 中的 RAPIDS_VER 提高到 21.10 (dask#7991) Charles Blackmon-Luca
为 pyarrow>=5 重新添加 pyarrow-legacy 测试覆盖 (dask#7988) Richard (Rick) Zamora
在 to_parquet 和 read_parquet 中允许使用 pyarrow>=5 (dask#7967) Richard (Rick) Zamora
当 NumPy < 1.20 可用时，跳过需要 NEP-35 的 CuPy 测试 (dask#7982) Peter Andreas Entschev
向 SeriesGroupby 添加 tail 和 head (dask#7935) Daniel Mesejo-León
更新月度会议的 Zoom 链接 (dask#7979) James Bourbeau
添加 gpuCI 构建脚本 (dask#7966) Charles Blackmon-Luca
废弃 daily_stock 工具 (dask#7949) James Bourbeau
将 distributed.nanny 添加到配置参考文档中 (dask#7955) James Bourbeau
要求 NumPy 1.18+ 和 Pandas 1.0+ (dask#7939) John A Kirkham



2021.07.2¶
发布于 2021 年 7 月 30 日

注意
这是支持 NumPy 1.17 和 pandas 0.25 的最后一个版本。从下一版本开始，NumPy 1.18 和 pandas 1.0 将成为最低支持版本。


将 dask.array SVG 添加到 HTML Repr 中 (dask#7886) Freyam Mehta
避免在 to_parquet 中使用 Delayed (dask#7958) Matthew Rocklin
在 CI 中暂时固定 pyarrow<5 (dask#7960) James Bourbeau
为顶层 ucx 和 rmm 配置值添加废弃警告 (dask#7956) James Bourbeau
移除 doctest 中的跳过 (4/6) (dask#7865) Zhengnan Zhao
移除 doctest 中的跳过 (5/6) (dask#7864) Zhengnan Zhao
向 da.diff 添加缺失的前置/后置功能 (dask#7946) Peter Andreas Entschev
将 graphviz 字体系列更改为 sans (dask#7931) Freyam Mehta
修复 read-csv 名称 - 当路径不同时，为任务使用不同的名称 (dask#7942) Julia Signell
更新 ucx 和 rmm 更改的配置参考 (dask#7943) James Bourbeau
向 __setitem__ 添加 meta 支持 (dask#7940) Peter Andreas Entschev
slice_with_int_dask_array 的 NEP-35 支持 (dask#7927) Peter Andreas Entschev
解除 CI 中的 fastparquet 固定 (dask#7928) James Bourbeau
移除 doctest 中的跳过 (3/6) (dask#7872) Zhengnan Zhao



2021.07.1¶
发布于 2021 年 7 月 23 日

使 array assert_eq 检查 dtype (dask#7903) Julia Signell
移除 doctest 中的跳过 (6/6) (dask#7863) Zhengnan Zhao
移除 actors 文档中的实验性功能警告 (dask#7925) Matthew Rocklin
移除 doctest 中的跳过 (2/6) (dask#7873) Zhengnan Zhao
分离 Array 和 Bag API (dask#7917) Julia Signell
实现 lazy Array.__iter__ (dask#7905) Julia Signell
清理无意中迭代数组的地方 (dask#7913) Julia Signell
向 DataFrame reductions 添加 numeric_only kwarg (dask#7831) Julia Signell
为 GPU 测试添加 pytest 标记 (dask#7876) Charles Blackmon-Luca
在 dask.array 中添加对 histogram2d 的支持 (dask#7827) Doug Davis
移除 doctest 中的跳过 (1/6) (dask#7874) Zhengnan Zhao
为高级图的 Graphviz 输出添加节点大小缩放 (dask#7869) Freyam Mehta
更新旧的 Bokeh 链接 (dask#7915) Bryan Van de Ven
在 CI 中暂时固定 fastparquet (dask#7907) James Bourbeau
向进度条文档添加 dask.array 导入 (dask#7910) Fabian Gebhart
为每个 DataFrame API 函数和方法使用单独的文件 (dask#7890) Julia Signell
修复 pyarrow-dataset 排序 bug (dask#7902) Richard (Rick) Zamora
泛化 unique aggregate (dask#7892) GALI PREM SAGAR
使用 pd.Grouper 时抛出 NotImplementedError (dask#7857) Ruben van de Geer
添加 aggregate_files 参数以在 read_parquet 中启用多文件分区 (dask#7557) Richard (Rick) Zamora
解除 test_daily_stock 的 xfail 标记 (dask#7895) James Bourbeau
更新访问配置文档 (dask#7837) Naty Clementi
使用 packaging 进行版本比较 (dask#7820) Elliott Sales de Andrade
处理 merge_asof 中的无限循环 (dask#7842) gerrymanoim



2021.07.0¶
发布于 2021 年 7 月 9 日

在上游 CI 构建中包含 fastparquet (dask#7884) James Bourbeau
Blockwise: 处理非字符串常量依赖项 (dask#7849) Mads R. B. Kristensen
fastparquet 现在支持新的时间类型，包括纳秒精度 (dask#7880) Martin Durant
在 ArrowDatasetEngine 中进行追加时避免使用 ParquetDataset API (dask#7544) Richard (Rick) Zamora
向 test_shuffle_priority 添加重试逻辑 (dask#7879) Richard (Rick) Zamora
在 CI 中使用严格的 channel 优先级 (dask#7878) James Bourbeau
支持嵌套的 dask.distributed 导入 (dask#7866) Matthew Rocklin
应该只检查模块名称，而不是整个目录的文件路径 (dask#7856) Genevieve Buckley
因 https://github.com/dask/fastparquet/pull/623 而进行的更新 (dask#7875) Martin Durant
da.eye 对 chunks=-1 的修复 (dask#7854) Naty Clementi
暂时将 test_daily_stock 标记为 xfail (dask#7858) James Bourbeau
在 SimpleShuffleLayer 中设置优先级标注 (dask#7846) Richard (Rick) Zamora
Blockwise: 将常量键输入转换为字符串 (dask#7838) Mads R. B. Kristensen
允许在 @guvectorize 中混合使用 dask 和 numpy 数组 (dask#6863) Julia Signell
在计算 shuffle 组大小时不对其 dict 结果进行抽样 (dask#7834) Florian Jetter
修复 scipy 测试 (dask#7841) Julia Signell
确定性地对 datetime.date 进行 tokenize (dask#7836) James Bourbeau
向类 read_csv 添加 sample_rows (dask#7825) Martin Durant
修复 config.deserialize docstring 中的拼写错误 (dask#7830) Geoffrey Lentner
移除 test_dataframe_picklable 中的警告过滤器 (dask#7822) James Bourbeau
改进 histogramdd (用于处理输入为数组序列的情况)。(dask#7634) Doug Davis
使 PY_VERSION 成为私有 (dask#7824) James Bourbeau



2021.06.2¶
发布于 2021 年 6 月 22 日

layers.py 比较 parts_out 与 set(self.parts_out) (dask#7787) Genevieve Buckley
使 check_meta 更好地理解 pandas dtypes (dask#7813) Julia Signell
移除“教育资源”文档页面 (dask#7818) James Bourbeau



2021.06.1¶
发布于 2021 年 6 月 18 日

将 funding 页面替换为 dask.org 上的“由…支持”部分 (dask#7817) James Bourbeau
添加初始的废弃工具 (dask#7810) James Bourbeau
在明确使用 dtype= 的 ufuncs 中强制执行 dtype 保留 (dask#7808) Doug Davis
将 Coiled 添加到付费支持组织列表中 (dask#7811) Kristopher Overholt
对 Layer 和 HighLevelGraph 的 HTML repr 进行微调 (dask#7812) Genevieve Buckley
向 HLG HTML repr 添加深色模式支持 (dask#7809) Jacob Tomlinson
移除对旧 distributed 的兼容性条目 (dask#7801) Elliott Sales de Andrade
实现 HighLevelGraph 层的 HTML repr (dask#7763) Genevieve Buckley
更新默认 blockwise token 以避免 DataFrame 列名冲突 (dask#6546) James Bourbeau
对 merge_asof 使用 dispatch concat (dask#7806) Julia Signell
修复上游 freq 测试 (dask#7795) Julia Signell
使用标准库中更多的上下文管理器 (dask#7796) James Bourbeau
简化 parquet 测试中的跳过 (dask#7802) Elliott Sales de Andrade
移除对过时 bokeh 的检查 (dask#7804) Elliott Sales de Andrade
更多测试覆盖率上传 (dask#7799) James Bourbeau
从 dask/__init__.py 中移除 ImportError 捕获 (dask#7797) James Bourbeau
允许 DataFrame.join() 接受一个 DataFrame 列表进行合并 (dask#7578) Krishan Bhasin
修复 dask.array.linspace 中的最大递归深度异常 (dask#7667) Daniel Mesejo-León
修复文档链接 (dask#7794) Julia Signell
初始的 da.select() 实现和测试 (dask#7760) Gabriel Miretti
层必须实现 get_output_keys 方法 (dask#7790) Genevieve Buckley
不要在 division 中包含或期望 freq (dask#7785) Julia Signell
map_overlap 的 HighLevelGraph 抽象层 (dask#7595) Genevieve Buckley
在 drop 中始终包含 kwarg 名称 (dask#7784) Julia Signell
仅在需要时对 median 进行 rechunk (dask#7782) Julia Signell
向 DataFrame 和 Series 添加 add_(prefix|suffix) (dask#7745) tsuga
将 read_hdf 移动到 Blockwise (dask#7625) Richard (Rick) Zamora
正式将 Layer.get_output_keys 设为抽象方法 (dask#7775) Genevieve Buckley
ravel_multi_index 中的非 dask 数组和广播 (dask#7594) Gabe Joseph
修复 parquet 覆盖中以“/”结尾的路径问题 (dask#7773) Martin Durant
修复使用 filename=None 调用 .visualize() 的问题 (dask#7740) Freyam Mehta
为 SubgraphCallable 生成唯一的名称 (dask#7637) Bruce Merry
在 CI 中将 fsspec 固定到 2021.5.0 (dask#7771) James Bourbeau
如果在 from_delayed 中提供了 meta，则延迟评估图 (dask#7769) Florian Jetter
为 DatetimeTZDtype 添加 meta 支持 (dask#7627) gerrymanoim
向自动 PR 标签器添加 dispatch 标签 (dask#7701) James Bourbeau
修复 HDFS 测试 (dask#7752) Julia Signell



2021.06.0¶
发布于 2021 年 6 月 4 日

在 rewrite_blockwise 的图键中移除抽象令牌 (dask#7721) Richard (Rick) Zamora
确保 csv project_columns 中的列顺序正确 (dask#7761) Richard (Rick) Zamora
重命名内部循环变量以避免重复 (dask#7741) Boaz Mohar
不要从 to_zarr 返回延迟对象 (dask#7738) Chris Roat
Array: 在 apply_gufunc 中输出数量正确 (dask#7669) Gabe Joseph
使用 da.blockwise 重写 da.fromfunction (dask#7704) John A Kirkham
将 make_meta_util 重命名为 make_meta (dask#7743) GALI PREM SAGAR
如果请求的分区少于输入分区，则在 shuffle 前重新分区 (dask#7715) Vibhu Jawa
Blockwise: 处理常量键输入 (dask#7734) Mads R. B. Kristensen
在 apply_gufunc 中添加了 raise (dask#7744) Boaz Mohar
在 CI 中显示失败测试摘要 (dask#7735) Genevieve Buckley
Python 3.9 中集合的 sizeof (dask#7739) Mads R. B. Kristensen
如果在 dataframe.__getitem__ 中使用 pandas 日期时间字符串则发出警告 (dask#7749) Julia Signell
突出显示 client.dashboard_link (dask#7747) Genevieve Buckley
订阅 Google 日历的更便捷链接 (dask#7733) Genevieve Buckley
在 Jupyter notebook 中自动显示图可视化 (dask#7716) Genevieve Buckley
在 API 文档中为 unify_chunks 添加 autofunction (dask#7730) James Bourbeau



2021.05.1¶
发布于 2021 年 5 月 28 日

Pandas 兼容性 (dask#7712) Julia Signell
修复 optimize_dataframe_getitem 错误 (dask#7698) Richard (Rick) Zamora
更新文档中的 make_meta 导入 (dask#7713) Benjamin Zaitlen
实现 da.searchsorted (dask#7696) Tom White
修复错误消息中的格式字符串 (dask#7706) Jiaming Yuan
修复 read_sql_table 在加载单列时返回错误结果的问题 (dask#7572) c-thiel
在 support.rst 中添加 slack 加入链接 (dask#7679) Naty Clementi
移除未使用的 alphabet 变量 (dask#7700) James Bourbeau
修复 object 情况下的 meta 创建问题 (dask#7586) GALI PREM SAGAR
为 union_categoricals 添加分派 (dask#7699) GALI PREM SAGAR
整合 array Dispatch 对象 (dask#7505) James Bourbeau
将 DataFrame dispatch.registers 移至独立文件 (dask#7503) Julia Signell
修复 dataclasses 中当 init=False 时 delayed 的问题 (dask#7656) Julia Signell
允许列命名为 divisions (dask#7605) Julia Signell
堆叠具有未知块的 nd 数组 (dask#7562) Chris Roat
宣传 2021 Dask 用户调查 (dask#7694) Genevieve Buckley
修复 DataFrame.set_index() 中的拼写错误 (dask#7691) James Lamb
清理 array API 参考链接 (dask#7684) David Hoese
接受 flip 的 axis 元组，与 NumPy 保持一致 (dask#7675) Andrew Champion
提升 pre-commit hook 版本 (dask#7676) James Bourbeau
清理 to_zarr 的文档字符串 (dask#7683) David Hoese
修复 read_orc 的文档字符串 (dask#7678) Justus Magin
文档 ipyparallel 和 mpi4py concurrent.futures (dask#7665) John A Kirkham
更新测试以支持 CuPy 9 (dask#7671) Peter Andreas Entschev
修复 HighLevelGraph 文档中的一些不准确之处 (dask#7662) Mads R. B. Kristensen
修复 Series getitem 错误消息中的拼写错误 (dask#7659) Maisie Marshall



2021.05.0¶
发布于 2021 年 5 月 14 日

移除已废弃的 kind 关键字参数以符合 pandas 1.3.0 (dask#7653) Julia Signell
修复 DataFrame 列投影中的错误 (dask#7645) Richard (Rick) Zamora
打包时合并全局注解 (dask#7565) Mads R. B. Kristensen
避免在 pandas set_categories 中使用 inplace= (dask#7633) James Bourbeau
将 Dask-Dataframe 的 active-fusion 默认值更改为 False (dask#7620) Richard (Rick) Zamora
Array: 移除 RandomState 中的无关代码 (dask#7487) Gabe Joseph
实现 str.concat 当 others=None 时 (dask#7623) Daniel Mesejo-León
修复沙盒环境中的 dask.dataframe (dask#7601) Noah D. Brenowitz
支持 cupyx.scipy.linalg (dask#7563) Benjamin Zaitlen
将 timeseries 和 daily-stock 移至 Blockwise (dask#7615) Richard (Rick) Zamora
修复广播连接中的错误 (dask#7617) Richard (Rick) Zamora
对 DataFrame IO (parquet, csv, 和 orc) 使用 Blockwise (dask#7415) Richard (Rick) Zamora
将块和类型信息添加到 Dask HighLevelGraph s (dask#7309) Genevieve Buckley
添加 pyarrow sphinx intersphinx_mapping (dask#7612) Ray Bell
移除对测试频率的跳过 (dask#7608) Julia Signell
read_parquet 参数中的默认值 (dask#7567) Ray Bell
移除 ignore_abc_warning (dask#7606) Julia Signell
加强 DataFrame 列选择和索引之间的合并 (dask#7575) Richard (Rick) Zamora
移除 ignore_abc 装饰器 (dask#7604) Julia Signell
移除 bokeh 的关键字参数验证 (dask#7597) Julia Signell
添加 loky 示例 (dask#7590) Naty Clementi
Delayed: 参数变为任务时的 nout (dask#7593) Gabe Joseph
在 mindep CI 构建中更新 distributed 版本 (dask#7602) James Bourbeau
支持分区列和实际列之间全部或无重叠 (dask#7541) Richard (Rick) Zamora



2021.04.1¶
发布于 2021 年 4 月 23 日

处理 Blockwise HLG 的打包/解包，用于 concatenate=True (dask#7455) Richard (Rick) Zamora
map_partitions: 使用标记化信息作为 SubgraphCallable 的名称 (dask#7524) Mads R. B. Kristensen
使用 tmp_path 和 tmpdir 避免临时文件和目录留在仓库中 (dask#7592) Naty Clementi
贡献文档（开发指南） (dask#7591) Naty Clementi
为 Python 3.9 CI 构建添加更多软件包 (dask#7588) James Bourbeau
Array: 修复 finalize 中的 NEP-18 分派 (dask#7508) Gabe Joseph
对 numpydoc 的杂项修复 (dask#7569) Matthias Bussonnier
避免 pandas level= 关键字废弃 (dask#7577) James Bourbeau
将例如 .repartition(freq="M") 映射到 .repartition(freq="MS") (dask#7504) Ruben van de Geer
移除并行 CI 运行中的哈希种子设置 (dask#7128) Elliott Sales de Andrade
在 to_parquet 参数中添加默认值 (dask#7564) Ray Bell
简化转置轴清理 (dask#7561) Julia Signell
明确说明 len(index_names) > 1 的 ValueError 正在使用 fastparquet (dask#7556) Ray Bell
修复 pyarrow parquet 引擎的 dict-列附加问题 (dask#7527) Richard (Rick) Zamora
添加文档自动标签 (dask#7560) Doug Davis
将 dask.delayed.Delayed 添加到文档中，以便其他 sphinx 文档可以引用它 (dask#7559) Doug Davis
修复上游 idxmaxmin 不均匀时的 split_every (dask#7538) Julia Signell
使 pandas Series/DataFrame 的 normalize_token 更具未来性（无直接块访问） (dask#7318) Joris Van den Bossche
重新设计的 __setitem__ 实现 (dask#7393) David Hassell
histogram, histogramdd 改进（文档；返回一致性） (dask#7520) Doug Davis
在上游构建中强制使用每夜版 pyarrow (dask#7530) Joris Van den Bossche
修复配置参考 (dask#7533) Benjamin Zaitlen
在文档字符串中使用 dask.dataframe 的 .to_parquet (dask#7528) Ray Bell
避免 HLGs 的双重 msgpack 序列化 (dask#7525) Mads R. B. Kristensen
鼓励在配置文档中使用 yaml.safe_load() (dask#7529) Hristo Georgiev
修复 reshape 错误。添加相关测试。修复 #7171。 (dask#7523) JSKenyon
支持 to_parquet 中的 custom_metadata= 参数 (dask#7359) Richard (Rick) Zamora
清理一些文档警告 (dask#7518) Daniel Mesejo-León
消除更多文档警告 (dask#7426) Julia Signell
添加了 product（别名 prod） (dask#7517) Freyam Mehta
修复上游 __array_ufunc__ 测试 (dask#7494) Julia Signell
如果深度为零，则从 map_overlap 逃逸到 map_blocks (dask#7481) Genevieve Buckley
将 check_type 添加到数组 assert_eq (dask#7491) Julia Signell



2021.04.0¶
发布于 2021 年 4 月 2 日

添加对多维直方图的支持，使用 dask.array.histogramdd (dask#7387) Doug Davis
更新默认 LocalCluster 中线程和工作进程数量的文档 (dask#7497) cameron16
当 PR 中触及特定文件时自动添加标签 (dask#7506) Julia Signell
从 kwargs 中提取 ignore_order (dask#7500) GALI PREM SAGAR
仅在缺少 distributed 时提供安装说明 (dask#7498) Matthew Rocklin
开始添加 isort (dask#7370) Julia Signell
在 dd.concat 中添加 ignore_order 参数 (dask#7473) Daniel Mesejo-León
显示 RAM 时使用 2 的幂 (dask#7484) crusaderky
添加许可证分类器 (dask#7485) Tom Augspurger
将 conda 替换为 mamba (dask#7227) crusaderky
修复 array 文档中的拼写错误 (dask#7478) James Lamb
在本地调度器中使用 concurrent.futures (dask#6322) John A Kirkham



2021.03.1¶
发布于 2021 年 3 月 26 日

添加一个 is_categorical_dtype 的分派以处理非 pandas 对象 (dask#7469) brandon-b-miller
在 test_read_text 中使用 multiprocessing.Pool (dask#7472) John A Kirkham
为 gufunc 类添加缺失的 meta 关键字参数 (dask#7423) Peter Andreas Entschev
内存映射 Dask 数组的示例 (dask#7380) Dieter Weber
修复 NumPy 上游故障，xfail pandas 和 fastparquet 故障 (dask#7441) Julia Signell
修复 repartition 中使用 freq 时的错误 (dask#7357) Ruben van de Geer
修复 tril/triu 的 __array_function__ 分派 (dask#7457) Peter Andreas Entschev
在少量测试中使用 concurrent.futures.Executors (dask#7429) John A Kirkham
要求 NumPy >=1.16 (dask#7383) crusaderky
微小的 sort_values 整理 (dask#7462) Ryan Williams
确保 parquet 部分路径中的自然排序顺序 (dask#7249) Ryan Williams
运行 test_config.py 时移除全局环境变量修改 (dask#7464) Hristo Georgiev
更新 NumPy intersphinx URL (dask#7460) Gabe Joseph
添加 rot90 (dask#7440) Trevor Manz
更新 endpoint 所需软件包的文档 (dask#7454) Nick Vazquez
slice_array 文档字符串中的 Master -> main (dask#7453) Gabe Joseph
扩展 dask.utils.is_arraylike 文档字符串 (dask#7445) Doug Davis
简化 BlockwiseIODeps 导入 (dask#7420) Richard (Rick) Zamora
更新层注解打包方法 (dask#7430) James Bourbeau
在 test_describe_empty 中移除重复测试 (dask#7431) John A Kirkham
将 Series.dot 方法添加到 dataframe 模块 (dask#7236) Madhu94
添加了 df 的 kurtosis 方法和测试 (dask#7273) Jan Borchmann
避免 HLG 剔除的二次时间性能 (dask#7403) Bruce Merry
暂时跳过有问题的 sparse 测试 (dask#7421) James Bourbeau
更新一些 CI 工作流名称 (dask#7422) James Bourbeau
修复 HDFS 测试 (dask#7418) Julia Signell
使变更日志副标题与层级结构匹配 (dask#7419) Julia Signell
在 value_counts 中添加对 normalize 的支持 (dask#7342) Julia Signell
避免 HLG 层解包和实例化时的不必要导入 (dask#7381) Richard (Rick) Zamora
Bincount 切片修复 (dask#7391) Genevieve Buckley
添加 sliding_window_view (dask#7234) Deepak Cherian
修复 docs/source/develop.rst 中的拼写错误 (dask#7414) Hristo Georgiev
将 PR 的文档构建切换到 readthedocs (dask#7397) James Bourbeau
将 sort_values 添加到 dask.DataFrame (dask#7286) gerrymanoim
在 CI 中锁定 sqlalchemy<1.4.0 版本 (dask#7405) James Bourbeau
注释修复 (dask#7215) Ryan Williams
死代码移除/修复 (dask#7388) Ryan Williams
对 pa.Table.from_pandas 调用使用单线程 (dask#7347) Richard (Rick) Zamora
将 'container' 替换为 'image' (dask#7389) James Lamb
文档超链接 repartition (dask#7394) Ray Bell
在 bag.read_text 中将分隔符传递给 fsspec (dask#7349) Martin Durant
将 read_hdf 的默认模式更新为 "r" (dask#7039) rs9w33
打包时将字面值嵌入到 SubgraphCallable 中 (dask#7353) Mads R. B. Kristensen
更新 test_hdf.py 以不重复使用文件句柄 (dask#7044) rs9w33
要求额外依赖项：cloudpickle, partd, fsspec, toolz (dask#7345) Julia Signell
准备 Blockwise + IO 基础设施 (dask#7281) Richard (Rick) Zamora
移除 test_slicing.py 中的重复导入 (dask#7365) Hristo Georgiev
为 pip 开发添加测试依赖项 (dask#7360) Julia Signell
支持对非 NumPy 数组进行整数切片 (dask#7364) Peter Andreas Entschev
自动取消之前的 CI 构建 (dask#7348) James Bourbeau
dask.array.asarray 应处理 xarray 类在顶级命名空间中的情况 (dask#7335) Tom White
HighLevelGraph 的长度，无需实例化层 (dask#7274) Gabe Joseph
停止支持 Python 3.6 (dask#7006) James Bourbeau
修复 create_metadata_file 中 fsspec 的使用 (dask#7295) Richard (Rick) Zamora
将默认分支从 master 更改为 main (dask#7198) Julia Signell
将 Xarray 添加到 CI 软件环境 (dask#7338) James Bourbeau
更新错误文本中的 repartition 参数名称 (dask#7336) Eoin Shanaghy
根据 commit 消息运行上游测试 (dask#7329) James Bourbeau
在 util 模块上使用 pytest.register_assert_rewrite (dask#7278) Bruce Merry
添加在 from_array() 中使用特定块大小的示例 (dask#7330) James Lamb
将 NumPy 跳过移至测试中 (dask#7247) Julia Signell



2021.03.0¶
发布于 2021 年 3 月 5 日

注意
这是第一个支持 Python 3.9 的版本，也是最后一个支持 Python 3.6 的版本


提升 distributed 的最低版本 (dask#7328) James Bourbeau
修复 percentiles_summary 与 dask_cudf 的问题 (dask#7325) Peter Andreas Entschev
暂时恢复最近的 Array.__setitem__ 更新 (dask#7326) James Bourbeau
Blockwise.clone (dask#7312) crusaderky
NEP-35 duck array 更新 (dask#7321) James Bourbeau
不允许为数组设置 .name (dask#7222) Julia Signell
使用最近邻插值创建整数输入的百分位数 (dask#7305) Kyle Barron
测试 exp 使用 CuPy 数组 (dask#7322) John A Kirkham
检查计算出的块是否具有正确的尺寸和 dtype (dask#7277) Bruce Merry
pytest.mark.flaky (dask#7319) crusaderky
贡献文档：添加说明，在 pip 安装 Dask 之前拉取最新的 git 标签 (dask#7308) Genevieve Buckley
支持 Python 3.9 (dask#7289) crusaderky
添加基于广播的合并实现 (dask#7143) Richard (Rick) Zamora
将 split_every 添加到 graph_manipulation (dask#7282) crusaderky
optimize 文档中的拼写错误 (dask#7306) Julius Busecke
dask.graph_manipulation 支持 xarray.Dataset (dask#7276) crusaderky
添加对 Bokeh 2.3.0 图形宽度和高度的支持 (dask#7297) James Bourbeau
添加 NumPy 函数 tri, triu_indices, triu_indices_from, tril_indices, tril_indices_from (dask#6997) Illviljan
移除 DataFrame 磁盘 shuffle 中的“清理”任务 (dask#7260) Sinclair Target
在 CI 中使用开发版本的 distributed (dask#7279) James Bourbeau
移动 Dask 高层图打包/解包 (dask#7179) Mads R. B. Kristensen
提升 merge_percentiles 的性能 (dask#7172) Ashwin Srinath
文档：添加 dask-sql 和 fugue (dask#7129) Ray Bell
使用 categorical 和 parquet 的示例 (dask#7085) McToel
为 bincount 添加树状归约 (dask#7183) Thomas J. Fan
改进 from_array 中 name 的文档 (dask#7264) Bruce Merry
修复空分区的 cumsum (dask#7230) Julia Signell
为 dask array 创建文档添加 map_blocks 示例 (dask#7221) Julia Signell
修复 dask.graph_manipulation.wait_on() 中的性能问题 (dask#7258) crusaderky
将 coveralls 替换为 codecov.io (dask#7246) crusaderky
在 pre-commit 中锁定特定 black 版本 (dask#7256) Julia Signell
文档中的小错误：array-chunks.rst (dask#7254) Magnus Nord
修复 Blockwise 和 ShuffleLayer 中的错误 (dask#7213) Richard (Rick) Zamora
修复 "pyarrow-dataset" 的 parquet 过滤错误，使用 pyarrow-3.0.0 (dask#7200) Richard (Rick) Zamora
graph_manipulation 不使用 NumPy (dask#7243) crusaderky
支持 NEP-35 (dask#6738) Peter Andreas Entschev
在 doctest CI 构建期间避免运行单元测试 (dask#7240) James Bourbeau
在 CI 上运行 doctest (dask#7238) Julia Signell
清理集合运算的代码质量 (dask#7196) crusaderky
添加 dask.array.delete (dask#7125) Julia Signell
新的 conda-forge recipe 构建完成后取消锁定 graphviz (dask#7235) Julia Signell
在 Mac 上不使用来自 conda-forge 的 NumPy 1.20 (dask#7211) crusaderky
map_overlap: 不要重新分块没有重叠的轴 (dask#7233) Deepak Cherian
锁定 graphviz 版本以避免最新的 conda-forge 构建问题 (dask#7232) Julia Signell
在文档中使用 html_css_files 用于自定义 CSS (dask#7220) James Bourbeau
图操作：clone, bind, checkpoint, wait_on (dask#7109) crusaderky
修复 parquet pyarrow-dataset 引擎中过滤表达式的处理 (dask#7186) Joris Van den Bossche
扩展 __setitem__ 使其更接近 numpy (dask#7033) David Hassell
清理 Python 2 语法 (dask#7195) crusaderky
修复 Delayed._length 中的回归问题 (dask#7194) crusaderky
__dask_layers__() 测试和调整 (dask#7177) crusaderky
在多进程调度器中正确转换 HighLevelGraph (dask#7191) Jim Crist-Harif
在 CI 中不快速失败 (dask#7188) James Bourbeau



2021.02.0¶
发布于 2021 年 2 月 5 日

添加对 NEP-35 的 percentile 支持 (dask#7162) Peter Andreas Entschev
在列赋值中添加了对 Float64 的支持 (dask#7173) Nils Braun
Coarsen rechunking 错误 (dask#7127) Davis Bennett
修复上游 CI 测试 (dask#6896) Julia Signell
修订 HighLevelGraph Mapping API (dask#7160) crusaderky
更新低层图规范以使用任何可哈希对象作为键 (dask#7163) James Bourbeau
使用不同的键通用地重建集合 (dask#7142) crusaderky
使在 PR 中链接 issues 更容易 (dask#7130) Ray Bell
添加 dask.array.append (dask#7146) D-Stacks
允许 dask.array.ravel 接受 array_like 参数 (dask#7138) D-Stacks
修复数组设计文档中的链接 (dask#7152) Thomas J. Fan
修复使用 blockwise 进行外积的示例 (dask#7119) Bruce Merry
弃用 HighlevelGraph.dicts 转而使用 .layers (dask#7145) Amit Kumar
使 FastParquetEngine 与 pyarrow 引擎对齐 (dask#7091) Richard (Rick) Zamora
合并注解 (dask#7102) Ian Rose
简化 read_parquet 中 parts 列表的内容 (dask#7066) Richard (Rick) Zamora
check_meta(): 检查 DataFrame 类型时使用 __class__ (dask#7099) Mads R. B. Kristensen
缓存多个属性 (dask#7104) Illviljan
修复 parquet getitem 优化 (dask#7106) Richard (Rick) Zamora
将 cytoolz 重新添加到 CI 环境 (dask#7103) James Bourbeau



2021.01.1¶
发布于 2021 年 1 月 22 日

部分修复 cumprod (dask#7089) Julia Signell
测试 pandas 1.1.x / 1.2.0 版本和 pandas nightly (dask#6996) Joris Van den Bossche
使用 assign 避免 SettingWithCopyWarning (dask#7092) Julia Signell
'mode' 参数传递给 bokeh.output_file() (dask#7034) (dask#7075) patquem
在执行 groupby.value_counts 时跳过空分区 (dask#7073) Julia Signell
向 assert_eq() 添加错误消息 (dask#7083) James Lamb
使缓存属性只读 (dask#7077) Illviljan



2021.01.0¶
发布于 2021 年 1 月 15 日

map_partitions 带有评审意见 (dask#6776) Kumar Bharath Prabhu
确保 population 是一个真实的列表 (dask#7027) Julia Signell
在 read_csv 中传播 storage_options (dask#7074) Richard (Rick) Zamora
移除所有 BlockwiseIO 代码 (dask#7067) Richard (Rick) Zamora
修复 CI (dask#7069) James Bourbeau
在 reshape 中添加控制 rechunking 的选项 (dask#6753) Tom Augspurger
修复复杂输入的 linalg.lstsq 问题 (dask#7056) Johnnie Gray
添加 read_csv 的 compression='infer' 默认值 (dask#6960) Richard (Rick) Zamora
恢复 svd_compressed 的参数更改 #7003 (dask#7004) Eric Czech
跳过失败的 s3 测试 (dask#7064) Martin Durant
恢复 BlockwiseIO (dask#7048) Richard (Rick) Zamora
添加一些交叉引用到 DataFrame.to_bag() 和 Series.to_bag() (dask#7049) Rob Malouf
将 matmul 重写为不带收缩/拼接的 blockwise (dask#7000) Rafal Wojdyla
在 da.shape 中使用 functools.cached_property (dask#7023) Illviljan
在 series non_empty 中使用 meta 值 (dask#6976) Julia Signell
恢复“临时锁定 sphinx 版本到 3.3.1 (dask#7002)” (dask#7014) Rafal Wojdyla
恢复 python-graphviz 锁定版本 (dask#7037) Julia Signell
意外提交的 print 语句 (dask#7038) Julia Signell
在 agg 中传递 dropna 和 observed (dask#6992) Julia Signell
在使用 expand 的 .str.split 后将 index 添加到 meta (dask#7026) Ruben van de Geer
CI: 测试 pyarrow 2.0 和 nightly (dask#7030) Joris Van den Bossche
临时锁定 python-graphviz 版本在 CI 中 (dask#7031) James Bourbeau
在 numpydoc 中给章节加下划线 (dask#7013) Matthias Bussonnier
添加自定义优化时保留正常优化 (dask#7016) Matthew Rocklin
临时锁定 sphinx 版本到 3.3.1 (dask#7002) Rafal Wojdyla
文档：杂项格式化 (dask#6998) Matthias Bussonnier
在 from_array 中添加 inline_array 选项 (dask#6773) Tom Augspurger
恢复“blockwise 数组创建例程的首次尝试 (dask#6931)” (dask#6995) James Bourbeau
在 set_index 中设置 npartitions (dask#6978) Julia Signell
上游 config 序列化和继承 (dask#6987) Jacob Tomlinson
在 test_minimum_time 中提升最小时间 (dask#6988) Martin Durant
修复 read_parquet 的 pandas dtype 推断 (dask#6985) Richard (Rick) Zamora
避免在 set_index 中使用 sorted=True 时的数据丢失 (dask#6980) Richard (Rick) Zamora
read_parquet 中的错误修复，用于处理使用 index=False 的无名索引 (dask#6969) Richard (Rick) Zamora
比较元数据时使用 __class__ (dask#6981) Mads R. B. Kristensen
比较字符串版本不总是有效 (dask#6979) Rafal Wojdyla
修复 dask#6925 (dask#6982) sdementen
blockwise 数组创建例程的首次尝试 (dask#6931) Ian Rose
简化 has_parallel_type() (dask#6927) Mads R. B. Kristensen
处理 BlockwiseIO 中的注解解包 (dask#6934) Simon Perkins
避免在 test_sql.py 中使用废弃的 yield_fixture (dask#6968) Richard (Rick) Zamora
移除 BlockwiseIO 中的不良图逻辑 (dask#6933) Richard (Rick) Zamora
如果变量是 None 则获取配置项 (dask#6862) Jacob Tomlinson
更新 from_pandas 的文档字符串 (dask#6957) Richard (Rick) Zamora
防止 fuse_roots 覆盖注解 (dask#6955) Simon Perkins



2020.12.0¶
发布于 2020 年 12 月 10 日

重点¶

版本控制方案切换到 CalVer。
引入新的 HighLevelGraph API，以支持将任务图的高层表示发送到分布式调度器。
引入新的 HighLevelGraph 层对象，包括 BasicLayer, Blockwise, BlockwiseIO, ShuffleLayer, 等等。
添加了对使用 dask.annotations 上下文管理器应用自定义 Layer 级别注解（如 priority, retries 等）的支持。
将 pandas 的最低支持版本更新到 0.25.0，NumPy 更新到 1.15.1。
支持将 pyarrow.dataset API 应用到 read_parquet。
修复了 Dask Array SVD 的多个问题。



所有更改¶

observed 关键字参数可选 (dask#6952) Julia Signell
最低支持 pandas 0.25.0 numpy 1.15.1 (dask#6895) Julia Signell
使分类变量的顺序明确 (dask#6949) Julia Signell
改进 read_parquet 的 “pyarrow-dataset” 统计性能 (dask#6918) Richard (Rick) Zamora
向 groupby 添加 observed 关键字 (dask#6854) Julia Signell
确保 include_path_column 在每个文件有多个分区时工作 (dask#6911) Julia Signell
修复：当深度为无符号位类型时，array.overlap 和 array.map_overlap 的块大小错误 (dask#6909) GFleishman
修复 HLG 文档示例中的语法错误 (dask#6946) Mark
从 sample 返回一个 Bag (dask#6941) Shang Wang
添加 ravel_multi_index (dask#6939) Illviljan
并行启用 parquet 元数据收集 (dask#6921) Richard (Rick) Zamora
如果 _file 为 None 则避免在 progressbar 中使用它 (dask#6938) Mark Harfouche
将 Zarr 添加到上游 CI 构建 (dask#6932) James Bourbeau
引入 BlockwiseIO 层 (dask#6878) Richard (Rick) Zamora
将 Layer 注解传输到调度器 (dask#6889) Simon Perkins
更新机会性缓存页面以移除实验性警告 (dask#6926) Timost
允许 pyarrow >2.0.0 (dask#6772) Richard (Rick) Zamora
支持 read_parquet 的 pyarrow.dataset API (dask#6534) Richard (Rick) Zamora
当缩减因子不能整除形状时，为 da.coarsen 添加更具描述性的错误消息 (dask#6908) Davis Bennett
仅在 dask/dask 上运行定时 CI，而非 fork (dask#6905) Jacob Tomlinson
向 ShuffleLayers 添加 annotations (dask#6913) Matthew Rocklin
临时预期 test_from_s3 失败 (dask#6915) James Bourbeau
添加了 dataframe skew 方法 (dask#6881) Jan Borchmann
修复数组 meta 中的 dtype (dask#6893) Julia Signell
helm install ... 中缺少 name 参数 (dask#6903) Ruben van de Geer
修复：读取带过滤器的项时出现异常 (dask#6901) Martin Durant
添加对 cupyx 稀疏矩阵的支持到 dask.array.dot (dask#6846) Akira Naruse
稍微提高 array mindeps 以使测试通过 [test-mindeps] (dask#6894) Julia Signell
更新/移除 mindeps 中的 pandas 和 numpy (dask#6888) Julia Signell
修复使用 clear_known_categories 时的 ArrowEngine 错误 (dask#6887) Richard (Rick) Zamora
修复关于任务调度器的文档 (dask#6879) Zhengnan Zhao
添加人类可读的相对时间格式化工具 (dask#6883) Jacob Tomlinson
6864 set_index 问题的可能修复 (dask#6866) Richard (Rick) Zamora
BasicLayer：移除依赖参数 (dask#6859) Mads R. B. Kristensen
Blockwise 的序列化 (dask#6848) Mads R. B. Kristensen
解决 columns=[] 错误 (dask#6871) Richard (Rick) Zamora
避免重复的 parquet schema 通信 (dask#6841) Richard (Rick) Zamora
为现有 parquet 数据集添加 create_metadata_file 工具 (dask#6851) Richard (Rick) Zamora
改进具有共同终点的工作负载的排序 (dask#6779) Tom Augspurger
将工具函数转换为字符串 (dask#6852) Mads R. B. Kristensen
向 to_parquet 添加关键字 overwrite=True，以便在覆盖 pyarrow Dataset 时移除悬空文件。 (dask#6825) Greg Hayes
移除 map_tasks() 和 map_basic_layers() (dask#6853) Mads R. B. Kristensen
向 svd_compressed 引入 QR 迭代 (dask#6813) RogerMoens
__dask_distributed_pack__() 现在接受 client 参数 (dask#6850) Mads R. B. Kristensen
在 set_index 中使用 map_partitions 代替 delayed (dask#6837) Mads R. B. Kristensen
为 as_completed().update(futures) 添加文档示例 (dask#6817) manuels
提高 GHA setup-miniconda 版本 (dask#6847) Jacob Tomlinson
设置排序索引时移除 NaN 值 (dask#6829) Rockwell Weiner
修复 SVD 中 u 的转置 (dask#6799) RogerMoens
迁移到 GitHub Actions (dask#6794) Jacob Tomlinson
修复 sphinx currentmodule 用法 (dask#6839) James Bourbeau
修复最小依赖 CI 构建 (dask#6838) James Bourbeau
在 Blockwise 剪枝期间避免图具象化 (dask#6815) Richard (Rick) Zamora
修复了拼写错误 (dask#6834) Devanshu Desai
在 collections_to_dsk 中使用 HighLevelGraph.merge (dask#6836) Mads R. B. Kristensen
在 svd compression_matrix #2849 中遵守 dtype (dask#6802) RogerMoens
向任务名称添加块大小 (dask#6818) Julia Signell
检查全 NaN 分区 (dask#6821) Rockwell Weiner
将“机构”SQL 文档部分更改为指向主要 SQL 文档 (dask#6823) Martin Durant
修复：DataFrame.join 不接受 Series 作为 other 参数 (dask#6809) David Katz
从 to_parquet 移除 to_delayed 操作 (dask#6801) Richard (Rick) Zamora
Layer 注解 docstring 改进 (dask#6806) Simon Perkins
Avro 读取器 (dask#6780) Martin Durant
如果最小块大小小于深度，则对数组进行 rechunk (dask#6708) Julia Signell
添加 Layer 注解 (dask#6767) Simon Perkins
向文档添加“查看代码”链接 (dask#6793) manuels
向 Blockwise 层添加可选的 IO 子图 (dask#6715) Richard (Rick) Zamora
添加分布式的高级图 pack/unpack (dask#6786) Mads R. B. Kristensen
添加 DataFrame API 中缺失的方法 (dask#6789) Stephannie Jimenez Gacha
添加关于环境管理的文档 (dask#6778) Martin Durant
HLG: get_all_external_keys() (dask#6774) Mads R. B. Kristensen
在 chunksize=1 的 reshape 中避免 rechunk (dask#6748) Tom Augspurger
尝试使分类变量在 join 中工作 (dask#6205) Julia Signell
修复 array-slice.rst 中的一些小错误和尾随空格 (dask#6771) Magnus Nord
修复 parquet 元数据写入空 dataframe 分区时的 bug (pyarrow) (dask#6741) Callum Noble
在 map_blocks 和 map_overlap 中记录 meta 关键字参数。 (dask#6763) Peter Andreas Entschev
开始试验针对 cumsum 和 cumprod 的并行前缀扫描 (dask#6675) Erik Welch
澄清 dask 数组和 numpy 数组在布尔索引方面的差异 (dask#6764) Illviljan
Shuffle 层的高效序列化 (dask#6760) James Bourbeau
配置 array 优化以跳过融合并返回 HLG (dask#6751) Mads R. B. Kristensen
在 CI 中临时使用 pyarrow<2 (dask#6759) James Bourbeau
修复 min/max 归约的 meta (dask#6736) Peter Andreas Entschev
向 da.linalg.lstsq 添加 2D 可能性 - 模仿 numpy (dask#6749) Pascal Bourgault
CI: 修复导致 pivot 测试偶尔失败的 bug (dask#6752) Tom Augspurger
层的序列化 (dask#6693) Mads R. B. Kristensen
向 Series/DataFrame 添加 attrs 属性 (dask#6742) Illviljan
移除了可变默认参数 (dask#6747) Mads R. B. Kristensen
调整 parquet ArrowEngine 以便更容易派生用于写入的子类 (dask#6505) Joris Van den Bossche
添加 ShuffleStage HLG 层 (dask#6650) Richard (Rick) Zamora
在 meta_from_array 中处理 literal (dask#6731) Peter Andreas Entschev
即使 chunk 相同也进行均衡 rechunk (dask#6735) Chris Roat
修复 DataFrame.set_index 的 docstring (dask#6739) Gil Forsyth
确保 HighLevelGraph 层总是包含 Layer 实例 (dask#6716) James Bourbeau
在 HighLevelGraph 层上进行 Map 操作 (dask#6689) Mads R. B. Kristensen
更新 overlap *_like 函数调用和 CuPy 测试 (dask#6728) Peter Andreas Entschev
修复带 __array_function__ 的 svd 问题 (dask#6727) Peter Andreas Entschev
为文档添加 doctest 扩展 (dask#6397) Jim Circadian
使用 @pentschev 的建议对 #5628 进行小幅修复 (dask#6724) John A Kirkham
在 meta 类型更改时更改 Dask 数组的类型 (dask#5628) Matthew Rocklin
添加 az (dask#6719) Ray Bell
HLG: 获取单个 key 的 get_dependencies() (dask#6699) Mads R. B. Kristensen
撤销“撤销‘在所有集合中都使用 HighLevelGraph 层 (dask#6510)’ (dask#6697)” (dask#6707) Tom Augspurger
允许 *_like 数组创建函数尊重输入数组类型 (dask#6680) Genevieve Buckley
更新 dask-sphinx-theme 版本 (dask#6700) Gil Forsyth




2.30.0 / 2020-10-06¶

Array¶

允许 rechunk 平均分成 N 个块 (dask#6420) Scott Sievert




2.29.0 / 2020-10-02¶

Array¶

_repr_html_: 颜色侧面更深，而不是绘制所有线 (dask#6683) Julia Signell
移除 nanstd 和 nanvar 的警告 (dask#6667) Thomas J. Fan
从原始数组获取输出形状 - map_overlap (dask#6682) Julia Signell
在索引中将 np.searchsorted 替换为 bisect (dask#6669) Joachim B Haga



Bag¶

确保子进程对于 bag groupby 有一致的哈希值 (dask#6660) Itamar Turner-Trauring



Core¶

撤销“在所有集合中都使用 HighLevelGraph 层 (dask#6510)” (dask#6697) Tom Augspurger
使用 pandas.testing (dask#6687) John A Kirkham
改进测试中的 128 位浮点跳过 (dask#6676) Elliott Sales de Andrade



DataFrame¶

允许使用布尔 dataframe 设置 dataframe 项 (dask#6608) Julia Signell



Documentation¶

修复拼写错误 (dask#6692) garanews
修复一些拼写错误 (dask#6678) Pav A




2.28.0 / 2020-09-25¶

Array¶

部分撤销了导致大更改的 Array 索引更改。这将恢复 Dask 2.25.0 及更早版本的行为，并在生成大块时发出警告。提供了配置选项以避免创建大块，请参阅 Efficiency。 (dask#6665) Tom Augspurger
向 to_dask_array 添加 meta (dask#6651) Kyle Nicholson
修复 dask#6631 和 dask#6611 (dask#6632) Rafal Wojdyla
在数组归约中推断对象类型 (dask#6629) Daniel Saxton
向 svd_flip 添加 v_based 标志 (dask#6658) Eric Czech
修复不稳定的数组 mean (dask#6656) Sam Grayson



Core¶

从 SubgraphCallable.__eq__ 移除了 dsk 相等性检查 (dask#6666) Mads R. B. Kristensen
在所有集合中都使用 HighLevelGraph 层 (dask#6510) Mads R. B. Kristensen
为缓存目的向 SubgraphCallable 添加哈希双下划线方法 (dask#6424) Andrew Fulton
默认情况下停止写入注释掉的配置文件 (dask#6647) Matthew Rocklin



DataFrame¶

通过 agg API 添加对 collect list 聚合的支持 (dask#6655) Madhur Tandon
稍好一些的错误消息 (dask#6657) Julia Signell




2.27.0 / 2020-09-18¶

Array¶

在 svd 中保留 dtype (dask#6643) Eric Czech



Core¶

store(): 创建单个 HLG 层 (dask#6601) Mads R. B. Kristensen
添加 pre-commit CI 构建 (dask#6645) James Bourbeau
将 .pre-commit-config 更新到最新的 black。 (dask#6641) Julia Signell
更新 super 用法以移除 Python 2 兼容性 (dask#6630) Poruri Sai Rahul
移除 u 字符串前缀 (dask#6633) Poruri Sai Rahul



DataFrame¶

改进 to_sql 的错误消息 (dask#6638) Julia Signell
使用空列表作为 categories (dask#6626) Julia Signell



Documentation¶

为 array api 文档添加 autofunction 以支持更多 ufuncs (dask#6644) James Bourbeau
向 dask.array 文档添加一些缺失的 ufuncs (dask#6642) Ralf Gommers
添加 HelmCluster 文档 (dask#6290) Jacob Tomlinson




2.26.0 / 2020-09-11¶

Array¶

单块 svd 的后端感知 dtype 推断 (dask#6623) Eric Czech
使 array.reduction docstring 与 dtype 匹配 (dask#6624) Martin Durant
使用行和列为 svd_compressed 设置压缩级别的下限 (dask#6622) Eric Czech
改进 SVD 一致性和小数组处理 (dask#6616) Eric Czech
添加 svd_flip #6599 (dask#6613) Eric Czech
处理包含 dask 数组的序列 (dask#6595) Gabe Joseph
避免使用列表从 getitem 生成大块 (dask#6514) Tom Augspurger
在 from_array 中急切地切片 numpy 数组 (dask#6605) Deepak Cherian
恢复 pickle dask 数组的能力 (dask#6594) Noah D. Brenowitz
添加对短胖数组的 SVD 支持 (dask#6591) Eric Czech
添加简单的 chunk 类型注册表并酌情推迟到向上转型 (dask#6393) Jon Thielen
默认对齐 coarsen chunks (dask#6580) Deepak Cherian
修复未知维度上的 reshape 和其他测试修复 (dask#6578) Ryan Williams



Core¶

添加 HighLevelGraph 依赖项的验证和修复 (dask#6588) Mads R. B. Kristensen
修复 linting 问题 (dask#6598) Tom Augspurger
跳过 bokeh 版本 2.0.0 (dask#6572) John A Kirkham



DataFrame¶

使用 meta 时添加 bytes/row 计算 (dask#6585) McToel
处理 Series.sum / prod 中的 min_count (dask#6618) Daniel Saxton
更新 DataFrame.set_index docstring (dask#6549) Timost
在分位数计算期间始终计算 0 和 1 分位数 (dask#6564) Erik Welch
修复读取空 csv 文件时的错误路径 (dask#6573) Abdulelah Bin Mahfoodh



Documentation¶

文档：排查 dashboard 404 问题 (dask#6215) Kilian Lieret
修复 extraConfig 示例 (dask#6625) Tom Augspurger
更新支持的 Python 版本 (dask#6609) Julia Signell
记录 dask/daskhub helm chart (dask#6560) Tom Augspurger




2.25.0 / 2020-08-28¶

Core¶

在 subs() 中比较 key 哈希值 (dask#6559) Mads R. B. Kristensen
使用最新的 black 发布版本重新运行 (dask#6568) James Bourbeau
许可证更新 (dask#6554) Tom Augspurger



DataFrame¶

添加 gs read_parquet 示例 (dask#6548) Ray Bell



Documentation¶

从文档页面名称中移除版本号 (dask#6558) James Bourbeau
更新 kubernetes-helm.rst (dask#6523) David Sheldon
停止 2020 年调查 (dask#6547) Tom Augspurger




2.24.0 / 2020-08-22¶

Array¶

修复测试中设置随机种子的问题。 (dask#6518) Elliott Sales de Andrade
支持 apply gufunc 中的 meta (dask#6521) joshreback
将 cupy.sparse 替换为 cupyx.scipy.sparse (dask#6530) John A Kirkham



Dataframe¶

提高 rolling tests 的容忍度 (dask#6502) Julia Signell
实现 DataFrame.__len__ (dask#6515) Tom Augspurger
在 to_parquet 中推断 arrow schema (针对 ArrowEngine`) (dask#6490) Richard (Rick) Zamora
修复没有 pyarrow 时的 parquet 测试 (dask#6524) Martin Durant
移除 ArrowEngine 中有问题的 filter 参数 (dask#6527) Richard (Rick) Zamora
默认情况下避免在 ArrowEngine 中进行 schema 验证 (dask#6536) Richard (Rick) Zamora



Core¶

在 make_blockwise_graph 中使用 unpack_collections (dask#6517) Thomas J. Fan
将 key_split() 从 optimization.py 移动到 utils.py (dask#6529) Mads R. B. Kristensen
使测试在 moto server 上运行 (dask#6528) Martin Durant




2.23.0 / 2020-08-14¶

Array¶

通过广播减少 np.zeros, ones 和 full 的数组大小 (dask#6491) Matthias Bussonnier
在 map_overlap 中为 trim 添加缺失的 meta= 参数 (dask#6494) Peter Andreas Entschev



Bag¶

Bag repartition 分区大小 (dask#6371) joshreback



Core¶

Scalar.__dask_layers__() 返回 self._name 而不是 self.key (dask#6507) Mads R. B. Kristensen
在 fuse_root 优化中正确更新依赖项 (dask#6508) Mads R. B. Kristensen



DataFrame¶

向 dataframe 添加 items (dask#6503) Thomas J. Fan
在 write_table 调用中包含压缩设置 (dask#6499) Julia Signell
修复 nonempty_series 中的警告 (dask#6485) Tom Augspurger
根据第一个参数的类型智能确定分区 (dask#6479) Matthew Rocklin
修复 pyarrow mkdirs (dask#6475) Julia Signell
修复 to_parquet 中的重复 parquet 输出 (dask#6451) michaelnarodovitch



Documentation¶

修复文档 da.histogram (dask#6439) Roberto Panai
添加 agg nunique 示例 (dask#6404) Ray Bell
修复 SQL 文档中的一些拼写错误 (dask#6489) Mike McCarty
SQLing 文档 (dask#6453) Martin Durant




2.22.0 / 2020-07-31¶

Array¶

与 NumPy dtype 弃用兼容 (dask#6430) Tom Augspurger



Core¶

为某些类似 bytes 的对象实现 sizeof (dask#6457) John A Kirkham
新 fsspec 的 HTTP 错误 (dask#6446) Martin Durant
当引发 RecursionError 时，从 tokenize 函数返回 uuid (dask#6437) Julia Signell
安装 upstream-dev 包的依赖项 (dask#6431) Tom Augspurger
在 setup.cfg 中使用更新的链接 (dask#6426) Zhengnan Zhao



DataFrame¶

如果列名是字符串，则在周围添加单引号 (dask#6471) Gil Forsyth
重构 ArrowEngine 以提高 read_parquet 性能 (dask#6346) Richard (Rick) Zamora
添加 tolist dispatch (dask#6444) GALI PREM SAGAR
与 pandas 1.1.0rc0 兼容 (dask#6429) Tom Augspurger
多值 pivot table (dask#6428) joshreback
在 to_csv docstring 中重复参数定义 (dask#6411) Jun Han (Johnson) Ooi



Documentation¶

向文档添加实用工具，用于将 YAML 配置转换为环境变量并转换回来 (dask#6472) Jacob Tomlinson
修复参数服务器渲染 (dask#6466) Scott Sievert
修复损坏的链接 (dask#6403) Jim Circadian
完成文档中的参数服务器实现 (dask#6449) Scott Sievert
修复拼写错误 (dask#6436) Jack Xiaosong Xu




2.21.0 / 2020-07-17¶

Array¶

纠正 array.routines.gradient() 中的错误消息 (dask#6417) johnomotani
修复带有某些 dimension=1 的数组的 blockwise concatenate (dask#6342) Matthias Bussonnier



Bag¶

修复 bag.take 示例 (dask#6418) Roberto Panai



Core¶

优化阶段中的分组值应仅为 graph 和 keys -- 而非 optimization + keys (dask#6409) Benjamin Zaitlen
使用提供的 kwargs 调用自定义优化一次 (dask#6382) Clark Zinzow
包含 pickle5 用于在 Python 3.7 上测试 (dask#6379) John A Kirkham



DataFrame¶

纠正错误消息中的拼写错误 (dask#6422) Tom McTiernan
使用 pytest.warns 检查 UserWarning (dask#6378) Richard (Rick) Zamora
从字符串解析 bytes_per_chunk keyword (dask#6370) Matthew Rocklin



Documentation¶

Numpydoc 格式化 (dask#6421) Matthias Bussonnier
在 1.1 发布后取消固定 numpydoc (dask#6407) Gil Forsyth
Numpydoc 格式化 (dask#6402) Matthias Bussonnier
添加使用 conda 安装开发代码的说明 (dask#6399) Ray Bell
更新 visualize docstrings (dask#6383) Zhengnan Zhao




2.20.0 / 2020-07-02¶

Array¶

注册 numpy 零步长数组的 sizeof (dask#6343) Matthias Bussonnier
在 concatenate 中使用 concatenate_lookup (dask#6339) John A Kirkham
修复具有某些零长度维度的数组的 rechunking 问题 (dask#6335) Matthias Bussonnier



DataFrame¶

将 iloc` 调用分派给 getitem (dask#6355) Gil Forsyth
在 fastparquet 引擎中处理未命名的 pandas RangeIndex (dask#6350) Richard (Rick) Zamora
使用 pyarrow 写入分区 parquet 数据集时保留索引 (dask#6282) Richard (Rick) Zamora
为 pandas 的 group_split_dispatch 使用 ignore_index (dask#6251) Richard (Rick) Zamora



Documentation¶

添加描述参数的文档 (dask#6318) asmith26




2.19.0 / 2020-06-19¶

Array¶

将块大小转换为 python int dtype (dask#6326) Gil Forsyth
向 *_like() 数组创建函数添加 shape=None (dask#6064) Anderson Banihirwe



Core¶

更新 fsspec 中协议差异的预期错误消息 (dask#6331) Gil Forsyth
修复 parse_bytes 中小于 1 的浮点数问题 (dask#6311) Gil Forsyth
修复整个代码库中的异常原因链 (dask#6308) Ram Rachum
修复重复的测试 (dask#6303) James Lamb
移除未使用的测试函数 (dask#6304) James Lamb



DataFrame¶

添加高级 CSV 子图 (dask#6262) Gil Forsyth
修复合并仅包含索引的 1 分区 dataframe 时的 ValueError (dask#6309) Krishan Bhasin
使 index.map 清除 divisions。 (dask#6285) Julia Signell



Documentation¶

添加 2020 年调查链接 (dask#6328) Tom Augspurger
更新 bag.rst (dask#6317) Ben Shaver




2.18.1 / 2020-06-09¶

Array¶

不要尝试在 full 上设置名称 (dask#6299) Julia Signell
Histogram: 支持范围/bin 的延迟值 (另一种方式) (dask#6252) Gabe Joseph



Core¶

修复 utils.py 中的异常原因链 (dask#6302) Ram Rachum
提高 HighLevelGraph 构建性能 (dask#6293) Julia Signell



Documentation¶

readthedocs 现在构建未发布功能的 docstring (dask#6295) Antonio Ercole De Luca
添加 asyncssh intersphinx 映射 (dask#6298) Jacob Tomlinson




2.18.0 / 2020-06-05¶

Array¶

如果切片索引与原始数组形状相同，则将其转换为 dask 数组 (dask#6273) Julia Signell
修复 stack 错误消息 (dask#6268) Stephanie Gott
full & full_like：非标量 fill_value 会引发错误 (dask#6129) Huite
支持在 map_overlap 中使用多个数组 (dask#6165) Eric Czech
填充重采样（resample）的分区（divisions），以便计算边缘值 (dask#6255) Julia Signell



Bag¶

从 dask bag 中随机采样 k 个元素 #4799 (dask#6239) Antonio Ercole De Luca



DataFrame¶

在 sort_values 中添加 dropna、sort 和 ascending 参数 (dask#5880) Julia Signell
泛化 from_dask_array (dask#6263) GALI PREM SAGAR
为 SeriesGroupby.nunique 添加派生文档字符串 (dask#6284) Julia Signell
移除带规则（rule）的重采样（resample）中的 NotImplementedError (dask#6274) Abdulelah Bin Mahfoodh
添加 dd.to_sql (dask#6038) Ryan Williams



文档¶

更新远程数据部分 (dask#6258) Ray Bell




2.17.2 / 2020-05-28¶

核心¶

重新添加 complete extra (dask#6257) Jim Crist-Harif



DataFrame¶

如果 resample 无法给出正确结果，则引发错误 (dask#6244) Julia Signell




2.17.1 / 2020-05-28¶

Array¶

空数组重新分块 (rechunk) (dask#6233) Andrew Fulton



核心¶

使 pyyaml 成为必需依赖 (dask#6250) Jim Crist-Harif
修复 ImportError 提示的安装命令 (dask#6238) Gaurav Sheni
移除 issue 模板 (dask#6249) Jacob Tomlinson



DataFrame¶

将 ignore_index 从 DataFrame.shuffle 传递给 dd_shuffle (dask#6247) Richard (Rick) Zamora
处理丢失的 HDF 键 (dask#6204) Martin Durant
泛化 describe & quantile api (dask#5137) GALI PREM SAGAR




2.17.0 / 2020-05-26¶

Array¶

对 da.pad 进行小改进 (dask#6213) Mark Boer
如果 dask.array.apply_gufunc 有多个输出，则返回 tuple，并添加测试以检查 tuple (dask#6207) Kai Mühlbauer
支持具有未知块大小的 stack (dask#6195) swapna



Bag¶

Bags 的随机选择 (Random Choice) (dask#6208) Antonio Ercole De Luca



核心¶

为 delayed.visualise() 发出警告 (dask#6216) Amol Umbarkar
确保其他 pickle 参数有效 (dask#6229) John A Kirkham
彻底修改 fuse() 配置 (dask#6198) crusaderky
更新 dask.order.order 以同时使用 FIFO 和 LIFO 考虑“下一个”节点 (dask#5872) Erik Welch



DataFrame¶

为更多 agg 方法使用 0 作为 fill_value (dask#6245) Julia Signell
泛化 rearrange_by_column_tasks 并添加 DataFrame.shuffle (dask#6066) Richard (Rick) Zamora
对于较新版本的 numba 和较旧版本的 pandas，将 test_rolling_numba_engine 标记为 xfail (dask#6236) James Bourbeau
泛化 fix_overlap (dask#6240) GALI PREM SAGAR
修复没有列的 DataFrame.shape 问题 (dask#6237) noreentry
设置具有重叠分区的预排序索引时避免 shuffle (dask#6226) Krishan Bhasin
调整 Parquet 引擎类以便更轻松地进行子类化 (dask#6211) Marius van Niekerk
修复 dd.merge_asof 与 left_on='col' & right_index=True 一起使用时的问题 (dask#6192) noreentry
禁用 concat 的警告 (dask#6210) Tung Dang
将 AUTO_BLOCKSIZE 移出 read_csv 签名 (dask#6214) Jim Crist-Harif
使用可调用对象进行 .loc 索引 (dask#6185) Endre Mark Borza
对于 groupby std agg，在 _compute_sum_of_squares 中避免使用 apply (dask#6186) Richard (Rick) Zamora
对 test_parquet 进行小修正 (dask#6190) Brian Larsen
遵守传递的 pat 进行 delimeter join 并修复错误消息 (dask#6194) GALI PREM SAGAR
如果没有可用的 parquet 库，则跳过 test_to_parquet_with_get (dask#6188) Scott Sanderson



文档¶

添加了 distributed.Event 类的文档 (dask#6231) Nils Braun
远程写入文档 (dask#6124) Ray Bell




2.16.0 / 2020-05-08¶

Array¶

修复数组通用 reduce 名称 (dask#6176) Nick Evans
在 unravel_index 中将 dim 替换为 shape (dask#6155) Julia Signell
Moment: 处理所有元素都被掩码的情况 (dask#5339) Gabe Joseph



核心¶

删除 dask 代码库中多余的字符串连接 (dask#6137) GALI PREM SAGAR
上游兼容性 (Upstream compat) (dask#6159) Tom Augspurger
确保 dict 和序列的 sizeof 返回整数 (dask#6179) James Bourbeau
通过随机采样估算 python 集合大小 (dask#6154) Florian Jetter
更新测试上游 (dask#6146) Tom Augspurger
跳过 mindeps 构建的测试 (dask#6144) Tom Augspurger
将默认的多进程上下文切换为“spawn” (dask#4003) Itamar Turner-Trauring
更新清单以包含 dask-schema (dask#6140) Benjamin Zaitlen



DataFrame¶

在基于 pyarrow 的 read_parquet 中增强不一致模式的处理 (dask#6160) Richard (Rick) Zamora
将 compute kwargs 添加到将数据写入磁盘的方法中 (dask#6056) Krishan Bhasin
修复 unique 从后端返回类似索引结果的问题 (dask#6153) GALI PREM SAGAR
修复 map_partitions 与集合一起使用时的内部错误 (dask#6103) Tom Augspurger



文档¶

向索引 TOC 添加计算阶段 (dask#6157) Benjamin Zaitlen
删除调度脚本中未使用的导入 (dask#6138) James Lamb
修复缩进 (dask#6147) Martin Durant
添加 Tom 的日志配置示例 (dask#6143) Martin Durant




2.15.0 / 2020-04-24¶

Array¶

更新 dask.array.from_array，在传入 Dask 集合时发出警告 (dask#6122) James Bourbeau
在 dask.array.pad 中与 NumPy 不一致的行为 (dask#6042) Mark Boer
在 da.repeat 中添加对 repeats=0 的支持 (dask#6080) James Bourbeau



核心¶

修复 schema 的 yaml 布局 (dask#6132) Benjamin Zaitlen
配置参考 (Configuration Reference) (dask#6069) Benjamin Zaitlen
添加配置选项以关闭任务融合 (task fusion) (dask#6087) Matthew Rocklin
在 windows 上跳过 pyarrow (dask#6094) Tom Augspurger
设置融合键最大长度的限制 (dask#6057) Lucas Rademaker
添加针对 #6062 的测试 (dask#6072) Martin Durant
将 checkout action 升级到 v2 (dask#6065) James Bourbeau



DataFrame¶

泛化分类调用以支持 cudf Categorical (dask#6113) GALI PREM SAGAR
避免在每个 worker 上读取 _metadata (dask#6017) Richard (Rick) Zamora
在 apply_concat_apply 中使用 group_split_dispatch 和 ignore_index (dask#6119) Richard (Rick) Zamora
处理 pyarrow 的新 (dtype) pandas metadata (dask#6090) Richard (Rick) Zamora
如果 pyarrow 未安装，则跳过 test_partition_on_cats_pyarrow (dask#6112) James Bourbeau
更新 DataFrame len 以处理同名列 (dask#6111) James Bourbeau
ArrowEngine bug 修复和测试覆盖 (dask#6047) Richard (Rick) Zamora
添加了 mode (dask#5958) Adam Lewis



文档¶

更新“helm install”以使用 helm 3 (dask#6130) JulianWgs
扩展 preload 文档 (dask#6077) Matthew Rocklin
修复 DataFrame map_partitions() 文档字符串中的小 typo (dask#6115) Eugene Huang
修复 typo：“double”应为 times，而不是 plus (dask#6091) David Chudzicki
修复 array.random.* 文档的第一行 (dask#6063) Martin Durant
在 distributed 中添加 Semaphore 的部分文档 (dask#6053) Florian Jetter




2.14.0 / 2020-04-03¶

Array¶

添加 np.iscomplexobj 实现 (dask#6045) Tom Augspurger



核心¶

更新 test_rearrange_disk_cleanup_with_exception，使其在未安装 cloudpickle 时也能通过 (dask#6052) James Bourbeau
修复不稳定的 test-rearrange (dask#5977) Tom Augspurger



DataFrame¶

在 stack_partitions 中使用 _meta_nonempty 进行 dtype 转换 (dask#6061) mlondschien
修复 parquet ArrowEngine 中 _metadata 创建和过滤的 bug (dask#6023) Richard (Rick) Zamora



文档¶

DOC: 添加命名注意事项 (name caveats) (dask#6040) Tom Augspurger




2.13.0 / 2020-03-25¶

Array¶

支持 da.random 中的 dtype 和其他关键字参数 (dask#6030) Matthew Rocklin
注册支持 cupy 稀疏 hstack/vstack (dask#5735) Corey J. Nolet
在 dask.array 中强制将 self.name 转换为 str (dask#6002) Chuanzhu Xu



Bag¶

在 bag.optimize 中默认将 rename_fused_keys 设置为 None (dask#6000) Lucas Rademaker



核心¶

在 to_graphviz 中复制 dict 以防止覆盖 (dask#5996) JulianWgs
更严格的 pandas xfail (dask#6024) Tom Augspurger
修复 CI 失败 (dask#6013) James Bourbeau
更新 toolz 到 0.8.2 并使用 tlz (dask#5997) Ryan Grout
将 Windows CI 构建移至 GitHub Actions (dask#5862) James Bourbeau



DataFrame¶

改进 read_hdf 中与路径相关的异常信息 (dask#6032) psimaj
修复 dd.concat 中的 dtype 处理问题 (dask#6006) mlondschien
处理 cudf 的 leftsemi 和 leftanti join (dask#6025) Richard J Zamora
删除 dd.from_pandas 中未使用的 npartitions 变量 (dask#6019) Daniel Saxton
为 DataFrame.random_split 添加了 shuffle (dask#5980) petiop



文档¶

修复 scheduler-overview 文档中的缩进问题 (dask#6022) Matthew Rocklin
更新 optimize 文档中的任务图 (dask#5928) Julia Signell
可选地去除 visualize 中的中间框，并添加更多标签 (dask#5976) Julia Signell




2.12.0 / 2020-03-06¶

Array¶

改进 numpy 临时变量的重用 (dask#5933) Bruce Merry
使带有 block_info 的 map_blocks 生成 Blockwise (dask#5896) Bruce Merry
优化 make_blockwise_graph (dask#5940) Bruce Merry
修复 da.tensordot 中的轴顺序 (dask#5975) Gil Forsyth
为 array.pad 添加 empty mode (dask#5931) Thomas J. Fan



核心¶

移除 dask.utils 中对 toolz.memoize 的依赖 (dask#5978) Ryan Grout
关闭泄漏子进程的 pool (dask#5979) Tom Augspurger
锁定 numpydoc 版本到 0.8.0 (修复 double autoescape) (dask#5961) Gil Forsyth
注册 range 对象的确定性 tokenization (dask#5947) James Bourbeau
在 CI 中解除 msgpack 的版本锁定 (dask#5930) JAmes Bourbeau
确保 dot 结果存放在唯一的文件中 (dask#5937) Elliott Sales de Andrade
将剩余的可选依赖项添加到 Travis 3.8 CI 构建环境 (dask#5920) James Bourbeau



DataFrame¶

跳过某些键的 parquet getitem 优化 (dask#5917) Tom Augspurger
为 rearrange_by_column 代码路径添加 ignore_index 参数 (dask#5973) Richard J Zamora
添加 DataFrame 和 Series 的 memory_usage_per_partition 方法 (dask#5971) James Bourbeau
在使用 Pandas 0.24.2 时将 test_describe 标记为 xfail (dask#5948) James Bourbeau
实现 dask.dataframe.to_numeric (dask#5929) Julia Signell
当列顺序不同时添加新的错误消息内容 (dask#5927) Julia Signell
尽可能为 assign 操作使用浅拷贝 (dask#5740) Richard J Zamora



文档¶

在 dask.array.triu 文档中将 above 改为 below (dask#5984) Henrik Andersson
数组切片 (Array slicing): 修复 slice_with_int_dask_array 错误消息中的 typo (dask#5981) Gabe Joseph
文档字符串的语法和格式更新 (dask#5963) James Lamb
更新 develop 文档，添加 conda 选项 (dask#5939) Ray Bell
更新 DataFrame extension 文档的标题 (dask#5954) James Bourbeau
修复文档中的 typo (dask#5962) James Lamb
在 _bind_* 方法上添加原始类或模块作为 kwarg (dask#5946) Julia Signell
添加 collect list 示例 (dask#5938) Ray Bell
更新 python 3 的 optimization 文档 (dask#5926) Julia Signell




2.11.0 / 2020-02-19¶

Array¶

缓存 Array.shape 的结果 (dask#5916) Bruce Merry
提高 rechunk 的 estimate_graph_size 精度 (dask#5907) Bruce Merry
跳过不改变分块的 rechunk 步骤 (dask#5909) Bruce Merry
支持 coarsen 中的 dtype 和其他 kwargs (dask#5903) Matthew Rocklin
将 map_blocks 的 chunk 覆盖推送进 blockwise (dask#5895) Bruce Merry
对于单例避免使用 rewrite_blockwise (dask#5890) Bruce Merry
优化 slices_from_chunks (dask#5891) Bruce Merry
当 chunks 具有正确维度时，在 block() 中避免不必要的 __getitem__ (dask#5884) Thomas Robitaille



Bag¶

为 dask.bag.read_text 添加 include_path 选项 (dask#5836) Yifan Gu
修复延迟执行 bagged NumPy 数组时的 ValueError (dask#5828) Surya Avala



核心¶

CI: 锁定 msgpack 版本 (dask#5923) Tom Augspurger
将 test_inner 重命名为 test_outer (dask#5922) Shiva Raisinghani
quote 也应该引用 dicts (dask#5905) Bruce Merry
注册 literal 的 normalizer (dask#5898) Bruce Merry
改进非 HLG 的层名称合成 (dask#5888) Bruce Merry
将 flake8 pre-commit-hook 替换为上游版本 (dask#5892) Julia Signell
以模块方式调用 pip 以避免警告 (dask#5861) Cyril Shcherbin
退出时关闭 ThreadPool (dask#5852) Tom Augspurger
移除 tokenization 代码中对 dask.dataframe 的导入 (dask#5855) James Bourbeau



DataFrame¶

要求 pandas>=0.23 (dask#5883) Tom Augspurger
移除 dataframe aggregation 中的 lambda (dask#5901) Matthew Rocklin
修复 dataframe/__init__.py 中的异常链问题 (dask#5882) Ram Rachum
添加对空 dataframes 上 reductions 的支持 (dask#5804) Shiva Raisinghani
为 groupby 暴露 sort= 参数 (dask#5801) Richard J Zamora
添加 df.empty 属性 (dask#5711) rockwellw
使用 fastparquet.api.paths_to_cats 的 parquet 读取加速功能 (dask#5821) Igor Gotlibovych



文档¶

弃用 doc_wraps (dask#5912) Tom Augspurger
更新 HighLevelGraph 时代的 array 内部设计文档 (dask#5889) Bruce Merry
迁移 dashboard 连接文档 (dask#5877) Matthew Rocklin
从 distributed.dask.org 迁移 prometheus 文档 (dask#5876) Matthew Rocklin
删除末尾重复的 DO 块 (dask#5878) K.-Michael Aye
map_blocks 参见部分 (see also) (dask#5874) Tom Augspurger
更多派生自 (derived from) (dask#5871) Julia Signell
修复 typo (dask#5866) Yetunde Dada
修复 cloud.rst 中的 typo (dask#5860) Andrew Thomas
添加指向行为准则和多样性声明的注释 (dask#5844) Matthew Rocklin




2.10.1 / 2020-01-30¶

修复 Pandas 1.0 版本比较问题 (dask#5851) Tom Augspurger
修复 distributed diagnostics 文档中的 typo (dask#5841) Gerrit Holl



2.10.0 / 2020-01-28¶

支持 pandas 1.0 新的 BooleanDtype 和 StringDtype (dask#5815) Tom Augspurger
兼容 pandas 1.0 的 API 破坏性更改和弃用项 (dask#5792) Tom Augspurger
修复某些扩展数组支持的 pandas 对象的非确定性 tokenization 问题 (dask#5813) Tom Augspurger
修复 collections 中 dataclass 类对象的处理问题 (dask#5812) Matteo De Wint
修复带时区日期的重采样问题，其中一个端点落在不存在的时间 (dask#5807) dfonnegra
将初始 Zarr 数据集的创建延迟到计算发生时 (dask#5797) Chris Roat
在基于 pyarrow 引擎的情况下，更多地使用 parquet 数据集统计信息 (dask#5799) Richard J Zamora
修复 groupby.std() 在某些键为大整数时引发的异常问题 (dask#5737) H. Thomson Comer



2.9.2 / 2020-01-16¶

Array¶

在 broadcast_arrays 中统一 chunks (dask#5765) Matthew Rocklin



核心¶

将 CSV encoding 测试标记为 xfail (dask#5791) Tom Augspurger
更新 order 以处理空的 dask graph (dask#5789) James Bourbeau
重做 dask.order.order (dask#5646) Erik Welch



DataFrame¶

为使用 partd 的磁盘 shuffle 添加透明压缩 (dask#5786) Christian Wesp
修复空 dataframes 的 repr (dask#5781) Shiva Raisinghani
Pandas 1.0.0RC0 兼容性 (dask#5784) Tom Augspurger
移除有 bug 的断言 (dask#5783) Tom Augspurger
Pandas 1.0 兼容性 (dask#5782) Tom Augspurger
修复基于 pyarrow 的 read_parquet 在分区数据集上的 bug (dask#5777) Richard J Zamora
Pandas 1.0 兼容性 (dask#5779) Tom Augspurger
修复带有分类索引的 groupby/mean 错误 (dask#5776) Richard J Zamora
支持在执行累积 aggregation 时使用空分区 (dask#5730) Matthew Rocklin
set_index 接受包含单个元素的非嵌套列表 (dask#5760) Wes Roach
修复有序 Categorical 在 set index 中的分区问题 (dask#5715) Tom Augspurger



文档¶

注意 normalize_token.register 的额外使用案例 (dask#5766) Thomas A Caswell
更新 bag repartition 文档字符串 (dask#5772) Timost
小 typos (dask#5771) Maarten Breddels
修复 Task Expectations 文档中的 typo (dask#5767) James Bourbeau
在 graph 页面添加 task expectations 的文档部分 (dask#5764) Devin Petersohn




2.9.1 / 2019-12-27¶

Array¶

使用 assert_eq util 方法重用代码 (dask#5736) Anderson Banihirwe
添加 dask.array.nanmedian (dask#5684) Deepak Cherian



核心¶

在 Python 3.8 上将 test_temporary_directory 标记为 xfail (dask#5734) James Bourbeau
添加对 Python 3.8 的支持 (dask#5603) James Bourbeau
在 rewrite_blockwise 中使用 id 去除重复常量 (dask#5696) Jim Crist



DataFrame¶

将 dask dataframe scalar 转换为 boolean 时引发错误 (dask#5743) James Bourbeau
确保 dataframe groupby-variance 大于零 (dask#5728) Matthew Rocklin
修复 DataFrame.__iter__ (dask#5719) Tom Augspurger
支持 PyArrow 中 disjunctive normal form 的 Parquet 过滤器 (dask#5656) Matteo De Wint
在基于 ArrowEngine 的 read_parquet 中自动检测分类列 (dask#5690) Richard J Zamora
如果没有找到 engine，则跳过 parquet getitem 优化测试 (dask#5697) James Bourbeau
修复 parquet-getitem 的独立优化问题 (dask#5613) Tom Augspurger



文档¶

更新 helm config 文档 (dask#5750) Ray Bell
在多个地方链接到 examples.dask.org (dask#5733) Tom Augspurger
添加 performance report 示例中缺失的“ (dask#5724) James Bourbeau
解决几个文档构建警告 (dask#5685) James Bourbeau
添加关于 performance_report 的信息 (dask#5713) Benjamin Zaitlen
添加更多文档免责声明 (dask#5710) Julia Signell
修复简单 typo: wihout -> without (dask#5708) Tim Gates
更新 numpydoc 依赖项 (dask#5694) James Bourbeau




2.9.0 / 2019-12-06¶

Array¶

修复 da.std 以与 NumPy 数组一起使用 (dask#5681) James Bourbeau



核心¶

注册 Numba 和 RMM 的 sizeof 函数 (dask#5668) John A Kirkham
更新会议时间 (dask#5682) Tom Augspurger



DataFrame¶

修改 dd.DataFrame.drop 以使用浅拷贝 (dask#5675) Richard J Zamora
修复 _get_md_row_groups 中的 bug (dask#5673) Richard J Zamora
查询数据库后关闭 sqlalchemy engine (dask#5629) Krishan Bhasin
允许 dd.map_partitions 不强制使用 meta (dask#5660) Matthew Rocklin
泛化 concat_unindexed_dataframes 以支持 cudf-backend (dask#5659) Richard J Zamora
添加 dataframe 重采样方法 (dask#5636) Benjamin Zaitlen
计算 dataframe 的长度作为第一列的长度 (dask#5635) Matthew Rocklin



文档¶

文档修复 (dask#5665) James Bourbeau
更新文档构建说明 (dask#5640) James Bourbeau
修复 ADL 链接 (dask#5639) Ray Bell
添加文档构建 (dask#5617) James Bourbeau




2.8.1 / 2019-11-22¶

Array¶

如果在 da.rechunk 中未给定值，则使用自动 rechunking (dask#5605) Matthew Rocklin



核心¶

添加简单的 action 以激活 GH actions (dask#5619) James Bourbeau



DataFrame¶

修复 aggregate_row_groups 中的“file_path_0” bug (dask#5627) Richard J Zamora
为 read_parquet 添加 chunksize 参数 (dask#5607) Richard J Zamora
更改 test_repartition_npartitions 以支持 arch64 架构 (dask#5620) ossdev07
groupby + agg 后丢失 Categories (dask#5423) Oliver Hofkens
修复 parquet metadata 文件相关的相对路径问题 (dask#5608) Nuno Gomes Silva
在 dataframes 中启用 gpu 支持的协方差/相关性计算 (dask#5597) Richard J Zamora



文档¶

修复机构 FAQ 和未知文档警告 (dask#5616) James Bourbeau
添加某些 utils 的文档 (dask#5609) Tom Augspurger
移除 html_extra_path (dask#5614) James Bourbeau
修复 See Also 参考 (dask#5612) Tom Augspurger




2.8.0 / 2019-11-14¶

Array¶

实现完整的 dask.array.tile 函数 (dask#5574) Bouwe Andela
添加带自动 rechunking 的轴向中位数计算 (dask#5575) Matthew Rocklin
允许 da.asarray 对输入进行分块 (dask#5586) Matthew Rocklin



Bag¶

在 Bag 名称中使用 key_split (dask#5571) Matthew Rocklin



核心¶

将 Doctests 切换到 Py3.7 (dask#5573) Ryan Nazareth
放宽 get_colors 测试，以适应新的 Bokeh 发布版本 (dask#5576) Matthew Rocklin
添加 dask.blockwise.fuse_roots 优化 (dask#5451) Matthew Rocklin
添加小 dicts 的 sizeof 实现 (dask#5578) Matthew Rocklin
更新 fsspec, gcsfs, s3fs (dask#5588) Tom Augspurger



DataFrame¶

为 groupby 添加 dropna 参数 (dask#5579) Richard J Zamora
恢复“移除对 dask_cudf 的导入，dask_cudf 现在是 cudf 的一部分 (#5568)” (dask#5590) Matthew Rocklin



文档¶

添加 dask.compute 函数的最佳实践 (dask#5583) Matthew Rocklin
创建 FUNDING.yml (dask#5587) Gina Helfrich
添加 coordination primitives 的截屏 (dask#5593) Matthew Rocklin
将 funding 移至 .github 仓库 (dask#5589) Tom Augspurger
更新 calendar 链接 (dask#5569) Tom Augspurger




2.7.0 / 2019-11-08¶
此版本不再支持 Python 3.5

Array¶

重用 assert_eq util 方法的代码 (dask#5496) Vijayant
更新 da.array 以始终返回一个 dask array (dask#5510) James Bourbeau
跳过对 trivial 输入的 transpose (dask#5523) Ryan Abernathey
在 tokenize 中避免使用 NumPy scalar 字符串表示 (dask#5527) James Bourbeau
移除不必要的 tiledb shape 约束 (dask#5545) Norman Barker
移除 sparse array HTML repr 中的 bytes (dask#5556) James Bourbeau



核心¶

放弃对 Python 3.5 的支持 (dask#5528) James Bourbeau
更新 distributed 测试中 fixtures 的使用方式 (dask#5497) Matthew Rocklin
将弃用的 bokeh-port 改为 dashboard-address (dask#5507) darindf
在 ensure_dict 中避免使用相同的 dicts 进行更新 (dask#5501) James Bourbeau
测试上游 (Test Upstream) (dask#5516) Tom Augspurger
加速 reverse_dict (dask#5479) Ryan Grout
更新 test_imports.sh (dask#5534) James Bourbeau
在 multiprocess 和 threaded schedulers 中支持 cgroups 对 cpu count 的限制 (dask#5499) Albert DeFusco
更新 CI 上 pyarrow 的最低版本要求 (dask#5562) James Bourbeau
将 cloudpickle 设为可选依赖 (dask#5511) crusaderky



DataFrame¶

添加 index_col 用法的示例 (dask#3072) Bruno Bonfils
显式使用 iloc 进行行索引 (dask#5500) Krishan Bhasin
接受 dask 数组进行列赋值 (dask#5224) Henrique Ribeiro-
实现 SeriesGroupBy 的 unique 和 value_counts (dask#5358) Scott Sievert
添加 pyarrow tables 和 columns 的 sizeof 定义 (dask#5522) Richard J Zamora
在基于 pyarrow 的 read_parquet 中启用行组任务分区 (dask#5508) Richard J Zamora
移除 dd.merge 文档字符串中的 npartitions='auto' (dask#5531) James Bourbeau
应用 enforce 错误消息显示非重叠列 (dask#5530) Tom Augspurger
为重复的 dtypes 优化 meta_nonempty (dask#5553) Petio Petrov
移除对 dask_cudf 的导入，dask_cudf 现在是 cudf 的一部分 (dask#5568) Mads R. B. Kristensen



文档¶

使 FAQ 文档中的大写更加一致 (dask#5512) Matthew Rocklin
添加 CONTRIBUTING.md (dask#5513) Jacob Tomlinson
文档可选依赖项 (dask#5456) Prithvi MK
更新 helm chart 文档以反映新的 chart 仓库 (dask#5539) Jacob Tomlinson
将 Resampler 添加到 API 文档 (dask#5551) James Bourbeau
修复 read_sql_table 中的 typo (dask#5554) Eric Dill
添加自适应部署截屏 [skip ci] (dask#5566) Matthew Rocklin




2.6.0 / 2019-10-15¶

核心¶

在进入 toolz.merge 之前对 graphs 调用 ensure_dict (dask#5486) Matthew Rocklin
整合哈希分发函数 (dask#5476) Richard J Zamora



DataFrame¶

在 Parquet 代码中支持 Python 3.5 (dask#5491) Benjamin Zaitlen
在 warn_dtype_mismatch 中避免身份检查 (dask#5489) Tom Augspurger
启用未使用的 groupby 测试 (dask#3480) Jörg Dietrich
移除旧的 parquet 和 bcolz dataframe 优化 (dask#5484) Matthew Rocklin
为 read_parquet 添加 getitem 优化 (dask#5453) Tom Augspurger
使用 _constructor_sliced 方法确定 Series 类型 (dask#5480) Richard J Zamora
修复未排序基础 series 索引的 map(series) (dask#5459) Justin Waugh
修复 Groupby 标签导致的 KeyError (dask#5467) Ryan Nazareth



文档¶

使用 Zoom 会议代替 appear.in (dask#5494) Matthew Rocklin
添加精选资源列表 (dask#5460) Javad
更新 SSH 文档以包含 SSHCluster (dask#5482) Matthew Rocklin
更新“为什么选择 Dask？”页面 (dask#5473) Matthew Rocklin
修复 docstring 中的拼写错误 (dask#5469) garanews




2.5.2 / 2019-10-04¶

数组¶

修正非对称重叠的块大小逻辑 (dask#5449) Ben Jeffery
将 da.unify_chunks 设为公共 API (dask#5443) Matthew Rocklin



DataFrame¶

修复 dask.dataframe.fillna 对 Scalar 对象的处理 (dask#5463) Zhenqing Li



文档¶

移除 Spark 比较页面中的框 (dask#5445) Matthew Rocklin
添加最新演示文稿 (dask#5446) Javad
更新云文档 (dask#5444) Matthew Rocklin




2.5.0 / 2019-09-27¶

核心¶

为 get_dependencies 任务添加 sentinel no_default (dask#5420) James Bourbeau
更新 fsspec 版本 (dask#5415) Matthew Rocklin
移除 PY2 检查 (dask#5400) Jim Crist



DataFrame¶

添加选项以不在 dd.from_delayed 中检查 meta (dask#5436) Christopher J. Wright
修复 pyarrow master 导致的 test_timeseries_nulls_in_schema 失败 (dask#5421) Richard J Zamora
减小 pyarrow/parquet 中 read_metadata 的输出大小 (dask#5391) Richard J Zamora
测试使用 npartitions 进行 repartition 的数值边界情况。 (dask#5433) amerkel2
取消 pandas-datareader 测试的 xfail 标记 (dask#5430) Tom Augspurger
添加 DataFrame.pop 实现 (dask#5422) Matthew Rocklin
为基于 cudf 的 dataframes 启用使用 cupy values 的 merge/set_index (dask#5322) Richard J Zamora
drop_duplicates 支持 positional subset 参数 (dask#5410) Wes Roach



文档¶

为 array、bag、dataframe、delayed、futures 和 setup 添加截屏视频 (dask#5429) (dask#5424) Matthew Rocklin
修复分隔符解析文档 (dask#5428) Mahmut Bulut
更新概览图片 (dask#5404) James Bourbeau




2.4.0 / 2019-09-13¶

数组¶

添加显式的 h5py.File 模式 (dask#5390) James Bourbeau
提供计算未知 array chunks 大小的方法 (dask#5312) Scott Sievert
忽略 Array compute_meta 中的运行时警告 (dask#5356) estebanag
向 Array.__dask_postpersist__ 添加 _meta (dask#5353) Benoit Bovy
修正 da.asarray 和 da.asanyarray 对 datetime64 dtype 和 xarray 对象的处理 (dask#5334) Stephan Hoyer
添加 shape 实现 (dask#5293) Tom Augspurger
向 array 文本表示添加 chunktype (dask#5289) James Bourbeau
Array.random.choice: 处理类数组非数组对象 (dask#5283) Gabe Joseph



核心¶

移除废弃代码 (dask#5401) Jim Crist
修复向量化函数没有 __name__ 属性时的 funcname (dask#5399) James Bourbeau
截断 funcname 以避免过长的键名 (dask#5383) Matthew Rocklin
在 funcname 中添加对 numpy.vectorize 的支持 (dask#5396) James Bourbeau
修复 HDFS 上游测试 (dask#5395) Tom Augspurger
支持在 parse_bytes/timedelta 中使用数字和 None (dask#5384) Matthew Rocklin
修复内存映射 numpy 数组上子索引的 tokenization (dask#5351) Henry Pinkard
上游修正 (dask#5300) Tom Augspurger



DataFrame¶

允许 pandas 转换统计信息的类型 (dask#5402) Richard J Zamora
应用 dd.pivot_table 后保留索引 dtype (dask#5385) therhaag
为 Series 和 DataFrame 实现 explode (dask#5381) Arpit Solanki
set_index 在分类数据上失败，如果类别数少于分区数 (dask#5354) Oliver Hofkens
支持输出到单个 CSV 文件 (dask#5304) Hongjiu Zhang
添加 groupby().transform() (dask#5327) Oliver Hofkens
为 pyarrow dataset 调用添加 filter kwarg (dask#5348) Richard J Zamora
实现并检查 parquet 的默认压缩设置 (dask#5335) Sarah Bird
将 sqlalchemy 参数传递给 delayed 对象 (dask#5332) Arpit Solanki
修复 arrow-parquet 中的 schema 处理 (dask#5307) Richard J Zamora
为 DF 和 Series groupby().idxmin/max() 添加支持 (dask#5273) Oliver Hofkens
添加相关性计算并添加测试 (dask#5296) Benjamin Zaitlen



文档¶

Numpy docstring 标准已迁移 (dask#5405) Wes Roach
引用正确的 NumPy 数组名称 (dask#5403) Wes Roach
对 Array chunk 文档进行少量编辑 (dask#5372) Scott Sievert
向 API 文档添加方法 (dask#5387) Tom Augspurger
为配置示例添加命名空间 (dask#5374) Matthew Rocklin
向诊断页面添加 get_task_stream 和 profile (dask#5375) Matthew Rocklin
添加使用 Dask 加载数据的最佳实践 (dask#5369) Matthew Rocklin
更新 institutional-faq.rst (dask#5345) DomHudson
在最佳实践中添加关于 threads 和 processes 的说明 (dask#5340) Matthew Rocklin
更新 cuDF 链接 (dask#5328) James Bourbeau
修复了括号放置的小拼写错误 (dask#5311) Eugene Huang
更新 reshape docstring 中的链接 (dask#5297) James Bourbeau




2.3.0 / 2019-08-16¶

数组¶

当 from_array 被给予 dask 数组时抛出异常 (dask#5280) David Hoese
避免两次调整 gufunc 的 meta dtype (dask#5274) Peter Andreas Entschev
向 map_blocks 添加 meta= 关键字，并添加稀疏测试 (dask#5269) Matthew Rocklin
添加 rollaxis 和 moveaxis (dask#4822) Tobias de Jong
始终递增旧的 chunk 索引 (dask#5256) James Bourbeau
洗牌 dask 数组 (dask#3901) Tom Augspurger
修复使用 bool dask 数组索引 dask 数组时的顺序问题 (dask#5151) James Bourbeau



Bag¶

为 bag 生成器中的内存泄漏添加临时解决方案 (dask#5208) Marco Neumann



核心¶

设置严格的 xfail 选项 (dask#5220) James Bourbeau
test-upstream (dask#5267) Tom Augspurger
修复 HDFS CI 失败 (dask#5234) Tom Augspurger
如果没有推断出文件大小则友好地报错 (dask#5231) Jim Crist
对 config.set 的一些更改 (dask#5226) Jim Crist
修正 black 字符串规范化 (dask#5227) Jim Crist
在 windows 测试中锁定 NumPy 版本 (dask#5228) Jim Crist
确保如果未安装 fastparquet 和 pyarrow 则跳过 parquet 测试 (dask#5217) James Bourbeau
将 fsspec 添加到 readthedocs (dask#5207) Matthew Rocklin
在 CI 测试中将 NumPy 和 Pandas 升级到 1.17 和 0.25 (dask#5179) John A Kirkham



DataFrame¶

修复 DataFrame.query docstring (不正确的 numexpr API) (dask#5271) Doug Davis
Parquet 元数据处理改进 (dask#5218) Richard J Zamora
改进关于索引的已排序 parquet 列的消息提示 (dask#5265) Martin Durant
为 cudf 添加 rearrange_by_divisions 和 set_index 支持 (dask#5205) Richard J Zamora
修复使用整数列名时的 groupby.std() (dask#5096) Nicolas Hug
添加 Series.__iter__ (dask#5071) Blane
将 hash_pandas_object 通用化以支持非 pandas 后端 (dask#5184) GALI PREM SAGAR
添加 rolling cov (dask#5154) Ivars Geidans
在 drop 函数中添加 columns 参数 (dask#5223) Henrique Ribeiro



文档¶

更新机构常见问题解答文档 (dask#5277) Matthew Rocklin
添加机构常见问题解答草稿 (dask#5214) Matthew Rocklin
为 dask-spark 页面制作框 (dask#5249) Martin Durant
添加 shuffle 文档的动机 (dask#5213) Matthew Rocklin
修复最佳实践的链接和 API 条目 (dask#5246) Martin Durant
移除“字节”（内部数据摄取）文档页面 (dask#5242) Martin Durant
将本地分布式页面重定向到 distributed.dask.org (dask#5248) Matthew Rocklin
清理 API 页面 (dask#5247) Matthew Rocklin
移除安装文档中多余的换行符 (dask#5243) Matthew Rocklin
移除计算阶段文档中的项目列表 (dask#5245) Martin Durant
从目录侧边栏移除自定义图 (dask#5241) Matthew Rocklin
移除自定义集合的实验状态标记 (dask#5236) James Bourbeau
向 Why Dask? 添加目录 (dask#5244) James Bourbeau
将 bag 概览移至顶层 bag 页面 (dask#5240) James Bourbeau
移除 use-cases，推荐 stories.dask.org (dask#5238) Matthew Rocklin
移除 index.rst 中冗余的目录信息 (dask#5235) James Bourbeau
提升分布式诊断文档中 dashboard 的重要性 (dask#5239) Martin Durant
更新 HLG 文档示例中的“add”层 (dask#5237) James Bourbeau
更新 GUFunc 文档 (dask#5232) Matthew Rocklin




2.2.0 / 2019-08-01¶

数组¶

如果输入遵循 NEP-18，则使用 da.from_array(…, asarray=False) (dask#5074) Matthew Rocklin
为 from_array 文档添加缺失的属性 (dask#5108) Peter Andreas Entschev
修复某些 reduction 函数的 meta 计算 (dask#5035) Peter Andreas Entschev
如果在 to_zarr 中发现未知 chunks 则抛出有用的错误 (dask#5148) James Bourbeau
移除无效的 pad 测试 (dask#5122) Tom Augspurger
忽略 compute_meta 中的 NumPy 警告 (dask#5103) Peter Andreas Entschev
修复单维度输入数组的峰度计算 (dask#5177) @andrethrill
在测试中支持 Numpy 1.17 (dask#5192) Matthew Rocklin



Bag¶

为 bag 测试提供 pool 以解决间歇性失败 (dask#5172) Tom Augspurger



核心¶

将 dask 基于 fsspec (dask#5064) (dask#5121) Martin Durant
各种上游兼容性修复 (dask#5056) Tom Augspurger
再次将分布式测试设为可选。 (dask#5128) Elliott Sales de Andrade
修复 dask 中的 HDFS (dask#5130) Martin Durant
忽略更多无效值警告。 (dask#5140) Elliott Sales de Andrade



DataFrame¶

修复 pd.MultiIndex 大小估计 (dask#5066) Brett Naul
通用化 has_known_categories (dask#5090) GALI PREM SAGAR
重构 Parquet 引擎 (dask#4995) Richard J Zamora
为 series 和 dataframe 添加 divide 方法 (dask#5094) msbrown47
修复不稳定的 partd 测试 (dask#5111) Tom Augspurger
调整 is_dataframe_like 以适应 value_counts 的变化 (dask#5143) Tom Augspurger
通用化滚动窗口以支持非 Pandas dataframes (dask#5149) Nick Becker
避免在 pivot_table 中进行不必要的聚合 (dask#5173) Daniel Saxton
向 apply_and_enforce 错误消息添加列名 (dask#5180) Matthew Rocklin
向 to_parquet 添加 schema 关键字参数 (dask#5150) Sarah Bird
移除 accessors 中的递归错误 (dask#5182) Jim Crist
允许 fastparquet 处理文件列表的 gather_statistics=False (dask#5157) Richard J Zamora



文档¶

向 README 添加 NumFOCUS 徽章 (dask#5086) James Bourbeau
更新开发者文档 [ci skip] (dask#5093) Jim Crist
记录 DataFrame.set_index 计算行为 Natalya Rapstine
使用 pip install . 代替调用 setup.py (dask#5139) Matthias Bussonier
关闭用户调查 (dask#5147) Tom Augspurger
修复 Google Calendar 会议链接 (dask#5155) Loïc Estève
添加 docker 镜像自定义示例 (dask#5171) James Bourbeau
在 fsspec 之后更新 remote-data-services (dask#5170) Martin Durant
修复 spark.rst 中的拼写错误 (dask#5164) Xavier Holt
更新 setup/python 文档以支持 async/await API (dask#5163) Matthew Rocklin
更新本地存储 HPC 文档 (dask#5165) Matthew Rocklin




2.1.0 / 2019-07-08¶

数组¶

为 svd_compressed 添加 recompute= 关键字，以减少内存使用 (dask#5041) Matthew Rocklin
更改 __array_function__ 实现以兼容旧版本 (dask#5043) Ralf Gommers
向 apply_along_axis 添加 dtype 和 shape kwargs (dask#3742) Davis Bennett
修复空元组轴的 reduction (dask#5025) Peter Andreas Entschev
在 stack 中丢弃大小为 0 的数组 (dask#4978) John A Kirkham



核心¶

从 pandas to_parquet 调用中移除 index 关键字 (dask#5075) James Bourbeau
修复上游开发 CI 构建安装问题 (dask#5072) James Bourbeau
确保标量数组不渲染为 SVG (dask#5058) Willi Rath
环境创建大修 (dask#5038) Tom Augspurger
s3fs, moto 兼容性 (dask#5033) Tom Augspurger
pytest 5.0 兼容 (dask#5027) Tom Augspurger



DataFrame¶

修复 blockwise 中的 compute_meta 递归 (dask#5048) Peter Andreas Entschev
移除 get_dummies 对 pandas 的硬依赖 (dask#5057) GALI PREM SAGAR
检查使用 DataFrame.assign 时 dtypes 未更改 (dask#5047) asmith26
修复分区数大于 1 的表上的累积函数 (dask#5034) tshatrov
处理 repartition 中不可整除的大小 (dask#5013) George Sakkis
处理 pyarrow 中 timestamp 和 preserve_index 的变化 (dask#5018) Richard J Zamora
修复 str.split(expand=False) 的未定义 meta (dask#5022) Brett Naul
移除用于调试 merge_asof 的检查 (dask#5011) Cody Johnson
在获取 dataframes 中的 accessor 时不要使用 type (dask#4992) Matthew Rocklin
将 melt 添加为 Dask DataFrame 的方法 (dask#4984) Dustin Tindall
向 to_hdf 添加类路径支持 (dask#5003) James Bourbeau



文档¶

在 JupyterHub 文档中指向最新的 K8s setup 文章 (dask#5065) Sean McKenna
将 vizualize 改为 visualize (dask#5061) David Brochart
修复 delayed best practices 中 from_sequence 的拼写错误 (dask#5045) James Bourbeau
在文档中添加用户调查链接 (dask#5026) James Bourbeau
修复优化文档中的拼写错误 (dask#5015) James Bourbeau
更新社区会议信息 (dask#5006) Tom Augspurger




2.0.0 / 2019-06-25¶

数组¶

在 da.indices 中支持自动 chunking (dask#4981) James Bourbeau
如果没有要堆叠的数组则报错 (dask#4975) John A Kirkham
非对称数组重叠 (dask#4863) Michael Eaton
在 dask 数组中尽可能分派 concatenate (dask#4669) Hameer Abbasi
修复内存映射 numpy 数组在同一文件的不同部分的 tokenization 问题 (dask#4931) Henry Pinkard
在 da.asarray 中保留 NumPy 条件以保留输出形状 (dask#4945) Alistair Miles
扩展 foo_like_safe 的用法 (dask#4946) Peter Andreas Entschev
将 einsum 的 order/casting 参数延迟到 NumPy 实现 (dask#4914) Peter Andreas Entschev
移除矩计算中的 numpy 警告 (dask#4921) Matthew Rocklin
修复 meta_from_array 以支持 Xarray 测试套件 (dask#4938) Matthew Rocklin
缓存整数切片的 chunk 边界 (dask#4923) Bruce Merry
在 concatenate 中丢弃大小为 0 的数组 (dask#4167) John A Kirkham
如果 concatenate 没有给定数组则抛出 ValueError (dask#4927) John A Kirkham
在 concatenate 中使用 _meta 提升类型 (dask#4925) John A Kirkham
在 Dask 数组的 html repr 中添加 chunk 类型 (dask#4895) Matthew Rocklin

添加 Dask Array._meta 属性 (dask#4543) Peter Andreas Entschev

修复灵活类型的 _meta 切片 (dask#4912) Peter Andreas Entschev
在 concatenate 中进行少量 meta 构建清理 (dask#4937) Peter Andreas Entschev
进一步放宽 Array meta 对 Xarray 的检查 (dask#4944) Matthew Rocklin
在 da.from_delayed 中支持 meta= 关键字 (dask#4972) Matthew Rocklin
沿轴 concatenate meta (dask#4977) John A Kirkham
在 stack 中使用 meta (dask#4976) John A Kirkham
将 blockwise_meta 移至更通用的 compute_meta 函数 (dask#4954) Matthew Rocklin




将 dask 数组的 .partitions 别名为 .blocks 属性 (dask#4853) Genevieve Buckley
丢弃过时的 numpy_compat 函数 (dask#4850) John A Kirkham
允许 da.eye 支持使用 chunks=’auto’ 的任意 chunking 大小 (dask#4834) Anderson Banihirwe
修复 dask.array 测试中的 CI 警告 (dask#4805) Tom Augspurger
使 map_blocks 支持 drop_axis + block_info (dask#4831) Bruce Merry
在 Array._repr_html_ 中添加 SVG 图像和表格 (dask#4794) Matthew Rocklin
ufunc: 避免使用 __array_wrap__，倾向于使用 __array_function__ (dask#4708) Peter Andreas Entschev
确保简单的 padding 返回原始数组 (dask#4990) John A Kirkham
使用 0 大小数组测试 da.block (dask#4991) John A Kirkham



核心¶

放弃 Python 2.7 支持 (dask#4919) Jim Crist
静默 CI 中的依赖安装 (dask#4960) Tom Augspurger
在测试中对警告引发异常 (dask#4916) Tom Augspurger
向 setup.py 添加一个 diagnostics extra (包含 bokeh) (dask#4924) John A Kirkham
向 OpenFile 添加 newline delimter 关键字 (dask#4935) btw08
重载 HighLevelGraphs 的 values 方法 (dask#4918) James Bourbeau
向 Dask collections 添加 __await__ 方法 (dask#4901) Matthew Rocklin
如果安装了 snappy (而非 python-snappy)，也忽略可能发生的 AttributeErrors (dask#4908) Mark Bell
在 config.rename 中规范化键名 (dask#4903) Ian Bolliger
将 partd 的最低版本提升到 0.3.10 (dask#4890) Tom Augspurger
捕获 async def SyntaxError (dask#4836) James Bourbeau
在 ensure_file 中捕获 IOError (dask#4806) Justin Poehnelt
清理 CI 警告 (dask#4798) Tom Augspurger
将 distributed 的 parse 和 format 函数移至 dask.utils (dask#4793) Matthew Rocklin
应用 black 格式化 (dask#4983) James Bourbeau
在 wheels 中打包 license 文件 (dask#4988) John A Kirkham



DataFrame¶

向 repartition 添加一个可选的 partition_size 参数 (dask#4416) George Sakkis
merge_asof 和 prefix_reduction (dask#4877) Cody Johnson
允许 dataframes 通过 dask 数组进行索引 (dask#4882) Endre Mark Borza
避免在 pytest.raises 中使用废弃的 message 参数 (dask#4962) James Bourbeau
更新 test_to_records 以使用 lengths 参数进行测试(dask#4515) asmith26
移除 Dataframe accessors 中的 pandas pinning (dask#4955) Matthew Rocklin
修复同名 series 的相关性计算 (dask#4934) Philipp S. Sommer
将 Dask Series 映射到 Dask Series (dask#4872) Justin Waugh
在 dd.merge 中对 dtype 警告发出警告 (dask#4917) mcsoini
添加 groupby 协方差/相关性 (dask#4889) Benjamin Zaitlen
使用 to_datetime 时保留索引名 (dask#4905) Ian Bolliger
添加 dataframes 的并行方差计算 (dask#4865) Ksenia Bobrova
为 arrays 和 dataframes 添加 divmod 实现 (dask#4884) Henrique Ribeiro
添加 dataframe reshape 方法的文档 (dask#4896) tpanza
避免使用 pandas.compat (dask#4881) Tom Augspurger
添加了 Series, DataFrame 和 Index 的 accessor 注册 (dask#4829) Tom Augspurger
向 read_json 添加 read_function 关键字 (dask#4810) Richard J Zamora
在 check_meta 中提供完整的类型名称 (dask#4819) Matthew Rocklin
正确估计 read_sql_table 中每行的字节数 (dask#4807) Lijo Jose
向 describe() 添加对非数值数据的支持 (dask#4791) Ksenia Bobrova
扩展 dtypes 的标量。 (dask#4459) Tom Augspurger
在 dd.from_delayed 中在 compute 之前调用 head (dask#4802) Matthew Rocklin
添加对基于时间索引的 DataFrames 中窗口大于分区大小的滚动操作的支持 (dask#4796) Jorge Pessoa
更新 groupby-apply 文档并添加警告 (dask#4800) Tom Augspurger
更改 _maybe_slice 中的 groupby 相关测试 (dask#4786) Benjamin Zaitlen
添加主最佳实践文档 (dask#4745) Matthew Rocklin
添加关于 Dask 如何与 GPU 协同工作的文档 (dask#4792) Matthew Rocklin
添加 cli API 文档 (dask#4788) James Bourbeau
确保 concat 输出具有一致的 dtypes (dask#4692) Guillaume Lemaitre
修复 pandas_datareader 依赖项安装问题 (dask#4989) James Bourbeau
在 read_hdf 中接受 pathlib.Path 作为 pattern (dask#3335) Jörg Dietrich



文档¶

将 CLI API 文档移至相关页面 (dask#4980) James Bourbeau
将 to_datetime 函数添加到 dataframe API 文档 Matthew Rocklin
为 dask.array.ma.average 添加文档条目 (dask#4970) Bouwe Andela
将 bag.read_avro 添加到 bag API 文档 (dask#4969) James Bourbeau
修复拼写错误 (dask#4968) mbarkhau
文档：放弃 Python 2.7 支持 (dask#4932) Hugo
移除修改 changelog 的要求 (dask#4915) Matthew Rocklin
添加关于 meta 列顺序的文档 (dask#4887) Tom Augspurger
在 DataFrame.shift 中添加文档说明 (dask#4886) Tom Augspurger
文档：修复拼写错误 (dask#4868) Paweł Kordek
将 do/don’t 放入延迟最佳实践文档的框中 (dask#3821) Martin Durant
文档修正 (dask#2528) Tom Augspurger
向付费支持文档部分添加 quansight (dask#4838) Martin Durant
添加自定义启动文档 (dask#4833) Matthew Rocklin
允许 utils.derive_from 接受函数，并应用于整个数组 (dask#4804) Martin Durant
向最佳实践添加“避免大分区”部分 (dask#4808) Matthew Rocklin
更新 joblib 的 URL 指向托管其文档的新网站 (dask#4816) Christian Hudon




1.2.2 / 2019-05-08¶

数组¶

澄清 array.store 的 regions kwarg (dask#4759) Martin Durant
向 da.random.randint 添加 dtype= 参数 (dask#4753) Matthew Rocklin
在 docstring 中使用“行优先”而非“C 顺序” (dask#4452) @asmith26
将 Xarray 数据集规范化为 Dask 数组 (dask#4756) Matthew Rocklin
移除 da.histogram 中的 normed 关键字 (dask#4755) Matthew Rocklin



Bag¶

向 Bag.distinct 添加 key 参数 (dask#4423) Daniel Severo



核心¶

添加核心 dask 配置文件 (dask#4774) Matthew Rocklin
向 MANIFEST.in 添加核心 dask 配置文件 (dask#4780) James Bourbeau
启用 HTTP 文件系统的 glob 功能 (dask#3926) Martin Durant
HTTPFile.seek with whence=1 (dask#4751) Martin Durant
移除配置键规范化 (dask#4742) Jim Crist



DataFrame¶

移除 dask.dataframe.groupby 中对 Pandas 的显式引用 (dask#4778) Matthew Rocklin
为 DataFrame.groupby() 添加对 group_keys kwarg 的支持 (dask#4771) Brian Chu
描述文档 (dask#4762) Martin Durant
移除累积聚合中的显式 pandas 检查 (dask#4765) Nick Becker
为 read_json 添加 meta 并添加测试 (dask#4588) Abhinav Ralhan
添加 dtype casting 的测试 (dask#4760) Martin Durant
记录 map_partitions 中的对齐 (dask#4757) Jim Crist
实现 Series.str.split(expand=True) (dask#4744) Matthew Rocklin



文档¶

根据尝试运行测试对 develop.rst 进行调整 (dask#4772) Christian Hudon
添加描述计算阶段的文档 (dask#4766) Matthew Rocklin
从 spark 文档中引导用户至 Dask-Yarn (dask#4770) Matthew Rocklin
更新 delayed 文档中的图片以移除标签 (dask#4768) Martin Durant
解释 dask 数组的中间存储 (dask#4025) John A Kirkham
在 array 最佳实践中指定 bash 代码块 (dask#4764) James Bourbeau
添加 array 最佳实践文档 (dask#4705) Matthew Rocklin
更新优化文档，说明 cull 不再是自动的 (dask#4752) Matthew Rocklin




1.2.1 / 2019-04-29¶

数组¶

修复 map_blocks 与 block_info 和 broadcasting 的问题 (dask#4737) Bruce Merry
将 da.bincount 中的 ‘minlength’ 关键字参数设为可选 (dask#4684) Genevieve Buckley
添加对没有数组参数的 map_blocks 的支持 (dask#4713) Bruce Merry
添加 dask.array.trace (dask#4717) Danilo Horta
添加对 cupy.ndarray 的 sizeof 支持 (dask#4715) Peter Andreas Entschev
向 from_array 添加 chunks=’auto’ (dask#4704) Matthew Rocklin
向 from_zarr 添加 name kwarg (dask#4663) Michael Eaton
如果将 dask 数组作为 da.ones, zeros, empty 或 full 的形状，则抛出 TypeError (dask#4707) Genevieve Buckley
添加 TileDB 后端 (dask#4679) Isaiah Norton



核心¶

延迟长列表参数 (dask#4735) Matthew Rocklin
将 numpy 升级到 >= 1.13，pandas 升级到 >= 0.21.0 (dask#4720) Jim Crist
移除文件“test” (dask#4710) James Bourbeau
重新启用开发构建，使用上游库 (dask#4696) Peter Andreas Entschev
移除 HighLevelGraph 构造函数中的断言 (dask#4699) Matthew Rocklin



DataFrame¶

更改累积聚合的 last-nonnull-value 算法 (dask#4736) Nick Becker
修正 series-groupby-apply (dask#4738) Jim Crist
重构 array.percentile 和 dataframe.quantile 以使用 t-digest (dask#4677) Janne Vuorela
允许对已排序的 dataframes 进行朴素连接 (dask#4725) Matthew Rocklin
修复 dd.Series.isin 中的性能问题 (dask#4727) Jim Crist
通过使用 methodcaller 移除 melt 对 pandas 的硬依赖 (dask#4719) Nick Becker
一些 dataframe 元数据修复 (dask#4695) Jim Crist
添加 Dataframe.replace (dask#4714) Matthew Rocklin
向 pd.DataFrame.dropna 添加 ‘threshold’ 参数 (dask#4625) Nathan Matare



文档¶

在 docstring 早期添加关于派生 docstring 的警告 (dask#4716) Matthew Rocklin
创建 dataframe 最佳实践文档 (dask#4703) Matthew Rocklin
取消注释 dask_sphinx_theme (dask#4728) James Bourbeau
修复 Queue/fire_and_forget 示例中的小拼写错误 (dask#4709) Matthew Rocklin
更新 from_pandas 文档字符串以匹配签名 (dask#4698) James Bourbeau




1.2.0 / 2019-04-12¶

Array¶

修复稀疏数组上的 mean() 和 moment() 方法 (dask#4525) Peter Andreas Entschev
添加 NEP-18 测试。 (dask#4675) Hameer Abbasi
允许在 normalize_chunks 中使用 None 表示“不分块” (dask#4656) Matthew Rocklin
修复 auto_chunks 中的限制值 (dask#4645) Matthew Rocklin



Core¶

更新诊断 bokeh 测试以兼容 bokeh>=1.1.0 (dask#4680) Philipp Rudiger
调整 codecov 的 target/threshold，禁用 patch (dask#4671) Peter Andreas Entschev
始终以空 http buffer 开始，而不是 None (dask#4673) Martin Durant



DataFrame¶

从 array 创建 dask dataframe 时传播索引 dtype 和 name (dask#4686) Henrique Ribeiro
修复 describe 中分位数的顺序 (dask#4647) gregrf
清理并记录 rearrange_column_by_tasks (dask#4674) Matthew Rocklin
将一些 parquet 测试标记为 xfail (dask#4667) Peter Andreas Entschev
修复 arrow 0.13.0 导致的 parquet 故障 (dask#4668) Martin Durant
允许从远程 URL 读取 CSV 时 sample 参数为 False (dask#4634) Ian Rose
修复 parquet 加载时的时区元数据推断 (dask#4655) Martin Durant
在 dd.utils 中使用 is_dataframe/index_like (dask#4657) Matthew Rocklin
为 groupby sum 方法添加 min_count 参数 (dask#4648) Henrique Ribeiro
修正 quantile 以处理未排序的分位数 (dask#4650) gregrf



Documentation¶

将 delayed 的额外依赖项添加到安装文档中 (dask#4660) James Bourbeau




1.1.5 / 2019-03-29¶

Array¶

确保在 normalize_chunks 中使用 dtype 关键字参数 (dask#4646) Matthew Rocklin



Core¶

在 LocalFileSystem 中使用递归 glob (dask#4186) Brett Naul
避免 YAML 弃用 (dask#4603)
修复 CI 并添加 set -e (dask#4605) James Bourbeau
支持 dask.visualize 中的内置序列类型 (dask#4602)
解包/打包 orderedDict (dask#4623) Justin Poehnelt
将 da.random.randint 添加到 API 文档 (dask#4628) James Bourbeau
将 zarr 添加到 CI 环境中 (dask#4604) James Bourbeau
启用 codecov (dask#4631) Peter Andreas Entschev



DataFrame¶

支持设置索引 (dask#4565)
DataFrame.itertuples 接受 index, name 关键字参数 (dask#4593) Dan O’Donovan
在 dd.Series.unique 中支持非 Pandas Series (dask#4599) Benjamin Zaitlen
使用 ._is_partition_type 谓词替换显式类型检查的使用 (dask#4533)
移除测试中额外的 pandas 警告 (dask#4576)
检查对象是否具有 name/dtype 属性，而不是检查类型 (dask#4606)
修复与 pd.Series 的比较 (dask#4613) amerkel2
修复设置分类代码为 float 时的警告 (dask#4624) Julia Signell
修复索引 to_frame 方法上的重命名问题 (dask#4498) Henrique Ribeiro
修复连接两个单分区 dataframe 时的 divisions (dask#4636) Justin Waugh
如果在 compute_divisions 中分区重叠，则发出警告 (dask#4600) Brian Chu
提供信息丰富的 meta= 警告 (dask#4637) Matthew Rocklin
为 Series.__getitem__ 添加信息丰富的错误消息 (dask#4638) Matthew Rocklin
在使用 read_csv 的 index 或 index_col 时添加清晰的异常消息 (dask#4651) Álvaro Abella Bascarán



Documentation¶

添加自定义 groupby 聚合的文档 (dask#4571)
文档 dataframe joins (dask#4569)
指定基于 fork 的贡献 (dask#4619) James Bourbeau
更正 to_parquet 文档示例 (dask#4641) Aaron Fowles
更新并保护一些引用 (dask#4649) Søren Fuglede Jørgensen




1.1.4 / 2019-03-08¶

Array¶

在 compress 中使用 mask selection (dask#4548) John A Kirkham
在 extract 中使用 asarray (dask#4549) John A Kirkham
测试 concatenation 时使用正确的 dtype。 (dask#4539) Elliott Sales de Andrade
修复 CuPy 测试或正确标记为 xfail (dask#4564) Peter Andreas Entschev



Core¶

修复 local scheduler callback 以处理自定义缓存 (dask#4542) Yu Feng
在 read_bytes(sample=…) 中使用 parse_bytes (dask#4554) Matthew Rocklin



DataFrame¶

再次修复 object dtype keys 上的 groupby-standard deviation (dask#4541) Matthew Rocklin
TST/CI：更新以兼容 pandas 0.24.1 (dask#4551) Tom Augspurger
添加控制 timeseries 中 unique elements 数量的能力 (dask#4557) Matthew Rocklin
在 read_csv 中为其他可迭代对象添加对参数 skiprows 的支持 (dask#4560) @JulianWgs



Documentation¶

DataFrame 到 Array 的转换和未知分块 (dask#4516) Scott Sievert
添加随机 array 创建的文档 (dask#4566) Matthew Rocklin
修复文档字符串中的拼写错误 (dask#4572) Shyam Saladi




1.1.3 / 2019-03-01¶

Array¶

修改 mean chunk 函数以返回 dicts 而不是 arrays (dask#4513) Matthew Rocklin
更改 CI 中的稀疏安装以兼容 NumPy/Python2 (dask#4537) Matthew Rocklin



DataFrame¶

使 merge 可以在 pandas/其他 dataframe 类型上调度 (dask#4522) Matthew Rocklin
read_sql_table - datetime 索引修复和索引类型检查 (dask#4474) Joe Corbett
使用广义形式的索引检查 (is_index_like) (dask#4531) Benjamin Zaitlen
添加带有 object dtypes 的 groupby reductions 的测试 (dask#4535) Matthew Rocklin
修复 #4467：更新 time_series 以兼容 pandas 弃用 (dask#4530) @HSR05



Documentation¶

添加文档索引中缺失的方法 (dask#4528) Bart Broere




1.1.2 / 2019-02-25¶

Array¶

修复 normalize_array 中另一个 unicode/mixed-type 边缘情况 (dask#4489) Marco Neumann
添加 dask.array.diagonal (dask#4431) Danilo Horta
在 unify_chunks 中调用 asanyarray (dask#4506) Jim Crist
修改 moment chunk 函数以返回 dicts (dask#4519) Peter Andreas Entschev



Bag¶

不要在 dask.bag 中内联输出键 (dask#4464) Jim Crist
确保 bag.from_sequence 总是至少包含一个分区 (dask#4475) Anderson Banihirwe
实现 bag.fold 的 out_type (dask#4502) Matthew Rocklin
从 bag keynames 中移除 map (dask#4500) Matthew Rocklin
避免在 map_partitions 中使用 itertools.repeat (dask#4507) Matthew Rocklin



DataFrame¶

修复使用 fastparquet 时 Windows 上相对路径解析问题 (dask#4445) Janne Vuorela
修复 pyarrow 和 hdfs 中的 bug (dask#4453) (dask#4455) Michał Jastrzębski
df getitem 使用整数切片未实现 (dask#4466) Jim Crist
将 cudf 特定的代码替换为 dask-cudf 导入 (dask#4470) Matthew Rocklin
避免在 groupby-var 中使用 groupby.agg(callable) (dask#4482) Matthew Rocklin
在 check_meta 中将 uint 类型视为数值类型 (dask#4485) Marco Neumann
修复 groupby 注释中的一些拼写错误 (dask#4494) Daniel Saxton
添加 set_index(inplace=True) 周围的错误消息 (dask#4501) Matthew Rocklin
meta_nonempty 适用于 categorical 索引 (dask#4505) Jim Crist
向预期的 meta 错误消息添加模块名称 (dask#4499) Matthew Rocklin
groupby-nunique 适用于空分块 (dask#4504) Jim Crist
如果未指定，则传播索引元数据 (dask#4509) Jim Crist



Documentation¶

更新文档以使用 from_zarr (dask#4472) John A Kirkham
DOC：为 remote-data-services 添加 Using Other S3-Compatible Services 部分 (dask#4405) Aploium
修复 changelog 中 section 的 header 级别 (dask#4483) Bruce Merry
为 pip install [skip-ci] 添加引号 (dask#4508) James Bourbeau



Core¶

在状态初始化后扩展 started_cbs (dask#4460) Marco Neumann
修复 HTTPFile._fetch_range 处理 headers 的 bug (dask#4479) (dask#4480) Ross Petchler
为 diamond fusion 重复 optimize_blockwise (dask#4492) Matthew Rocklin




1.1.1 / 2019-01-31¶

Array¶

添加对 cupy.einsum 的支持 (dask#4402) Johnnie Gray
在 chunks 关键字中提供字节大小 (dask#4434) Adam Beberg
为 histogram 的 bins 和 range 抛出更信息丰富的错误 (dask#4430) James Bourbeau



DataFrame¶

延迟注册更多 cudf 函数并移动到 backends 文件 (dask#4396) Matthew Rocklin
修复 pyarrow 0.12.0 的 ORC 测试 (dask#4413) Jim Crist
rearrange_by_column: 确保如果在 dask.config 中 shuffle arg 为 None，则默认为 'disk' (dask#4414) George Sakkis
实现 _read_pyarrow 的 filters (dask#4415) George Sakkis
避免在 is_dataframe_like 中检查类型 (dask#4418) Matthew Rocklin
使用 pyarrow 时将 username 作为 'user' 传递 (dask#4438) Roma Sokolov



Delayed¶

修复 DelayedAttr 返回值 (dask#4440) Matthew Rocklin



Documentation¶

使用 SVG 作为 pipeline 图形 (dask#4406) John A Kirkham
将 doctest-modules 添加到 py.test 文档中 (dask#4427) Daniel Severo



Core¶

解决 psutil 5.5.0 不允许 pickle Process 对象的限制 Janne Vuorela




1.1.0 / 2019-01-18¶

Array¶

修复存在 masked array 时的 average 函数 (dask#4236) Damien Garaud
为 hstack 和 vstack 添加 allow_unknown_chunksizes (dask#4287) Paul Vecchio
修复 27+ 维度的 tensordot (dask#4304) Johnnie Gray
修复带有 axes 的 block_info。 (dask#4301) Tom Augspurger
为 matmul 使用 safe_wraps (dask#4346) Mark Harfouche
在 array creation routines 中使用 chunks=”auto” (dask#4354) Matthew Rocklin
修复 dask.array.Array.__array_ufunc__ 中的 np.matmul (dask#4363) Stephan Hoyer
COMPAT：重新启用 multifield copy->view 更改 (dask#4357) Diane Trout
调用 delayed 对象上的 np.dtype 有效 (dask#4387) Jim Crist
重写 normalize_array 以处理 numpy 数据 (dask#4312) Marco Neumann



DataFrame¶

为 series comparisons 添加 fill_value 支持 (dask#4250) James Bourbeau
在 read_sql_table 中为 empty tables 添加 schema name (dask#4268) Mina Farid
调整 map_blocks 中对 bad chunks 的检查 (dask#4308) Tom Augspurger
添加 dask.dataframe.read_fwf (dask#4316) @slnguyen
在 dask dataframe 中使用 atop fusion (dask#4229) Matthew Rocklin
在 from_pandas 中使用 parallel_types() (dask#4331) Matthew Rocklin
将 DataFrame._repr_data 更改为方法 (dask#4330) Matthew Rocklin
为 Appveyor 安装 pyarrow fastparquet (dask#4338) Gábor Lipták
移除显式的 pandas 检查并提供 cudf 延迟注册 (dask#4359) Matthew Rocklin
将 isinstance(…, pandas) 替换为 is_dataframe_like (dask#4375) Matthew Rocklin
ENH: 支持第三方 ExtensionArrays (dask#4379) Tom Augspurger
Pandas 0.24.0 兼容性 (dask#4374) Tom Augspurger



Documentation¶

修复 array api docs 中到 'map_blocks' 函数的链接 (dask#4258) David Hoese
在 cloud docs 中添加关于 Dask-Yarn 的段落 (dask#4260) Jim Crist
校对文档 (dask#4267), (dask#4263), (dask#4262), (dask#4277), (dask#4271), (dask#4279), (dask#4265), (dask#4295), (dask#4293), (dask#4296), (dask#4302), (dask#4306), (dask#4318), (dask#4314), (dask#4309), (dask#4317), (dask#4326), (dask#4325), (dask#4322), (dask#4332), (dask#4333), Miguel Farrajota
修复代码示例中的拼写错误 (dask#4272) Daniel Li
文档：更新 array-api.rst (dask#4259) (dask#4282) Prabakaran Kumaresshan
更新 hpc 文档 (dask#4266) Guillaume Eynard-Bontemps
文档：在文档中将 from_avro 替换为 read_avro (dask#4313) Prabakaran Kumaresshan
移除文档中对 “get” scheduler 函数的引用 (dask#4350) Matthew Rocklin
修复文档字符串中的拼写错误 (dask#4376) Daniel Saxton
添加 dask.dataframe.merge 的文档 (dask#4382) Jendrik Jördening



Core¶

避免 dask.core.get 中的递归 (dask#4219) Matthew Rocklin
移除 pytest setup.cfg 中的 verbose flag (dask#4281) Matthew Rocklin
通过显式指定 marks 支持 Pytest 4.0 (dask#4280) Takahiro Kojima
添加 High Level Graphs (dask#4092) Matthew Rocklin
修复 SerializableLock 的 locked 和 acquire 方法 (dask#4294) Stephan Hoyer
在测试中将 boto3 锁定到早期版本以避免 moto 冲突 (dask#4276) Martin Durant
更新 config 时将 None 视为缺失值 (dask#4324) Matthew Rocklin
将 Appveyor 更新到 Python 3.6 (dask#4337) Gábor Lipták
在 dask.dataframe/bytes/bag 中更宽松地使用 parse_bytes (dask#4339) Matthew Rocklin
当缺少 cloudpickle 时添加更好的错误消息 (dask#4342) Mark Harfouche
在 threaded/multiprocessing get 函数中支持 pool= 关键字参数 (dask#4351) Matthew Rocklin
允许从 config.update 中的任意 Mappings 更新，而不仅仅是 dicts。 (dask#4356) Stuart Berg
将 dask/array/top.py 代码移动到 dask/blockwise.py (dask#4348) Matthew Rocklin
添加 has_parallel_type (dask#4395) Matthew Rocklin
CI: 更新 Appveyor (dask#4381) Tom Augspurger
忽略不可读的配置文件 (dask#4388) Jim Crist




1.0.0 / 2018-11-28¶

Array¶

添加 nancumsum/nancumprod 单元测试 (dask#4215) crusaderky



DataFrame¶

将 index 添加到 to_dask_dataframe 文档字符串 (dask#4232) James Bourbeau
使用 fastparquet 时处理和修复追加 categoricals 的问题 (dask#4245) Martin Durant
将 ParquetFile 传递给 read_parquet 时，不要重新读取元数据 (dask#4247) Martin Durant



Documentation¶

校对文档 (dask#4222) (dask#4224) (dask#4228) (dask#4231) (dask#4230) (dask#4234) (dask#4235) (dask#4254) Miguel Farrajota
更新关于新 scheduler 关键字的文档 (dask#4251) @milesial



Core¶

避免一些警告 (dask#4223) Matthew Rocklin
移除 dask.store 模块 (dask#4221) Matthew Rocklin
移除 AUTHORS.md Jim Crist




0.20.2 / 2018-11-15¶

Array¶

避免 atop reductions 的 fusing 依赖项 (dask#4207) Matthew Rocklin



Dataframe¶

改进 dataframe 相关性的内存占用 (dask#4193) Damien Garaud
为 boundary_slice 添加空的 DataFrame 检查 (dask#4212) James Bourbeau



Documentation¶

校对文档 (dask#4197) (dask#4204) (dask#4198) (dask#4199) (dask#4200) (dask#4202) (dask#4209) Miguel Farrajota
添加 stats 模块命名空间 (dask#4206) James Bourbeau
修复 dataframe 文档中的链接 (dask#4208) James Bourbeau




0.20.1 / 2018-11-09¶

Array¶

仅在 wrapped_pad_func 中分配结果空间 (dask#4153) John A Kirkham
将 expand_pad_width 泛化为 expand_pad_value (dask#4150) John A Kirkham
使用 2D linear_ramp case 测试 da.pad (dask#4162) John A Kirkham
修复 broadcast_to 的导入。 (dask#4168) samc0de
重写 Dask Array 的 pad 以仅添加新块 (dask#4152) John A Kirkham
验证 atop 的索引输入 (dask#4182) Matthew Rocklin



Core¶

Dask.config set 和 get 规范化下划线和连字符 (dask#4143) James Bourbeau
只在核心集合上进行 subs，而不是子类 (dask#4159) Matthew Rocklin
为 HTTPFileSystem 添加 block_size=0 选项。 (dask#4171) Martin Durant
为 dataclasses 添加 traverse 支持 (dask#4165) Armin Berres
避免在没有依赖项的 sharedicts 上进行优化 (dask#4181) Matthew Rocklin
更新 TravisCI 的 pytest 版本 (dask#4189) Damien Garaud
在 visualize names 中使用 key_split 而不是 funcname (dask#4160) Matthew Rocklin



Dataframe¶

为 DataFrame.__setitem__ 添加 index 修复 (dask#4151) Anderson Banihirwe
修复将文件列表传递给 fastparquet 时 column choice 问题 (dask#4174) Martin Durant
将 engine_kwargs 从 read_sql_table 传递给 sqlalchemy (dask#4187) Damien Garaud



Documentation¶

修复 Delayed 最佳实践示例中返回空列表的文档 (dask#4147) Jonathan Fraine
校对文档 (dask#4164) (dask#4175) (dask#4185) (dask#4192) (dask#4191) (dask#4190) (dask#4180) Miguel Farrajota
修复文档字符串中的拼写错误 (dask#4183) Carlos Valiente




0.20.0 / 2018-10-26¶

Array¶

Fuse Atop 操作 (dask#3998), (dask#4081) Matthew Rocklin
支持 dask dataframes 上的 da.asanyarray (dask#4080) Matthew Rocklin
移除 datetime 测试中不必要的 endianness 检查 (dask#4113) Elliott Sales de Andrade
在 array foo_like 函数中设置 name=False (dask#4116) Matthew Rocklin
移除 dask.array.ghost 模块 (dask#4121) Matthew Rocklin
修复 dask array 中 getargspec 的使用 (dask#4125) Stephan Hoyer
添加 dask.array.invert (dask#4127), (dask#4131) Anderson Banihirwe
在未知 chunksize 上进行 arg-reduction 时抛出信息丰富的错误 (dask#4128), (dask#4135) Matthew Rocklin
在 dask array 中规范化 reversed slices (dask#4126) Matthew Rocklin



Bag¶

添加 bag.to_avro (dask#4076) Martin Durant



Core¶

从 config.get 获取 num_workers (dask#4086), (dask#4093) James Bourbeau
修复带有 raw strings 的无效 escape sequences (dask#4112) Elliott Sales de Andrade
对使用 get= 关键字和 set_options 的情况抛出错误 (dask#4077) Matthew Rocklin
为 Azure DataLake storage 添加导入，并添加文档 (dask#4132) Martin Durant
避免 collections.Mapping/Sequence (dask#4138) Matthew Rocklin



Dataframe¶

在 to_dask_dataframe 中包含 index 关键字 (dask#4071) Matthew Rocklin
添加对 duplicate column names 的支持 (dask#4087) Jan Koch
为 DataFrame 方法 sum 和 prod 实现 min_count (dask#4090) Bart Broere
移除 concat 中的 pandas 警告 (dask#4095) Matthew Rocklin
DataFrame.to_csv header 选项仅在第一个 chunk 输出 headers (dask#3909) Rahul Vaidya
移除 Series.to_parquet (dask#4104) Justin Dennison
避免 warnings 和 deprecated pandas methods (dask#4115) Matthew Rocklin
报告 append error 时交换 'old' 和 'previous' (dask#4130) Martin Durant



Documentation¶

校对文档 (dask#4073), (dask#4074), (dask#4094), (dask#4097), (dask#4107), (dask#4124), (dask#4133), (dask#4139) Miguel Farrajota
修复代码示例中的拼写错误 (dask#4089) Antonino Ingargiola
添加 pycon 2018 演示文稿 (dask#4102) Javad
简要描述 gcsfs (dask#4109) Martin Durant
修复 read_sql_table 方法文档字符串中的拼写错误 (dask#4114) TakaakiFuruse
如果目标目录不存在，则在 redirects 中创建它们 (dask#4136) Matthew Rocklin




0.19.4 / 2018-10-09¶

Array¶

实现 apply_gufunc(..., axes=..., keepdims=...) (dask#3985) Markus Gonser



Bag¶

修复 datasets.make_people 中的拼写错误 (dask#4069) Matthew Rocklin



Dataframe¶

为 dask.dataframe.describe 方法添加了 percentiles 选项 (dask#4067) Zhenqing Li
添加与 Array.blocks 类似的 DataFrame.partitions accessor (dask#4066) Matthew Rocklin



Core¶

通过 scheduler 关键字传递 get functions 和 Clients (dask#4062) Matthew Rocklin



Documentation¶

修复 hpc 示例中的拼写错误 (kwarg 中缺少 =)。 (dask#4068) Matthias Bussonier
大量校对：(dask#4065), (dask#4064), (dask#4063) Miguel Farrajota




0.19.3 / 2018-10-05¶

Array¶

使 da.RandomState 可扩展到其他模块 (dask#4041) Matthew Rocklin
在 ravel no-op case 中支持 unknown dims (dask#4055) Jim Crist
为 cupy 添加基本基础设施 (dask#4019) Matthew Rocklin
避免在 from_array(getitem) 中使用 asarray 和 lock 参数 (dask#4044) Matthew Rocklin
将 corrcoef 中的局部导入移动到全局导入 (dask#4030) John A Kirkham
将局部 indices 导入移动到全局导入 (dask#4029) John A Kirkham
修复 Dask Array 的 fromfunction 在 dtype 和 kwargs 方面的问题 (dask#4028) John A Kirkham
在 overlapped 中不要对 trim_internal 使用 dummy expansion (dask#3964) Mark Harfouche
添加 unravel_index (dask#3958) John A Kirkham



Bag¶

在 Bag.frequencies 中对结果进行排序 (dask#4033) Matthew Rocklin
在 groupby 中添加对 npartitions=1 边缘情况的支持 (dask#4050) James Bourbeau
添加新的随机 people 数据集 (dask#4018) Matthew Rocklin
提高 bag.read_text 在小文件上的性能 (dask#4013) Eric Wolak
添加 bag.read_avro (dask#4000) (dask#4007) Martin Durant



Dataframe¶

为 dask.dataframe.from_dask_array() 添加了 index 参数，用于从给定的 index 创建 dask DataFrame。 (dask#3991) Tom Augspurger
改进 dask dataframe 的子类化能力 (dask#4015) Matthew Rocklin
修复 failing hdfs test [test-hdfs] (dask#4046) Jim Crist
fuse_subgraphs 在没有正常 fuse 的情况下工作 (dask#4042) Jim Crist
创建无需 prescan 即可读取多个 parquet 文件的路径 (dask#3978) Martin Durant
dd.from_dask_array 中的 Index (dask#3991) Tom Augspurger
使 skiprows 接受列表 (dask#3975) Julia Signell
fastparquet read 在不存在的 column 时尽早失败 (dask#3989) Martin Durant



Core¶

在 groupby 中添加对 npartitions=1 边缘情况的支持 (dask#4050) James Bourbeau
自动将 map_blocks/partitions 中的大参数用 dask.delayed 包裹 (dask#4002) Matthew Rocklin
Fuse linear chains of subgraphs (dask#3979) Jim Crist
使 multiprocessing context 可配置 (dask#3763) Itamar Turner-Trauring



Documentation¶

大量校对 (dask#4049), (dask#4034), (dask#4031), (dask#4020), (dask#4021), (dask#4022), (dask#4023), (dask#4016), (dask#4017), (dask#4010), (dask#3997), (dask#3996), Miguel Farrajota
更新 shuffle method selection 文档 (dask#4048) James Bourbeau
移除 docs/source/examples，指向 examples.dask.org (dask#4014) Matthew Rocklin
将 readthedocs 链接替换为 dask.org (dask#4008) Matthew Rocklin
更新 DataFrame.to_hdf 文档字符串以说明返回值 (dask#3992) James Bourbeau




0.19.2 / 2018-09-17¶

Array¶

apply_gufunc 实现自动推断 functions 输出 dtypes (dask#3936) Markus Gonser
修复当 array 包含 nans 时 array histogram range 错误 (dask#3980) James Bourbeau
Issue 3937 后续，int 类型检查。 (dask#3956) Yu Feng
from_array：添加 @martindurant 关于如何对 array 进行 hashing 的解释。 (dask#3965) Mark Harfouche
支持带 coordinate 的 gradient (dask#3949) Keisuke Fujii



Core¶

修复 Python 2.7 中使用 partial 的 has_keyword 问题 (dask#3966) Mark Harfouche
将 pyarrow 设置为 HDFS 的默认引擎 (dask#3957) Matthew Rocklin



Documentation¶

使用 dask_sphinx_theme (dask#3963) Matthew Rocklin
主页 Binder 链接使用 JupyterLab Matthew Rocklin
DOC: 修复 sphinx 语法 (dask#3960) Tom Augspurger




0.19.1 / 2018-09-06¶

Array¶

如果结果没有 dtype，则不强制 dtype (dask#3928) Matthew Rocklin
修复 NumPy issubtype 弃用警告 (dask#3939) Bruce Merry
修复 arg reduction tokens 以便在不同参数下保持唯一 (dask#3955) Tobias de Jong
在 slicing 代码中将 numpy 整数强制转换为 int (dask#3944) Yu Feng
Linalg.norm ndim along axis 部分修复 (dask#3933) Tobias de Jong



Dataframe¶

Deterministic DataFrame.set_index (dask#3867) George Sakkis
修复处理 filters 时 read_parquet 中的 divisions #3831 #3930 (dask#3923) (dask#3931) @andrethrill
修复 categorical.as_known 中的返回类型 (dask#3888) Sriharsha Hatwar
修复 DataFrame.assign 处理 callables 的问题 (dask#3919) Tom Augspurger
repartition 中包含没有宽度的 partitions (dask#3941) Matthew Rocklin
不要在 dataframe shuffle 中限制 stage/k dtype (dask#3942) Matthew Rocklin



Documentation¶

DOC: 添加关于如何水平渲染任务图的提示 (dask#3922) Uwe Korn
在主登陆页添加 try-now 按钮 (dask#3924) Matthew Rocklin




0.19.0 / 2018-08-29¶

Array¶

支持 gradient 中的 coordinate (dask#3949) Keisuke Fujii
修复 argtopk split_every bug (dask#3810) crusaderky
确保计算 dask.array.isnull() 的结果始终返回 numpy array (dask#3825) Stephan Hoyer
在 dask array 中支持 scipy.sparse 的 concatenate (dask#3836) Matthew Rocklin
修复 32 位系统上的 argtopk。 (dask#3823) Elliott Sales de Andrade
规范化 rechunk 中的 keys (dask#3820) Matthew Rocklin
允许 dask.array 的 shape 为 numpy array (dask#3844) Mark Harfouche
修复 tuple indexing 上的 numpy 弃用警告 (dask#3851) Tobias de Jong
将 ghost 模块重命名为 overlap (dask#3830) Robert Sare
重新将 ghost 导入添加到 da __init__ (dask#3861) Jim Crist
确保 copy 保留 masked arrays (dask#3852) Tobias de Jong



DataFrame¶

为 dask.dataframe.get_dummies() 添加了 dtype 和 sparse 关键字参数 (dask#3792) Tom Augspurger
为 dask.array.asarray() 更改了针对 dask dataframe 和 series 输入的行为。之前，series 会被急切地转换为内存中的 NumPy array，然后创建已知块大小的 dask array。这导致意外的高内存使用。现在，不再创建中间 NumPy array，而是返回未知块大小的 Dask array (dask#3884) Tom Augspurger
改变了 dask.array.asarray() 对于 dask 数据帧和 series 输入的行为。之前，series 会被急切地转换为内存中的 NumPy 数组，然后才创建块大小已知的 dask 数组。这导致了意外的高内存使用。现在，不创建中间 NumPy 数组，并返回块大小未知的 Dask 数组（dask#3884） Tom Augspurger
DataFrame.iloc (dask#3805) Tom Augspurger
读取多个路径时，扩展 globs。 (dask#3828) Irina Truong
resample 后添加 index column name (dask#3833) Eric Bonfadini
为 dataframe 和 series 添加 (lazy) shape 属性 (dask#3212) Henrique Ribeiro
修复 failing hdfs test [test-hdfs] (dask#3858) Jim Crist
pyarrow 0.10.0 发布后的修复 (dask#3860) Jim Crist
为 diagnostics 重命名 to_csv keys (dask#3890) Matthew Rocklin
匹配 concat sort 的 pandas warnings (dask#3897) Tom Augspurger
read_csv 中包含 filename (dask#3908) Julia Signell



Core¶

缺少常见依赖项时提供更好的导入错误消息 (dask#3771) Danilo Horta
放弃 Python 3.4 支持 (dask#3840) Jim Crist
移除过期的 deprecation warnings (dask#3841) Jim Crist
添加 DASK_ROOT_CONFIG 环境变量 (dask#3849) Joe Hamman
不在 local scheduler 中进行 cull，在 delayed 中进行 cull (dask#3856) Jim Crist
增加 conda 下载重试次数 (dask#3857) Jim Crist
添加 python_requires 和 Trove classifiers (dask#3855) @hugovk
修复 Python 3.7.0 中 collections.abc 的 deprecation warnings (dask#3876) Jan Margeta
允许 visualize 测试中的 dot jpeg xfail (dask#3896) Matthew Rocklin
将 Python 3.7 添加到 travis.yml (dask#3894) Matthew Rocklin
将 expand_environment_variables 添加到 dask.config (dask#3893) Joe Hamman



Docs¶

修复 diagnostics 导入语句中的拼写错误 (dask#3826) John Mrziglod
添加 YARN 文档链接 (dask#3838) Jim Crist
修复登陆页 index.html 中小的拼写错误 (dask#3746) Christoph Moehl
更新 delayed-custom.rst (dask#3850) Anderson Banihirwe
DOC: 澄清 delayed 文档字符串 (dask#3709) Scott Sievert
添加新的演示文稿 (dask#3880) Javad
将 dask array normalize_chunks 添加到文档 (dask#3878) Daniel Rothenberg
Docs: 修复到 snakeviz 的链接 (dask#3900) Hans Moritz Günther
在文档字符串中添加缺失的 ` (dask#3915) @rtobar




0.18.2 / 2018-07-23¶

Array¶

重新实现了 argtopk 以使其释放 GIL (dask#3610) crusaderky
在 map_overlap 中不要在非重叠维度上进行 overlap (dask#3653) Matthew Rocklin
修复 linalg.tsqr 处理长度不确定的维度的问题 (dask#3662) Jeremy Chen
将 uneven array-of-int slicing 分解为单独的 chunks (dask#3648) Matthew Rocklin
将 auto chunks 对齐到 provided chunks，而不是 shape (dask#3679) Matthew Rocklin
添加 linspace 的 endpoint 和 retstep 支持 (dask#3675) James Bourbeau
实现 .blocks accessor (dask#3689) Matthew Rocklin
为 map_blocks functions 添加 block_info 关键字参数 (dask#3686) Matthew Rocklin
通过 dask array of ints 进行切片 (dask#3407) crusaderky
支持 arange 中的 dtype (dask#3722) crusaderky
修复 uneven chunks 的 argtopk 问题 (dask#3720) crusaderky
当 replace=False 在 da.choice 中时引发错误（dask#3765） James Bourbeau
更新 Array.__setitem__ 中的块（dask#3767） Itamar Turner-Trauring
添加一个 chunksize 便利属性（dask#3777） Jacob Tomlinson
修复并简化当 step < 0 时数组切片的行为（dask#3702） Ziyao Wei
确保 to_zarr 在使用 return_stored True 时返回一个 Dask 数组（dask#3786） John A Kirkham



Bag¶

在 to_textfiles 中添加可选参数 last_endline（dask#3745） George Sakkis



数据帧¶

为滚动对象添加聚合函数（dask#3772） Gerome Pistre
正确标记累积 groupby 聚合（dask#3799） Cloves Almeida



延迟对象¶

为延迟对象添加 @ 运算符（dask#3691） Mark Harfouche
在文档中添加延迟对象最佳实践（dask#3737） Matthew Rocklin
修复方法的 @delayed 装饰器并添加测试（dask#3757） Ziyao Wei



核心¶

修复额外的进度条（dask#3669） Mike Neish
如果任务只有一个依赖项，则允许其返回排序堆栈（dask#3652） Matthew Rocklin
排序时优先处理依赖项数量较少的末端任务（dask#3588） Tom Augspurger
将 assert_eq 添加到顶层模块（dask#3726） Matthew Rocklin
测试 dask 集合可以容纳 scipy.sparse 数组（dask#3738） Matthew Rocklin
修复 lz4 解压函数的设置（dask#3782） Elliott Sales de Andrade
添加 datasets 模块（dask#3780） Matthew Rocklin




0.18.1 / 2018-06-22¶

数组¶

from_array 现在支持输入中的标量类型和嵌套列表/元组，就像所有 numpy 函数一样；当输入是纯 ndarray 时，它还生成更简单的图（dask#3568） crusaderky
修复由于 cumsum dtype 错误导致的大数组切片问题（dask#3620） Marco Rossi
添加 Dask 数组的 pad 实现（dask#3578） John A Kirkham
修复数组随机 API 示例（dask#3625） James Bourbeau
为 dask 数组添加平均函数（dask#3640） James Bourbeau
使用轴标记 ghost_internal（dask#3643） Matthew Rocklin
为 Dask 数组添加 outer（dask#3658） John A Kirkham



数据帧¶

添加 Index.to_series 方法（dask#3613） Henrique Ribeiro
修复 pyarrow-parquet 中缺失的分区列（dask#3636） Martin Durant



核心¶

对 CI 进行微调（dask#3629） Mike Neish
重新添加 dask.utils.effective_get（dask#3642） Matthew Rocklin
DASK_CONFIG 指定配置写入位置（dask#3621） Jim Crist
在 unpack_collections 中用唯一键替换 'collections' 键（dask#3632） Yu Feng
避免在 dask.config.set 中进行深拷贝（dask#3649） Matthew Rocklin




0.18.0 / 2018-06-14¶

数组¶

添加 Zarr 格式数据集和数组的 to/from_zarr（dask#3460） Martin Durant
实验性地添加了通用 ufunc 支持，包括 apply_gufunc、gufunc 和 as_gufunc（dask#3109）（dask#3526）（dask#3539） Markus Gonser
避免不必要的 rechunking 任务（dask#3529） Matthew Rocklin
在运行时计算 fft 的 dtypes（dask#3511） Matthew Rocklin
为所有 da.store 操作生成 UUID（dask#3540） Martin Durant
修正 Dask 的 SVD 的内部维度（dask#3517） John A Kirkham
BUG: 不应因 array.vindex 中的 identity slice 引发 IndexError（dask#3559） Scott Sievert
添加了 isneginf 和 isposinf（dask#3581） John A Kirkham
删除 Dask 数组的 learn 模块（dask#3580） John A Kirkham
添加了 sfqr (short-and-fat) 作为 tsqr 的对应物…（dask#3575） Jeremy Chen
允许在 dask.array.rechunk 中使用宽度为 0 的块（dask#3591） Marc Pfister
在公共 API 中记录 Dask 数组的 nan_to_num（dask#3599） John A Kirkham
显示块示例（dask#3601） John A Kirkham
在 map_blocks 中用 name= 替换 token= 关键字（dask#3597） Matthew Rocklin
禁用 to_zarr 中的锁定（分布式环境中需要使用 to_zarr）（dask#3607） John A Kirkham
支持在 to_zarr/from_zarr 中使用 Zarr 数组（dask#3561） John A Kirkham
为 array/linalg/tsqr 添加递归以更好地管理单核瓶颈（dask#3586） Jeremy Chan（dask#3396） crusaderky



数据帧¶

添加 to/read_json（dask#3494） Martin Durant
为 DataFrame.rename 方法不受支持的参数添加 index（dask#3522） James Bourbeau
添加了使用 numpy.ndarray、pandas.Series 和 pandas.Index 对象子集 Dask 数据帧列的支持（dask#3536） James Bourbeau
如果 meta 列与数据帧不匹配则引发错误（dask#3485） Christopher Ren
将 index 添加到 DataFrame.rename 不支持的参数中（dask#3522） James Bourbeau
添加了使用 pandas Index/Series 和 numpy ndarrays 对 DataFrames 进行子集的支持（dask#3536） James Bourbeau
数据帧 sample 方法 docstring 修复（dask#3566） James Bourbeau
修复 dd.read_json 以推断文件压缩（dask#3594） Matt Lee
为 sample 方法添加 n（dask#3606） James Bourbeau
添加 fastparquet ParquetFile 对象支持（dask#3573） @andrethrill



Bag¶

在 bag.groupby 中将 method= 关键字重命名为 shuffle=（dask#3470） Matthew Rocklin



核心¶

将 get= 关键字替换为 scheduler= 关键字（dask#3448） Matthew Rocklin
添加集中的 dask.config 模块来处理所有 Dask 子项目的配置（dask#3432）（dask#3513）（dask#3520） Matthew Rocklin
添加 dask-ssh CLI 选项和描述。（dask#3476） @beomi
修复 HTTP 读取整个文件，无论是否有头部（dask#3496） Martin Durant
在调试文档中添加同步调度器语法（dask#3509） James Bourbeau
用 dask.config.set 替换 dask.set_options（dask#3502） Matthew Rocklin
更新 sphinx readthedocs 主题（dask#3516） Matthew Rocklin
为 normalize_chunks 引入“auto”值（dask#3507） Matthew Rocklin
修复 env=None 时配置中的检查（dask#3562） Simon Perkins
更新 sizeof 定义（dask#3582） Matthew Rocklin
从 travis-ci 中移除 –verbose 标志（dask#3477） Matthew Rocklin
从随机数组键中移除“da.random”（dask#3604） Matthew Rocklin




0.17.5 / 2018-05-16¶

数组¶

修复字典中 chunksize 为 -1 时的 rechunk（dask#3469） Stephan Hoyer
einsum 现在接受参数 split_every（dask#3471） crusaderky
改进的切片性能（dask#3479） Yu Feng



数据帧¶

与 pandas 0.23.0 的兼容性（dask#3499） Tom Augspurger




0.17.4 / 2018-05-03¶

数据帧¶

添加了使用字符串子类索引 Dask DataFrames 的支持（dask#3461） James Bourbeau
允许在 read_hdf 中同时使用 sorted_index 和 chunksize（dask#3463） Pierre Bartet
将文件系统传递给 arrow piece 读取器（dask#3466） Martin Durant
切换到使用 dask.compat string_types（dask#3462） James Bourbeau




0.17.3 / 2018-05-02¶

数组¶

为 Dask 数组添加 einsum（dask#3412） Simon Perkins
为 Dask 数组添加 piecewise（dask#3350） John A Kirkham
修复 broadcast_shapes 中对 nan 的处理（dask#3356） John A Kirkham
为 dask 数组添加 isin（dask#3363）。Stephan Hoyer
大幅改进了 Dask 数组的 topk：更快的算法，特别适用于大型 k；添加了对多个轴、递归聚合的支持，以及选择底部 k 个元素的选项。（dask#3395） crusaderky
topk API 已从 topk(k, array) 更改为更传统的 topk(array, k)。传统 API 仍然可用，但现已弃用。（dask#2965） crusaderky
为 Dask 数组添加新函数 argtopk（dask#3396） crusaderky
修复 map_overlap 中 partial depth 和 boundary 的处理（dask#3445） John A Kirkham
为 Dask 数组添加 gradient（dask#3434） John A Kirkham



数据帧¶

允许在 to_hdf 中使用 t 作为 table 的简写，以兼容 pandas（dask#3330） Jörg Dietrich
为 Dask 数据帧添加了顶层方法 isna（dask#3294） Christopher Ren
修复 read_parquet 中对 engine="pyarrow" 的分区列的选择（dask#3207） Uwe Korn
添加了 DataFrame.squeeze 方法（dask#3366） Christopher Ren
为 read_parquet 添加了 infer_divisions 选项，用于指定读取引擎是否应计算 divisions（dask#3387） Jon Mease
添加了对 engine="pyarrow" 推断 division 的支持（dask#3387） Jon Mease
为 meta= 错误提供更具信息性的错误消息（dask#3343） Matthew Rocklin
添加 orc 读取器（dask#3284） Martin Durant
parquet 的默认压缩现在始终是 Snappy，与 pandas 一致（dask#3373） Martin Durant
修复了 Dask DataFrame 和 Series 与 NumPy 标量比较时的错误（dask#3436） James Bourbeau
从 repartition docstring 中移除过时的要求（dask#3440） Jörg Dietrich
修复了仅选择 Series 时聚合中的错误（dask#3446） Jörg Dietrich
为 make_timeseries 添加默认值（dask#3421） Matthew Rocklin



核心¶

支持在 persist, visualize 和 optimize 中遍历集合（dask#3410） Jim Crist
为 compute 和 persist 添加 schedule= 关键字。这取代了 get= 关键字的常见用法（dask#3448） Matthew Rocklin




0.17.2 / 2018-03-21¶

数组¶

为 Dask 数组添加 broadcast_arrays（dask#3217） John A Kirkham
添加 bitwise_* ufuncs（dask#3219） John A Kirkham
为 squeeze 添加可选参数 axis（dask#3261） John A Kirkham
验证 atop 的输入（dask#3307） Matthew Rocklin
如果所有部分具有相同的 dtype，则避免在 concatenate 中调用 astype（dask#3301） Martin Durant



数据帧¶

修复由于过度截断导致的 shuffle 中的错误（dask#3201） Matthew Rocklin
支持在 read_parquet 中使用 categories=[…] 为 engine="pyarrow" 指定分类列（dask#3177） Uwe Korn
添加 dd.tseries.Resampler.agg（dask#3202） Richard Postelnik
支持数据帧和数组混合操作（dask#3230） Matthew Rocklin
在 dd.groupby._Groupby.apply 中支持额外的 Scalar 和 Delayed 参数（dask#3256） Gabriele Lanaro



Bag¶

支持连接单分区 bag 和延迟对象（dask#3254） Matthew Rocklin



核心¶

修复使用意外但可哈希类型作为键时的错误（dask#3238） Daniel Collins
修复任务排序错误，以便我们根据键名一致地打破平局（dask#3271） Matthew Rocklin
当任务数量非常大时，避免按顺序排序任务（dask#3298） Matthew Rocklin




0.17.1 / 2018-02-22¶

数组¶

修正了 indices 中的维度分块（dask#3166, dask#3167） Simon Perkins
为 store 的 return_stored 选项内联 store_chunk 调用（dask#3153） John A Kirkham
与 NumPy 1.14.1 版本中 struct dtypes 的兼容性（dask#3187） Matthew Rocklin



数据帧¶

错误修复以允许分配 pandas 日期时间列（dask#3164） Max Epstein



核心¶

新的 HTTP(S) 文件系统，允许直接从特定 URL 加载（dask#3160） Martin Durant
修复在标记没有关键字的偏函数时出现的错误（dask#3191） Matthew Rocklin
使用更新的 LZ4 API（dask#3157） Thrasibule
为进度条引入输出流参数（dask#3185） Dieter Weber




0.17.0 / 2018-02-09¶

数组¶

添加了对 nansum, nanmin 和 nanmax 的对象类型数组的支持（dask#3133） Keisuke Fujii
更新 len 调用空块时的错误处理（dask#3058） Xander Johnson
修复 store 的 return_stored 选项导致的元数据错误（dask#3064） John A Kirkham
修复 optimization.fuse_slice 中的错误，以正确处理第一个输入为 None 的情况（dask#3076） James Bourbeau
支持在 percentile 中使用块大小未知的数组（dask#3107） Matthew Rocklin
标记 scipy.sparse 数组和 np.matrix（dask#3060） Roman Yurchak



数据帧¶

在 repartition(freq=…) 中支持月 timedeltas（dask#3110） Matthew Rocklin
避免在数据帧 groupby 测试中发生变动（dask#3118） Matthew Rocklin
read_csv、read_table 和 read_parquet 接受路径的可迭代对象（dask#3124） Jim Crist
弃用 dd.to_delayed *函数*，转而使用现有方法（dask#3126） Jim Crist
当 UDF 返回 numpy 数组时，从 df.map_partitions 调用返回 dask.arrays（dask#3147） Matthew Rocklin
更改 columns 和 index 在 dd.read_parquet 中的处理方式，使其更一致，尤其是在处理多索引时（dask#3149） Jim Crist
fastparquet append=True 允许创建新数据集（dask#3097） Martin Durant
sql 查询的 dtype 合理化（dask#3100） Martin Durant



Bag¶

记录 bag.map_paritions 函数可能接收列表或生成器。（dask#3150） Nir



核心¶

更改默认任务排序，优先选择依赖项较少的节点，然后是许多下游依赖项（dask#3056） Matthew Rocklin
为 visualize 添加 color= 选项，以按任务顺序着色（dask#3057）（dask#3122） Matthew Rocklin
弃用 dask.bytes.open_text_files（dask#3077） Jim Crist
由于维护成本而移除短路 hdfs 读取处理。稍后可能会以更健壮的方式重新添加（dask#3079） Jim Crist
添加 dask.base.optimize，用于在不计算的情况下优化多个集合。（dask#3071） Jim Crist
将 dask.optimize 模块重命名为 dask.optimization（dask#3071） Jim Crist
更改任务排序以进行完整遍历（dask#3066） Matthew Rocklin
为所有 to_delayed 方法添加 optimize_graph 关键字，以控制转换时是否进行优化。（dask#3126） Jim Crist
支持使用 pyarrow 进行 hdfs 集成（dask#3123） Jim Crist
将 HDFS 集成和测试移至 dask 仓库（dask#3083） Jim Crist
移除 write_bytes（dask#3116） Jim Crist




0.16.1 / 2018-01-09¶

数组¶

修复 percentile 中标量百分位值的处理（dask#3021） James Bourbeau
防止 bool() 强制转换调用 compute（dask#2958） Albert DeFusco
添加 matmul（dask#2904） John A Kirkham
支持具有 matmul 的 N-D 数组（dask#2909） John A Kirkham
添加 vdot（dask#2910） John A Kirkham
为 broadcast_to 添加显式参数 chunks（dask#2943） Stephan Hoyer
添加 meshgrid（dask#2938） John A Kirkham 和（dask#3001） Markus Gonser
在 fftshift/ifftshift 中保留单例块（dask#2733） John A Kirkham
修复 vindex 中负索引的处理，并为越界索引引发错误（dask#2967） Stephan Hoyer
添加 flip、flipud、fliplr（dask#2954） John A Kirkham
添加 float_power ufunc（dask#2962）（dask#2969） John A Kirkham
与即将发布的 NumPy 1.14 版本中对结构化数组的更改的兼容性（dask#2964） Tom Augspurger
添加 block（dask#2650） John A Kirkham
添加 frompyfunc（dask#3030） Jim Crist
为 store 添加 return_stored 选项，用于链式存储结果（dask#2980） John A Kirkham



数据帧¶

修复累积聚合中的命名错误（dask#3037） Martijn Arts
修复当给出 names 但未将 header 设置为 None 时的 dd.read_csv（dask#2976） Martijn Arts
修复 dd.read_csv，以便在 dtype 中传递 CategoricalDtype 的实例将导致已知分类（dask#2997） Tom Augspurger
防止 bool() 强制转换调用 compute（dask#2958） Albert DeFusco
DataFrame.read_sql()（dask#2928）到一个空数据库表返回一个空的 dask 数据帧 Apostolos Vlachopoulos
与读取由 PyArrow 0.8.0 写入的 Parquet 文件的兼容性（dask#2973） Tom Augspurger
在 dd.read_parquet 中读取时，正确处理列名（df.columns.name）（dask#2973） Tom Augspurger
修复当数据包含分类时 dd.concat 丢失索引 dtype 的问题（dask#2932） Tom Augspurger
添加 dd.Series.rename（dask#3027） Jim Crist
DataFrame.merge() 现在支持基于列和索引的组合进行合并（dask#2960） Jon Mease
移除了已弃用的 dd.rolling* 方法，为在下一个 pandas 版本中移除它们做准备（dask#2995） Tom Augspurger
修复了元数据推断错误，其中单分区 series 被错误地特殊处理（dask#3035） Jim Crist
添加对 Series.str.cat 的支持（dask#3028） Jim Crist



核心¶

改进 32 位兼容性 (dask#2937) Matthew Rocklin
更改任务优先级以避免向上分支 (dask#3017) Matthew Rocklin




0.16.0 / 2017-11-17¶
这是一个主要版本。它包含了破坏性变更、新协议和大量错误修复。

数组¶

添加 atleast_1d、atleast_2d 和 atleast_3d (dask#2760) (dask#2765) John A Kirkham
添加 allclose (dask#2771) by John A Kirkham
从 Dask Array API 文档中移除 random.different_seeds (dask#2772) John A Kirkham
弃用 vnorm，推荐使用 dask.array.linalg.norm (dask#2773) John A Kirkham
重新实现 unique 以支持惰性计算 (dask#2775) John A Kirkham
支持具有 0 长度维度的 Dask Arrays 的广播 (dask#2784) John A Kirkham
将 asarray 和 asanyarray 添加到 Dask Array API 文档中 (dask#2787) James Bourbeau
支持 unique 的 return_* 参数 (dask#2779) John A Kirkham
简化 _unique_internal (dask#2850) (dask#2855) John A Kirkham
在数组优化中避免移除一些 getter 调用 (dask#2826) Jim Crist



DataFrame¶

在 dd.to_parquet 中支持 pyarrow (dask#2868) Jim Crist
修复了当存在缺失值时，DataFrame.quantile 和 Series.quantile 返回 nan 的问题 (dask#2791) Tom Augspurger
修复了当 q 是标量时，DataFrame.quantile 丢失结果 .name 的问题 (dask#2791) Tom Augspurger
修复了当沿列连接单个 Series 时，dd.concat 返回 dask.Dataframe 的问题，与 pandas 的行为一致 (dask#2800) James Munroe
修复了 DataFrame.eval 的默认 inplace 参数，使其与 pandas >= 0.21.0 的 pandas 默认行为一致 (dask#2838) Tom Augspurger
修复了在文本列上调用 DataFrame.set_index 时，如果其中一个分区为空，会引发异常的问题 (dask#2831) Jesse Vogt
在空 dataframe 上调用 DataFrame.set_index 时不再引发异常 (dask#2827) Jesse Vogt
修复了使用 Series 值填充时，Dataframe.fillna 中的错误 (dask#2810) Tom Augspurger
弃用 dd.to_parquet 中旧的参数顺序，以更好地匹配将 dataframe 放在前面的约定 (dask#2867) Jim Crist
df.astype(categorical_dtype -> 已知分类 (dask#2835) Jim Crist
根据 Pandas 发布候选版本进行测试 (dask#2814) Tom Augspurger
为 read_parquet(engine=’pyarrow’) 添加更多测试 (dask#2822) Uwe Korn
移除 aggregate 中不必要的 map_partitions (dask#2712) Christopher Prohm
修复在空分区上调用 sample 的错误 (dask#2818) @xwang777
在 read_csv 中解析日期时友好地报错 (dask#2863) Jim Crist
清理将文件系统对象传递给 PyArrow 阅读器的处理方式 (dask#2527) @fjetter
支持即使没有分区信息也进行重新分区 (dask#2873) @Ced4
在 dd.to_parquet 中支持使用 pyarrow 读取/写入 hdfs (dask#2894, dask#2881) Jim Crist



核心¶

允许使用元组作为 sharedict 键 (dask#2763) Matthew Rocklin
在 dask.distributed 任务中调用 compute 默认使用分布式调度器 (dask#2762) Matthew Rocklin
使用 gcs:// 协议时自动导入 gcsfs (dask#2776) Matthew Rocklin
完全移除 dask.async 模块，改为使用 dask.local (dask#2828) Thomas Caswell
与 bokeh 0.12.10 的兼容性 (dask#2844) Tom Augspurger
降低测试内存使用 (dask#2782) Jim Crist
添加 Dask collection 接口 (dask#2748) Jim Crist
在 XArray 集成期间更新 Dask collection 接口 (dask#2847) Matthew Rocklin
在 __exit__ 时关闭资源分析器进程 (dask#2871) Jim Crist
修复 S3 测试 (dask#2875) Jim Crist
修复文档中 bokeh dashboard 的端口 (dask#2889) Ian Hopkinson
封装 Dask 文件系统以兼容 PyArrow (dask#2881) Jim Crist




0.15.4 / 2017-10-06¶

数组¶

da.random.choice 现在支持数组参数 (dask#2781)
支持使用 np.int 对数组进行索引（修复了回归问题） (dask#2719)
处理零维度与 rechunking (dask#2747)
在 chunks 中支持使用 -1 作为“维度大小”的别名 (dask#2749)
在 array.to_npy_stack 中调用 mkdir (dask#2709)



DataFrame¶

为带有字符串类别的 Categoricals 添加了 .str 访问器 (dask#2743)
在 parquet 写入器中支持 int96 (spark) 日期时间 (dask#2711)
将文件方案传递给 fastparquet (dask#2714)
支持 Pandas 0.21 (dask#2737)



Bag¶

为 foldby 添加树状归约支持 (dask#2710)



核心¶

从 pip install dask[complete] 中移除 s3fs (dask#2750)




0.15.3 / 2017-09-24¶

数组¶

添加掩码数组 (dask#2301)
添加 *_like array creation functions 数组创建函数 (dask#2640)
使用无符号整数数组进行索引 (dask#2647)
改进了使用不同维度的布尔数组进行切片 (dask#2658)
在 top 和 atop 中支持字面值 (dask#2661)
累积函数中的可选 axis 参数 (dask#2664)
使用 assert_eq 改进对标量的测试 (dask#2681)
修复 norm keepdims (dask#2683)
添加 ptp (dask#2691)
添加 apply_along_axis (dask#2690) 和 apply_over_axes (dask#2702)



DataFrame¶

添加了 Series.str[index] (dask#2634)
允许 groupby 的 by 参数处理列和索引级别 (dask#2636)

DataFrame.to_csv 和 Bag.to_textfiles 现在返回文件名，指示写入位置
(dask#2655)



修复 to_parquet 中 partition_on 和 append 的组合问题 (dask#2645)
修复 parquet 文件方案的问题 (dask#2667)
Repartition 支持混合分类 (dask#2676)



核心¶

python setup.py test 现在可以运行测试 (dask#2641)
添加了新的速查表 (dask#2649)
移除 Bokeh 图表中的调整大小工具 (dask#2688)




0.15.2 / 2017-08-25¶

数组¶

移除 map_overlap 图中不必要的键 (dask#2520)
where 支持非布尔条件和标量值 (dask#2543) (dask#2549)
改进 compress (dask#2541) (dask#2545) (dask#2555)
添加 argwhere, _nonzero 和 where(cond) (dask#2539)
推广 dask.array 中的 vindex 以处理多维索引 (dask#2573)
添加 choose 方法 (dask#2584)
将代码拆分到重组的文件中 (dask#2595)
添加 linalg.norm (dask#2597)
添加 diff, ediff1d (dask#2607), (dask#2609)
改进 dtype 推断和反射 (dask#2571)



Bag¶

移除已弃用的 Bag 行为 (dask#2525)



DataFrame¶

在 assign 中支持可调用对象 (dask#2513)
read_csv 的错误消息更友好 (dask#2522)
添加 dd.to_timedelta (dask#2523)
在 from_delayed 中验证元数据 (dask#2534) (dask#2591)
添加 DataFrame.isin (dask#2558)
Read_hdf 支持文件可迭代对象 (dask#2547)



核心¶

移除所有地方的裸 except: 块 (dask#2590)




0.15.1 / 2017-07-08¶

将 storage_options 添加到 to_textfiles 和 to_csv (dask#2466)
Rechunk 并简化 rfftfreq (dask#2473), (dask#2475)
更好地支持 ndarray 子类 (dask#2486)
在 dask.distributed 中导入星号 (*) (dask#2503)
使用 tokenization 进行线程安全的缓存处理 (dask#2511)



0.15.0 / 2017-06-09¶

数组¶

添加 dask.array.stats 子模块 (dask#2269)
支持 ufunc.outer (dask#2345)
通过减少图开销来优化花式索引 (dask#2333) (dask#2394)
使用替代哈希进行更快的数组 tokenization (dask#2377)
添加了 matmul @ 运算符 (dask#2349)
改进了 numpy.fft 模块的覆盖范围 (dask#2320) (dask#2322) (dask#2327) (dask#2323)
支持 NumPy 的 __array_ufunc__ 协议 (dask#2438)



Bag¶

修复了对没有分区的 bag 进行归约会失败的错误 (dask#2324)
添加广播和可变参数的 db.map 顶级函数。同时移除将元组自动展开作为 map 参数的行为 (dask#2339)
将 Bag.concat 重命名为 Bag.flatten (dask#2402)



DataFrame¶

Parquet 改进 (dask#2277) (dask#2422)



核心¶

将 dask.async 模块移至 dask.local (dask#2318)
支持嵌套调度器调用时的回调 (dask#2397)
支持将 pathlib.Path 对象作为 uris (dask#2310)




0.14.3 / 2017-05-05¶

DataFrame¶

支持 Pandas 0.20.0




0.14.2 / 2017-05-03¶

数组¶

添加 da.indices (dask#2268), da.tile (dask#2153), da.roll (dask#2135)
在 da.map_blocks 中同时支持 drop_axis 和 new_axis (dask#2264)
Rechunk 和 concatenate 支持未知块大小 (dask#2235) 和 (dask#2251)
支持非 numpy 容器数组，特别是稀疏数组 (dask#2234)
Tensordot 在多个轴上进行收缩 (dask#2186)
在 da.store 中允许使用 delayed 目标 (dask#2181)
支持与列表和元组的交互 (dask#2148)
用于调试的构造函数插件 (dask#2142)
多维 FFT（单块） (dask#2116)



Bag¶

to_dataframe 强制执行一致的类型 (dask#2199)



DataFrame¶

Set_index 总是完全排序索引 (dask#2290)
支持与 pandas 0.20.0 的兼容性 (dask#2249), (dask#2248), 和 (dask#2246)
支持 Arrow Parquet 读取器 (dask#2223)
基于时间的滚动窗口 (dask#2198)
Repartition 现在可以创建更多分区，而不仅仅是更少 (dask#2168)



核心¶

在 POSIX 文件系统上始终使用绝对路径 (dask#2263)
支持用户提供的图优化 (dask#2219)
重构路径处理 (dask#2207)
改进融合性能 (dask#2129), (dask#2131), 和 (dask#2112)




0.14.1 / 2017-03-22¶

数组¶

微优化优化 (dask#2058)
更改切片优化以避免融合原始 numpy 数组 (dask#2075) (dask#2080)
Dask.array 操作现在支持 numpy 数组 (dask#2079)
Reshape 现在支持更广泛的情况 (dask#2089)
支持 deepcopy python 协议 (dask#2090)
在 da.fft 中允许用户提供的 FFT 实现 (dask#2093)



DataFrame¶

修复 to_parquet 处理空分区的问题 (dask#2020)
set_index 中的可选 npartitions='auto' 模式 (dask#2025)
优化 shuffle 性能 (dask#2032)
支持沿时间窗口进行高效重新分区，例如 repartition(freq='12h') (dask#2059)
提高 categorize 的速度 (dask#2010)
支持单行 dataframe 算术运算 (dask#2085)
使用已排序的列设置索引时自动避免 shuffle (dask#2091)
改进 read_csv 中整数-NA 处理 (dask#2098)



Delayed¶

对 delayed 对象重复属性访问使用相同的键 (dask#2084)



核心¶

改进 dot 图中的节点命名以避免使用通用的 apply (dask#2070)
确保工作进程具有不同的随机种子 (dask#2094)




0.14.0 / 2017-02-24¶

数组¶

修复 arange 中零形状和未对齐值的边界情况 (dask#1902), (dask#1904), (dask#1935), (dask#1955), (dask#1956)
提高连接效率 (dask#1923)
如果提供了 name，避免在 from_array 中进行哈希计算 (dask#1972)



Bag¶

Repartition 现在可以增加分区数量 (dask#1934)
修复处理空分区时一些归约函数的错误 (dask#1939), (dask#1950), (dask#1953)



DataFrame¶

支持非均匀分类 (dask#1877), (dask#1930)
Groupby 累积归约 (dask#1909)
DataFrame.loc 索引现在支持列表 (dask#1913)
改进多级 groupbys (dask#1914)
改进了 DataFrames 的 HTML 和字符串表示 (dask#1637)
Parquet append (dask#1940)
添加 dd.demo.daily_stock 函数用于教学 (dask#1992)



Delayed¶

为 delayed 添加 traverse= 关键字，以选择性地避免遍历嵌套数据结构 (dask#1899)
在 from_delayed 函数中支持 Futures (dask#1961)
改进装饰的 delayed 函数的序列化 (dask#1969)



核心¶

改进 Windows 路径解析在边界情况下的处理 (dask#1910)
融合时重命名任务 (dask#1919)
添加顶级 persist 函数 (dask#1927)
在字节处理中传播 errors= 关键字 (dask#1954)
Dask.compute 遍历 Python 集合 (dask#1975)
dask.array 和 dask.delayed 图之间的结构共享 (dask#1985)




0.13.0 / 2017-01-02¶

数组¶

dask.array 上的强制 dtypes。所有操作都维护 dtype 信息，并且像 map_blocks 这样的 UDF 函数如果无法推断 dtype，现在需要一个 dtype= 关键字。(dask#1755)
支持形状未知的数组，例如使用数组切片数组或将 dataframe 转换为数组时出现的数组 (dask#1838)
支持通过用另一个数组设置一个数组来修改 (dask#1840)
协方差和相关性的树状归约。(dask#1758)
添加 SerializableLock 以更好地与分布式调度配合使用 (dask#1766)
改进了 atop 支持 (dask#1800)
Rechunk 优化 (dask#1737), (dask#1827)



Bag¶

避免在两次重新计算相同的 groupby 时出现错误结果 (dask#1867)



DataFrame¶

添加 map_overlap 用于自定义滚动操作 (dask#1769)
添加 shift (dask#1773)
添加 Parquet 支持 (dask#1782) (dask#1792) (dask#1810), (dask#1843), (dask#1859), (dask#1863)
添加缺失的方法：combine, abs, autocorr, sem, nsmallest, first, last, prod, (dask#1787)
近似 nunique (dask#1807), (dask#1824)
具有多个输出分区的归约（用于像 drop_duplicates 这样的操作）(dask#1808), (dask#1823) (dask#1828)
为 DataFrames 添加 delitem 和 copy，增强变动支持 (dask#1858)



Delayed¶

更改了 delayed(nout=0) 和 delayed(nout=1) 的行为：delayed(nout=1) 不再默认 out=None，并且启用了 delayed(nout=0)。也就是说，返回长度为 1 或 0 的元组的函数可以正确处理。这对于通过 delayed 包装具有可变数量输出的函数特别方便。例如，一个简单的例子：delayed(lambda *args: args, nout=len(vals))(*vals)



核心¶

重构核心字节摄取 (dask#1768), (dask#1774)
提高导入时间 (dask#1833)




0.12.0 / 2016-11-03¶

DataFrame¶

当提供给 dataframe.map_partitions 的函数返回标量时，返回一个 series (dask#1515)
修复 series 的类型大小推断问题 (dask#1513)
dataframe.DataFrame.categorize 不再在 categories 中包含缺失值。这是为了兼容 pandas 的一个变更 pandas change (dask#1565)
修复 dataframe.read_csv 中当某些行包含引号时出现的头部解析器错误 (dask#1495)
添加 dataframe.reduction 和 series.reduction 方法，用于对 dataframes 和 series 应用通用的行级归约 (dask#1483)
添加 dataframe.select_dtypes，它镜像了 pandas 的方法 pandas method (dask#1556)
dataframe.read_hdf 现在支持读取 Series (dask#1564)
支持 Pandas 0.19.0 (dask#1540)
实现 select_dtypes (dask#1556)
String accessor 支持索引 (dask#1561)
为 dask.dataframe 添加 pipe 方法 (dask#1567)
为 merge 添加 indicator 关键字 (dask#1575)
在 read_hdf 中支持 Series (dask#1575)
支持包含缺失值的 Categories (dask#1578)
支持像 df.x += 1 这样的 inplace 运算符 (dask#1585)
Str accessor 透传 args 和 kwargs (dask#1621)
改进了单机多进程调度器的 groupby 支持 (dask#1625)
树状归约 (dask#1663)
数据透视表 (dask#1665)
添加 clip (dask#1667), align (dask#1668), combine_first (dask#1725), 以及 any/all (dask#1724)
改进了 dask-pandas 合并中分区信息的处理 (dask#1666)
添加 groupby.aggregate 方法 (dask#1678)
添加 dd.read_table 函数 (dask#1682)
改进对多级列的支持 (dask#1697) (dask#1712)
在 loc 中支持 2d 索引 (dask#1726)
扩展 resample 以包含 DataFrames (dask#1741)
在 dask.dataframe 对象上支持 dask.array ufuncs (dask#1669)



数组¶

添加关于 dask.array 的 chunks 参数如何工作的说明 (dask#1504)
修复 dask.array 中非标量字段的字段访问问题 (dask#1484)
在 atop 中添加 concatenate= 关键字以连接收缩维度的块
优化切片性能 (dask#1539) (dask#1731)
扩展 atop，添加 concatenate= (dask#1609)、new_axes= (dask#1612) 和 adjust_chunks= (dask#1716) 关键字
添加 clip (dask#1610) swapaxes (dask#1611) round (dask#1708) repeat
在 atop 支持的操作中自动对齐块 (dask#1644)
在切片时剔除 dask.arrays (dask#1709)



Bag¶

修复 bag.from_sequence 中可调用对象被解释为任务的问题 (dask#1491)
避免在归约中使用非惰性内存 (dask#1747)



管理¶

添加了更新日志 (dask#1526)
从线程操作时创建新的线程池 (dask#1487)
将示例文档页面合并为一个 (dask#1520)
添加 versioneer 以支持基于 git commit 的版本 (dask#1569)
在 dot 可视化中透传 node_attr 和 edge_attr 关键字 (dask#1614)
添加使用 Appveyor 在 Windows 上进行持续测试 (dask#1648)
移除 multiprocessing.Manager 的使用 (dask#1653)
为 compute 添加全局优化关键字 (dask#1675)
微优化 get_dependencies (dask#1722)




0.11.0 / 2016-08-24¶

主要亮点¶
DataFrames 现在在任何地方都强制要求知道完整的元数据（列、dtypes）。以前，当函数丢失 dtype 信息（如 apply）时，我们会在模糊状态下操作。现在，所有 dataframe 总是知道它们的 dtypes，并且如果无法推断（通常可以推断），则会引发错误要求提供信息。一些内部属性，如 _pd 和 _pd_nonempty，已被移动。
分布式调度器的内部已重构，以在显式状态之间转换任务。这提高了弹性、调度推理、插件操作和日志记录。这也使得调度器代码对于新手更容易理解。


破坏性变更¶

distributed.s3 和 distributed.hdfs 命名空间已移除。请改在常规方法中使用协议，例如 read_text('s3://...'。
Dask.array.reshape 现在在某些情况下会报错，而以前它会创建大量任务




0.10.2 / 2016-07-27¶

更多 Dataframe shuffle 现在可以在分布式设置中工作，从设置索引到哈希连接，再到排序连接和 groupbys。
Dask 在 Python 优化-OO 模式下运行时通过了完整的测试套件。
发现在某些高并发场景（特别是在 Windows 上）中，磁盘 shuffle 会产生错误结果。这已通过修复 partd 库得到解决。
修复了在大数据通信下发生的打开文件描述符增长问题
在 dask-scheduler 的 --bokeh-whitelist 选项中支持指定端口，以便在复杂的网络设置后更好地路由 web 界面消息
对 worker 故障的弹性进行了一些改进（尽管其他已知故障仍然存在）
您现在可以在任何 worker 上启动 IPython 内核，以便改进调试和分析
对 dask.dataframe.read_hdf 的改进，特别是在从多个文件和文档读取时



0.10.0 / 2016-06-13¶

主要变更¶

此版本放弃了对 Python 2.6 的支持
Conda 包从 conda-forge 构建和提供
dask.distributed 可执行文件已从 dfoo 重命名为 dask-foo。例如，dscheduler 已重命名为 dask-scheduler
Bag 和 DataFrame 都包含初步的分布式 shuffle。



Bag¶

为分布式 groupbys 添加基于任务的 shuffle
添加 accumulate 用于累积归约



DataFrame¶

添加适用于分布式连接、groupby-apply 和 set_index 操作的基于任务的 shuffle。单机 shuffle 保持不变（且效率更高）。
添加对新的 Pandas rolling API 的支持，提高了在分布式系统上的通信性能。
添加 groupby.std/var
在 read_csv 中透传 S3/HDFS 存储选项
改进分类分区
为 dataframes 添加 eval, info, isnull, notnull



分布式¶

将 dscheduler 等可执行文件重命名为 dask-scheduler
改进调度器在许多快速任务情况下的性能（对 shuffling 很重要）
改进工作窃取，使其能够感知预期的函数运行时间和数据大小。这极大地增加了无需大量用户专业知识即可在分布式调度器上高效运行的算法范围。
支持流队列中的最大缓冲区大小
改进使用 Bokeh 诊断 web 界面时的 Windows 支持
支持协议中对超大字节字符串的压缩
支持在 Joblib 界面中干净地取消提交的 futures



其他¶

所有与 dask 相关的项目（dask, distributed, s3fs, hdfs, partd）现在都在 conda-forge 上构建 conda 包。
更改 s3fs 中的凭据处理方式，仅在明确给出密钥/键时传递委托凭据。现在的默认行为是依赖托管环境。可以通过明确提供关键字参数来改回。如果需要匿名模式，必须明确声明。




0.9.0 / 2016-05-11¶

API 变更¶

dask.do 和 dask.value 已重命名为 dask.delayed
dask.bag.from_filenames 已重命名为 dask.bag.read_text
所有 S3/HDFS 数据摄取函数，如 db.from_s3 或 distributed.s3.read_csv，已移至普通的 read_text、read_csv functions 函数中，这些函数现在支持协议，例如 dd.read_csv('s3://bucket/keys*.csv')



数组¶

添加对 scipy.LinearOperator 的支持
改进对磁盘数据结构的Optional locking
更改 rechunk 以暴露中间块



Bag¶

将 from_filenames 重命名为 read_text
移除 from_s3，推荐使用 read_text('s3://...')



DataFrame¶

修复了相关性和协方差的数值稳定性问题
允许使用无哈希的 from_pandas，以实现与 pandas 对象的快速往返
总体上重新设计了 read_csv，使其更符合 Pandas 的行为
支持对已排序列进行快速 set_index 操作



Delayed¶

将 do/value 重命名为 delayed
将 to/from_imperative 重命名为 to/from_delayed



分布式¶

将 s3 和 hdfs 功能移入 dask 仓库
自适应地超额分配 worker 以处理非常快速的任务
改进 PyPy 支持
改进非均衡 worker 的工作窃取
使用树状 scatter 高效地分散数据



其他¶

添加 lzma/xz 压缩支持
尝试分割不可分割的压缩类型（如 gzip 或 bz2）时发出警告
改进单机 shuffle 操作的哈希计算
为 start 状态添加新的回调方法
通用性能调优




0.8.1 / 2016-03-11¶

数组¶

修复了范围切片中可能定期导致错误结果的错误。
改进了 arg 归约（argmin、argmax 等）的支持和弹性



Bag¶

添加 zip 函数



DataFrame¶

添加 corr 和 cov 函数
添加 melt 函数
bcolz 和 hdf5 的 I/O 错误修复




0.8.0 / 2016-02-20¶

数组¶

将默认数组归约分割从 32 更改为 4
线性代数，tril、triu、LU、inv、cholesky、solve、solve_triangular、eye、lstsq、diag、corrcoef。



Bag¶

添加树状归约
添加 range 函数
移除 from_hdfs 函数（hdfs3 和 distributed 项目中现在提供了更好的功能）



DataFrame¶

重构 dask.dataframe，使其包含一个完整的空 pandas dataframe 作为元数据。移除 Series 上的 .columns 属性
添加 Series 分类访问器，series.nunique，移除 series 的 .columns 属性。
read_csv 修复（多列 parse_dates、整数列名等）
改进图序列化的内部变更



其他¶

文档更新
为所有 collection 添加 from_imperative 和 to_imperative 函数
profiler 图表的美学更改
将 dask 项目移至新的 dask 组织下




0.7.6 / 2016-01-05¶

数组¶

改进线程安全
树状归约
添加 view、compress、hstack、dstack、vstack 方法
map_blocks 现在可以移除和添加维度



DataFrame¶

改进线程安全
扩展采样以包含替换选项



命令式¶

移除融合结果的优化过程。



核心¶

移除 dask.distributed
提高了分块文件读取的性能
序列化改进
测试 Python 3.5




0.7.4 / 2015-10-23¶
这主要是一个错误修复版本。一些值得注意的更改

修复与 numpy 1.10 和 pandas 0.17 发布相关的细微错误
修复了随机数生成中的一个错误，该错误会导致由于生日悖论而产生重复块
在 dask.dataframe.read_hdf 中默认使用锁，以避免并发问题
将 dask.get 默认指向 dask.async.get_sync
允许可视化函数接受通用的 graphviz 图选项，如 rankdir=’LR’
将 reshape 和 ravel 添加到 dask.array
支持从 dask.imperative 对象创建 dask.arrays


弃用¶
此版本还包含对 dask.distributed 的弃用警告，该模块将在下一版本中移除。
dask 分布式计算的未来开发正在这里进行：https://distributed.dask.org.cn 。非常欢迎社区对此项目提出反馈。



0.7.3 / 2015-09-25¶

诊断¶

一个用于分析内存和 CPU 使用的实用工具已添加到 dask.diagnostics 模块中。



DataFrame¶
此版本改进了对 pandas API 的覆盖。其中包括 nunique、nlargest、quantile 等功能。修复了读取非 ascii csv 文件时的编码问题。改进了 resample 的性能并修复了错误。read_hdf 支持更灵活的 globbing。还有更多改进。修复了 dask.imperative 和 dask.bag 中的各种错误。



0.7.0 / 2015-08-15¶

DataFrame¶
此版本包含了重要的错误修复，并与 Pandas API 对齐。这得益于实际使用以及 Pandas 核心开发者的近期参与。

新操作：query, rolling operations, drop
改进的操作：quantiles, 对整个 dataframes 进行算术运算, dropna, 构造函数逻辑, merge/join, 逐元素操作, groupby 聚合



Bag¶

修复了 fold 中使用 null 默认参数时的错误



数组¶

新操作：da.fft 模块, da.image.imread



基础设施¶

array 和 dataframe collection 创建的图具有确定性键。这些键通常较长（哈希字符串），但在不同计算之间应该是一致的。这在将来对于缓存很有用。
所有 collection（Array, Bag, DataFrame）都继承自共同的子类




0.6.1 / 2015-07-23¶

分布式¶

改进了（尽管尚未足够）当 worker 死亡时 dask.distributed 的弹性



DataFrame¶

改进了写入各种格式的功能，包括 to_hdf, to_castra, 和 to_csv
改进了从 dask Arrays 和 Bags 创建 dask DataFrames 的功能
改进了对 categoricals 和各种其他方法的支持



数组¶

各种错误修复
Histogram 函数



调度¶

在并行工作负载中添加了任务的打破平局排序，以便更好地处理和清除中间结果



其他¶

添加了 dask.do 函数，用于使用普通 python 代码显式构造图
将 pydot 替换为 graphviz 库用于图打印，以支持 Python3
还有一个 gitter 聊天室和一个 stackoverflow 标签


    
  © Copyright 2014-2018, Anaconda, Inc. 和贡献者。

更新日志

目录

更新日志¶

2025.5.0¶

重点¶

2025.4.1¶

重点¶

2025.4.0¶

重点¶

破坏性变更¶

2025.3.0¶

重点¶

在 xarray.apply_ufunc 中自动调整块大小¶

2025.2.0¶

重点¶

2025.1.0¶

重点¶

移除了遗留的 Dask DataFrame 实现¶

减少 Xarray 工作负载的内存压力¶

2024.12.1¶

重点¶

提高了调度器对大型任务图的响应能力¶

2024.12.0¶

重点¶

支持 Python 3.13¶

2024.11.2¶

重点¶

遗留 Dask DataFrame 已弃用¶

Dask Array API 新增 quantile 方法¶

Xarray rolling-construct 中一致的块大小¶

提高了 map overlap 的效率¶

爱因斯坦求和 (Einstein summation) 的一致块大小¶

2024.10.0¶

显著变化¶

2024.9.1¶

亮点¶

改进的自适应扩展弹性¶

2024.9.0¶

亮点¶

将 Bokeh 最低版本提升到 3.1.0¶

引入新的 Task 类¶

2024.8.2¶

亮点¶

rechunking 方法的自动选择¶

Dask 数组的新 shuffle API¶

Dask 数组的新 blockwise_reshape API¶

保持块大小一致的多维位置索引¶

2024.8.1¶

亮点¶

改进重塑 Dask 数组的输出块大小¶

提高 Xarray Rechunk-GroupBy-Reduce 模式的调度效率¶

放弃对 Python 3.9 的支持¶

2024.8.0¶

亮点¶

提高使用位置索引器进行切片的效率和性能¶

提高 Xarray GroupBy-Reduce 模式的调度效率¶

2024.7.1¶

亮点¶

更具弹性的分布式锁¶

2024.7.0¶

亮点¶

放弃对 pandas 1.x 的支持¶

发布-订阅 API 废弃¶

2024.6.2¶

2024.6.1¶

亮点¶

2024.6.0¶

亮点¶

memmap 数组 tokenization¶

2024.5.2¶

2024.5.1¶

亮点¶

支持 NumPy 2.0¶

增加对 Zarr 存储的支持¶

2024.5.0¶

亮点¶

2024.4.2¶

亮点¶

简化合并实现¶

在 read_parquet 中自动分区¶

在 `xarray.apply_ufunc` 中自动调整块大小¶

在 `read_parquet` 中自动分区¶

`read_parquet` 中的 Dtype 推断¶