更新日志
目录
更新日志¶
注意
这不是详尽列表。有关变更的详尽列表,请参阅 git log。
2025.5.0¶
亮点¶
修复了当数组和索引器形状未知时,Array
setitem
的问题。详情请参阅 dask#11753,由 Tom Augspurger 贡献。修复了 2025.4.0 版本引入的几个
delayed
图处理问题。详情请参阅 dask#11917、dask#11907 和 distributed#9071,由 Florian Jetter 贡献。
其他变更
加速切片图生成 (dask#11945) Florian Jetter
优化 dask order 以应对
get_target
的最差情况 (dask#11935) Florian Jetter如果任务缺少依赖项,则在本地执行器上引发错误 (dask#11944) Florian Jetter
修复了单分区的
to_dask_array
(dask#11931) James Bourbeau确保 parquet 计划在优化期间完全缓存 (dask#11933) Florian Jetter
改进了表达式系统的文档 (dask#11915) Florian Jetter
简化(并加速)剔除 (dask#11899) Florian Jetter
更新 pre-commit (dask#11926) Florian Jetter
不在 CI 中运行后置
setup-miniconda
步骤 (dask#11925) James Bourbeau尝试为 readthedocs 固定 pip 版本 (dask#11923) Florian Jetter
修复 Windows CI (dask#11919) Florian Jetter
对 py310 使用稳定的
crick
(distributed#9072) Florian Jetter移除
update_graph
中的内部依赖映射 (distributed#9036) Florian Jetter部分遗漏的依赖项 (distributed#9068) Florian Jetter
将 CI 环境中的
filesystem-spec
替换为fsspec
(distributed#9069) James Bourbeau确保在 worker 故障时 actor 正确设置错误状态 (distributed#9067) Florian Jetter
重构启动集群中的超时设置 (distributed#9062) Florian Jetter
修复 client repr 中显示的 workers / threads / memory 信息 (distributed#9066) James Bourbeau
为 readthedocs 固定 pip 版本 (distributed#9063) Florian Jetter
跳过 TLS 功能测试 (distributed#9061) Florian Jetter
确保 client submit 不会进行不必要的序列化 (distributed#9057) Florian Jetter
2025.4.1¶
亮点¶
此版本包含几个针对 2025.4.0
版本引入的问题的图优化修复。
更多详情请参阅 dask#11906, dask#11898, dask#11903, 和 dask#11904,作者:Florian Jetter。
其他变更
为 array-expr 实现
ufuncs
和gufunc
(dask#11818) Patrick Hoefler为 array-expr 实现
map_overlap
(dask#11822) Patrick Hoefler
2025.4.0¶
亮点¶
计算多个由 Dask-Expr 支持的集合(如 DataFrame)时,现在会一起进行优化,而不是单独优化。
图的具现化和低级别优化现在在分布式集群的调度器上执行(如果可用)。
为
DataFrame.shuffle
新增关键字参数force
,指示优化器在优化过程中不要移除 shuffle。作为参数传递给 Dask 方法的集合现在得到了适当的优化。如果将多个集合作为参数传递,它们将一起进行优化。以这种方式传递的集合禁止被重用,即如果该集合在另一个函数调用中再次使用,它将再次计算。这种模式用于避免通常导致内存占用的流水线中断。避免这些应该会减少集群的内存压力,但可能会导致运行时性能下降。
(上述要点的特例) 传递给 Delayed 对象的集合现在会自动优化。
破坏性变更¶
移除了对自定义低级别优化器的支持。
顶层
dask.optimize
现在总是会触发图的具现化。以前并非总是如此。这也导致任何低级别HLG
注释被丢弃。DataFrame
和Array
的计算结果现在总是在集群上进行拼接。以前,其行为取决于调用compute
所使用的 API(dask.compute
、DaskCollection.compute
或Client.compute
)。dask.base.collections_to_dsk
已重命名为collections_to_expr
,并且不再返回HighLevelGraph
或dict
对象,而是保证返回一个dask._expr.Expr
对象。此外,它不再立即执行低级别优化,而是推迟到Expr
实例具现化时。也就是说,返回的对象不再是映射类型,因此无法再将其转换为dict
或对其进行迭代。
其他变更
确保
Future
值位于da.from_delayed
任务图中 (dask#11896) Tom Augspurger修复传递给
delayed
的注释 (dask#11893) Florian Jetter迁移
delayed
unpack_collections
(dask#11881) Florian Jetter从文档中移除
Pub
/Sub
引用 (dask#11891) James Bourbeau确保只有没有自定义 init 的类是单例 (dask#11886) Florian Jetter
移除
delayed
表达式的自定义初始化器 (dask#11888) Florian Jetter修复同时持久化多个 DF 的问题 (dask#11887) Florian Jetter
避免总是将传递给
DataFrame.isin
的列表输入解析为对象类型的numpy
数组 (dask#11869) Matthew Roeschke解除跳过 pandas-dev
cov
/corr
测试 (dask#11873) Tom AugspurgerHLG
blockwise
修复 (dask#11871) Florian Jetter确保
HLG
对象的注释正确生成 (dask#11866) Florian Jetter从基础
Expr
类中提取单例逻辑 (dask#11868) Florian Jetter确保
HLG
在优化中正确使用依赖项 (dask#11859) Florian Jetter确保字典进行确定性分词 (dask#11867) Florian Jetter
确保默认 dask 调度器只计算所需内容 (dask#11861) Florian Jetter
加快
pd.RangeIndex
的分词速度 (dask#11863) Florian Jetter更新社区文档中指向 Quansight 的链接 (dask#11860) Pavithra Eswaramoorthy
放宽
autocorr
测试中的容差 (dask#11857) Tom Augspurger在
array.store
中使用map_blocks
以避免具现化和丢弃注释 (dask#11844) Florian Jetter确保
repartition
在降低级别(即在调度器上)时不会触发内存大小计算 (dask#11855) Florian Jetter支持对滚动聚合使用
args
和kwargs
(dask#11856) Florian Jetter从
upstream
CI 作业中移除 nightlyh5py
(dask#11847) James Bourbeau确保
HLGExpr
唯一分词 (dask#11849) Florian Jetter在
pandas
3 的 describe 中不注入中位数 (dask#11846) Florian Jetter修复子类的
Expr.__setattr__
(dask#11845) Tom Augspurger将
HLG
包装在Expr
中以避免Client
端的具现化 (dask#11736) Florian Jetter改进从已关闭客户端提交任务时的错误提示 (distributed#9049) James Bourbeau
如果地址解析失败,返回默认值 (distributed#9051) Sandro
提交图时避免
deepcopy
(distributed#8633) Florian Jetter动态调整心跳和
scheduler_info
间隔 (distributed#9046) Florian Jetter通过在版本检查时避免导入包来加快进程启动时间 (distributed#9048) Florian Jetter
减小
scheduler_info
的大小 (distributed#9045) Florian Jetter缓存
WorkerState
的主机属性 (distributed#9044) Florian Jetter清除 ci env 缓存 (distributed#9047) Florian Jetter
移除已废弃的
Pub
/Sub
(distributed#9039) Florian Jetter仅在提交
LLG
时执行显式修剪步骤 (distributed#9040) Florian Jetter不要按类型完全具现化全局注释 (distributed#9035) Florian Jetter
允许嵌套的
worker_client
调用 (distributed#9038) George Sakkis转储 ci 缓存 (distributed#9037) Florian Jetter
调度器类型注释 (distributed#9030) Florian Jetter
通过移除
stripped_dep
计算来降低dask.order
开销 (distributed#9031) Florian Jetter使用
Expr
代替HLG
(distributed#9008) Florian Jetter
2025.3.0¶
亮点¶
在 xarray.apply_ufunc
中自动调整块大小¶
apply_ufunc
要求核心维度具有 chunksize=-1
。底层的 rechunking 操作会自动调整核心维度的块大小,但保持其他维度不变。这可能导致内部块大小剧增。
此版本增加了一个中间步骤,通过与核心维度增加相同的因子来调整非核心维度的尺寸,以控制最大块大小。当设置 allow_rechunk=True
时,此行为会自动启用。
import xarray as xr
import dask.array as da
arr = xr.DataArray(
da.random.random((1, 750, 45910), chunks=(1, "auto", -1)),
dims=["band", "y", "x"],
)
result = arr.interp(
y=arr.coords["y"],
method="linear",
)
其他变更
修复数据集信息缓存分配问题 (dask#11840) Florian Jetter
Expr
setattr
(dask#11836) Florian Jetter表达式分词缓存的后续跟进 (dask#11837) Florian Jetter
整合 expr 类的
getattr
(dask#11835) Florian Jetter减小
ReadParquet
表达式的 pickle 大小 (dask#11797) Florian Jetterarange
在~2**63
上损失精度 (dask#11801) Guido Imperiale从上游构建中移除
numbagg
(dask#11821) Patrick Hoefler对
nanmedian
和nanquantile
分派到numbagg
(dask#11817) Patrick Hoefler使缺少
meta
警告更符合人体工程学 (dask#11814) Patrick Hoefler从
from_pandas
中移除name
文档 (dask#11812) Patrick Hoefler实现一个 Array Scalar (dask#11810) Patrick Hoefler
为
DataFrame
API 添加了to_orc
(dask#11807) Tom Augspurger为 DataFrames 实现反向索引 (dask#11803) Patrick Hoefler
为
cudf
添加惰性to_pandas_dispatch
注册 (dask#11799) Richard (Rick) Zamora修复 array-expr 中缺失的导入 (dask#11796) Florian Jetter
在表达式上缓存 tokens 并在 pickle 往返后恢复 (dask#11791) Florian Jetter
在分布式测试中使用随机仪表板端口给
LocalCluster
(dask#11795) Florian Jetter为 array-expr 实现切片 (dask#11783) Patrick Hoefler
调用顶层
compute
函数时永不使用异步Client
(dask#11790) Florian Jetter重构导入测试 (dask#11794) Florian Jetter
迁移
base.unpack_collections
到Task
类 (dask#11793) Florian Jetter确保
map_blocks
生成唯一的 tokens (dask#11792) Florian Jetter将
normalize_pickle
速度提高 50% (dask#11788) Florian Jetter修复包含重复项时的 divisions 计算 (dask#11787) Patrick Hoefler
修复重复 divisions 的 assign align (dask#11786) Patrick Hoefler
确保 concat 优化项目不引发异常 (dask#11784) Florian Jetter
为 array-expr 添加 from_array (dask#11772) Patrick Hoefler
在
apply_gufunc
中保持块大小一致 (dask#11683) Patrick Hoefler测试
dask.dataframe.__all__
(dask#11782) Philipp A.将
__all__
添加到dask.bag
(dask#11781) Philipp A.为
dask.array.__all__
添加测试 (dask#11780) Philipp A.将
JamesIves/github-pages-deploy-action
从 4.7.2 提升到 4.7.3 (dask#11777)导出
dask.array
成员 (dask#11779) Philipp A.修复带有重复项的
sorted_divisions_locations
(dask#11773) Tom Augspurger修复
best-practices.rst
中的小错误 (dask#11775) Sergey Kolesnikov在
blockwise
adjust_chunks
中允许未知块 (dask#11769) Lindsey Gray修复
asarray(..., like=...)
与scipy.sparse
对象冲突导致的崩溃 (dask#11755) Guido Imperiale移除不稳定的可选依赖项 (dask#11771) Tom Augspurger
添加对 scipy sparray 的支持 (dask#11750) Philipp A.
为测试额外项添加
flaky
(dask#11770) Tom Augspurger确保 divisions 是普通标量 (dask#11767) Tom Augspurger
移除 divisions 代码重复 (dask#11764) Florian Jetter
确保 Merge 中的 divisions 不偏离
npartitions
(dask#11762) Florian Jetter在 windows 上跳过
test_visualize_int_overflow
(dask#11761) Florian Jetter减小任务的 pickle 大小 (dask#11687) Florian Jetter
实现
unify_chunks
和 Rechunk (dask#11692) Patrick Hoefler修复表达式 getitem 以避免对齐 (dask#11760) Patrick Hoefler
arange(..., like=x)
嵌入了 x 的图 (dask#11754) Guido Imperiale简化
assert_divisions
(dask#11745) Florian Jetter修复 Series 对象的 Projection 逻辑 (dask#11747) Patrick Hoefler
移除将字节作为键 (dask#11757) Florian Jetter
确保如果函数返回标量,
map_partitions
返回 Series 对象 (dask#11756) Florian Jetter不要两次上传 env (dask#11748) Patrick Hoefler
修复 readme 中的徽章 (distributed#9029) Florian Jetter
正确转发取消原因 (distributed#9028) Florian Jetter
修复
bokeh
circle (distributed#9026) Florian Jetter确保
FileInfo
可以被序列化 (distributed#9025) Florian Jetter将 ipykernel 添加到代码采样中跳过的模块 (distributed#9022) Matthew Rocklin
SpecCluster: 添加一个选项,在集群关闭时 *不* 关闭调度器 (distributed#9021) Taylor Braun-Jones
通过使用
client.persist(collection)
而不是collection.persist()
修复 CI (distributed#9020) Hendrik Makait添加从前缀根到状态的重定向 (distributed#9015) Isaac
将
JamesIves/github-pages-deploy-action
从 4.7.2 提升到 4.7.3 (distributed#9018)从测试中移除字节键 (distributed#9017) Jacob Tomlinson
2025.2.0¶
亮点¶
此版本包含一个关键修复,解决了在分离任务被重新调度,或被取消并重新提交(例如,由于工作节点丢失)时可能出现的死锁问题。
更多详情请参阅 distributed#8991,作者:Hendrik Makait。
其他变更
添加大数组示例 (dask#11744) James Bourbeau
修复常数填充时 pad 中的块大小剧增问题 (dask#11743) Patrick Hoefler
将 optimize 方法移至基类 (dask#11742) Florian Jetter
为已修复的死锁添加变更日志条目 (dask#11741) Hendrik Makait
修复
dask-expr
to_delayed
中的图创建问题 (dask#11739) Patrick Hoefler从 delayed 优化中移除 culling (dask#11737) Patrick Hoefler
在集群上计算 from_map 的 meta (dask#11738) Patrick Hoefler
带有 dask 布尔掩码时
__setitem__
的 Bug (dask#11728) Guido Imperiale实现 infrastructure, random, blockwise 和 Elemwise (dask#11689) Patrick Hoefler
同时使用
like=
和dtype=
的array
/asarray
(dask#11733) Guido Imperiale修复注释警告测试 (dask#11734) Patrick Hoefler
使用 to_parquet 写入远程存储时捕获警告 (dask#11731) Patrick Hoefler
从测试中移除 LocalCluster (dask#11729) Patrick Hoefler
修复使用 from_array 时分区修剪的问题 (dask#11725) Patrick Hoefler
修复混合 dtype 列的拼接问题 (dask#11727) Patrick Hoefler
arange
: 修复极端值 (dask#11707) Guido Imperiale标量
getitem
->setitem
时的图损坏 (dask#11723) Guido Imperialecompute() 后永不共享缓冲区 (dask#11697) Guido Imperiale
在 from_array 中从 xarray DataArray 提取 Dask Array (dask#11712) Patrick Hoefler
arange
: 支持 kwargs (dask#11710) Guido Imperiale确保
normalize_token
是线程安全的 (dask#11709) Florian Jetter扩展关于实例类型和进程的建议 (dask#11705) Florian Jetter
移除旧版时间序列实现 (dask#11704) Florian Jetter
更新 Dask Cloud Provider 文档,将 Nebius 作为支持的云选项 (dask#11703) Alexander
修复将块压成单个块时
normalize_chunks
的问题 (dask#11702) Patrick Hoefler修复使用
newaxis
进行位置索引的问题 (dask#11699) Patrick Hoefler在 scipy-sparse-indexing 中设置数组后端 (dask#11700) Tom Augspurger
修复
value_counts
的混洗策略 (dask#11698) Patrick Hoefler将核心表达式类与 dataframe 特定代码解耦 (dask#11688) Patrick Hoefler
将
conda-incubator/setup-miniconda
从 3.1.0 提升到 3.1.1 (dask#11685)修复从数组方法到 dataframe 的转换问题 (dask#11684) Patrick Hoefler
移除
fastparquet
的剩余遗迹 (dask#11682) Patrick Hoefler从
sizeof
失败警告中移除回溯信息 (distributed#9006) Jacob Tomlinson热修复:忽略负占用率 (distributed#9012) Hendrik Makait
移除昂贵的键唯一性检查分词 (distributed#9009) Patrick Hoefler
修复
from_map
更改的 CI (distributed#9011) Patrick Hoefler避免在调度器上处理陈旧的长时间运行消息 (distributed#8991) Hendrik Makait
增加
test_stress
超时时间 (distributed#9002) Tom Augspurger在
test_rmm_metrics
测试中轮询 (distributed#9004) Tom Augspurger在
WorkStealing.balance()
中缓存占用率 (distributed#9005) Hendrik Makait通过考虑进行中请求来实现同质平衡 (distributed#9003) Hendrik Makait
在窃取、自适应和占用率计算之间一致估计任务持续时间 (distributed#9000) Hendrik Makait
将默认工作窃取间隔增加 10 倍 (distributed#8997) Hendrik Makait
从状态仪表板中移除占用率图 (distributed#8995) Hendrik Makait
将
conda-incubator/setup-miniconda
从 3.1.0 提升到 3.1.1 (distributed#8990)
2025.1.0¶
亮点¶
移除了旧版 Dask DataFrame 实现¶
此版本移除了旧版 Dask DataFrame 实现。现在唯一可用的 Dask DataFrame 实现是带有查询规划的 API。
这强制废弃了以下配置
dask.config.set({"dataframe.query-planning": False})
Dask-Expr 已合并到 dask 包和 dask/dask 仓库中。不再需要单独安装 dask-expr。
减少 Xarray 工作负载的内存压力¶
Dask 在 2022 年引入了一种称为根任务排队 (root task queuing) 的机制。该机制允许 Dask 检测从存储读取数据的任务,并防御性地调度它们,以避免因过度生成这些任务而给集群带来内存压力。底层机制非常脆弱,对于某些特定类型的计算会失效,例如打开多个 zarr 存储或加载大量 netcdf 文件。
Dask 任务图表示的最新更改使得根任务的检测更加健壮。这项更改使得检测机制独立于正在运行的工作负载,对 Xarray 工作负载尤其有利。
这显著提高了内存稳定性,并减少了以前根任务检测失败的工作负载的内存占用,使得预期的内存配置是确定性的,且独立于任务图的拓扑结构。
2024.12.1¶
亮点¶
提高了大型任务图的调度器响应能力¶
此版本减少了 Dask 调度器跟踪任务相关的 Python 对象引用数量。这通过减少在调度器上运行垃圾回收所需的时间来提高调度器响应能力。
更多详情请参阅 dask#8958, dask#11608, dask#11600, dask#11598, dask#11597, 和 distributed#8963,作者:Hendrik Makait。
其他变更
修复
map_overlap
中的错误,其中 rechunking 和trim=False
导致块不一致 (dask#11605) Patrick Hoefler在 read-csv 中避免旧版实现 (dask#11603) Patrick Hoefler
移除旧版 DataFrame 导入 (dask#11604) Patrick Hoefler
asarray
忽略数组输入的dtype
(dask#11586) crusaderky将 LLM 聊天机器人添加回 Dask 文档 (dask#11594) dchudz
将
JamesIves/github-pages-deploy-action
从 4.6.9 升级到 4.7.2 (dask#11593)将 dask 数组创建例程迁移到 task spec (dask#11582) James Bourbeau
将 dask 数组随机部分迁移到 task spec (dask#11581) James Bourbeau
在
array.push
中不使用本地函数 (dask#11576) Florian Jetter将
conda-incubator/setup-miniconda
从 3.0.3 升级到 3.1.0 (distributed#8922)在测试中随机选择 dashboard 端口 (distributed#8965) Hendrik Makait
修复
NoValidWorkerException
消息的格式 (distributed#8967) Hendrik Makait在 WSL 中支持
pynvml>=11.5
(distributed#8962) Richard (Rick) Zamora将
JamesIves/github-pages-deploy-action
从 4.6.9 升级到 4.7.2 (distributed#8960)
2024.12.0¶
亮点¶
支持 Python 3.13¶
此版本增加了对 Python 3.13 的支持。Dask 现在支持 Python 3.10-3.13。
更多详情请参阅来自 Patrick Hoefler 和 James Bourbeau 的 dask#11456 和 distributed#8904。
其他变更
恢复“Add LLM chatbot to Dask docs (dask#11556)” (dask#11577) dchudz
如果
to_zarr
中的数组具有不规则分块,则自动重新分块 (dask#11553) Patrick HoeflerBlockwise 使用
Task
类 (dask#11568) Florian Jetter将
rechunk
和reshape
迁移到 task spec (dask#11555) Patrick Hoefler缓存数组的 svg 表示 (dask#11560) Deepak Cherian
修复容器的空输入问题 (dask#11571) Florian Jetter
优化期间将
Bag
图转换为TaskSpec
图 (dask#11569) Florian Jetter将 LLM 聊天机器人添加回 Dask 文档 (dask#11556) dchudz
在线性融合中也融合数据节点 (dask#11549) Patrick Hoefler
将切片代码迁移到 task spec (dask#11548) Patrick Hoefler
加快
ArraySliceDep
标记化速度 (dask#11551) Patrick Hoefler修复
p2p
屏障任务的融合问题 (dask#11543) Patrick Hoefler移除 GPU CI 的基础设施/提及 (dask#11546) Charles Blackmon-Luca
暂时禁用 gpuCI 更新 CI 作业 (dask#11545) James Bourbeau
使用
BlockwiseDep
实现map_blocks
关键字参数 (dask#11542) Patrick Hoefler移除
optimize_slices
(dask#11538) Patrick Hoefler如果形状相同,则将
reshape_blockwise
设置为无操作 (dask#11541) Patrick Hoefler在
open_zarr
中移除open_arry
的只读标志 (dask#11539) Patrick Hoefler为 task spec 类实现
linear_fusion
(dask#11525) Patrick Hoefler移除
TaskSpec
中的递归 (dask#11477) Florian Jetter修复 dask-expr 更改后的测试 (dask#11536) Patrick Hoefler
将
codecov/codecov-action
从 3 升级到 5 (dask#11532)直接创建 dask-expr frame,无需往返转换 (dask#11529) Patrick Hoefler
将
scikit-image
夜间构建添加回上游 CI (dask#11530) James Bourbeau移除
from_dask_dataframe
导入 (dask#11528) Patrick Hoefler确保
from_array
创建副本 (dask#11524) Patrick Hoefler简化并提高 normalize chunks 的性能 (dask#11521) Patrick Hoefler
修复不稳定的
nanquantile
测试 (dask#11518) Patrick Hoefler修复针对
zarr=3
中新的read_only
kwarg 的测试 (dask#11516) Patrick Hoefler修复
test_jupyter.py::test_shutsdown_cleanly
(distributed#8954) Hendrik Makait在 Python 3.13 CI 中从
conda-forge
安装tornado
(distributed#8951) James Bourbeau恢复 retire workers API (distributed#8939) Florian Jetter
正确将 finalize 依赖项转换为引用 (distributed#8949) Hendrik Makait
屏障任务的块融合 (distributed#8944) Patrick Hoefler
移除 GPUCI 的基础设施/提及 (distributed#8946) Charles Blackmon-Luca
暂时禁用 gpuCI 更新 CI 作业 (distributed#8945) James Bourbeau
移除 task spec 中的递归 (distributed#8920) Florian Jetter
减少移除和注册 worker 的日志消息冗余度 (distributed#8938) Florian Jetter
在
retire_workers
中不记录完整的 worker 信息 (distributed#8935) Florian Jetter
2024.11.2¶
注意
版本 2024.11.0 和 2024.11.1 包含一个严重的性能回退,所有用户都应跳过这些版本。
亮点¶
旧版 Dask DataFrame 已废弃¶
此版本废弃了旧版 Dask DataFrame 实现。旧实现将在未来版本中完全移除。鼓励用户现在切换到新实现并报告遇到的任何问题。
还鼓励用户检查他们只从 dask.dataframe
导入函数,而不是任何子模块。
Dask Array API 的新 quantile 方法¶
Dask Array 添加了新的 quantile
和 nanquantile
方法。以前,Dask 分派到 NumPy 实现,这大量阻塞了 GIL。这导致拥有多个线程的 worker 上出现大的减速,并且每个分块的运行时可能超过 200 秒。
新的 quantile
实现避免了许多这些问题,并将运行时减少到每个分块大约 1 秒,与线程数量无关。
Xarray rolling-construct 中一致的分块大小¶
使用 Dask Array 的 Xarray rolling(...).construct(...)
会导致非常大的分块大小,这些分块大小在一个 worker 上很少能完全放入内存。
底层操作是对较小的 NumPy 数组的视图,但触发数据复制将导致非常大的内存使用量。
import xarray as xr
import dask.array as da
arr = xr.DataArray(
da.ones((93504, 721, 1440), chunks=("auto", -1, -1)),
dims=["time", "lat", "longitude"],
) # Initial chunks are ~128 MiB
arr.rolling(time=30).construct("window_dim")
提高了 map overlap 的效率¶
map_overlap
现在创建更小、更高效的图,以使任务图总体上小得多。
以前的版本注入了许多不必要的任务,将任务数量增加了实际必要数量的 2-10 倍。这给调度器带来了很大压力。
爱因斯坦求和的一致分块大小¶
如果应用于多个 Dask Array,爱因斯坦求和历史上会导致非常大的分块大小。此行为继承自 NumPy,但导致 worker 上出现内存不足错误。
import dask.array as da
arr = da.random.random((1024, 64, 64, 64, 64), chunks=(256, 16, 16, 16, 16)) # Initial chunks are 128 MiB
result = da.einsum("aijkl,amnop->ijklmnop", arr, arr)
其他变更
为 Dask 发布添加变更日志条目 (dask#11502) Patrick Hoefler
对可选依赖项表进行微小更新 (dask#11503) James Bourbeau
为类似
ffill
的操作添加push
(dask#11501) Patrick Hoefler移除
TaskSpec
的func
打包 (dask#11496) Florian Jetter使
vindex
的标记化更高效 (dask#11493) Patrick Hoefler缩短 einstein 求和测试的运行时 (dask#11499) Patrick Hoefler
提高
test_rot90
的测试运行时 (dask#11498) Florian Jetter禁用 Bags 中
TaskSpec
的低级别优化 (dask#11495) Florian Jetter为 sliding-window-view 添加自动重新分块 (dask#11479) Patrick Hoefler
为
dask.array.store
添加load_stored
kwarg (dask#11465) Deepak Cherian修复二维
quantile
错误 (dask#11489) Patrick Hoefler将
conda-incubator/setup-miniconda
从 3.0.4 升级到 3.1.0 (dask#11490)更新
map_blocks
docstring (dask#11491) Patrick Hoefler修复带有空数组的
einsum
(dask#11488) Patrick Hoefler实现非 gil-blocking 的
quantile
方法 (dask#11473) Patrick Hoefler在
map_overlap
中使用内部关键字参数进行修剪以减小图大小 (dask#11486) Patrick Hoefler轻微重构 dask
order
(dask#11467) Florian Jetter从
map_overlap
移除空任务 (dask#11483) Patrick Hoefler修复 auto chunks 计算(如果单个分块小于 1) (dask#11485) Patrick Hoefler
修复 pandas 上游更改后的 CI (dask#11482) Patrick Hoefler
确保
block_id
和block_info
不创建额外任务 (dask#11484) Patrick Hoefler使用 repeat 构建最近边界 (dask#9666) Jean-Baptiste Bayle
移除
make_blockwise
中的死代码 (dask#11478) Florian Jetter修补
rioxarray
的 auto-chunks 计算 (dask#11480) Patrick Hoefler由于不稳定的警告,跳过旧版测试 (dask#11475) Patrick Hoefler
取消跳过一些
dask-expr
测试 (dask#11474) Patrick Hoefler在
einsum
中保持分块大小一致 (dask#11464) Patrick Hoefler改进
normalize_chunks
在设置“auto”时如何合并分块 (dask#11468) Patrick Hoefler修复当图中有多个别名时
resolve_aliases
的问题 (dask#11469) Patrick Hoefler避免在
dask.array
中循环导入 (dask#11472) Hendrik Makait取消跳过 dataframe 测试 (dask#11471) Patrick Hoefler
提高大型图的
dask.order
性能 (dask#11466) Florian Jetter确保
slice(None)
只映射键 (dask#11450) Patrick Hoefler修复未反序列化对象的
Task.__repr__()
(dask#11463) Peter Andreas Entschev在本地 dask 执行中使用
TaskSpec
(dask#11378) Florian Jetter调整
test_solve_triangular_vector
中的精度 (dask#11461) Florian Jetter更新 Aggregation docstring (dask#11459) Guillaume Eynard-Bontemps
为
delayed
对象实现 fuse 选项 (dask#11441) Patrick Hoefler废弃旧版 dask dataframe 实现 (dask#11437) Patrick Hoefler
修复使用 arrow dtypes 的
groupby.agg
的na
强制转换行为 (dask#11118) Patrick Hoefler修复
TaskSpec
节点的keys_in_tasks
行为 (dask#11445) Florian Jetter为了可视化大型任务图,将 dtype 转换为 int 而不是 np.uint8 (dask#11440) Patrick Hoefler
确保依赖项不被修改 (dask#11438) Florian Jetter
完全支持
dask.order
中的 task spec (dask#11347) Florian Jetter移除
P2PBarrierTask
中冗余的方法 (distributed#8924) Florian Jetter修复
test_tell_workers_when_peers_have_left
的skipif
条件 (distributed#8929) Florian Jetter即使网络堆栈吞噬
CancelledErrors
,也要确保ConnectionPool
被关闭 (distributed#8928) Florian Jetter修复不稳定的
test_server_comms_mark_active_handlers
(distributed#8927) Florian Jetter明确 P2P 屏障机制中的假设 (distributed#8926) Hendrik Makait
调整 Jupyter cli 测试中的超时 (distributed#8925) Florian Jetter
将
stimulus_id
添加到update_graph
plugin hook (distributed#8923) Hendrik Makait减少 P2P 传输任务开销 (distributed#8912) Hendrik Makait
在 Python 3.11 上禁用 profiler (distributed#8916) Florian Jetter
修复
test_restarting_does_not_deadlock
(distributed#8849) Florian Jetter调整测试的
popen
超时 (distributed#8848) Florian Jetter为 shuffle broadcast 添加重试机制 (distributed#8900) Florian Jetter
修复
test_shuffle_with_array_conversion
(distributed#8909) Florian Jetter重构一些测试 (distributed#8908) Florian Jetter
将
dask-expr
从 contrib 提升为核心项目 (distributed#8911) Hendrik Makait在 py10 上跳过
test_tell_workers_when_peers_have_left
(distributed#8910) Florian Jetter清理 P2P 代码的内部结构 (distributed#8907) Hendrik Makait
使用
Task
类代替元组 (distributed#8797) Florian Jetter增加
test_tell_workers_when_peers_have_left
的连接超时时间 (distributed#8906) Florian Jetter移除
TaskCollection
中的调度 (distributed#8903) Florian Jetter在 P2P 中对调度器的请求进行去重 (distributed#8899) Hendrik Makait
添加用于 rootish taskgroup 阈值的配置 (distributed#8898) Patrick Hoefler
2024.10.0¶
重要变更¶
兼容 Zarr-Python 3 (dask#11388)
避免 overlap 中任务图呈指数级增长 (dask#11423)
确保 numba 标记化不使用缓慢的 pickle 路径 (dask#11419)
其他变更
确保 broadcast_shapes() 返回整数,而不是 NumPy 标量。 (dask#11434) Martin Yeo
(修复): 稀疏索引 (dask#11430) Ilan Gold
确保递归调用 tokenize 时遵守 ensure_deterministic (dask#11431) Florian Jetter
使 P2P 更具可配置性 (distributed#8469) Hendrik Makait
将 Dashboard worker 表调整为页面宽度 (distributed#8897) Jacob Tomlinson
使用错误的插件基类时引发有用的错误 (distributed#8893) Jacob Tomlinson
修复非字符串键的异常 dashboard 上的 URL 转义 (distributed#8891) Patrick Hoefler
在写入期间磁盘空间不足时添加有意义的错误消息 (distributed#8886) Hendrik Makait
修复标量在左侧时的二进制操作 (dask-expr#1150) Patrick Hoefler
计算除法时引发异常 (dask-expr#1149) Patrick Hoefler
修复单个分区的 merge_asof (dask-expr#1145) Patrick Hoefler
改进 analyze 和 explain 中可选依赖项的处理 (dask-expr#1146) Hendrik Makait
修复 groupby 索引访问器对齐问题 (dask-expr#1142) Patrick Hoefler
修复时间戳标量显示问题 (dask-expr#1141) Patrick Hoefler
2024.9.1¶
亮点¶
提高了自适应缩放的弹性¶
自适应缩放集群现在可以从缩放过程中的伪错误中恢复。
更多详情请参阅 distributed#8871,作者是 Hendrik Makait。
其他变更
改进了元信息中列顺序不正确的错误消息 (dask#11393) Dmitry Balabka
更新 gpuCI
RAPIDS_VER
到24.12
(dask#11407)将
jacobtomlinson/gha-anaconda-package-version
从 0.1.3 升级到 0.1.4 (dask#11405)切换到使用
zarr.open_array
而不是使用zarr.Array
构造函数 (dask#11387) Joe Hamman更新 gpuCI
RAPIDS_VER
到24.12
(distributed#8879)在执行
Scheduler.update_graph
时,不将调度器视为空闲 (distributed#8877) Hendrik Makait将
jacobtomlinson/gha-anaconda-package-version
从 0.1.3 升级到 0.1.4 (distributed#8878)支持 P2P rechunking datetime 数组 (distributed#8875) James Bourbeau
2024.9.0¶
亮点¶
Bokeh 最低版本升级到 3.1.0¶
诊断和分布式集群 dashboard 现在需要 bokeh>=3.1.0
。
更多详情请参阅来自 James Bourbeau 的 dask#11375 和 distributed#8861。
引入新的 Task 类¶
添加 Task
类以取代元组作为任务规范。
更多详情请参阅来自 Florian Jetter 的 dask#11248。
其他变更
将
peter-evans/create-pull-request
从 6 升级到 7 (dask#11380)减少 tokenize 中的开销 (dask#11373) Florian Jetter
将
tokenize
移动到专用子模块 (dask#11371) Florian Jetter确保在存在多个拆分时
process_runnables
不会过于急切 (dask#11367) Florian Jetter在 shuffle 中使用
np.min_scalar_type
(dask#11369) James Bourbeau将索引数组写入 dask 图以减小多个 xarray 变量的大小 (dask#11362) Patrick Hoefler
在 shuffle 中将索引器强制转换为最小
dtype
(dask#11364) Patrick Hoefler减少
dask.order
的内存使用量 (dask#11361) Florian Jetter将
JamesIves/github-pages-deploy-action
从 4.6.3 升级到 4.6.4 (dask#11366)precommit
自动更新 (dask#11360) Florian Jetter均匀调度 P2P 的解包任务 (distributed#8873) Hendrik Makait
修复 localhost 防火墙问题 (distributed#8868) Mario Linker
使用新的
tokenize
模块 (distributed#8858) James Bourbeau针对幂等插件警告指向用户代码 (distributed#8856) James Bourbeau
修复 nanny 超时测试 (distributed#8847) Florian Jetter
将 JamesIves/github-pages-deploy-action 从 4.5.0 升级到 4.6.4 (distributed#8853)
通过仅计算
func
和kwargs
的一次token
来加速Client.map
(distributed#8855) Florian Jetter更新
pre-commit
(distributed#8852) Florian Jetter
2024.8.2¶
亮点¶
自动选择 rechunking 方法¶
为了使用户能够在比以前更大的规模上重新分块数据,Dask 现在在集群上进行重新分块时会自动选择合适的重新分块方法。这不需要额外配置,并且默认启用。
具体来说,Dask 在基于任务的 rechunking 和 P2P rechunking 之间进行选择。虽然基于任务的 rechunking 以前是默认设置,但在 rechunking 需要旧分块和新分块之间几乎全连接通信的情况下,P2P rechunking 会更有优势,例如,在空间分块和时间分块之间切换时。在这些情况下,P2P rechunking 提供恒定的内存使用量并创建更小的任务图。因此,它适用于基于任务的 rechunking 会失败的情况。
要禁用自动选择,用户可以通过配置选择首选方法
import dask.config
# Choose either "tasks" or "p2p"
dask.config.set({"array.rechunk.method": "tasks"})
或在 rechunking 时
import dask.array as da
arr = da.random.random(size=(1000, 1000, 365), chunks=(-1, -1, "auto"))
# Choose either "tasks" or "p2p"
arr = arr.rechunk(("auto", "auto", -1), method="tasks")
更多详情请参阅来自 Hendrik Makait 的 dask#11337。
Dask Arrays 的新 shuffle API¶
Dask 为 Dask Arrays 添加了 shuffle API。此 API 允许沿单个维度对数据进行洗牌。它将确保沿此维度的每组元素都恰好在一个分块中。这对于 Xarray 中的 GroupBy-Map 模式来说是非常有用的操作。有关更多信息和 API 签名,请参阅 shuffle()
。
更多详情请参阅来自 Patrick Hoefler 的 dask#11267、dask#11311 和 dask#11326。
Dask Arrays 的新 blockwise_reshape API¶
新的 blockwise_reshape()
为不关心底层数组顺序的情况提供了易于并行化的重塑操作。它易于并行化,并且不再触发底层的 rechunking 操作。这在你对结果 Array 的顺序不关心时非常有用,例如当对数组应用 reduction 或重塑只是临时操作时。
arr = da.random.random(size=(100, 100, 48_000), chunks=(1000, 100, 83)
result = reshape_blockwise(arr, (10_000, 48_000))
result.sum()
# or: do something that preserves the shape of each chunk
result = reshape_blockwise(result, (100, 100, 48_000), chunks=arr.chunks)
如果维度数量减少,Dask 会自动计算结果分块;但如果维度数量增加,则必须指定结果分块。
重塑 Dask Array 通常会创建非常复杂的计算,中间伴随 rechunk 操作,因为 Dask 默认尊重 Array 的 C 顺序。这确保了结果 Dask Array 的顺序与相应的 NumPy Array 相同。然而,这可能导致计算效率非常低。blockwise_reshape
在不关心顺序的情况下比默认实现效率高得多。
警告
分块重塑操作比默认操作更高效,但它们会返回一个排序方式不同的数组。请谨慎使用!
更多详情请参阅来自 Patrick Hoefler 的 dask#11328。
多维位置索引保持分块大小一致¶
以前使用 vindex()
对 Dask Array 进行索引会在被索引的维度上创建一个单一输出分块。vindex
通常用于 Xarray 中一步索引多个维度,即
arr = xr.DataArray(
da.random.random((100, 100, 100), chunks=(5, 5, 50)),
dims=['a', "b", "c"],
)
以前,这会将被索引的维度放入一个分块中

Dask 现在使用一种改进的算法来确保分块大小保持一致

更多详情请参阅来自 Patrick Hoefler 的 dask#11330。
其他变更
添加 shuffle,
vindex
和blockwise_reshape
的变更日志条目 (dask#11350) Patrick Hoefler确保持久化集合在没有 GC 的情况下被释放 (dask#11348) Florian Jetter
更新 dask 会议的 zoom 链接 (dask#11357) Sarah Charlotte Johnson
为
normalize_chunks
添加更多 docstring 示例 (dask#11271) Illviljan在 tasks-based 和 p2p rechunking 之间自动选择 (dask#11337) Hendrik Makait
实现数组的块重塑 API (dask#11328) Patrick Hoefler
使 shuffle 中的 rechunking 更智能,必要时进行不均匀分布 (dask#11326) Patrick Hoefler
提高 GPU CI 更新的可见性 (dask#11345) Charles Blackmon-Luca
更新安装文档中的
numpy
和pyarrow
版本 (dask#11340) James Bourbeau修复 dask 和 distributed 依赖项 (dask#11338) Patrick Hoefler
将
numpy>=1.24
和pyarrow>=14.0.1
最低版本提高 (dask#11331) James Bourbeau将
crick
重新添加回 Python 3.11+ CI 构建 (dask#11335) James Bourbeau在
vindex
中保留分块大小 (dask#11330) Patrick Hoefler修复
dask.array.fft
与 Numpy 接口不匹配的问题(添加对 norm 参数的支持) (dask#10665) joanrue向
rechunk_p2p
传递附加参数 (dask#11319) Hendrik Makait修复
map_overlap
的 docstring 格式 (dask#11332) Tao Xin修复 NumPy 在 2.0 版本上
prod
溢出问题 (dask#11327) Patrick Hoefler确保
axes
为正数 / 添加负数 axes 的测试 (dask#10812) joanrue修复带有
new_axis
的map_overlap
(dask#11128) David Stansby避免捕获
xdist
的代码 (distributed#8846) Florian Jetter减少剔除 P2P rechunking 的内存占用 (distributed#8845) Hendrik Makait
添加选择默认 rechunking 方法的测试 (distributed#8843) Hendrik Makait
提高 GPU CI 更新的可见性 (distributed#8841) Charles Blackmon-Luca
增加
test_pause_while_idle
超时 (distributed#8844) Florian Jetter在 P2P rechunking 之前连接小的输入分块 (distributed#8832) Hendrik Makait
移除
gen_cluster
中的 dump cluster (distributed#8823) Florian Jetter将
numpy>=1.24
和pyarrow>=14.0.1
最低版本提高 (distributed#8837) James Bourbeau修复
Worker
上的PipInstall
插件 (distributed#8839) Hendrik Makait移除更多 Python 3.10 兼容性代码 (distributed#8824) James Bourbeau
使用基于任务的 rechunking 沿着部分边界进行预分块 (distributed#8831) Hendrik Makait
确保
client_desires_keys
不会破坏Scheduler
状态 (distributed#8827) Florian Jetter将最低
cloudpickle
版本提高到 3 (distributed#8836) James Bourbeau
2024.8.1¶
亮点¶
改进重塑 Dask Arrays 的输出分块大小¶
重塑 Dask Array 通常会将要重塑的维度压缩到一个分块中。这导致输出分块非常大,并随后引起许多内存不足错误和性能问题。
arr = da.ones(shape=(1000, 100, 48_000), chunks=(1000, 100, 83))
arr.reshape(1000, 100, 4, 12_000)
以前,这会将最后一个维度放入一个大小为 12_000 的单一分块中。

新算法将确保输入和输出之间的分块大小保持一致。这将避免分块大小的显著增加和分块的碎片化。

提高 Xarray Rechunk-GroupBy-Reduce 模式的调度效率¶
调度器以前为使用 cohorts 策略的 Xarray GroupBy-Reduction 模式创建了低效的执行图
import xarray as xr
arr = xr.open_zarr(...)
arr.chunk(time=TimeResampler("ME")).groupby("time.month").mean()
创建任务图执行顺序的算法中的一个问题导致了低效的执行策略,该策略在集群上累积了许多不必要的内存。这一改进与 2024.08.0 中先前的排序改进 非常相似。
停止支持 Python 3.9¶
此版本根据 NEP 29 停止支持 Python 3.9。Python 3.10 现在是运行 Dask 所需的最低版本。
更多详情请参阅来自 Patrick Hoefler 的 dask#11245 和 distributed#8793。
其他变更
确保
pickle
不会改变 tokens (dask#11320) Florian Jetter添加
reshape
和排序改进的变更日志条目 (dask#11324) Patrick Hoefler重命名
chunksize-tolerance
选项 (dask#11317) Patrick Hoefler升级 gpuCI 并修复使用“cupy”后端的 Dask Array 故障 (dask#11309) Richard (Rick) Zamora
实现
shuffle
的自动 rechunking (dask#11311) Patrick Hoefler确保我们在 CI 中针对
numpy
2 进行测试 (dask#11182) James Bourbeau恢复“在分布式调度器上测试排序 (dask#11310)” (dask#11321) Florian Jetter
在分布式调度器上测试排序 (dask#11310) Florian Jetter
添加更多涵盖新
reshape
实现案例的测试 (dask#11313) Patrick HoeflerOrder: 为具有多个叶子节点的 branches 选择更好的 target (dask#11303) Patrick Hoefler
Order: 确保可运行任务肯定是可运行的 (dask#11305) Florian Jetter
修复上游
numpy
构建 (dask#11304) Patrick Hoefler如果可能,将
shuffle
设置为无操作 (dask#11291) Patrick Hoefler在
reshape
中保持chunksize
一致 (dask#11273) Patrick Hoefler只允许一个未知分块进行切片 (dask#11301) Patrick Hoefler
在 Dask 文档中链接到
dask
vsspark
基准测试 (dask#11289) Sarah Charlotte Johnson修复 masked 数组的切片问题 (dask#11300) Patrick Hoefler
Array: 修复带有
dtype
的数组输入的asarray
问题 (dask#11288) Lucas Colley向 array api 添加
numpy
常量 (dask#11287) Lucas Colley忽略返回值的类型标注 (dask#11286) Patrick Hoefler
移除 reshape 中的自动调整大小功能 (dask#11269) Patrick Hoefler
API: 在
dask.array
命名空间中暴露np
dtypes (dask#11178) Lucas Colley减少非托管内存使用警告的频率 (distributed#8834) Patrick Hoefler
更新 gpuCI
RAPIDS_VER
到24.10
(distributed#8786)避免在
Server._shift_counters()
中出现RuntimeError: dictionary changed size during iteration
错误 (distributed#8828) Hendrik Makait改进 scheduler 的并发关闭 (distributed#8829) Hendrik Makait
次要更新:将截断逻辑从 P2P rechunking 中的部分连接中提取出来 (distributed#8826) Hendrik Makait
避免
remove_from_task_prefix_count
过度属性访问开销 (distributed#8821) Florian Jetter如果禁用验证,则避免键验证 (distributed#8822) Florian Jetter
记录
worker_client
事件 (distributed#8819) James Bourbeau
2024.8.0¶
亮点¶
提高使用位置索引器进行切片的效率和性能¶
提高了使用位置索引器对 Dask Array 进行切片的性能。随机访问模式现在更稳定,并且产生更易于使用的结果。
x[slice(None), [1, 1, 3, 6, 3, 4, 5]]
以前使用位置索引器很容易大幅增加输出分块的数量并生成非常大的任务图。这个问题已通过更高效的算法得到修复。
新算法将保持被索引轴上的分块大小相同,以避免分块碎片化或分块大小的大幅增加。
更多详情和性能基准测试请参阅来自 Patrick Hoefler 的 dask#11262 和 dask#11267。
提高 Xarray GroupBy-Reduce 模式的调度效率¶
调度器以前为 Xarray GroupBy-Reduction 模式(例如)创建了低效的执行图
import xarray as xr
arr = xr.open_zarr(...)
arr.groupby("time.month").mean()
创建任务图执行顺序的算法中的一个问题导致了低效的执行策略,该策略在集群上累积了许多不必要的内存。

操作本身易于并行化。使用适当的执行策略,调度器现在可以以恒定内存执行操作,避免溢出并允许我们扩展到更大的数据集。

更多详情和示例请参阅来自 Patrick Hoefler 的 distributed#8818。
其他变更
为 dask order patch 添加变更日志 (dask#11278) Patrick Hoefler
为
xarray
map reduce 添加回归测试 (dask#11277) Florian Jetter添加
take
的变更日志条目 (dask#11274) Patrick Hoefler恢复“order: remove data task graph normalization” (dask#11276) Patrick Hoefler
使用 shuffle 算法实现
take
(dask#11267) Patrick Hoefler实现基于任务的数组 shuffle (dask#11262) Patrick Hoefler
移除数据任务图规范化 (dask#11263) Florian Jetter
更新月度会议的 zoom 链接 (dask#11265) Sarah Charlotte Johnson
更新最佳实践中的数据加载部分 (dask#11247) Patrick Hoefler
将 docstring 中的默认
chunksize
与代码中实际设置的默认值匹配 (dask#11254) Bernhard Raml修复
pandas
3 中的强制转换错误 (dask#11250) Patrick Hoefler跳过来自
pandas
的新警告 (dask#11249) Patrick Hoefler修复
pandas
nightly 错误 (dask#11244) Patrick Hoefler在 dask order 之后运行图规范化 (distributed#8818) Patrick Hoefler
更新大型图大小警告以删除 scatter 建议 (distributed#8815) Patrick Hoefler
失败超出
no-workers-timeout
的任务 (distributed#8806) Hendrik Makait修复
NannyPlugin.setup
和NannyPlugin.teardown
的异常处理 (distributed#8811) Hendrik Makait修复
WorkerPlugin.setup
和WorkerPlugin.teardown
的异常处理 (distributed#8810) Hendrik Makait修复拼写错误 (distributed#8812) alex-rakowski
修复
send_recv_from_rpc
的if
/else
逻辑 (distributed#8809) Patrick Hoefler确保自适应只停止一次 (distributed#8807) Hendrik Makait
减少 GC 相关日志的噪音 (distributed#8804) Hendrik Makait
移除
Scheduler
中未使用的delete_interval
和synchronize_worker_interval
(distributed#8801) Hendrik Makait更改 Compute Failed 日志消息的日志级别 (distributed#8802) Patrick Hoefler
为 GC 耗时添加 Prometheus 指标 (distributed#8803) Hendrik Makait
为
dask_worker_{added|removed}_total
添加 Prometheus 指标 (distributed#8798) Hendrik Makait为
worker-ttl-timed-out
添加日志事件 (distributed#8800) Hendrik Makait为
dask_client_connections_{added|removed}_total
添加 Prometheus 指标 (distributed#8799) Hendrik Makait修复
PackageInstall
插件 (distributed#8794) Hendrik Makait使 stealing 更健壮 (distributed#8788) Hendrik Makait
留下关于未来实例化的警告 (distributed#8782) Florian Jetter
2024.7.1¶
亮点¶
更具弹性的分布式锁¶
distributed.Lock
现在可以抵御 worker 故障。以前,在持有锁的 worker 丢失或/因错误未能释放锁的情况下,可能发生死锁。
更多详情请参阅来自 Florian Jetter 的 distributed#8770。
其他变更
移除 persist 用法并发出警告 (dask#11237) Patrick Hoefler
在
meta
创建期间保留timestamp
单位 (dask#11233) Patrick Hoefler确保当
dask-expr
DataFrames
放入delayed
时会进行优化 (dask#11231) Patrick Hoefler修复
pandas=3
中d
freq 弃用问题 (dask#11228) James Bourbeau提高
test_quantile
的近似阈值 (dask#10720) Florian Jetter将
xarray-contrib/issue-from-pytest-log
从 1.2.8 升级到 1.3.0 (dask#11221)将
JamesIves/github-pages-deploy-action
从 4.6.1 升级到 4.6.3 (dask#11222)确保
Lock
始终向调度器注册 (distributed#8781) Florian Jetter暂时限定
setuptools < 71
(distributed#8785) James Bourbeau恢复
TaskPrefix
上的len()
(distributed#8783) Hendrik Makait避免
p2p-failed
日志事件的误报 (distributed#8777) Hendrik Makait在 prometheus 中单独暴露暂停和已退役的工作节点 (distributed#8613) Patrick Hoefler
创建 transitions-failures 日志事件 (distributed#8776) alex-rakowski
为 P2P rechunking 实现 HLG 层 (distributed#8751) Hendrik Makait
添加另一个测试来针对由 (distributed#8703) 引起的潜在死锁场景 (distributed#8769) Hendrik Makait
如果在具有已释放 futures 的持久化集合上进行计算,则引发错误 (distributed#8764) Florian Jetter
从失败的 P2P 任务中重新引发
P2PConsistencyError
(distributed#8748) Hendrik Makait更健壮更快的测试内存采样器 (distributed#8758) Florian Jetter
修复
scheduler_bokeh::test_shuffling
(distributed#8766) Florian Jetter增加
pubsub::test_client_worker
的超时时间 (distributed#8765) Florian Jetter提取异步任务组 (distributed#8756) Florian Jetter
不要在工作节点表中按字典顺序对键进行排序 (distributed#8753) Florian Jetter
对于极其频繁调用的函数,使用
functools.cache
代替functools.lru_cache
(distributed#8762) Jonas Dedden更健壮的深度嵌套结构 (distributed#8730) Florian Jetter
将 HLG 添加到 MAP (distributed#8740) alex-rakowski
在工作节点信息页面添加关闭工作节点按钮 (distributed#8742) James Bourbeau
2024.7.0¶
主要亮点¶
停止支持 pandas 1.x¶
此版本停止支持 pandas<2
。现在运行 Dask DataFrame 需要 pandas
2.0 或更高版本。
partd
的最低版本也提高到了 1.4.0。1.4 之前的版本与 pandas
2 不兼容。
更多详细信息请参阅由 Patrick Hoefler 提交的 dask#11199。
发布-订阅 API 已弃用¶
distributed.Pub
和 distributed.Sub
已被弃用,并将在未来版本中移除。请改用 distributed.Client.log_event()
和 distributed.Worker.log_event()
。
更多详细信息请参阅由 Hendrik Makait 提交的 distributed#8724。
其他变更
对于
xarray
的sizeof
,仅计算内存中的数据大小 (dask#11206) Florian Jetter修复
botocore
重新引发错误问题 (dask#11209) Patrick Hoefler更新文档中的 Coiled 链接 (dask#11211) Sarah Charlotte Johnson
添加一些 array-expr 方法 (dask#11210) Patrick Hoefler
修复 arrow dtypes 的
quantile
问题 (dask#11202) Patrick Hoefler添加用于验证可选依赖项的工具 (dask#11205) Patrick Hoefler
实现 array expression 开关 (dask#11203) Patrick Hoefler
移除不再支持的
ipython
引用 (dask#11196) Patrick Hoefler移除
from_delayed
引用 (dask#11195) Patrick Hoefler在文档中添加其他 IO 连接器 (dask#11189) Patrick Hoefler
修复从
cudf
导入assert_eq
问题 (distributed#8747) James Bourbeau在任务出错时记录 traceback (distributed#8746) Hendrik Makait
在轮询 Prometheus 指标时更新系统监视器 (distributed#8745) Hendrik Makait
在
mindeps
构建中将pandas
升级到 2.0 (distributed#8743) James Bourbeau将事件日志记录功能重构到 broker 中 (distributed#8731) Hendrik Makait
停止支持 pandas 1.X (distributed#8741) Hendrik Makait
移除
is_python_shutting_down
(distributed#8492) Hendrik Makait修复
test_task_state_instance_are_garbage_collected
(distributed#8735) Hendrik Makait修复浮点精度问题 (distributed#8736) Hendrik Makait
修复
pynvml
句柄问题 (distributed#8693) Benjamin Zaitlenget_ip
: 处理获取0.0.0.0
的情况 (distributed#8712) Adam Williamson移除
test_task_state_instance_are_garbage_collected
中的FutureWarning
(distributed#8734) Hendrik Makait修复 CI 上的
mindeps
-testing 问题 (distributed#8728) Hendrik Makait将与事件日志记录相关的测试提取到单独文件中 (distributed#8733) Hendrik Makait
为
ProcessPoolExecutor
使用更安全的上下文 (distributed#8715) Elliott Sales de Andrade在仪表板中缓存工作节点地址的 URL 编码 (distributed#8725) Florian Jetter
更健壮的
bokeh
test_shuffling
(distributed#8727) Florian Jetter修复 actor 文档中的类型错误 (distributed#8711) Sultan Orazbayev
如果提供的是插件类型而非实例,则给出更有用的警告 (distributed#8689) Florian Jetter
改进因断开连接而取消的任务的错误消息 (distributed#8705) Hendrik Makait
修复
test_forget_errors
的等待条件 (distributed#8714) Elliott Sales de Andrade跳过
test_deadlock_dependency_of_queued_released
(distributed#8723) Hendrik Makait修复
test_quiet_client_close
(distributed#8722) Hendrik Makait修复
save_sys_modules
中的清理迭代问题 (distributed#8713) Elliott Sales de Andrade为缺失的
bokeh
安装命令添加引号 (distributed#8717) James Bourbeau
2024.6.2¶
这是一个补丁版本,用于更新 2024.6.1 版本中 dask
和 distributed
版本限定的问题。
其他变更
使文档构建通过 (dask#11184) James Bourbeau
profile._f_lineno
: 处理 Python 3.13 中next_line
为None
的情况 (dask#8710) Adam Williamson
2024.6.1¶
主要亮点¶
此版本包含一个关键修复,解决了当 root-ish 任务的依赖项被重新调度时可能出现的死锁问题,例如由于工作节点丢失。
更多详细信息请参阅由 Hendrik Makait 提交的 distributed#8703。
其他变更
缓存全局查询规划配置 (dask#11183) Richard (Rick) Zamora
Python 3.13 修复 (dask#11185) Adam Williamson
修复
pandas=3
的test_map_freq_to_period_start
问题 (dask#11181) James Bourbeau将 release-drafter/release-drafter 从 5 升级到 6 (distributed#8699)
2024.6.0¶
主要亮点¶
memmap 数组 tokenization¶
现在对 memmap
数组进行 tokenization 将避免将数组实例化到内存中。
更多详细信息请参阅由 Florian Jetter 提交的 dask#11161。
其他变更
修复禁用查询规划时的
test_dt_accessor
问题 (dask#11177) James Bourbeau使用
packaging.version.Version
(dask#11171) James Bourbeau移除已弃用的
dask.compatibility
模块 (dask#11172) James Bourbeau确保与
xarray.NamedArray
的兼容性 (dask#11168) Hendrik Makait估算
xarray
集合的大小 (dask#11166) Florian Jetter添加关于 futures 和 variables 的章节 (dask#11164) Florian Jetter
更新合并后的 Dask 社区会议信息的文档 (dask#11159) Sarah Charlotte Johnson
避免
test_prometheus_collect_count_total_by_cost_multipliers
中的四舍五入错误 (distributed#8687) Hendrik Makait在
update_graph
日志事件中记录键冲突计数 (distributed#8692) Hendrik Makait当推送新标签时自动化 GitHub Releases (distributed#8626) Jacob Tomlinson
修复具有多个主题的日志事件问题 (distributed#8691) Hendrik Makait
在
Scheduler.remove_worker
中将safe
重命名为expected
(distributed#8686) Hendrik Makait失败期间记录事件 (distributed#8663) Hendrik Makait
积极更新
TaskPrefix
的聚合统计信息,而不是按需计算 (distributed#8681) Hendrik Makait通过避免将解包递归到索引中来提高 P2P rechunking 的图提交时间 (distributed#8672) Florian Jetter
为
remove-worker
事件添加 safe 关键字 (distributed#8647) alex-rakowski改进了 P2P RPC 调用的错误消息并减少了日志记录 (distributed#8666) Hendrik Makait
调整
dask-expr
的 P2P 测试 (distributed#8662) Hendrik Makait迭代
Server.digests_total_since_heartbeat
的副本,以避免RuntimeError
(distributed#8670) Hendrik Makait在 Compute Failed 中记录任务状态 (distributed#8668) Hendrik Makait
为任务组添加 Prometheus gauge (distributed#8661) Hendrik Makait
修复
pandas
子类的 shuffle 代码中过于严格的断言问题 (distributed#8667) Joris Van den Bossche减少不应运行的出错任务的干扰 (distributed#8664) Hendrik Makait
2024.5.2¶
此版本主要包含一些小的错误修复。
其他变更
修复 CI 中 nightly Zarr 的安装问题 (dask#11151) James Bourbeau
为 GPU CI 添加 python 3.11 构建 (dask#11135) Charles Blackmon-Luca
将 gpuCI 的
RAPIDS_VER
更新到24.08
(dask#11141)更新
test_groupby_grouper_dispatch
(dask#11144) Richard (Rick) Zamora将
JamesIves/github-pages-deploy-action
从 4.6.0 升级到 4.6.1 (dask#11136)在新的
sparse
版本中取消跳过test_array_function_sparse
(dask#11139) James Bourbeau修复
pandas=3
上的test_parse_dates_multi_column
问题 (dask#11132) James Bourbeau不为带标签的提交起草发布说明 (dask#11138) Jacob Tomlinson
减少部分 P2P rechunks 的任务组数量 (distributed#8655) Hendrik Makait
将 gpuCI 的
RAPIDS_VER
更新到24.08
(distributed#8652)将集合元数据提交给调度器 (distributed#8612) Florian Jetter
修复
task-launch.rst
代码示例中的缩进问题 (distributed#8650) Ray Bell避免多个
WorkerState
sphinx 错误 (distributed#8643) James Bourbeau
2024.5.1¶
主要亮点¶
支持 NumPy 2.0¶
此版本包含针对即将发布的 NumPy 2.0 版本的兼容性更新。
更多详细信息请参阅由 Benjamin Zaitlen 提交的 dask#11096 和由 James Bourbeau 提交的 dask#11106。
增加对 Zarr 存储的支持¶
此版本增加了对由 MutableMapping
支持的 Zarr 存储(例如 zarr.storage.DirectoryStore
等)的支持。
更多详细信息请参阅由 Greg M. Fleishman 提交的 dask#10422。
其他变更
对 ML 页面进行小的更新 (dask#11129) James Bourbeau
跳过 0.15.2 上失败的
sparse
测试 (dask#11131) James Bourbeau确保在 upstream CI 构建中安装 nightly
pyarrow
(dask#11121) James Bourbeau添加 ML 概述文档的初步草稿 (dask#11114) Matthew Rocklin
在 gpuCI 中测试 query-planning (dask#11060) Richard (Rick) Zamora
避免跳过 NumPy 2.0 测试时出现
pytest
错误 (dask#11110) James Bourbeau在 upstream CI 构建中使用 nightly
h5py
(dask#11108) James Bourbeau在 upstream CI 构建中使用 nightly
scikit-image
(dask#11107) James Bourbeau将
actions/checkout
从 4.1.4 升级到 4.1.5 (dask#11105)修复后启用 parquet append 测试 (dask#11104) Patrick Hoefler
跳过针对
numpy
2 的fastparquet
测试 (dask#11103) Patrick Hoefler修复 codespell 发现的拼写错误 (dask#11097) Dimitri Papadopoulos Orfanos
修复文档构建问题 (dask#11099) Patrick Hoefler
清理
percentiles_summary
逻辑 (dask#11094) Richard (Rick) Zamora应用
ruff/flake8-implicit-str-concat
规则 ISC001 (dask#11098) Dimitri Papadopoulos Orfanos修复 Python 3.13 在 Windows 上的时钟问题 (distributed#8642) Victor Stinner
修复 Mac OS (arm64) 上“Print host info” CI 步骤问题 (distributed#8638) Hendrik Makait
2024.5.0¶
主要亮点¶
此版本主要包含一些小的错误修复。
其他变更
不链接到
click
intersphinx dev 版本 (dask#11091) M Bussonnier修复某些
dask-expr
表达式的 API 文档链接 (dask#11092) Patrick Hoefler将
dask-expr
添加到 upstream build 中 (dask#11086) Patrick Hoefler启用
query-planning
时添加melt
支持 (dask#11088) Richard (Rick) Zamora在
numpy
2 环境中跳过 dataframe/product (dask#11089) Benjamin Zaitlen添加图示以说明优化器的工作方式 (dask#11072) Patrick Hoefler
修复
pandas
upstream 测试 (dask#11085) Patrick Hoefler将
conda-incubator/setup-miniconda
从 3.0.3 升级到 3.0.4 (dask#11084)将
actions/checkout
从 4.1.3 升级到 4.1.4 (dask#11083)修复
pytest
更改后的 CI 问题 (dask#11082) Patrick Hoefler修复
dask-expr
更高效实现的测试 (dask#11071) Patrick Hoefler泛化
clear_known_categories
工具 (dask#11059) Richard (Rick) Zamora将
JamesIves/github-pages-deploy-action
从 4.5.0 升级到 4.6.0 (dask#11062)将
release-drafter/release-drafter
从 5 升级到 6 (dask#11063)将
actions/checkout
从 4.1.2 升级到 4.1.3 (dask#11061)将 GPU CI 的
RAPIDS_VER
更新到 24.06,并禁用 query planning (dask#11045) Charles Blackmon-Luca移动测试 (distributed#8631) Hendrik Makait
将
actions/checkout
从 4.1.2 升级到 4.1.3 (distributed#8628)
2024.4.2¶
主要亮点¶
Trivial Merge 实现¶
查询优化器将检查查询,以确定 merge(...)
或 groupby(...).apply(...)
是否需要 shuffle。如果在之前的步骤中 DataFrame 已经在相同的列上进行了 shuffle,并且期间没有改变分区布局或每个分区相关值的操作,则可以避免 shuffle。
>>> result = df.merge(df2, on="a")
>>> result = result.merge(df3, on="a")
查询优化器将识别出 result
之前也在 "a"
上进行了 shuffle,因此在进行块合并之前,只会在第二次 merge 操作中对 df3
进行 shuffle。
read_parquet
中的自动分区¶
如果单个分区太小,查询优化器将自动重新对从 Parquet 文件读取的数据集进行分区。这将减少分区数量,从而也减少任务图的大小。
优化器旨在生成至少 75MB 的分区,并在必要时将多个文件组合在一起以达到此阈值。可以使用以下配置此值:
>>> dask.config.set({"dataframe.parquet.minimum-partition-size": 100_000_000})
该值以字节为单位。默认阈值相对保守,以避免在每线程内存相对较少的工作节点上出现内存问题。
其他变更
添加 GitHub Releases 自动化 (dask#11057) Jacob Tomlinson
为新版本添加 changelog 条目 (dask#11058) Patrick Hoefler
在
_bind_property
中恢复 try/except 块 (dask#11049) Lawrence Mitchell修复查询规划文档链接 (dask#11054) Patrick Hoefler
添加 parquet 文件大小的配置参数 (dask#11052) Patrick Hoefler
更新
percentile
docstring (dask#11053) Abel Aoun添加 query optimizer 的文档 (dask#11043) Patrick Hoefler
将 np.ma.masked 分配给 object-type 数组 (dask#9627) David Hassell
如果未安装
dask_expr
则不引发错误 (dask#11048) Simon Høxbro Hansen调整 “cudf” 后端的
test_set_index
测试 (dask#11029) Richard (Rick) Zamora使用
to/from_legacy_dataframe
代替to/from_dask_dataframe
(dask#11025) Richard (Rick) Zamora对 bag 的
groupby
键进行 Tokenization (dask#10734) Charles Stern为 p2p 相关的 dispatch 函数添加延迟的 “cudf” 注册 (dask#11040) Richard (Rick) Zamora
在异常时收集
memray
profile (distributed#8625) Florian Jetter确保
inproc
正确模拟序列化协议 (distributed#8622) Florian Jetter放宽 test stats profiling2 的要求 (distributed#8621) Florian Jetter
当
worker-ttl
过期时重启工作节点 (distributed#8538) crusaderky在 deadline 测试中使用
monotonic
(distributed#8620) Florian Jetter修复带有 annotations 的已发布 futures 的竞态条件 (distributed#8577) Florian Jetter
按工作节点 scatter,而不是
worker
->nthreads
(distributed#8590) Miles如果工作节点因内存压力而重启,则发送日志事件 (distributed#8617) Patrick Hoefler
不在 CI 中打印 xfailed 测试 (distributed#8619) Florian Jetter
确保参与 p2p 的工作节点不会被缩容 (distributed#8610) Florian Jetter
使用稳定的
fsspec
运行 (distributed#8615) Florian Jetter
2024.4.1¶
这是一个小的错误修复版本,修复了在 Python 3.11.9 中导入 dask.dataframe
时出现的错误。
详细信息请参阅由 Richard (Rick) Zamora 提交的 dask#11035 和 dask#11039。
其他变更
移除命名聚合的 skips (dask#11036) Patrick Hoefler
在 unpickle 时不对只读缓冲区进行深拷贝 (distributed#8609) crusaderky
将
dask-expr
添加到dask
conda recipe 中 (distributed#8601) Charles Blackmon-Luca
2024.4.0¶
主要亮点¶
Query planning 修复¶
此版本包含 Dask DataFrame 新的 query planner 中的各种错误修复。
GPU 指标仪表板修复¶
GPU 内存和利用率仪表板功能已恢复。此前,这些图表意外留空。
详细信息请参阅由 Benjamin Zaitlen 提交的 distributed#8572。
其他变更
在 tag releases 上构建 nightlies (dask#11014) Charles Blackmon-Luca
从测试套件中移除
xfail
tracebacks (dask#11028) Patrick Hoefler修复 upstream
pandas
更改后的 CI 问题 (dask#11027) Patrick Hoefler修复仅包含 nan 的分支存在时
value_counts
抛出异常的问题 (dask#11023) Patrick Hoefler在
dask_cudf
中启用自定义表达式 (dask#11013) Richard (Rick) Zamora当无法导入
dask-expr
时,抛出ImportError
而不是ValueError
(dask#11007) James Lamb将 HypersSpy 添加到
ecosystem.rst
中 (dask#11008) Jonas Lähnemann将 Hugging Face 的
hf://
添加到与fsspec
兼容的远程服务列表中 (dask#11012) Quentin Lhoest将
actions/checkout
从 4.1.1 升级到 4.1.2 (dask#11009)刷新 annotations 和 spans 的文档 (distributed#8593) crusaderky
修复来自
pandas
的弃用警告 (distributed#8564) Patrick Hoefler将 Python 3.11 添加到 GPU CI 矩阵中 (distributed#8598) Charles Blackmon-Luca
Deadline 使用 monotonic timer (distributed#8597) crusaderky
将 gpuCI 的
RAPIDS_VER
更新到24.06
(distributed#8588)重构
restart()
和restart_workers()
(distributed#8550) crusaderky将
actions/checkout
从 4.1.1 升级到 4.1.2 (distributed#8587)修复
bokeh
弃用问题 (distributed#8594) Miles修复 flaky 测试:
test_shutsdown_cleanly
(distributed#8582) Miles在失败的
sizeof
警告中包含类型 (distributed#8580) James Bourbeau
2024.3.1¶
这是一个次要版本,主要是在升级时,如果未安装 dask-expr
,则将异常降级为警告。
其他变更
仅在未安装
dask-expr
时发出警告 (dask#11003) Florian Jetter修复 codespell 发现的拼写错误 (dask#10993) Dimitri Papadopoulos Orfanos
额外增加一个禁用
dask-expr
的 CI job (distributed#8583) crusaderky修复工作节点仪表板代理 (distributed#8528) Miles
修复 flaky 的
test_restart_waits_for_new_workers
测试 (distributed#8573) crusaderky修复 flaky 的
test_raise_on_incompatible_partitions
测试 (distributed#8571) crusaderky
2024.3.0¶
发布于 2024 年 3 月 11 日
主要亮点¶
Query planning¶
此版本为 dask.dataframe
的所有用户默认启用 query planning。
query planning 功能代表了使用 dask-expr
对 DataFrame
的重写。这是一个即插即用的替代方案,我们预计大多数用户无需调整任何代码。任何反馈都可以在 Dask 的 issue tracker 或 query planning feedback issue 上报告。
如果您遇到任何问题,仍然可以通过设置以下选项退出:
>>> import dask
>>> dask.config.set({'dataframe.query-planning': False})
停止支持 Pandas 1.X¶
新的 query planning 后端要求至少 pandas 2.0
。如果您使用 conda 安装,或者使用 pip 通过 dask[complete] 或 dask[dataframe] 安装,将自动安装此版本的 pandas。
如果您安装不带 extras 的 dask
,遗留的 DataFrame 实现仍然支持 pandas 1.X
。
其他变更
更新使用 dask-expr 对 pandas nightlies 的测试 (dask#10989) Patrick Hoefler
使用 dask-expr 文档作为 DataFrame 的主要参考文档 (dask#10990) Patrick Hoefler
调整 dask-expr 的 from_array 测试 (dask#10988) Patrick Hoefler
取消跳过
to_delayed
测试 (dask#10985) Patrick Hoefler将 conda-incubator/setup-miniconda 从 3.0.1 升级到 3.0.3 (dask#10978)
修复启用 dask-expr 时的 bug (dask#10977) Patrick Hoefler
更新 dask-expr 的文档和要求并移除警告 (dask#10976) Patrick Hoefler
修复 numpy 2 与 ogrid 使用的兼容性问题 (dask#10929) David Hoese
开启 dask-expr 开关 (dask#10967) Patrick Hoefler
强制使用相同的字节顺序解释来初始化随机种子... (dask#10970) Elliott Sales de Andrade
读取 CSV 时使用正确的行终止符编码 (dask#10972) Elliott Sales de Andrade
perf: 在 _optimize_blockwise 中不必要地重新计算输入/输出索引 (dask#10966) Lindsey Gray
调整 dask-expr 中 string 选项的测试 (dask#10968) Patrick Hoefler
调整 dask-expr 中 array 转换的测试 (dask#10973) Patrick Hoefler
TST: 修复 32 位上的 sizeof 测试 (dask#10971) Elliott Sales de Andrade
TST: 为 pyarrow 添加缺失的 skip (dask#10969) Elliott Sales de Andrade
为
bag.to_dataframe
实现 dask-expr 转换 (dask#10963) Patrick Hoefler修复 dask-expr 导入错误 (dask#10964) Miles
清理
dask.config
的 Sphinx 文档 (dask#10959) crusaderky在 Python 3.12+ 上使用 stdlib
importlib.metadata
(dask#10955) wim glenn将 partitioning_index 转换为更小的尺寸 (dask#10953) Florian Jetter
重用 dask/dask groupby Aggregation (dask#10952) Patrick Hoefler
确保 futures 上的 token 是唯一的 (distributed#8569) Florian Jetter
不混淆细粒度性能指标故障 (distributed#8568) crusaderky
在 dask-expr 中标记 shuffle 快速任务 (distributed#8563) crusaderky
按持续时间加权 gilknocker Prometheus 指标 (distributed#8558) crusaderky
修复 scheduler 在 memory->erred 转换时的错误 (distributed#8549) Hendrik Makait
再次让 CI 运行正常 (distributed#8560) Miles
修复 flaky 的 test_Future_release_sync 测试 (distributed#8562) crusaderky
修复 flaky 的 test_flaky_connect_recover_with_retry 测试 (distributed#8556) Hendrik Makait
scheduler.py 中的类型调整 (distributed#8551) crusaderky
将 conda-incubator/setup-miniconda 从 3.0.2 升级到 3.0.3 (distributed#8553)
在 CI 上安装 dask-expr (distributed#8552) Hendrik Makait
P2P shuffle 在写入磁盘前可以丢弃分区列 (distributed#8531) Hendrik Makait
改进工作节点移除的日志记录 (distributed#8517) crusaderky
为 merge 添加 indicator 支持 (distributed#8539) Patrick Hoefler
将 conda-incubator/setup-miniconda 从 3.0.1 升级到 3.0.2 (distributed#8535)
避免获取模块路径时的迭代错误 (distributed#8533) James Bourbeau
在代码收集时忽略 stdlib threading 模块 (distributed#8532) James Bourbeau
修复 P2P 重试时过多的日志记录问题 (distributed#8511) Hendrik Makait
防止 retire_workers 参数中的拼写错误 (distributed#8524) crusaderky
test_steal 的外观清理 (从 #8185 回港) (distributed#8509) crusaderky
修复 flaky 的 test_compute_per_key 测试 (distributed#8521) crusaderky
修复 flaky 的 test_no_workers_timeout_queued 测试 (distributed#8523) crusaderky
2024.2.1¶
发布于 2024 年 2 月 23 日
主要亮点¶
允许静默 dask.DataFrame 弃用警告¶
上一个版本包含一个 DeprecationWarning
,用于提醒用户 dask.dataframe
即将切换到支持 query planning 的新后端(另请参阅 dask#10934)。
此 DeprecationWarning
在导入 dask.dataframe
模块时触发,社区对此过于详细的问题表示担忧。
现在可以通过以下方式静默此警告:
# via Python
>>> dask.config.set({'dataframe.query-planning-warning': False})
# via CLI
dask config set dataframe.query-planning-warning False
详细信息请参阅由 Miles 提交的 dask#10936 和 dask#10925。
更健壮的分布式调度器,用于处理罕见的键冲突¶
Blockwise fusion 优化可能导致任务键冲突,分布式调度器未能正确处理此问题(参见 dask#9888)。用户通常会看到各种内部异常,导致系统死锁或严重故障。虽然此问题未能完全修复,但调度器现在实现了一种机制,可以缓解大多数情况,并在检测到问题时发出警告。
详细信息请参阅由 crusaderky 和 Florian Jetter 提交的 distributed#8185。
在此过程中,对 tokenization
进行了各种改进。更多详细信息请参阅由 crusaderky 提交的 dask#10913、dask#10884、dask#10919、dask#10896 以及主要是 dask#10883。
在大型集群上更健壮的自适应扩缩容¶
以前,在缩容时如果需要移动大量任务,自适应扩缩容可能会丢失数据。这种情况通常(但不限于)发生在大型集群上,表现为任务的重新计算,可能导致集群在扩容和缩容之间震荡,而无法完成。
更多详细信息请参阅由 crusaderky 提交的 distributed#8522。
其他变更
移除 flaky 的 fastparquet 测试 (dask#10948) Patrick Hoefler
在 dask-expr 中启用 Aggregation (dask#10947) Patrick Hoefler
更新 dask-expr 中 assign 更改的测试 (dask#10944) Patrick Hoefler
根据 pandas large string 更改进行调整 (dask#10942) Patrick Hoefler
修复 flaky 的 test_describe_empty 测试 (dask#10943) crusaderky
使用 Python 3.12 作为参考环境 (dask#10939) crusaderky
[外观] 清理 test_config.py 中的临时路径 (dask#10938) crusaderky
[命令行]
dask config set
和dask config find
更新。(dask#10930) Miles当分块充满 NaNs 时 combine_first 的行为。(dask#10932) crusaderky
正确解析来自命令行的小写 true/false 配置。(dask#10926) crusaderky
修复打印 None 值时的
dask config get
命令。(dask#10927) crusaderkyquery-planning 不能是 None。(dask#10928) crusaderky
添加
dask config set
命令。(dask#10921) Miles再次加速 nunique。(dask#10922) Patrick Hoefler
清理一些 Cython 警告处理。(dask#10924) crusaderky
将 pre-commit/action 从 3.0.0 升级到 3.0.1。(dask#10920)
当提供给 P2P shuffle 的元数据 (meta) 不正确时,引发错误并避免数据丢失。(distributed#8520) Florian Jetter
修复 gpuci: np.product 已被弃用。(distributed#8518) crusaderky
将 gpuCI
RAPIDS_VER
更新到24.04
。(distributed#8471)在 Python 3.12 上解除固定 ipywidgets。(distributed#8516) crusaderky
在 run_spec 冲突时保留旧依赖。(distributed#8512) crusaderky
微小的 mypy 修复。(distributed#8513) crusaderky
确保大型负载可以被序列化并通过通讯 (comms) 发送。(distributed#8507) Florian Jetter
允许配置大型图警告阈值。(distributed#8508) Florian Jetter
与 Tokenization 相关的测试调整 (从 #8185 回移)。(distributed#8499) crusaderky
对
update_graph
的调整 (从 #8185 回移)。(distributed#8498) crusaderkyAMM: 测试增量淘汰。(distributed#8501) crusaderky
在 CI 中抑制 dask-expr 警告。(distributed#8505) crusaderky
在 CI 中忽略 dask-expr 警告。(distributed#8504) James Bourbeau
改进 P2P 稳定排序的测试。(distributed#8458) Hendrik Makait
将 pre-commit/action 从 3.0.0 升级到 3.0.1。(distributed#8503)
2024.2.0¶
发布于 2024 年 2 月 9 日
亮点¶
弃用 Dask DataFrame 实现¶
当前的 Dask DataFrame 实现已被弃用。在未来的版本中,Dask DataFrame 将使用新的实现,新实现包含多项改进,包括逻辑查询规划。面向用户的 DataFrame API 将保持不变。
新的实现已可用,可以通过安装 dask-expr
库
$ pip install dask-expr
并开启查询规划选项启用
>>> import dask
>>> dask.config.set({'dataframe.query-planning': True})
>>> import dask.dataframe as dd
新实现的 API 文档可在以下地址找到:https://docs.dask.org.cn/en/stable/dataframe-api.html
任何反馈都可以在 Dask 问题追踪器上报告:https://github.com/dask/dask/issues
详情见 dask#10912 由 Patrick Hoefler 提交。
改进的 Tokenization¶
此版本包含对 Dask 对象 tokenization 逻辑的多项改进。现在更多对象可以生成确定性的 token,这可以通过缓存中间结果来提高性能。
详情见 dask#10898、dask#10904、dask#10876、dask#10874 和 dask#10865 由 crusaderky 提交。
其他变更
修复字符串转换时对只读数组进行原地修改的问题。(dask#10886) Patrick Hoefler
为
dask-expr
添加更新日志条目。(dask#10915) Patrick Hoefler修复
cudf
的leftsemi
合并。(dask#10914) Patrick Hoefler对
dask-expr
警告进行细微更新。(dask#10916) James Bourbeau提高
groupby.nunique
的性能。(dask#10910) Patrick Hoefler在
dask-expr
中为leftsemi
合并添加配置。(dask#10908) Patrick Hoefler调整
dask-expr
的 assign 测试。(dask#10907) Patrick Hoefler避免在 GPU CI 中
test_to_datetime
使用pytest.warns
。(dask#10902) Richard (Rick) Zamora更新文档首页的部署选项。(dask#10901) James Bourbeau
修复 dataframe 文档中的拼写错误。(dask#10900) Matthew Rocklin
将 peter-evans/create-pull-request 从 5 升级到 6。(dask#10894)
修复 mimesis API
>=13.1.0
- 使用random.randint
。(dask#10888) Miles调整无效测试。(dask#10897) Patrick Hoefler
序列化
da.argwhere
和da.count_nonzero
。(dask#10885) crusaderky修复 singleton pr 后
dask-expr
的测试。(dask#10892) Patrick Hoefler为
s3fs
设置最低版本限制。(dask#10889) Miles为新的 parquet 缓存添加一些
dask-expr
修复。(dask#10880) Florian Jetter更新部署文档。(dask#10882) Matthew Rocklin
开始构建
dask-expr
文档。(dask#10879) Patrick Hoefler测试静态方法和类方法的 tokenization。(dask#10872) crusaderky
将
distributed.print
和distributed.warn
添加到 API 文档。(dask#10878) James Bourbeau在 M1 架构上运行 macos ci。(dask#10877) Patrick Hoefler
更新
dask-expr
的测试。(dask#10838) Patrick Hoefler更新 parquet 测试以与
dask-expr
修复对齐。(dask#10851) Richard (Rick) Zamora修复
test_graph_manipulation
中的回归。(dask#10873) crusaderky调整 dask-expr ci 的
pytest
错误。(dask#10871) Patrick Hoefler当
pandas<2.1
时,为numba
设置最高版本限制。(dask#10890) Miles弃用
DataFrame.fillna
中的method
参数。(dask#10846) Miles从
pyproject.toml
中删除警告过滤器。(dask#10867) Patrick Hoefler跳过 fastparquet 的
test_append_with_partition
。(dask#10828) Patrick Hoefler修复
pytest
8 的问题。(dask#10868) Patrick Hoefler调整
dask-expr
中支持 Groupby.aggregate 使用 median 的测试 (2/2)。(dask#10870) Hendrik Makait允许
sort_values
中 ascending 的长度大于一。(dask#10864) Florian Jetter允许在 Python 3.9 中引发其他消息。(dask#10862) Hendrik Makait
在病态情况下获取计算代码时不要崩溃。(distributed#8502) James Bourbeau
将 peter-evans/create-pull-request 从 5 升级到 6。(distributed#8494)
修复
cudf
溢出指标的测试。(distributed#8478) Mads R. B. Kristensen升级到
pytest
8。(distributed#8482) crusaderky修复
test_two_consecutive_clients_share_results
。(distributed#8484) crusaderky客户端单词混淆。(distributed#8481) templiert
2024.1.1¶
发布于 2024 年 1 月 26 日
亮点¶
支持 Pandas 2.2 和 Scipy 1.12¶
此版本包含针对最新 pandas
和 scipy
版本的兼容性更新。
详情见 dask#10834、dask#10849、dask#10845 和 distributed#8474 由 crusaderky 提交。
弃用项¶
弃用
apply
中的convert_dtype
。(dask#10827) Miles弃用
DataFrame.rolling
中的axis
。(dask#10803) Miles在大多数 DataFrame 方法中弃用
out=
和dtype=
参数。(dask#10800) crusaderky弃用
groupby
累积转换器中的axis
。(dask#10796) Miles在剩余方法中将
shuffle
重命名为shuffle_method
。(dask#10797) Miles
其他变更
将推荐的部署选项添加到部署文档。(dask#10866) James Bourbeau
改进
_agg_finalize
以符合输出预期。(dask#10835) Hendrik Makait为 hlg 实现确定性 tokenization。(dask#10817) Patrick Hoefler
重构:将
tokenize()
的测试移至其自己的模块。(dask#10863) crusaderky更新 DataFrame 示例部分。(dask#10856) James Bourbeau
暂时将
mimesis
固定在<13.1.0
。(dask#10860) James Bourbeau对
_testing.py
进行微小的代码风格调整。(dask#10857) crusaderky解除跳过并调整使用
dask-expr
的groupby
-aggregate 测试,以包含median
。(dask#10832) Hendrik Makait修复上游 CI 中
sizeof(pd.MultiIndex)
的测试。(dask#10850) crusaderkynumpy
2.0: 修复通过uint64
数组切片的问题。(dask#10854) crusaderky重命名
numpy
版本常量以匹配pandas
。(dask#10843) crusaderky将 actions/cache 从 3 升级到 4。(dask#10852)
将 gpuCI
RAPIDS_VER
更新到24.04
。(dask#10841)修复 doctest 中的弃用。(dask#10844) crusaderky
numpy
2.x: 改变 dtype 算术。(dask#10831) crusaderky调整
dask-expr
中支持 median 的测试。(dask#10839) Patrick Hoefler调整
dask-expr
中支持 groupby-aggregate 使用 median 的测试。(dask#10840) Hendrik Makaitnumpy
2.x: 修复 MaskedArray 的std()
。(dask#10837) crusaderky如果测试失败,则使
dask-expr
ci 失败。(dask#10829) Patrick Hoefler导出测试时激活
query_planning
。(dask#10833) Patrick Hoefler暴露 dataframe 测试。(dask#10830) Patrick Hoefler
numpy
2: n 维 fft 函数中的弃用。(dask#10821) crusaderky通用化
dask-expr
的CreationDispatch
。(dask#10794) Richard (Rick) Zamora启用
dask-expr
时移除循环导入。(dask#10824) Miles微小 [CI]:
publish-test-results
未标记为失败。(dask#10825) Miles修复更多测试以使用
pytest.warns()
。(dask#10818) Michał Górnynp.unique()
: 在numpy
2 中,inverse 具有形状。(dask#10819) crusaderky将
test_split_adaptive_files
限制为pyarrow
引擎。(dask#10820) Patrick Hoefler调整
dask/dask
中剩余的测试。(dask#10813) Patrick Hoefler将测试仅限于 Arrow。(dask#10814) Patrick Hoefler
过滤
std
测试的警告。(dask#10815) Patrick Hoefler主要调整索引测试。(dask#10790) Patrick Hoefler
更新部署文档。(dask#10778) Sarah Charlotte Johnson
解除文档构建的阻塞。(dask#10807) Miles
调整
test_to_datetime
以兼容dask-expr
。(dask#10805) Hendrik Makait上游 CI 调整。(dask#10806) crusaderky
改进
to_numeric
的测试。(dask#10804) Hendrik Makait修复测试报告缓存键缩进。(dask#10798) Miles
添加测试报告工作流。(dask#10783) Miles
处理矩阵子类序列化。(distributed#8480) Florian Jetter
在 P2P 中为分区列使用最小数据类型。(distributed#8479) Florian Jetter
pandas
2.2: 修复test_dataframe_groupby_tasks
。(distributed#8475) crusaderky将 actions/cache 从 3 升级到 4。(distributed#8477)
pandas
2.2 对比pyarrow
14: 弃用的DatetimeTZBlock
。(distributed#8476) crusaderkypandas
2.2.0: 弃用频率别名M
,推荐使用ME
。(distributed#8473) Hendrik Makait修复文档构建。(distributed#8472) Hendrik Makait
修复带有显式
npartitions
的基于 P2P 的连接。(distributed#8470) Hendrik Makait在
test_report.py
脚本中忽略dask-expr
。(distributed#8464) Miles微调:在测试报告环境中硬编码 Python 版本。(distributed#8462) crusaderky
更改
test_report.py
- 在dask/dask
仓库中跳过不良 artifact。(distributed#8461) Miles替换所有
sys.is_finalizing
的出现。(distributed#8449) Florian Jetter
2024.1.0¶
发布于 2024 年 1 月 12 日
亮点¶
P2P 内的部分 rechunk¶
P2P rechunking 现在利用输入分块和输出分块之间的关系。对于不需要全对全数据传输的情况,这可以显著减少运行时间和内存/磁盘占用。它还支持任务剔除 (task culling)。
详情见 distributed#8330 由 Hendrik Makait 提交。
Fastparquet 引擎已弃用¶
已弃用 fastparquet
Parquet 引擎。用户应通过 安装 PyArrow 并移除 read_parquet
或 to_parquet
调用中的 engine="fastparquet"
来迁移到 pyarrow
引擎。
详情见 dask#10743 由 crusaderky 提交。
改进了任意数据的序列化¶
此版本改进了对任意数据的序列化鲁棒性。以前在某些情况下,非 msgpack
可序列化数据会导致序列化失败。在这些情况下,我们现在回退到使用 pickle
。
详情见 dask#8447 由 Hendrik Makait 提交。
其他弃用项¶
在 DataFrame 方法中弃用
shuffle
关键字,推荐使用shuffle_method
。(dask#10738) Hendrik Makait弃用
repartition
中的自动参数推断。(dask#10691) Patrick Hoefler弃用
set_index
中的compute
参数。(dask#10784) Miles弃用
eval
中的inplace
。(dask#10785) Miles弃用
Series.view
。(dask#10754) Miles弃用
set_index
和sort_values
的npartitions="auto"
。(dask#10750) Miles
其他变更
避免任务 shuffle 中导致数据丢失的快捷方式。(dask#10763) Patrick Hoefler
排序时忽略数据任务。(dask#10706) Florian Jetter
从
dask-expr
添加get_dummies
。(dask#10791) Patrick Hoefler调整 IO 测试以适应
dask-expr
迁移。(dask#10776) Patrick Hoefler移除关于
groupby
中sort
和split_out
的弃用警告。(dask#10788) Patrick Hoefler处理
pandas
弃用。(dask#10789) Patrick Hoefler在
get_scheduler
中只导入一次distributed
。(dask#10771) Florian Jetter简化 GitHub Actions。(dask#10781) crusaderky
添加单元测试概述。(dask#10769) Miles
清理 CI 中冗余的部分。(dask#10768) crusaderky
更新
ufunc
的测试。(dask#10773) Patrick Hoefler使用
pytest.mark.skipif(DASK_EXPR_ENABLED)
。(dask#10774) crusaderky调整
dask-expr
的 shuffle 测试。(dask#10759) Patrick Hoefler修复一些来自
pandas
的弃用警告。(dask#10749) Patrick Hoefler调整
dask-expr
的 shuffle 测试。(dask#10762) Patrick Hoefler更新
pre-commit
。(dask#10767) Hendrik Makait清理 CI 中的配置切换。(dask#10766) crusaderky
改进
validate_key
的异常信息。(dask#10765) Hendrik Makait处理
set_index
中带有未知分区的datetimeindexes
。(dask#10757) Patrick Hoefler添加小数的哈希处理。(dask#10758) Patrick Hoefler
检查
is_monotonic
的测试。(dask#10756) crusaderky更改
value_counts_aggregate
中的参数顺序。(dask#10751) Patrick Hoefler调整一些
groupby
测试以兼容dask-expr
。(dask#10752) Patrick Hoefler对于 3.9 构建,将 mimesis 限制在
< 12
。(dask#10755) Patrick Hoefler不要在跳过条件中评估配置。(dask#10753) Patrick Hoefler
调整一些测试以与
dask-expr
兼容。(dask#10714) Patrick Hoefler使
dask.array.utils
函数更通用,以适用于其他 Dask Array。(dask#10676) Matthew Rocklin移除重复的“单机”部分。(dask#10747) Matthew Rocklin
微调 ORC
engine=
参数。(dask#10746) crusaderky添加 pandas 3.0 弃用项和为
dask-expr
准备迁移。(dask#10723) Miles在文档首页添加任务图动画。(dask#10730) Sarah Charlotte Johnson
使用新的 Xarray logo。(dask#10729) James Bourbeau
更新“Dask 十分种入门”页面的 tab 样式。(dask#10728) James Bourbeau
更新 CI 中的环境文件上传步骤。(dask#10726) James Bourbeau
如果
split_out>1
,不要在 GroupBy.nunique 中复制未观察到的类别。(dask#10716) Patrick Hoeflerdask.order
更新的更新日志条目。(dask#10715) Florian Jetter在
_check_dsk
中放宽冗余键检查。(dask#10701) Richard (Rick) Zamora修复
test_report.py
。(distributed#8459) Miles回滚 pickle 更改。(distributed#8456) Florian Jetter
调整
test_report.py
以支持dask/dask
仓库。(distributed#8450) Miles为 P2P shuffling 保持稳定排序。(distributed#8453) Hendrik Makait
为 scheduler 添加无 worker 超时。(distributed#8371) FTang21
允许维护者手动调度测试工作流。(distributed#8445) Erik Sundell
将 scheduler 相关的转换功能设为私有。(distributed#8448) Hendrik Makait
更新
pre-commit
hooks。(distributed#8444) Hendrik Makaitpickle 时不要总是检查
__main__ in result
。(distributed#8443) Florian Jetter仅当实现时才将
wait_for_workers
委托给集群实例。(distributed#8441) Erik Sundell延长
test_pandas
中的睡眠时间。(distributed#8440) Julian Gilbey避免使用已弃用的
shuffle
关键字。(distributed#8439) Hendrik MakaitShuffle 指标 4/4: 移除定制诊断。(distributed#8367) crusaderky
不在 testsuite 中运行
gilknocker
。(distributed#8423) Florian Jetter微调
abstractmethods
。(distributed#8427) crusaderkyShuffle 指标 3/4: 捕获后台指标。(distributed#8366) crusaderky
Shuffle 指标 2/4: 添加后台指标。(distributed#8365) crusaderky
Shuffle 指标 1/4: 添加前台指标。(distributed#8364) crusaderky
将 actions/upload-artifact 从 3 升级到 4。(distributed#8420)
修复
test_merge_p2p_shuffle_reused_dataframe_with_different_parameters
。(distributed#8422) Hendrik Makait扩展
Client.upload_file
文档示例。(distributed#8313) Miles改进 P2P scheduler 插件中的日志记录。(distributed#8410) Hendrik Makait
重新启用
test_decide_worker_coschedule_order_neighbors
。(distributed#8402) Florian Jetter将 cuDF 溢出统计信息添加到 RMM/GPU 内存图中。(distributed#8148) Charles Blackmon-Luca
修复 Nanny 生成的 worker 的哈希不一致问题。(distributed#8400) Charles Stern
如果 worker 正在运行长时间任务 (例如
worker_client
),则不允许它们缩减。(distributed#7481) Florian Jetter修复 flaky
test_subprocess_cluster_does_not_depend_on_logging
。(distributed#8417) crusaderky
2023.12.1¶
发布于 2023 年 12 月 15 日
亮点¶
Dask DataFrames 现在支持逻辑查询规划¶
通过使用逻辑查询规划器,Dask DataFrames 的性能现在大大提高。此功能目前默认关闭,但可以通过以下方式开启:
dask.config.set({"dataframe.query-planning": True})
您还需要安装 dask-expr
pip install dask-expr
到目前为止,我们看到了有希望的性能改进,详情请参阅这篇博客文章和这些定期更新的基准测试。关于查询优化器工作原理的更详细解释,可以在这篇博客文章中找到。
此功能仍在积极开发中,并且 API 尚不稳定,因此可能会发生重大更改。我们预计明年年初将查询优化器设为默认选项。
详情见 dask#10634 由 Patrick Hoefler 提交。
read_parquet
中的 Dtype 推断¶
read_parquet
现在将 Arrow 类型 pa.date32()
、pa.date64()
和 pa.decimal()
在 pandas 中推断为 ArrowDtype
。这些 dtype 由原始 Arrow 数组支持,从而避免了转换为 NumPy object。此外,read_parquet
将不再将嵌套和二进制类型推断为字符串,它们将存储在 NumPy object 数组中。
详情见 dask#10698 和 dask#10705 由 Patrick Hoefler 提交。
调度改进以减少内存使用¶
此版本包含对我们调度逻辑核心部分的重大重写。它包括 dask.order
中拓扑排序算法的新方法,该算法决定任务运行的顺序。不当的排序被认为是导致集群内存压力过大的主要原因之一。
此版本的更新修复了 2023.10.0
版本中引入的一些性能回归 (参见 dask#10535)。通常,现在计算应该更倾向于在不再需要时尽快释放内存中的数据。
详情见 dask#10660 和 dask#10697 由 Florian Jetter 提交。
改进了基于 P2P 的合并的鲁棒性和性能¶
此版本包含多项更新,修复了 2023.9.2 中引入的潜在死锁,并提高了集群动态扩展时基于 P2P 的合并的鲁棒性。
详情见 distributed#8415、distributed#8416 和 distributed#8414 由 Hendrik Makait 提交。
移除了禁用 pickle 选项¶
distributed.scheduler.pickle
配置选项不再受支持。从 2023.4.0 版本开始,使用 pickle
传输任务图,因此无法再禁用。当 distributed.scheduler.pickle
设置为 False
时,我们现在会引发一个信息性错误。
详情见 distributed#8401 由 Florian Jetter 提交。
其他变更
为近期 P2P 合并修复添加更新日志条目。(dask#10712) Hendrik Makait
更新 DataFrame 页面。(dask#10710) Matthew Rocklin
为
dask-expr
切换添加更新日志条目。(dask#10704) Patrick Hoefler改进 PipInstall 更改的更新日志条目。(dask#10711) Hendrik Makait
移除 PR labeler。(dask#10709) James Bourbeau
为
Delayed
对象添加.__wrapped__
。(dask#10695) Andrew S. Rosen将 actions/labeler 从 4.3.0 升级到 5.0.0。(dask#10689)
将 actions/stale 从 8 升级到 9。(dask#10690)
[Dask.order] 从排序中移除不可运行的叶节点。(dask#10697) Florian Jetter
更新安装文档。(dask#10699) Matthew Rocklin
修复文档中的软件环境链接。(dask#10700) James Bourbeau
避免为 read_parquet 将非字符串转换为 arrow 字符串。(dask#10692) Patrick Hoefler
将 xarray-contrib/issue-from-pytest-log 从 1.2.7 升级到 1.2.8。(dask#10687)
修复
pd.DateOffset
的tokenize
。(dask#10664) jochenott写入空数组到 zarr 的 Bugfix。(dask#10506) Ben
文档更新,样式调整,提及 free。(dask#10679) Matthew Rocklin
更新部署文档。(dask#10680) Matthew Rocklin
使用关键路径方法重写 Dask.order。(dask#10660) Florian Jetter
避免替换多次出现的键。(dask#10646) Florian Jetter
在文档中添加缺失的图片。(dask#10694) Matthew Rocklin
将 actions/setup-python 从 4 升级到 5。(dask#10688)
更新着陆页。(dask#10674) Matthew Rocklin
简化 dispatch 中的 meta 检查。(dask#10638) Patrick Hoefler
固定 PR Labeler。(dask#10675) Matthew Rocklin
稍微重组文档索引。(dask#10669) Matthew Rocklin
将 actions/setup-java 从 3 升级到 4。(dask#10667)
将 conda-incubator/setup-miniconda 从 2.2.0 升级到 3.0.1。(dask#10668)
将 xarray-contrib/issue-from-pytest-log 从 1.2.6 升级到 1.2.7。(dask#10666)
修复使用 nightly
pyarrow
时的test_categorize_info
。(dask#10662) James Bourbeau重写
test_subprocess_cluster_does_not_depend_on_logging
。(distributed#8409) Hendrik Makait在使用
tblib=3
时,避免在SpillBuffer
中 pickle 键失败时出现RecursionError
。(distributed#8404) Hendrik Makait允许任务覆盖
is_rootish
启发式算法。(distributed#8412) Hendrik Makait移除 GPU 执行器。(distributed#8399) Hendrik Makait
subprocess cluster 不依赖日志记录。(distributed#8398) Hendrik Makait
将 gpuCI
RAPIDS_VER
更新到24.02
。(distributed#8384)将 actions/setup-python 从 4 升级到 5。(distributed#8396)
确保 P2P rechunking 中的输出分块均匀分布。(distributed#8207) Florian Jetter
微小:修复拼写错误。(distributed#8395) crusaderky
将 JamesIves/github-pages-deploy-action 从 4.4.3 升级到 4.5.0。(distributed#8387)
将 conda-incubator/setup-miniconda 从 3.0.0 升级到 3.0.1。(distributed#8388)
2023.12.0¶
发布于 2023 年 12 月 1 日
亮点¶
PipInstall 重启和环境变量¶
distributed.PipInstall
插件现在具有更鲁棒的重启逻辑,并且还支持环境变量。
下面展示了用户如何使用 distributed.PipInstall
插件和 TOKEN
环境变量来安全地安装来自私有仓库的包
from dask.distributed import PipInstall
plugin = PipInstall(packages=["private_package@git+https://${TOKEN}@github.com/dask/private_package.git])
client.register_plugin(plugin)
详情见 distributed#8374、distributed#8357 和 distributed#8343 由 Hendrik Makait 提交。
Bokeh 3.3.0 兼容性¶
此版本包含使用 bokeh>=3.3.0
与代理 Dask dashboard 的兼容性更新。之前 dashboard 图的内容无法显示。
详情见 distributed#8347 和 distributed#8381 由 Jacob Tomlinson 提交。
其他变更
为
test_pyarrow_filesystem_option_real_data
添加network
标记。(dask#10653) Richard (Rick) Zamora将 GPU CI 升级到 CUDA 11.8。(dask#10656) Charles Blackmon-Luca
确定性地 tokenization
pandas
偏移量。(dask#10643) Patrick Hoefler添加 tokenization
pd.NA
功能。(dask#10640) Patrick Hoefler将 gpuCI
RAPIDS_VER
更新到24.02
。(dask#10636)修复
array.linalg.norm
中的精度处理。(dask#10556) joanrue为
DataFrame.clip
和Series.clip
添加axis
参数。(dask#10616) Richard (Rick) Zamora更新内存 rechunking 的更新日志条目。(dask#10630) Florian Jetter
修复 flaky
test_resources_reset_after_cancelled_task
。(distributed#8373) crusaderky将 GPU CI 升级到 CUDA 11.8。(distributed#8376) Charles Blackmon-Luca
将 conda-incubator/setup-miniconda 从 2.2.0 升级到 3.0.0。(distributed#8372)
向 P2P scheduler 插件添加 debug 日志。(distributed#8358) Hendrik Makait
/info/task/
端点的 O(1) 访问。(distributed#8363) crusaderky移除 shuffle 注释中的字符串化。(distributed#8362) crusaderky
不要将 int 指标转换为 float。(distributed#8361) crusaderky
移除 asyncio TCP 后端。(distributed#8355) Florian Jetter
为
context_meter.add_callback
添加卸载支持 (distributed#8360) crusaderky测试
sync()
传播 contextvars (distributed#8354) crusaderkycaptured_context_meter
(distributed#8352) crusaderkycontext_meter.clear_callbacks
(distributed#8353) crusaderky使用
@log_errors
装饰器 (distributed#8351) crusaderky修复
test_statistical_profiling_cycle
(distributed#8356) Florian JetterShuffle: 不在每次 RPC 时解析 dask.config (distributed#8350) crusaderky
将
Client.register_plugin
的idempotent
参数替换为插件上的.idempotent
属性 (distributed#8342) Hendrik Makait修复测试报告生成 (distributed#8346) Hendrik Makait
在
mindeps-pandas
CI 上安装pyarrow-hotfix
(distributed#8344) Hendrik Makait降低调度器进程的内存使用 - 优化
scheduler.py::TaskState
类 (distributed#8331) Miles升级
pre-commit
linters (distributed#8340) crusaderky更新 cuDF 测试,明确指定
dtype=object
(distributed#8339) Peter Andreas Entschev修复
Cluster
/SpecCluster
调用异步关闭方法的问题 (distributed#8327) Peter Andreas Entschev
2023.11.0¶
发布于 2023 年 11 月 10 日
亮点¶
零拷贝 P2P 数组 Rechunking¶
使用内存中 P2P 数组 rechunking 时,用户应能看到显著的性能提升。这是因为不再复制底层数据缓冲区。
下面是一个简单的示例,我们比较了不同 rechunking 方法的性能。
shape = (30_000, 6_000, 150) # 201.17 GiB
input_chunks = (60, -1, -1) # 411.99 MiB
output_chunks = (-1, 6, -1) # 205.99 MiB
arr = da.random.random(size, chunks=input_chunks)
with dask.config.set({
"array.rechunk.method": "p2p",
"distributed.p2p.disk": True,
}):
(
da.random.random(size, chunks=input_chunks)
.rechunk(output_chunks)
.sum()
.compute()
)

详情请参阅来自 crusaderky 的 distributed#8282、distributed#8318、distributed#8321 以及来自 Hendrik Makait 的 (distributed#8322)。
弃用 PyArrow <14.0.1¶
从本版本开始,弃用 pyarrow<14.0.1
的使用。建议所有用户升级其 pyarrow
版本或安装 pyarrow-hotfix
。完整详情请参阅 此 CVE。
详情请参阅来自 Florian Jetter 的 dask#10622。
改进的 PyArrow 文件系统用于 Parquet¶
现在使用 filesystem="arrow"
读取 Parquet 数据集时,可以正确推断访问远程云托管数据时的正确云区域。
详情请参阅来自 Richard (Rick) Zamora 的 dask#10590。
改进 P2P Shuffle 中的类型协调¶
详情请参阅来自 Hendrik Makait 的 distributed#8332。
其他变更
修复
test_dataframe::test_quantile
的偶发性失败 (dask#10625) Miles将最小
click
版本提升到>=8.1
(dask#10623) Jacob Tomlinson重构
test_quantile
(dask#10620) Miles避免分段 DataFrame 的
PerformanceWarning
(dask#10621) Patrick Hoefler通用化 GPU CI 更新工作流程中
NEW_*_VER
的计算 (dask#10610) Charles Blackmon-Luca切换到较新的 GPU CI 镜像 (dask#10608) Charles Blackmon-Luca
移除
fsspec
测试中的双斜杠 (dask#10605) Mario Šaško重新启用
test_ucx_config_w_env_var
(distributed#8272) Peter Andreas Entschev接收网络数据时,不要共享
host_array
(distributed#8308) crusaderky通用化 GPU CI 更新工作流程中
NEW_*_VER
的计算 (distributed#8319) Charles Blackmon-Luca切换到较新的 GPU CI 镜像 (distributed#8316) Charles Blackmon-Luca
Shuffle dashboard 的微小更新 (distributed#8315) Matthew Rocklin
不要使用
bytearray().join
(distributed#8312) crusaderky在 P2P hash join 中重用相同的 shuffle (distributed#8306) Hendrik Makait
2023.10.1¶
发布于 2023 年 10 月 27 日
亮点¶
Python 3.12¶
此版本增加了对 Python 3.12 的官方支持。
详情请参阅来自 Thomas Grainger 的 dask#10544 和 distributed#8223。
其他变更
避免过度积极地将 parquet 文件拆分为行组 (dask#10600) Matthew Rocklin
加速常见情况下的
normalize_chunks
(dask#10579) Martin Durant使用 Python 3.11 进行上游和 doctests CI 构建 (dask#10596) Thomas Grainger
将
actions/checkout
从 4.1.0 升级到 4.1.1 (dask#10592)切换到 PyTables
HEAD
(dask#10580) Thomas Grainger移除
numpy.core
警告过滤器,链接到pyarrow
引起的BlockManager
警告的问题 (dask#10571) Thomas Grainger取消忽略并修复已弃用的 freq 别名 (dask#10577) Thomas Grainger
将
register_assert_rewrite
移至conftest
中更早的位置以修复警告 (dask#10578) Thomas Grainger升级
versioneer
到 0.29 (dask#10575) Thomas Grainger将
test_concat_categorical
更改为非严格模式 (dask#10574) Thomas Grainger启用 SciPy 测试与 NumPy 2.0 Thomas Grainger
启用 scikit-image 测试与 NumPy 2.0 (dask#10569) Thomas Grainger
修复上游构建 (dask#10549) Thomas Grainger
为
drop_duplicates
添加优化代码路径 (dask#10542) Richard (Rick) Zamora支持
dd.DataFrame.sort_values
中的cudf
后端 (dask#10551) Richard (Rick) Zamora将图表标签中的“GIL Contention”重命名为 GIL (distributed#8305) Matthew Rocklin
将
actions/checkout
从 4.1.0 提升到 4.1.1 (distributed#8299)修复 dashboard (distributed#8293) Hendrik Makait
异步任务的
@log_errors
(distributed#8294) crusaderkyserialize_bytes 的注解和更好的测试 (distributed#8300) crusaderky
暂时 xfail
test_decide_worker_coschedule_order_neighbors
以解除 CI 阻塞 (distributed#8298) James Bourbeau在代码示例中跳过
xdist
和matplotlib
(distributed#8290) Matthew Rocklin在
numpy>=2.dev0
上使用numpy._core
(distributed#8291) Thomas Grainger修复
MemoryShardsBuffer.bytes_read
的计算问题 (distributed#8289) crusaderky允许 P2P 将数据存储在内存中 (distributed#8279) Hendrik Makait
升级
versioneer
到 0.29 (distributed#8288) Thomas Grainger允许
ResourceLimiter
不设限制 (distributed#8276) Hendrik Makait运行
pre-commit
自动更新 (distributed#8281) Thomas Grainger为 P2P 层注释实例变量 (distributed#8280) Hendrik Makait
优雅地移除 worker 不应将任务标记为可疑 (distributed#8234) Thomas Grainger
为
dask spec
添加信号处理 (distributed#8261) Thomas Grainger为
sync
添加类型注解 (distributed#8275) Hendrik Makait为 shuffle offload 提供更好的注解 (distributed#8277) crusaderky
测试 p2p shuffle 的最小版本 (distributed#8270) crusaderky
在测试失败时运行 coverage (distributed#8269) crusaderky
使用带扩展的
aiohttp
(distributed#8274) Thomas Grainger
2023.10.0¶
发布于 2023 年 10 月 13 日
亮点¶
降低多数组规约的内存压力¶
此版本包含 Dask 任务图调度逻辑的重大更新。这些更新显著降低了数组规约的内存压力。我们预计这将对数组计算社区产生强烈影响。
详情请参阅来自 Florian Jetter 的 dask#10535。
改进 P2P Shuffle 的鲁棒性¶
有几项更新(如下所列)使得 P2P shuffle 更具鲁棒性,并且更不容易失败。
详情请参阅来自 Hendrik Makait 的 distributed#8262、distributed#8264、distributed#8242、distributed#8244 和 distributed#8235,以及来自 Charles Blackmon-Luca 的 distributed#8124。
降低大型图的调度器 CPU 负载¶
计算大型任务图时,用户应能看到调度器上的 CPU 负载降低。
详情请参阅来自 Florian Jetter 的 distributed#8238 和 dask#10547,以及来自 crusaderky 的 distributed#8240。
其他变更
调度用于基于磁盘的 shuffle 的
partd.Encode
类 (dask#10552) Richard (Rick) Zamora为 hive 分区添加文档 (dask#10454) Richard (Rick) Zamora
为
dask.order
添加类型注解 (dask#10553) Florian Jetter允许在
dd.read_csv
中传递index_col=False
(dask#9961) Michael Leslie收紧
HighLevelGraph
注解 (dask#10524) crusaderky支持最新的
ipykernel
/ipywidgets
(distributed#8253) crusaderky检查 P2P 合并的最小
pyarrow
版本 (distributed#8266) Hendrik Makait支持 Python 3.12 (distributed#8223) Thomas Grainger
在大型图发送警告时使用
memoryview.nbytes
(distributed#8268) crusaderky运行测试不带
gilknocker
(distributed#8263) crusaderky在 MacOS CI 上禁用 ipv6 (distributed#8254) crusaderky
清理冗余的最小版本检查 (distributed#8251) crusaderky
清理调度器插件中
BARRIER_PREFIX
的使用 (distributed#8252) crusaderky改进 P2P worker 插件中的 shuffle 运行处理 (distributed#8245) Hendrik Makait
明确设置
charset=utf-8
(distributed#8250) crusaderky对 distributed#8239 的类型注解微调 (distributed#8247) crusaderky
简化调度器断言 (distributed#8246) crusaderky
改进类型注解 (distributed#8239) Hendrik Makait
遵循 cgroups v2 的“low”内存限制 (distributed#8243) Samantha Hughes
通过将其设为调度器插件修复
PackageInstall
的问题 (distributed#8142) Hendrik MakaitXfail
test_ucx_config_w_env_var
(distributed#8241) crusaderkySpecCluster
对损坏 worker 的弹性 (distributed#8233) crusaderky取消任务时抑制
SpillBuffer
堆栈跟踪 (distributed#8232) crusaderky字符串化更改后更新注解 (distributed#8195) crusaderky
减小 profile 的最大递归深度 (distributed#8224) crusaderky
卸载深度嵌套的对象 (distributed#8214) crusaderky
修复 flaky
test_close_connections
(distributed#8231) crusaderky修复 flaky
test_popen_timeout
(distributed#8229) crusaderky修复 flaky
test_adapt_then_manual
(distributed#8228) crusaderky防止
SpillBuffer
中的冲突 (distributed#8226) crusaderky允许
retire_workers
并发运行 (distributed#8056) Florian Jetter修复
TaskState
对象的 HTML repr (distributed#8188) Florian Jetter修复
profile.py
中builtin_function_or_method
的AttributeError
(distributed#8181) Florian Jetter修复 flaky
test_spans
(v2) (distributed#8222) crusaderky
2023.9.3¶
发布于 2023 年 9 月 29 日
亮点¶
恢复先前的配置覆盖行为¶
2023.9.2 版本在 dask.config.get
中使用 override_with=
关键字覆盖配置选项时引入了一个无意中破坏性更改(参见 dask#10519)。此版本恢复了先前的行为。
详情请参阅来自 crusaderky 的 dask#10521。
Dask Array 规约中的复杂 dtypes¶
此版本改进了对 Dask Array 中常见规约(例如 var
、std
、moment
)使用复杂 dtypes 的支持。
详情请参阅来自 wkrasnicki 的 dask#10009。
其他变更
将
actions/checkout
从 4.0.0 提升到 4.1.0 (dask#10532)与
pandas
一起恢复apply
弃用 (dask#10531) James Bourbeau更新 gpuCI
RAPIDS_VER
到23.12
(dask#10526)暂时跳过
fsspec==2023.9.1
失败的测试 (dask#10520) James Bourbeau
2023.9.2¶
发布于 2023 年 9 月 15 日
亮点¶
如果安装了过时的 PyArrow,P2P shuffle 现在会引发错误¶
以前,如果安装了旧版本的 pyarrow
,默认的 shuffle 方法会静默回退到基于任务的 shuffle。现在,我们不再静默回退,而是引发一个信息性错误,指明 P2P 所需的最小 pyarrow
版本。
详情请参阅来自 Hendrik Makait 的 dask#10496。
admin.traceback.shorten 的弃用周期¶
2023.9.0 版本修改了 admin.traceback.shorten
配置选项,但没有引入弃用周期。这导致在某些情况下无法创建 Dask 集群。此版本为此配置更改引入了弃用周期。
详情请参阅来自 crusaderky 的 dask#10509。
其他变更
避免在
delayed
任务中具体化所有迭代器 (dask#10498) James Bourbeau全面改革
dask.config
中的弃用系统 (dask#10499) crusaderky移除
timeseries
中不必要的检查 (dask#10447) Patrick Hoefler在测试中使用
register_plugin
(dask#10503) James Bourbeau在
pyarrow_schema_dispatch
中明确指定preserve_index
(dask#10501) Hendrik Makait为
pyarrow_schema_dispatch
添加**kwargs
支持 (dask#10500) Hendrik Makait集中化并类型化
no_default
(dask#10495) crusaderky
2023.9.1¶
发布于 2023 年 9 月 6 日
注意
这是一个热修复版本,修复了 2023.9.0 版本引入的 P2P shuffle bug(参见 dask#10493)。
增强功能¶
更严格的 dask keys 数据类型 (dask#10485) crusaderky
对
DASK_
环境变量中的None
进行特殊处理 (dask#10487) crusaderky
Bug 修复¶
修复
DataFrame.set_index
和DataFrame.sort_values
中meta
的_partitions
dtype
问题 (dask#10493) Hendrik Makait处理
derived_from
中的cached_property
装饰器 (dask#10490) Lawrence Mitchell
维护¶
将
actions/checkout
从 3.6.0 提升到 4.0.0 (dask#10492)简化一些
import distributed
的测试 (dask#10484) crusaderky
2023.9.0¶
发布于 2023 年 9 月 1 日
Bug 修复¶
移除对 key 中
np.int64
的支持 (dask#10483) crusaderky修复 shuffle 中
meta
的_partitions
dtype
问题 (dask#10462) Hendrik Makait不使用异常钩子来缩短追溯信息 (dask#10456) crusaderky
文档¶
在 DataFrame 文档中添加
p2p
shuffle 选项 (dask#10477) Patrick Hoefler
维护¶
跳过
pandas=2.1.0
失败的测试 (dask#10488) Patrick Hoefler更新
pandas=2.1.0
的测试 (dask#10439) Patrick Hoefler启用
pytest-timeout
(dask#10482) crusaderky将
actions/checkout
从 3.5.3 提升到 3.6.0 (dask#10470)
2023.8.1¶
发布于 2023 年 8 月 18 日
增强功能¶
为
cpu_count
添加 cgroup v2 支持 (dask#10419) Johan Olsson支持多列
groupby
并带有sort=True
和split_out>1
(dask#10425) Richard (Rick) Zamora添加
DataFrame.enforce_runtime_divisions
方法 (dask#10404) Richard (Rick) Zamora允许 Dask DataFrame
to_csv
在single_file=True
的情况下使用文件mode="x"
(dask#10443) Genevieve Buckley
Bug 修复¶
修复在追加模式下运行
to_csv
并将single_file
设置为True
时出现的ValueError
问题 (dask#10441) Ben
维护¶
为
pandas
添加默认的types_mapper
到from_pyarrow_table_dispatch
(dask#10446) Richard (Rick) Zamora
2023.8.0¶
发布于 2023 年 8 月 4 日
增强功能¶
修复
make_timeseries
性能回归问题 (dask#10428) Irina Truong
文档¶
将
distributed.print
添加到调试文档中 (dask#10435) James Bourbeau记录 NumPy 函数与 Dask 函数的兼容性 (dask#9941) Chiara Marmo
维护¶
在
license
元数据中使用 SPDX (dask#10437) John A Kirkham在
dask[dataframe]
中要求dask[array]
(dask#10357) John A Kirkham更新 gpuCI
RAPIDS_VER
到23.10
(dask#10427)简化兼容性代码 (dask#10426) Hendrik Makait
修复兼容性变量命名问题 (dask#10424) Hendrik Makait
修复上游
pandas
和pyarrow
的一些错误 (dask#10412) Irina Truong
2023.7.1¶
发布于 2023 年 7 月 20 日
注意
此版本更新了 Dask DataFrame,如果安装了 pandas>=2
和 pyarrow>=12
,它会自动将使用 object
数据类型的文本数据转换为 string[pyarrow]
。
这应能显著降低许多处理文本数据的工作流的内存消耗,并提高计算性能。
您可以通过将 dataframe.convert-string
配置值设置为 False
来禁用此更改
dask.config.set({"dataframe.convert-string": False})
增强功能¶
如果安装了适当的依赖项,转换为
pyarrow
字符串 (dask#10400) James Bourbeau对于
p2p
,避免在shuffle
之前进行repartition
(dask#10421) Patrick Hoefler生成随机 Dask DataFrames 的 API (dask#10392) Irina Truong
加速
dask.bag.Bag.random_sample
(dask#10356) crusaderky为无效的时间单位引发有用的
ValueError
(dask#10408) Nat Tabris当 divisions 匹配时(divisions 作为列表提供),使
repartition
成为空操作 (dask#10395) Nicolas Grandemange
Bug 修复¶
在
read_parquet
token 中使用dataframe.convert-string
(dask#10411) James Bourbeau连接
MultiIndex
时 Categorydtype
丢失 (dask#10407) Irina Truong修复
FutureWarning: The provided callable...
(dask#10405) Irina Truong在
read_parquet
中启用非分类的 hive 分区列 (dask#10353) Richard (Rick) Zamoraconcat
忽略不带列的DataFrame
(dask#10359) Patrick Hoefler
2023.7.0¶
发布于 2023 年 7 月 7 日
增强功能¶
捕获尝试加载 CLI 入口点时的异常 (dask#10380) Jacob Tomlinson
Bug 修复¶
修复
_clean_ipython_traceback
中的拼写错误 (dask#10385) Alexander Clausen确保
from_pandas
后df
是不可变的 (dask#10383) Patrick Hoefler在
Series.rename
中对inplace
一致地发出警告 (dask#10313) Patrick Hoefler
文档¶
在 rechunk 文档中添加关于输出形状和重塑的说明 (dask#10377) Swayam Patil
维护¶
简化
astype
实现 (dask#10393) Patrick Hoefler修复
test_first_and_last
以适应已弃用的last
(dask#10373) James Bourbeau将
level
添加到create_merge_tree
(dask#10391) Patrick Hoefler不从
scipy.stats.chisquare
docstring 中派生文档 (dask#10382) Doug Davis
2023.6.1¶
发布于 2023 年 6 月 26 日
增强功能¶
移除不再支持的
clip_lower
和clip_upper
(dask#10371) Patrick Hoefler支持
DataFrame.set_index(..., sort=False)
(dask#10342) Miles清理远程追溯信息 (dask#10354) Irina Truong
添加用于
pyarrow.Table
转换的调度机制 (dask#10312) Richard (Rick) Zamora即使启用了 fusion,也选择 P2P (dask#10344) Hendrik Makait
在图生成早期验证 rechunking 是否可能 (dask#10336) Hendrik Makait
Bug 修复¶
修复
header
传递给read_csv
的问题 (dask#10355) GALI PREM SAGAR在
GroupBy.var
和GroupBy.std
中尊重dropna
和observed
(dask#10350) Patrick Hoefler修复使用分布式客户端写入 hdf 时出现的
H5FD_lock
错误 (dask#10309) Irina Truong修复
bag.map()
的total_mem_usage
问题 (dask#10341) Irina Truong
弃用¶
弃用带有
method
的DataFrame.fillna
/Series.fillna
(dask#10349) Irina Truong弃用
DataFrame.first
和Series.first
(dask#10352) Irina Truong
维护¶
弃用
numpy.compat
(dask#10370) Irina Truong修复注解和 spans 在线程间泄露的问题 (dask#10367) Irina Truong
在
pyarrow_table_dispatch
函数中使用通用 kwargs (dask#10364) Richard (Rick) Zamora移除
isna
中不必要的try
/except
(dask#10363) Patrick Hoefler对 numpy 1.25 的
mypy
支持 (dask#10362) crusaderky将
actions/checkout
从 3.5.2 提升到 3.5.3 (dask#10348)恢复
upstream
构建中的numba
(dask#10330) James Bourbeau更新
pandas
/numpy
/scipy
的 nightly wheel 索引 (dask#10346) Matthew Roeschke将 rechunk 配置值添加到 yaml 中 (dask#10343) Hendrik Makait
2023.6.0¶
发布于 2023 年 6 月 9 日
增强功能¶
为
read_parquet
添加缺失的not in
谓词支持 (dask#10320) Richard (Rick) Zamora
Bug 修复¶
修复不正确的
value_counts
问题 (dask#10323) Irina Truong更新空的
describe
的 top 和 freq 值 (dask#10319) James Bourbeau
文档¶
修复 hetzner 拼写错误 (dask#10332) Sarah Charlotte Johnson
维护¶
在 Python 3.11 上测试
numba
和sparse
(dask#10329) Thomas Grainger移除
numpy.find_common_type
警告忽略 (dask#10311) James Bourbeau更新 gpuCI
RAPIDS_VER
到23.08
(dask#10310)
2023.5.1¶
发布于 2023 年 5 月 26 日
注意
此版本停止支持 Python 3.8。自此版本起,Dask 支持 Python 3.9、3.10 和 3.11。详情请参阅 此社区问题。
增强功能¶
停止支持 Python 3.8 (dask#10295) Thomas Grainger
更改 Dask Bag 分区方案以提高集群饱和度 (dask#10294) Jacob Tomlinson
通用化 GPU 支持集合的
dd.to_datetime
,引入get_meta_library
工具函数 (dask#9881) Charles Blackmon-Luca为
DataFrame.map
添加na_action
(dask#10305) Patrick Hoefler在
DataFrame.nsmallest
和DataFrame.nlargest
未给定columns
时引发TypeError
(dask#10301) Patrick Hoefler改进
pd.MultiIndex
的sizeof
(dask#10230) Patrick Hoefler支持多种
DataFrame
方法中的重复列 (dask#10261) Patrick Hoefler为
DataFrame.idxmin
和DataFrame.idxmax
添加numeric_only
支持 (dask#10253) Patrick Hoefler为
DataFrame.quantile
实现numeric_only
支持 (dask#10259) Patrick Hoefler为
DataFrame.std
添加numeric_only=False
支持 (dask#10251) Patrick Hoefler为
GroupBy.cumprod
和GroupBy.cumsum
实现numeric_only=False
(dask#10262) Patrick Hoefler为
skew
和kurtosis
实现numeric_only
(dask#10258) Patrick Hoeflermask
和where
应接受callable
(dask#10289) Irina Truong修复
read_parquet
中从Categorical
到pa.dictionary
的转换问题 (dask#10285) Patrick Hoefler
Bug 修复¶
嵌套注解上的虚假配置 (dask#10318) crusaderky
修复已知和未知 chunk 大小的维度上的 rechunking 行为问题 (dask#10157) Hendrik Makait
使
drop
支持分区不匹配 (dask#10300) James Bourbeau修复
to_timestamp
的divisions
构造问题 (dask#10304) Patrick Hoeflerpandas
ExtensionDtype
在Series
规约操作中引发错误 (dask#10149) Patrick Hoefler修复
da.random
接口的回归问题 (dask#10247) Eray Aslanda.coarsen
不会修剪 meta 中的空 chunk (dask#10281) Irina Truong修复
read_csv
中engine="pyarrow"
的 dtype 推断问题 (dask#10280) Patrick Hoefler
文档¶
将
meta_from_array
添加到 API 文档中 (dask#10306) Ruth Comer更新 Coiled 链接 (dask#10296) Sarah Charlotte Johnson
添加 demo day 的文档 (dask#10288) Matthew Rocklin
维护¶
上传 conda nightly 时,明确从 conda-forge 安装
anaconda-client
(dask#10316) Charles Blackmon-Luca配置
isort
添加from __future__ import annotations
(dask#10314) Thomas Grainger在测试中避免
pandas
Series.__getitem__
弃用 (dask#10308) James Bourbeau忽略
pandas
中的numpy.find_common_type
警告 (dask#10307) James Bourbeau添加测试以检查
DataFrame.__setitem__
不会修改df
原位 (dask#10223) Patrick Hoefler清理
value_counts
中dropna
的默认值 (dask#10299) Patrick Hoefler将
pytest-cov
添加到test
额外项中 (dask#10271) James Bourbeau
2023.5.0¶
发布于 2023 年 5 月 12 日
改进¶
为
GroupBy.corr
和GroupBy.cov
实现numeric_only=False
(dask#10264) Patrick Hoefler在
DataFrame.var
中添加对numeric_only=False
的支持 (dask#10250) Patrick Hoefler向
DataFrame.mode
添加numeric_only
支持 (dask#10257) Patrick Hoefler将
DataFrame.map
添加到dask.DataFrame
API 中 (dask#10246) Patrick Hoefler调整以适应
DataFrame.applymap
的弃用和所有NA
concat
行为变更 (dask#10245) Patrick Hoefler启用
DataFrame.count
的numeric_only=False
(dask#10234) Patrick Hoefler禁止在 mask/where 中输入数组 (dask#10163) Irina Truong
支持
GroupBy.corr
和GroupBy.cov
中的numeric_only=True
(dask#10227) Patrick Hoefler向
GroupBy.median
添加numeric_only
支持 (dask#10236) Patrick Hoefler在
dask.datasets
中支持mimesis=9
(dask#10241) James Bourbeau向
min
,max
和prod
添加numeric_only
支持 (dask#10219) Patrick Hoefler为
GroupBy.cumsum
和GroupBy.cumprod
添加numeric_only=True
支持 (dask#10224) Patrick Hoefler添加辅助函数来解包
numeric_only
关键字 (dask#10228) Patrick Hoefler
Bug 修复¶
修复
clone
+from_array
失败 (dask#10211) crusaderky修复 ea 数据类型的 dataframe 归约 (dask#10150) Patrick Hoefler
避免在
numpy=1.25
中出现标量转换弃用警告 (dask#10248) James Bourbeau确保 transform 输出具有与输入相同的索引 (dask#10184) Irina Truong
修复在单行分区上的
corr
和cov
(dask#9756) Irina Truong修复
test_groupby_numeric_only_supported
和test_groupby_aggregate_categorical_observed
上游错误 (dask#10243) Irina Truong
文档¶
清理 futures 文档 (dask#10266) Matthew Rocklin
添加
Index
API 参考 (dask#10263) hotpotato
维护¶
当
meta
传递给apply
时发出警告 (dask#10256) Patrick Hoefler删除 CI 中的
imageio
版本限制 (dask#10260) Patrick Hoefler删除未使用的
DataFrame
方差方法 (dask#10252) Patrick Hoefler解除激活了
pyarrow
字符串和pyarrow>=12
的test_categories
的 xfail 标记 (dask#10244) Irina Truong提升 gpuCI
PYTHON_VER
3.8->3.9 (dask#10233) Charles Blackmon-Luca
2023.4.1¶
发布于 2023 年 4 月 28 日
改进¶
为
DataFrame.sum
实现numeric_only
支持 (dask#10194) Patrick Hoefler为
GroupBy
操作添加numeric_only=True
支持 (dask#10222) Patrick Hoefler对于
pandas
1.4 及更高版本,在DataFrame.__setitem__
中避免深拷贝 (dask#10221) Patrick Hoefler避免使用
_meta_nonempty
调用Series.apply
(dask#10212) Patrick Hoefler解除
sqlalchemy
版本锁定并修复兼容性问题 (dask#10140) Patrick Hoefler
Bug 修复¶
部分还原默认客户端发现 (dask#10225) Florian Jetter
在
Index
meta 创建中支持 arrow 数据类型 (dask#10170) Patrick Hoefler当截断浮点数时,使用扩展数据类型进行重新分区会引发错误 (dask#10169) Patrick Hoefler
将来自
fastparquet
的空Index
调整为object
数据类型 (dask#10179) Patrick Hoefler
文档¶
更新 Kubernetes 文档 (dask#10232) Jacob Tomlinson
将
DataFrame.reduction
添加到 API 文档中 (dask#10229) James Bourbeau将
DataFrame.persist
添加到文档中并修复链接 (dask#10231) Patrick Hoefler添加
GroupBy.transform
的文档 (dask#10185) Irina Truong修复随机数生成文档中的格式问题 (dask#10189) Eray Aslan
维护¶
将 imageio 版本锁定在
<2.28
(dask#10216) Patrick Hoefler添加关于
importlib_metadata
反向移植的说明 (dask#10207) James Bourbeau将
xarray
添加回 Python 3.11 CI 构建中 (dask#10200) James Bourbeau添加包含所有可选依赖项的
mindeps
构建 (dask#10161) Charles Blackmon-Luca在
percentiles_summary
中为array_safe
提供合适的like
值 (dask#10156) Charles Blackmon-Luca避免在
read_hdf
中多次重新打开 hdf 文件 (dask#10205) Thomas Grainger添加可空列上的 merge 测试 (dask#10071) Charles Blackmon-Luca
修复 coverage 配置 (dask#10203) Thomas Grainger
删除
is_period_dtype
和is_sparse_dtype
(dask#10197) Patrick Hoefler提升
actions/checkout
从 3.5.0 到 3.5.2 (dask#10201)避免使用来自 pandas 的已弃用的
is_categorical_dtype
(dask#10180) Patrick Hoefler调整以适应已弃用的
is_interval_dtype
和is_datetime64tz_dtype
(dask#10188) Patrick Hoefler
2023.4.0¶
发布于 2023 年 4 月 14 日
改进¶
覆盖
update_defaults
中的旧默认值 (dask#10159) Gabe Joseph添加 CLI 命令以从 dask 配置中
list
和get
值 (dask#9936) Irina Truong处理
read_json
的基于字符串的引擎参数 (dask#9947) Richard (Rick) Zamora避免使用已弃用的
GroupBy.dtypes
(dask#10111) Irina Truong
Bug 修复¶
还原与
grouper
相关的更改 (dask#10182) Irina Truong修复
GroupBy.cov
在非数值分组列上引发错误的问题 (dask#10171) Patrick Hoefler更新以支持
numpy
数字数据类型的Index
(dask#10154) Irina Truong使用
pyarrow
读取分区列时保留dtype
(dask#10115) Patrick Hoefler修复
to_hdf
的注解 (dask#10123) Hendrik Makait检查列是否全为数值时处理
None
列名 (dask#10128) Lawrence Mitchell修复当传递
tuple
时valid_divisions
的问题 (dask#10126) Brian Phillips在
DataFrame.categorize
中维护注解 (dask#10120) Hendrik Makait修复过滤期间处理缺失的 min/max parquet 统计信息的问题 (dask#10042) Richard (Rick) Zamora
弃用¶
弃用
use_nullable_dtypes=
并添加dtype_backend=
(dask#10076) Irina Truong弃用
Series.apply
中的convert_dtype
(dask#10133) Irina Truong
文档¶
记录基于
Generator
的随机数生成 (dask#10134) Eray Aslan
维护¶
将
dataframe.convert_string
更新为dataframe.convert-string
(dask#10191) Irina Truong将
python-cityhash
添加到 CI 环境中 (dask#10190) Charles Blackmon-Luca暂时锁定
scikit-image
版本以修复 Windows CI (dask#10186) Patrick Hoefler处理
to_pydatetime
和apply
的 pandas 弃用警告 (dask#10168) Patrick Hoefler取消
bokeh<3
限制 (dask#10177) James Bourbeau修复写时复制下的测试失败 (dask#10173) Patrick Hoefler
允许
pyarrow
CI 失败 (dask#10176) James Bourbeau在
dask.array
中切换到使用Generator
进行随机数生成 (dask#10003) Eray Aslan提升
peter-evans/create-pull-request
从 4 到 5 (dask#10166)修复
test_arithmetic
中不稳定的modf
操作 (dask#10162) Irina Truong使用
pandas
2.0 时临时从 CI 中移除xarray
(dask#10153) James Bourbeau修复
test_default_scheduler_on_worker
中的update_graph
计数逻辑 (dask#10145) James Bourbeau修复使用
pandas
2.0 构建文档的问题 (dask#10138) James Bourbeau从 gpuCI 更新审阅者中移除
dask/gpu
(dask#10135) Charles Blackmon-Luca将 gpuCI
RAPIDS_VER
更新到23.06
(dask#10129)提升
actions/stale
从 6 到 8 (dask#10121)使用声明式
setuptools
(dask#10102) Thomas Grainger放宽对类似
Scalar
对象的assert_eq
检查 (dask#10125) Matthew Rocklin将 readthedocs 配置升级到 ubuntu 22.04 和 Python 3.11 (dask#10124) Thomas Grainger
提升
actions/checkout
从 3.4.0 到 3.5.0 (dask#10122)修复
pyarrow
CI 构建中的test_null_partition_pyarrow
问题 (dask#10116) Irina Truong放弃分布式包 (dask#9988) Florian Jetter
将
dask.compatibility
设为私有 (dask#10114) Jacob Tomlinson
2023.3.2¶
发布于 2023 年 3 月 24 日
改进¶
弃用对具有分类数据的
groupby
使用observed=False
(dask#10095) Irina Truong弃用对某些分组操作使用
axis=
(dask#10094) James BourbeauDataFrame.rolling/Series.rolling
中的axis
关键字已弃用 (dask#10110) Irina TruongDataFrame._data
在pandas
中弃用 (dask#10081) Irina Truong使用
importlib_metadata
反向移植以避免 CLIUserWarning
用户警告 (dask#10070) Thomas Grainger将选项解析逻辑从
dask.dataframe.read_parquet
移植到to_parquet
(dask#9981) Anton Loukianov
Bug 修复¶
在 groupby-apply 中避免使用
dd.shuffle
(dask#10043) Richard (Rick) Zamora启用具有
pyarrow
parquet 引擎的空 hive 分区 (dask#10007) Richard (Rick) Zamora支持
*_like
函数中的未知形状 (dask#10064) Doug Davis
文档¶
将
to_backend
方法添加到 API 文档中 (dask#10093) Lawrence Mitchell删除开发人员文档中损坏的 gpuCI 链接 (dask#10065) Charles Blackmon-Luca
维护¶
将 readthedocs sphinx 警告配置为错误 (dask#10104) Thomas Grainger
解除激活了
pyarrow
字符串的test_division_or_partition
的 xfail 标记 (dask#10108) Irina Truong解除激活了
pyarrow
字符串的test_different_columns_are_allowed
的 xfail 标记 (dask#10109) Irina Truong恢复 Entrypoints 兼容性 (dask#10113) Jacob Tomlinson
解除激活了
pyarrow
字符串的test_to_dataframe_optimize_graph
的 xfail 标记 (dask#10087) Irina Truong仅在可编辑安装上运行
test_development_guidelines_matches_ci
(dask#10106) Charles Blackmon-Luca解除激活了
pyarrow
字符串的test_dataframe_cull_key_dependencies_materialized
的 xfail 标记 (dask#10088) Irina Truong在 CI 环境中安装
mimesis
(dask#10105) Charles Blackmon-Luca修复没有名为
ipykernel
的模块的问题 (dask#10101) Irina Truong通过安装
ipykernel
修复文档构建问题 (dask#10103) Thomas Grainger允许
pyarrow
构建在失败时继续 (dask#10097) James Bourbeau提升
actions/checkout
从 3.3.0 到 3.4.0 (dask#10096)修复激活了
pyarrow
字符串的test_set_index_on_empty
问题 (dask#10054) Irina Truong解除
pyarrow
pickle 测试的 xfail 标记 (dask#10082) James BourbeauCI 环境文件清理 (dask#10078) James Bourbeau
解除更多
pyarrow
测试的 xfail 标记 (dask#10066) Irina Truong使用 p`andas 2.0 时临时跳过
pyarrow_compat
测试 (dask#10063) James Bourbeau修复激活了
pyarrow
字符串的test_melt
问题 (dask#10052) Irina Truong修复激活了
pyarrow
字符串的test_str_accessor
问题 (dask#10048) James Bourbeau修复激活了
pyarrow
字符串的test_better_errors_object_reductions
问题 (dask#10051) James Bourbeau修复激活了
pyarrow
字符串的test_loc_with_non_boolean_series
问题 (dask#10046) James Bourbeau修复激活了
pyarrow
字符串的test_values
问题 (dask#10050) James Bourbeau暂时将
test_upstream_packages_installed
标记为 xfail (dask#10047) James Bourbeau
2023.3.1¶
发布于 2023 年 3 月 10 日
改进¶
在
MultiIndex
中支持 pyarrow 字符串 (dask#10040) Irina Truong改进了对
pyarrow
字符串的支持 (dask#10000) Irina Truong修复数组归约期间不稳定的
RuntimeWarning
(dask#10030) James Bourbeau扩展
complete
额外项 (dask#10023) James Bourbeau当使用
dataframe.convert-string=True
和pandas<2.0
时引发错误 (dask#10033) Irina Truong将 shuffle/rechunk 配置选项/关键字参数重命名为
method
(dask#10013) James Bourbeau添加将
pandas
扩展数据类型转换为数组的初始支持 (dask#10018) James Bourbeau删除对
randomgen
的支持 (dask#9987) Eray Aslan
Bug 修复¶
当重分块到具有未知大小的相同块时跳过重分块 (dask#10027) Hendrik Makait
用于将 parquet 过滤器转换为
pyarrow
表达式的自定义工具 (dask#9885) Richard (Rick) Zamora在填充时将
numpy
标量和 0d 数组视为标量 (dask#9653) Justus Magin修复自适应
read_parquet
操作后的 parquet 覆盖行为 (dask#10002) Richard (Rick) Zamora
文档¶
添加和更新数据传输部分的文档 (dask#10022) Miles
维护¶
从
pyarrow
parquet 引擎中删除过时的 hive 分区代码 (dask#10039) Richard (Rick) Zamora将支持的最小
pyarrow
版本提高到 7.0 (dask#10024) James Bourbeau还原“准备删除 packunpack (dask#9994)” (dask#10037) Florian Jetter
让 codecov 在报告前等待更多构建 (dask#10031) James Bourbeau
准备删除 packunpack (dask#9994) Florian Jetter
添加打开
pyarrow
字符串的 CI 作业 (dask#10017) James Bourbeau修复
pandas
2.0 的test_groupby_dropna_with_agg
(dask#10001) Irina Truong修复
pandas
2.0 的test_pickle_roundtrip
(dask#10011) James Bourbeau
2023.3.0¶
发布于 2023 年 3 月 1 日
Bug 修复¶
Bag 不应将 p2p 选为 shuffle 默认值 (dask#10005) Florian Jetter
文档¶
P2P 默认设置的小幅跟进 (dask#10008) James Bourbeau
维护¶
为可选的
jinja2
依赖项添加最小版本 (dask#9999) Charles Blackmon-Luca
2023.2.1¶
发布于 2023 年 2 月 24 日
注意
此版本将默认的 DataFrame shuffle 算法更改为 p2p
,以提高稳定性和性能。在此了解更多信息,并请在此讨论中提供反馈。
如果您在使用此新算法时遇到问题,请参阅文档获取更多信息,以及如何切换回旧模式。
改进¶
默认启用 P2P shuffling (dask#9991) Florian Jetter
P2P rechunking (dask#9939) Hendrik Makait
对
read_parquet
的 dataframe.convert-string 高效支持 (dask#9979) Irina Truong允许 DataFrame 合并使用 p2p shuffle 关键字参数 (dask#9900) Florian Jetter
将
split_row_groups
默认值更改为 "infer" (dask#9637) Richard (Rick) Zamora添加用于将字符串数据转换为使用
pyarrow
字符串的选项 (dask#9926) James Bourbeau添加对多列
sort_values
的支持 (dask#8263) Charles Blackmon-Luca在 ``dask.array`` 中基于
Generator
的随机数生成 (dask#9038) Eray Aslan支持
numeric_only
用于简单分组聚合以实现pandas
2.0 兼容性 (dask#9889) Irina Truong
Bug 修复¶
修复分析器图表与上下文管理器进入时间未对齐的问题 (dask#9739) David Hoese
放宽 dask.dataframe assert_eq 类型检查 (dask#9989) Matthew Rocklin
恢复
describe
对pandas
2.0 的兼容性 (dask#9982) James Bourbeau
文档¶
改进部署 Dask 的文档 (dask#9912) Sarah Charlotte Johnson
关于
DataFrame.partitions
的更多文档 (dask#9976) Tom Augspurger更新文档,提供更多关于默认 Delayed 调度器的信息 (dask#9903) Guillaume Eynard-Bontemps
部署考虑事项文档 (dask#9933) Gabe Joseph
维护¶
暂时重新运行不稳定的测试 (dask#9983) James Bourbeau
更新 FULL_RAPIDS_VER/FULL_UCX_PY_VER 的解析 (dask#9990) Charles Blackmon-Luca
将支持的最小版本提高到
pandas=1.3
和numpy=1.21
(dask#9950) James Bourbeau修复
std
以便与numeric_only
一起工作,用于pandas
2.0 (dask#9960) Irina Truong暂时将
test_roundtrip_partitioned_pyarrow_dataset
标记为 xfail (dask#9977) James Bourbeau修复 test_idxmaxmin 中的写时复制失败 (dask#9944) Patrick Hoefler
提升
pre-commit
版本 (dask#9955) crusaderky修复
pandas
2.0 的test_groupby_unaligned_index
(dask#9963) Irina Truong解除
pandas
2.0 的test_set_index_overlap_2
的 xfail 标记 (dask#9959) James Bourbeau修复
pandas
2.0 的test_merge_by_index_patterns
(dask#9930) Irina Truong提升 jacobtomlinson/gha-find-replace 从 2 到 3 (dask#9953) James Bourbeau
修复
test_rolling_agg_aggregate
以实现pandas
2.0 兼容性 (dask#9948) Irina Truong提升
black
到23.1.0
(dask#9956) crusaderky在 python 3.8 和 3.10 上运行 GPU 测试 (dask#9940) Charles Blackmon-Luca
修复
pandas
2.0 的test_to_timestamp
(dask#9932) Irina Truong修复
groupby
value_counts
在pandas
2.0 兼容性方面的错误 (dask#9928) Irina Truong配置转换器:将所有短划线替换为下划线 (dask#9945) Jacob Tomlinson
CI:在上游测试构建中使用夜间轮子安装 pyarrow (dask#9873) Joris Van den Bossche
2023.2.0¶
发布于 2023 年 2 月 10 日
改进¶
更新
quantile
中numeric_only
的默认值,用于pandas
2.0 (dask#9854) Irina Truong当分区匹配时,将
repartition
设为无操作 (dask#9924) James Bourbeau更新
describe
中datetime_is_numeric
的行为,用于pandas
2.0 (dask#9868) Irina Truong更新
value_counts
以在pandas
2.0 中返回正确的名称 (dask#9919) Irina Truong在
pandas
2.0 中支持某些归约的新axis=None
行为 (dask#9867) James Bourbeau在块级别过滤掉所有 NaN 的
RuntimeWarning
,用于nanmin
和nanmax
(dask#9916) Julia Signell修复
pandas
2.0 的数值meta_nonempty
索引创建 (dask#9908) James Bourbeau修复
pandas
2.0 的DataFrame.info()
测试 (dask#9909) James Bourbeau
Bug 修复¶
修复
GroupBy.value_counts
处理多个groupby
列的问题 (dask#9905) Charles Blackmon-Luca
文档¶
修复开发指南中一些过时信息/拼写错误 (dask#9893) Patrick Hoefler
在
drop_duplicates
docstring 中添加关于keep=False
的说明 (dask#9887) Jayesh Manani将
meta
详细信息添加到 dask Array (dask#9886) Jayesh Manani澄清任务流显示行数多于线程数的问题 (dask#9906) Gabe Joseph
维护¶
修复
pandas
2.0 的test_numeric_column_names
(dask#9937) Irina Truong修复
pandas
2.0 的dask/dataframe/tests/test_utils_dataframe.py
测试 (dask#9788) James Bourbeau将
index.is_numeric
替换为is_any_real_numeric_dtype
以实现pandas
2.0 兼容性 (dask#9918) Irina Truong在 dask utils 中避免导入
pd.core
(dask#9907) Matthew Roeschke对拉取请求上的
upstream
构建使用标签 (dask#9910) James Bourbeau扩大对
sqlalchemy.exc.RemovedIn20Warning
异常的捕获范围 (dask#9904) James Bourbeau在 CI 中暂时限制
sqlalchemy < 2
(dask#9897) James Bourbeau将
isort
版本更新到 5.12.0 (dask#9895) Lawrence Mitchell删除
read_csv
中未使用的skiprows
变量 (dask#9892) Patrick Hoefler
2023.1.1¶
发布于 2023 年 1 月 27 日
改进¶
向
Array
和_Frame
添加to_backend
方法 (dask#9758) Richard (Rick) Zamora修复
pandas
2.0 中时间戳索引分区的微小问题 (dask#9872) Irina Truong向
DataFrame.cov
和DataFrame.corr
添加numeric_only
(dask#9787) James Bourbeau与
pandas
2.0 中group_keys
默认值更改相关的修复 (dask#9855) Irina Truonginfer_datetime_format
对pandas
2.0 的兼容性 (dask#9783) James Bourbeau
Bug 修复¶
修复
BroadcastJoinLayer
中的序列化 bug (dask#9871) Richard (Rick) Zamora满足
DataFrame.merge
中的broadcast
参数 (dask#9852) Richard (Rick) Zamora
文档¶
修复“Defining a new collection backend”文档中的代码格式问题 (dask#9864) Chiara Marmo
更新仪表板关于内存图表的文档 (dask#9768) Jayesh Manani
添加关于
no-worker
任务的文档部分 (dask#9839) Florian Jetter
维护¶
检测
distributed
调度器的额外更新 (dask#9890) James Bourbeau将 gpuCI
RAPIDS_VER
更新到23.04
(dask#9876)反转集合和
distributed
默认值之间的优先级 (dask#9869) Florian Jetter将
xarray-contrib/issue-from-pytest-log
更新到版本 1.2.6 (dask#9865) James Bourbeau不需要 dask 配置 shuffle 默认值 (dask#9826) Florian Jetter
为新的
fastparquet
解除datetime64
Parquet 往返测试的 xfail 标记 (dask#9811) James Bourbeau添加手动运行
upstream
CI 构建的选项 (dask#9853) James Bourbeau在 CI 构建中使用自定义超时 (dask#9844) James Bourbeau
从
make_blockwise_graph
中移除kwargs
(dask#9838) Florian Jetter在
test_setitem_extended_API_2d_mask
的persist
调用中忽略警告 (dask#9843) Charles Blackmon-Luca修复本地运行 S3 测试的问题 (dask#9833) James Bourbeau
2023.1.0¶
发布于 2023 年 1 月 13 日
改进¶
即使未设置配置也使用
distributed
默认客户端 (dask#9808) Florian Jetter实现
ma.where
和ma.nonzero
(dask#9760) Erik Holmgren更新
zarr
存储创建函数 (dask#9790) Ryan Abernatheyiteritems
对pandas
2.0 的兼容性 (dask#9785) James Bourbeaupandas
string[python]
数据类型的精确sizeof
(dask#9781) crusaderky压缩对 pandas 对象类型的重复引用的
sizeof()
(dask#9776) crusaderkyGroupBy.__getitem__
对pandas
2.0 的兼容性 (dask#9779) James Bourbeauappend
对pandas
2.0 的兼容性 (dask#9750) James Bourbeauget_dummies
对pandas
2.0 的兼容性 (dask#9752) James Bourbeauis_monotonic
对pandas
2.0 的兼容性 (dask#9751) James Bourbeaunumpy=1.24
兼容性 (dask#9777) James Bourbeau
文档¶
删除
to_json
docstring 中重复的encoding
关键字参数 (dask#9796) Sultan Orazbayev在
LocalCluster
文档中提及SubprocessCluster
(dask#9784) Hendrik Makait将 Prometheus 文档移至
dask/distributed
(dask#9761) crusaderky
维护¶
在
test_setitem_extended_API_2d_mask
中暂时忽略RuntimeWarning
(dask#9828) James Bourbeau修复不稳定的
test_threaded.py::test_interrupt
(dask#9827) Hendrik Makait更新
upstream
报告中的xarray-contrib/issue-from-pytest-log
(dask#9822) James Bourbeau在 gpuCI 构建上通过
pip
安装 dask (dask#9816) Charles Blackmon-Luca提升
actions/checkout
从 3.2.0 到 3.3.0 (dask#9815)解决
mindeps
测试中的sqlalchemy
导入失败问题 (dask#9809) Charles Blackmon-Luca忽略
sqlalchemy.exc.RemovedIn20Warning
(dask#9801) Thomas Grainger将
datetime64
Parquet 往返测试标记为 xfail,用于pandas
2.0 (dask#9786) James Bourbeau减小预期 DoK 稀疏矩阵的大小 (dask#9775) Elliott Sales de Andrade
删除
dask/dataframe/io/orc/utils.py
中的可执行标志 (dask#9774) Elliott Sales de Andrade
2022.12.1¶
发布于 2022 年 12 月 16 日
改进¶
支持
dtype_backend="pandas|pyarrow"
配置 (dask#9719) James Bourbeau在
dask.dataframe
中支持将cupy.ndarray
调度到cudf.DataFrame
(dask#9579) Richard (Rick) Zamora在
read_parquet
中使文件系统后端可配置 (dask#9699) Richard (Rick) Zamora高效序列化所有
pyarrow
扩展数组 (dask#9740) James Bourbeau
Bug 修复¶
修复使用
tz
感知 datetime 索引进行重新分区时的 bug (dask#9741) James Bourbeauaggs 中的部分函数可能带有参数 (dask#9724) Irina Truong
添加对使用
pyarrow
支持的扩展数据类型进行简单操作的支持 (dask#9717) James Bourbeau在
SeriesGroupby
的情况下正确重命名列 (dask#9716) Lawrence Mitchell
文档¶
更新 Prometheus 文档 (dask#9696) Hendrik Makait
维护¶
将
zarr
添加到 Python 3.11 CI 环境中 (dask#9771) James Bourbeau添加对 Python 3.11 的支持 (dask#9708) Thomas Grainger
升级
actions/checkout
从 3.1.0 到 3.2.0 (dask#9753)避免
np.bool8
弃用警告 (dask#9737) James Bourbeau确保
upstream
CI 构建中不会覆盖开发包 (dask#9731) James Bourbeau在测试期间避免添加
data.h5
和mydask.html
文件 (dask#9726) Thomas Grainger
2022.12.0¶
发布于 2022 年 12 月 2 日
功能增强¶
从
read_parquet
中移除基于统计的set_index
逻辑 (dask#9661) Richard (Rick) Zamora为
dd.read_parquet
添加对use_nullable_dtypes
的支持 (dask#9617) Ian Rose修复
map_overlap
以接受 pandas 参数 (dask#9571) Fabien Aulaire修复 pandas 1.5+ 中
.str.split(..., expand=True)
的FutureWarning
(dask#9704) Jacob Hayes为
groupby
切片启用列投影 (dask#9667) Richard (Rick) Zamora改进后端调度调用失败的错误消息 (dask#9677) Richard (Rick) Zamora
错误修复¶
改进 arrow parquet 引擎中的元数据创建 (dask#9672) Richard (Rick) Zamora
修复
da.fft.fft
对于类似数组的输入 (dask#9688) James Bourbeau修复按名称对索引进行分组时的
groupby
聚合 (dask#9646) Richard (Rick) Zamora
维护¶
在
test_inheriting_class
中避免PytestReturnNotNoneWarning
(dask#9707) Thomas Grainger修复不稳定的
test_dataframe_aggregations_multilevel
(dask#9701) Richard (Rick) Zamora升级
mypy
版本 (dask#9697) crusaderky在
test_map_partitions_df_input
中禁用仪表板 (dask#9687) James Bourbeau在
upstream
构建中使用最新的xarray-contrib/issue-from-pytest-log
(dask#9682) James Bourbeau对 upstream
scipy
xfail
ttest_1samp
(dask#9670) James Bourbeau更新 gpuCI
RAPIDS_VER
到23.02
(dask#9678)
2022.11.1¶
发布于 2022 年 11 月 18 日
功能增强¶
限制对
bokeh=3
的支持 (dask#9673) Gabe Josephfastparquet
演进的更新 (dask#9650) Martin Durant
维护¶
更新 gpuCI 更新工作流中的
ga-yaml-parser
步骤 (dask#9675) Charles Blackmon-Luca还原
importlib.metadata
变通方案 (dask#9658) James Bourbeau修复
mindeps-distributed
CI 构建以处理numpy
/pandas
未安装的情况 (dask#9668) James Bourbeau
2022.11.0¶
发布于 2022 年 11 月 15 日
功能增强¶
泛化
from_dict
实现以允许从其他后端使用 (dask#9628) GALI PREM SAGAR
错误修复¶
在
dask.dataframe.core
中避免使用pandas
构造函数 (dask#9570) Richard (Rick) Zamora修复带有
Timestamp
数据的sort_values
(dask#9642) James Bourbeau泛化数组检查并移除
_get_partitions
中的pd.Index
调用 (dask#9634) Benjamin Zaitlen修复
read_csv
在header=0
和names
时的行为 (dask#9614) Richard (Rick) Zamora
文档¶
更新仪表板排队文档 (dask#9660) Gabe Joseph
从 docstrings 中移除
import dask as d
(dask#9644) Matthew Rocklin修复
read_parquet
docstring 中指向分区文档的链接 (dask#9636) qheuristics在
array/bag/dataframe
部分添加 API 文档链接 (dask#9630) Matthew Rocklin
维护¶
使用
conda-incubator/setup-miniconda@v2.2.0
(dask#9662) John A Kirkham允许
bokeh=3
(dask#9659) James Bourbeau使用 Python 3.10 运行
upstream
构建 (dask#9655) James Bourbeau在 mindeps 测试中固定
pyyaml
版本 (dask#9640) Charles Blackmon-Luca添加
pre-commit
以捕获breakpoint()
(dask#9638) James Bourbeau升级
xarray-contrib/issue-from-pytest-log
从 1.1 到 1.2 (dask#9635)移除
blosc
引用 (dask#9625) Naty Clementi升级
mypy
并删除未使用的注释 (dask#9616) Hendrik Makait加固
test_repartition_npartitions
(dask#9585) Richard (Rick) Zamora
2022.10.1¶
发布于 2022 年 10 月 28 日
功能增强¶
为
set_index
添加扩展 dtype 支持 (dask#9566) James Bourbeau重新设计数组 HTML repr 以提高清晰度 (dask#9519) Shingo OKAWA
文档¶
添加关于默认限制线程超额订阅的注意事项 (dask#9592) James Bourbeau
为
dask
CLI 使用sphinx-click
(dask#9589) James Bourbeau修复 Semaphore API 文档 (dask#9584) James Bourbeau
在
map_overlap
docstring 中渲染元描述 (dask#9568) James Bourbeau
维护¶
Dask 中需要 Click 7.0+ (dask#9595) John A Kirkham
临时限制
bokeh<3
(dask#9607) James Bourbeau解决
upstream
CI 中与importlib
相关的失败 (dask#9604) Charles Blackmon-Luca改进
upstream
CI 报告 (dask#9603) James Bourbeau修复
upstream
CI 报告 (dask#9602) James Bourbeau移除
setuptools
主机依赖,添加 CLI 入口点 (dask#9600) Charles Blackmon-Luca
2022.10.0¶
发布于 2022 年 10 月 14 日
新功能¶
Dask-Array 和 Dask-DataFrame 中 IO 的后端库调度 (dask#9475) Richard (Rick) Zamora
添加可扩展的新 CLI (dask#9283) Doug Davis
功能增强¶
修复数组复制不是无操作的问题 (dask#9555) David Hoese
在
map_overlap
中添加对字符串 timedelta 的支持 (dask#9559) Nicolas Grandemange使
datetime.datetime
幂等地进行 tokenization (dask#9532) Martin Durant
错误修复¶
避免延迟调度注册中的竞态条件 (dask#9545) James Bourbeau
不允许对
int
dtype 进行np.nan
的 setitem (dask#9531) Doug Davis修复选择时投影 CSV 列的问题 (dask#9534) Martin Durant
文档¶
更新 Parquet 最佳实践 (dask#9537) Matthew Rocklin
维护¶
限制
tiledb-py
版本以避免 CI 失败 (dask#9569) James Bourbeau升级
actions/github-script
从 3 到 6 (dask#9564)升级
actions/stale
从 4 到 6 (dask#9551)升级
peter-evans/create-pull-request
从 3 到 4 (dask#9550)升级
actions/checkout
从 2 到 3.1.0 (dask#9552)升级
codecov/codecov-action
从 1 到 3 (dask#9549)升级
the-coding-turtle/ga-yaml-parser
从 0.1.1 到 0.1.2 (dask#9553)移动 dependabot 配置文件 (dask#9547) James Bourbeau
为 GitHub actions 添加 dependabot (dask#9542) James Bourbeau
在 Windows 和 Linux 上运行 mypy (dask#9530) crusaderky
更新 gpuCI
RAPIDS_VER
到22.12
(dask#9524)
2022.9.2¶
发布于 2022 年 9 月 30 日
功能增强¶
从数组自动分块中移除因子分解逻辑 (dask#9507) James Bourbeau
文档¶
添加关于在独立 Python 脚本中运行 Dask 的文档 (dask#9513) James Bourbeau
2022.9.1¶
发布于 2022 年 9 月 16 日
新功能¶
添加
DataFrame
和Series
的median
方法 (dask#9483) James Bourbeau
功能增强¶
按列表过滤 (dask#9419) Greg Hayes
将
distributed.utils.key_split
功能添加到dask.utils.key_split
(dask#9464) Luke Conibear
错误修复¶
修复重叠问题,使
set_index
不会丢弃行 (dask#9423) Julia Signell修复当
ddf.columns.min()
引发异常时将 pandasSeries
分配给列的问题 (dask#9485) Erik Welch修复元数据比较
stack_partitions
(dask#9481) James Bourbeau为
split_out
提供默认值 (dask#9493) Lawrence Mitchell
文档¶
修复
enforce_metadata
文档,不检查 dtypes (dask#9474) Nicolas Grandemange修复
it's
->its
拼写错误 (dask#9484) Nat Tabris
维护¶
解决使用某些 datetime series 而不是其他系列时 parquet 写入失败的变通方法 (dask#9500) Ian Rose
过滤掉来自
pandas
的numeric_only
警告 (dask#9496) James Bourbeau在非必要时避免使用
set_index(..., inplace=True)
(dask#9472) James Bourbeau避免传递长度为一的 groupby 键列表 (dask#9495) James Bourbeau
基于
cudf
对group_keys
的支持更新test_groupby_dropna_cudf
(dask#9482) James Bourbeau移除
dd.from_bcolz
(dask#9479) James Bourbeau将
flake8-bugbear
添加到pre-commit
钩子 (dask#9457) Luke Conibear在函数定义中绑定循环变量 (
B023
) (dask#9461) Luke Conibear添加断言用于比较 (
B015
) (dask#9459) Luke Conibear在 CI 工作流中设置顶层默认 shell (dask#9469) James Bourbeau
移除未使用的循环控制变量 (
B007
) (dask#9458) Luke Conibear替换常量属性的
getattr
调用 (B009
) (dask#9460) Luke Conibear固定
libprotobuf
以允许 upstream CI 构建中使用 nightlypyarrow
(dask#9465) Joris Van den Bossche替换默认参数的可变数据结构 (
B006
) (dask#9462) Luke Conibear更改
flake8
镜像并更新版本 (dask#9456) Luke Conibear
2022.9.0¶
发布于 2022 年 9 月 2 日
功能增强¶
为
groupby
聚合启用自动列投影 (dask#9442) Richard (Rick) Zamora在 NEP-13/17 调度中接受超类 (dask#6710) Gabe Joseph
错误修复¶
为了在相同的
by
列上进行累积操作,内部重命名by
列 (dask#9430) Pavithra Eswaramoorthy修复带有分类数据的
get_group
(dask#9436) Pavithra Eswaramoorthy修复与缓存相关的
MaterializedLayer.cull
性能退化 (dask#9413) Richard (Rick) Zamora
文档¶
添加维护者文档页面 (dask#9309) James Bourbeau
维护¶
还原跳过的 fastparquet 测试 (dask#9439) Pavithra Eswaramoorthy
tmpfile
在空扩展名时不会以点结尾文件 (dask#9429) Hendrik Makait跳过最新版本中失败的 fastparquet 测试 (dask#9432) James Bourbeau
2022.8.1¶
发布于 2022 年 8 月 19 日
新功能¶
实现
ma.*_like functions
(dask#9378) Ruth Comer
功能增强¶
基于 Shuffle 的高基数组 groupby 聚合 (dask#9302) Richard (Rick) Zamora
解包
namedtuple
(dask#9361) Hendrik Makait
错误修复¶
修复带有
axis=1
的SeriesGroupBy
累积函数 (dask#9377) Pavithra Eswaramoorthy修复在使用带有索引的分类列时的
make_meta
(dask#9348) Pavithra Eswaramoorthy不允许在
DataFrame.dropna
中使用不兼容的关键字 (dask#9366) Naty Clementi使
set_index
处理完全空的 dataframe (dask#8896) Julia Signell改进
unpack_collections
中的dataclass
处理 (dask#9345) Hendrik Makait
文档¶
澄清
bind()
等函数会重新生成键 (dask#9385) crusaderky合并仪表板诊断文档 (dask#9357) Sarah Charlotte Johnson
移除过时的
meta
信息 Pavithra Eswaramoorthy
维护¶
在
sizeof
中使用entry_points
工具 (dask#9390) James Bourbeau添加
entry_points
兼容性工具 (dask#9388) Jacob Tomlinson为每个 CI 构建上传环境文件 artifact (dask#9372) James Bourbeau
移除 CI 中的
werkzeug
pin (dask#9371) James Bourbeau修复
dd.from_pandas
和dd.from_delayed
的类型注解 (dask#9362) Jordan Yap
2022.8.0¶
发布于 2022 年 8 月 5 日
功能增强¶
确保
make_meta
不持有数据的引用 (dask#9354) Jim Crist-Harif修改
from_pandas
中的divisions
逻辑 (dask#9221) Richard (Rick) Zamora如果用户使用现有索引设置索引则发出警告 (dask#9341) Julia Signell
为
da.average
添加keepdims
关键字 (dask#9332) Ruth Comer更改
repr
方法以避免Layer
实例化 (dask#9289) Richard (Rick) Zamora
错误修复¶
确保
order
kwarg 不会导致astype
方法崩溃 (dask#9317) Genevieve Buckley修复
cumsum
在 cupy 分块 dask 数组上的 bug (dask#9320) Genevieve Buckley在
_sample_reduce
中匹配输入和输出结构 (dask#9272) Pavithra Eswaramoorthy在数组序列化中包含
meta
(dask#9240) Frédéric BRIOL修复
Index.memory_usage
(dask#9290) James Bourbeau修复
dask.dataframe.io.from_dask_array
中的 division 计算 (dask#9282) Jordan Yap
文档¶
如何在自定义任务图中使用 kwargs (dask#9322) Genevieve Buckley
在
da.from_array
中添加关于顺序不保留的注意事项 (dask#9346) Julia Signell为异步函数添加 I/O 信息 (dask#9326) Logan Norman
整理 futures IO 函数的文档片段 (dask#9340) Julia Signell
在
dataframe-groupby.rst
中对 pandasdf
和 Daskddf
使用一致的变量名 (dask#9304) ivojuroro在配置转换器中将
js-yaml
替换为yaml.js
(dask#9306) Jacob Tomlinson
维护¶
更新
da.linalg.solve
以兼容 SciPy 1.9.0 (dask#9350) Pavithra Eswaramoorthy更新
test_getitem_avoids_large_chunks_missing
(dask#9347) Pavithra Eswaramoorthy修复文档标题“Extend
sizeof
”的格式 Doug Davis在测试中导入
loop_in_thread
fixture (dask#9337) James Bourbeau临时
xfail
test_solve_sym_pos
(dask#9336) Pavithra Eswaramoorthy修复 10分钟上手 Dask 页面中的一个小拼写错误 (dask#9329) Shaghayegh
在 CI 中临时固定
werkzeug
以避免测试套件挂起 (dask#9325) James Bourbeau为
cupy.angle()
添加测试 (dask#9312) Peter Andreas Entschev更新 gpuCI
RAPIDS_VER
到22.10
(dask#9314)将
pandas[test]
添加到test
extra (dask#9110) Ben Beasley将
bokeh
和scipy
添加到upstream
CI 构建 (dask#9265) James Bourbeau
2022.7.1¶
发布于 2022 年 7 月 22 日
功能增强¶
如果所有轴都被压缩,则返回 Dask 数组 (dask#9250) Pavithra Eswaramoorthy
使 toposort 报告的循环更短 (dask#9068) Erik Welch
未知分块切片 - 抛出信息性错误 (dask#9285) Naty Clementi
错误修复¶
修复
HighLevelGraph.cull
中的 bug (dask#9267) Richard (Rick) Zamora排序分类 (dask#9264) Pavithra Eswaramoorthy
使用
max
(而不是sum
) 计算warnsize
(dask#9235) Pavithra Eswaramoorthy修复使用 pyarrow 对分区列进行过滤时的 bug (dask#9252) Richard (Rick) Zamora
文档¶
更新 repartition 文档以添加关于
partition_size
的注意事项 (dask#9288) Dylan Stewart不要在
Array
方法中包含文档,只引用模块文档 (dask#9244) Julia Signell移除过时的 scheduler 和 worker 仪表板引用 (dask#9278) Pavithra Eswaramoorthy
维护¶
为
dd.from_pandas
和dd.from_delayed
添加类型注解 (dask#9237) Michael Milton更新
calculate_divisions
docstring (dask#9275) Tom Augspurger为即将发布的
bokeh
版本更新test_plot_multiple
(dask#9261) James Bourbeau
2022.7.0¶
发布于 2022 年 7 月 8 日
功能增强¶
在
normalize_token
中支持pathlib.PurePath
(dask#9229) Angus Hollands为属性添加
AttributeNotImplementedError
,以便 IPython glob 搜索正常工作 (dask#9231) Erik Welchmap_overlap
: 多 dataframe 处理 (dask#9145) Fabien Aulaire在
dask.sizeof
中读取 entrypoints (dask#7688) Angus Hollands
错误修复¶
修复使用
Client(processes=False)
写入 parquet 数据集时出现的TypeError: 'Serialize' object is not subscriptable
(dask#9015) Lucas Miguel Ponce与空 dataframe 进行
concat
时校正 dtypes (dask#9193) Pavithra Eswaramoorthy
文档¶
突出显示关于 persist 的注意事项 (dask#9234) Pavithra Eswaramoorthy
更新 release-procedure 以包含更多细节和有用的命令 (dask#9215) Julia Signell
Futures 和 Dask vs. Spark 页面的更好 SEO (dask#9217) Sarah Charlotte Johnson
维护¶
对列表、元组和迭代器使用
math.prod
而不是np.prod
(dask#9232) crusaderky仅在类型检查时导入 IPython (dask#9230) Florian Jetter
更严格的 mypy 检查 (dask#9206) crusaderky
2022.6.1¶
发布于 2022 年 6 月 24 日
功能增强¶
创建
dask.utils.show_versions
(dask#9144) Sultan Orazbayev为 dask.dataframe 对象上不支持的 numpy 操作提供更好的错误消息。 (dask#9201) Julia Signell
为
dask.array.overlap
函数添加allow_rechunk
kwarg (dask#7776) Genevieve Buckley为
dask.utils.format_time
添加分钟和小时 (dask#9116) Matthew Rocklin
错误修复¶
Timedelta 确定性哈希 (dask#9213) Fabien Aulaire
Enum 确定性哈希 (dask#9212) Fabien Aulaire
shuffle_group()
: 避免转换为数组 (dask#9157) Mads R. B. Kristensen
弃用¶
弃用额外的
format_time
工具 (dask#9184) James Bourbeau
文档¶
10分钟上手 Dask 的更好 SEO (dask#9182) Sarah Charlotte Johnson
Delayed 和 Best Practices 的更好 SEO (dask#9194) Sarah Charlotte Johnson
在 DataFrame
str.split
accessor docstring 中包含已知不一致性 (dask#9177) Richard Pelgrim为
derived_from
添加inconsistencies
关键字 (dask#9192) Richard Pelgrim修复 Best Practices 中的缩进 (dask#9196) Sarah Charlotte Johnson
添加指向 Genevieve Buckley 关于 chunk sizes 博客的链接 (dask#9199) Pavithra Eswaramoorthy
更新
to_csv
docstring (dask#9094) Sarah Charlotte Johnson
维护¶
更新 versioneer:从使用
SafeConfigParser
更改为ConfigParser
(dask#9205) Thomas A Caswell移除 CI 中的 ipython hack (dask#9200) crusaderky
2022.6.0¶
发布于 2022 年 6 月 10 日
功能增强¶
添加在 HLG JupyterLab repr 中显示层依赖名称的功能 (dask#9081) Angelos Omirolis
添加 arrow schema 提取调度 (dask#9169) GALI PREM SAGAR
为
assert_eq
添加sort_results
参数 (dask#9130) Pavithra Eswaramoorthy为
parse_timedelta
添加周 (dask#9168) Matthew Rocklin警告 cloudpickle 不总是确定性的 (dask#9148) Pavithra Eswaramoorthy
切换 parquet 默认引擎 (dask#9140) Jim Crist-Harif
使用确定性哈希处理
_iLocIndexer
/_LocIndexer
(dask#9108) Fabien Aulaire在
to_parquet
pyarrow 中强制执行一致的 schema (dask#9131) Jim Crist-Harif
错误修复¶
修复
pyarrow.StringArray
pickle (dask#9170) Jim Crist-Harif修复 pyarrow 引擎中的并行元数据收集 (dask#9165) Richard (Rick) Zamora
改进
pyarrow
分区逻辑 (dask#9147) James Bourbeaupyarrow
8.0 分区修复 (dask#9143) James Bourbeau
文档¶
Installing Dask 和 Dask DataFrame Best Practices 的更好 SEO (dask#9178) Sarah Charlotte Johnson
更新文档中的 logos 页面 (dask#9167) Sarah Charlotte Johnson
在
map_partition
docstring 中添加使用 pandas Series 的示例 (dask#9161) Alex-JG3更新文档主题以适应品牌重塑 (dask#9160) Sarah Charlotte Johnson
Dask DataFrames 文档的更好 SEO (dask#9128) Sarah Charlotte Johnson
维护¶
从下游库的推荐实践中移除 ensure_file (dask#9171) Matthew Rocklin
测试 DataFrame parquet I/O 的往返,包括 pyspark (dask#9156) Ian Rose
将最佳实践链接到 DataFrame-parquet (dask#9150) Tom Augspurger
修复
map_partitions
func
参数描述中的拼写错误 (dask#9149) Christopher Akiki取消
xfail
test_groupby_grouper_dispatch
(dask#9139) GALI PREM SAGAR临时从 distributed 导入 cleanup fixture (dask#9138) James Bourbeau
简化 pyarrow parquet 引擎中的分区逻辑 (dask#9041) Richard (Rick) Zamora
2022.05.2¶
发布于 2022 年 5 月 26 日
功能增强¶
为非 pandas
Grouper
对象添加调度并在GroupBy
中使用 (dask#9074) brandon-b-miller如果
read_parquet
和to_parquet
文件有交集则报错 (dask#9124) Jim Crist-Harif
文档¶
修复各种拼写错误 (dask#9126) Ryan Russell
维护¶
修复不稳定的
test_filter_nonpartition_columns
(dask#9127) Pavithra Eswaramoorthy更新 gpuCI
RAPIDS_VER
到22.08
(dask#9120)在 sdists 中包含
conftest.py`
(dask#9115) Ben Beasley
2022.05.1¶
发布于 2022 年 5 月 24 日
新功能¶
添加
DataFrame.from_dict
类方法 (dask#9017) Matthew Powers为 Dask DataFrame 添加
from_map
函数 (dask#8911) Richard (Rick) Zamora
功能增强¶
改进
to_parquet
在附加 divisions 重叠时的错误消息 (dask#9102) Jim Crist-Harif启用用户定义的进程初始化函数 (dask#9087) ParticularMiner
在
map_partitions
错误中提及align_dataframes=False
选项 (dask#9075) Gabe Joseph为
dask.array.map_blocks()
添加enforce_ndim
kwarg (dask#8865) ParticularMiner实现
Series.GroupBy.fillna
/DataFrame.GroupBy.fillna
方法 (dask#8869) Pavithra Eswaramoorthy允许 Dask DataFrame 使用
fillna
(dask#8950) Pavithra Eswaramoorthy更新使用一维 dask 数组进行赋值时的错误消息 (dask#9036) Pavithra Eswaramoorthy
集合协议 (dask#8674) Doug Davis
针对
pandas
ArrowStringArray
pickling 的补丁 (dask#9024) Jim Crist-Harif添加
p2p
shuffle 选项 (dask#8836) Matthew Rocklin
错误修复¶
修复无列的列投影 (dask#9106) Jim Crist-Harif
修复
from_map
中的列投影 bug (dask#9078) Richard (Rick) Zamora防止非数值 dtypes 索引中出现 null 值 (dask#8963) Jorge López
修复
is_monotonic
方法,使其支持超过 8 个分区 (dask#9019) Julia Signell处理 enumerate 和 generator 输入到
from_map
(dask#9066) Richard (Rick) Zamora回滚
is_dask_collection
;恢复到先前的实现 (dask#9062) Doug Davis数组
setitem
硬掩码 (dask#9027) David Hassell
已弃用¶
为
read_parquet
的 kwargschunksize
和aggregate_files
添加预弃用警告 (dask#9052) Richard (Rick) Zamora
文档¶
记录
map_partitions
处理args
与kwargs
的方式以及partition_info
的使用 (dask#9084) Charles Blackmon-Luca更新自定义集合文档(利用新的集合协议)(dask#9097) Doug Davis
改进有关创建和存储 Dask DataFrame 的文档的 SEO (dask#9098) Sarah Charlotte Johnson
澄清
imread
docstring 中的分块(chunking) (dask#9082) Genevieve Buckley重新组织文档目录(TOC) (dask#9001) Matthew Rocklin
更正了
map_blocks()
关于关键字参数enforce_ndim
的 docstring (dask#9071) ParticularMiner更新 DataFrame SQL 文档中对其他库的引用 (dask#9077) Charles Blackmon-Luca
更新关于创建和存储 Dask DataFrame 的页面 (dask#9025) Sarah Charlotte Johnson
维护¶
在许可文件中包含
NUMPY_LICENSE.txt
(dask#9113) Ben Beasley安装每晚构建的
pandas
时增加重试次数 (dask#9103) James Bourbeau在上游构建中强制使用每晚构建的
pyarrow
(dask#9095) Joris Van den Bossche改进
ensure_unicode
的对象处理和测试 (dask#9059) John A Kirkham在上游构建中强制使用每晚构建的
pyarrow
(dask#8993) Joris Van den Bossche对
is_dask_collection
添加额外检查 (dask#9054) Doug Davis更新
ensure_bytes
(dask#9050) John A Kirkham添加文件末尾 pre-commit 钩子 (dask#9045) James Bourbeau
添加
codespell
pre-commit 钩子 (dask#9040) James Bourbeau移除 HDFS 测试 (dask#9039) Jim Crist-Harif
修复不稳定的
test_reductions_2D
(dask#9037) Jim Crist-Harif防止 codecov 过早通知失败 (dask#9031) Jim Crist-Harif
仅在 macos 上的 Python 3.9 进行测试 (dask#9029) Jim Crist-Harif
更新
to_timedelta
默认单位 (dask#9010) Pavithra Eswaramoorthy
2022.04.2¶
Released on April 29, 2022
亮点¶
此版本包括对 dask.dataframe.read_parquet
和 dask.dataframe.to_parquet
的几项弃用/破坏性 API 更改
to_parquet
默认不再写入_metadata
文件。如果您想写入_metadata
文件,可以传入write_metadata_file=True
。read_parquet
现在默认设置为split_row_groups=False
,这导致在读取 parquet 数据集时,每个 parquet 文件对应一个 Dask dataframe 分区。如果您正在处理大型 parquet 文件,您可能需要设置split_row_groups=True
以减小分区大小。read_parquet
默认不再计算 divisions。如果您要求read_parquet
返回具有已知 divisions 的 dataframe,请设置calculate_divisions=True
。read_parquet
已弃用关键字参数gather_statistics
。请改用关键字参数calculate_divisions
。read_parquet
已弃用关键字参数require_extensions
。请改用关键字参数parquet_file_extension
。
新特性¶
将
removeprefix
和removesuffix
添加为StringMethods
(dask#8912) Jorge López
改进¶
在
to_parquet
中调用fs.invalidate_cache
(dask#8994) Jim Crist-Harif将
to_parquet
默认更改为write_metadata_file=None
(dask#8988) Jim Crist-Harif允许 arg reductions 传递
keepdims
(dask#8926) Julia Signell在
read_parquet
中将split_row_groups
默认更改为False
(dask#8981) Richard (Rick) Zamora改进
da.reshape
的NotImplementedError
消息 (dask#8987) Jim Crist-Harif简化
to_parquet
计算路径 (dask#8982) Jim Crist-Harif如果尝试将
vindex
与 Dask 对象一起使用,则引发错误 (dask#8945) Julia Signell指定 precache 方法时避免使用
pre_buffer=True
(dask#8957) Richard (Rick) Zamorafrom_dask_array
使用blockwise
而不是合并图 (dask#8889) Bryan Weber对“pyarrow” Parquet 引擎使用
pre_buffer=True
(dask#8952) Richard (Rick) Zamora
错误修复¶
修复由
blockwise
合并导致的dask-sql
错误 (dask#8989) Richard (Rick) Zamorato_parquet
在非字符串列名时出错 (dask#8990) Jim Crist-Harif确保
da.roll
即使 shape 为 0 也能正常工作 (dask#8925) Julia Signell修复
set_index
的递归错误问题 (dask#8967) Paul Hobson在
produces_keys=True
时将BlockwiseDepDict
映射值字符串化 (dask#8972) Richard (Rick) Zamora在
DataFrame.from_delayed
中使用DataFrameIOLayer
(dask#8852) Richard (Rick) Zamora检查
read_parquet
中in
谓词的值是否正确 (dask#8846) Bryan Weber在
read_sql_query
中使用np.linspace
决定 division 时指定dtype
(dask#8940) Cheun Hong
弃用¶
弃用
read_parquet
中的gather_statistics
(dask#8992) Richard (Rick) Zamora将
require_extension
更改为顶层parquet_file_extension
read_parquet
关键字参数 (dask#8935) Richard (Rick) Zamora
文档¶
更新文档中关于
write_metadata_file
的讨论 (dask#8995) Richard (Rick) Zamora更新
DataFrame.merge
docstring (dask#8966) Pavithra Eswaramoorthy添加了
array.blockwise()
中参数align_arrays
的描述 (dask#8977) ParticularMiner建议不要在数组的分块轴上使用
map_block(drop_axis=...)
(dask#8921) ParticularMiner在文档的代码片段中添加复制按钮 (dask#8956) James Bourbeau
维护¶
在 CI 的分布式环境中添加
pytest-timeout
(dask#8986) Julia Signell改进
read_parquet
docstring 格式 (dask#8971) Bryan Weber移除
pytest.warns(None)
(dask#8924) Pavithra Eswaramoorthy将 Python 3.10 标记为受支持的 (dask#8976) Eray Aslan
parse_timedelta
选项以强制显式单位 (dask#8969) crusaderkymypy
兼容性 (dask#8854) Paul Hobson添加 Dask 与 Parquet 的文档页面 (dask#8899) Jim Crist-Harif
添加配置以忽略 blame 中的修订版本 (dask#8933) Bryan Weber
2022.04.1¶
Released on April 15, 2022
改进¶
当
write_metadata_file=False
时,避免在 pyarrow 中收集 parquet 元数据 (dask#8906) Richard (Rick) Zamora改进
dd.read_csv()
中通配符路径失败时的错误提示 (修复 #8878) (dask#8908) Roger Filmyer对于
dd.Series
上的非 ufunc 逐元素函数,返回da.Array
而不是dd.Series
(dask#8558) Julia Signell允许
get_dummies
在map_partitions
中使用meta
计算 (dask#8898) Julia Signell带掩码标量输入到
da.from_array
(dask#8895) David Hassell在
merge_asof
中为重复的kwargs
引发ValueError
(dask#8861) Bryan Weber
错误修复¶
使
is_monotonic
在某些分区为空时也能工作 (dask#8897) Julia Signell当
inline_array=False
时,修复da.from_array
中的自定义 getter (dask#8903) Ian Rose修复
merge_asof
:如果left_on == right_on
,则丢弃索引列 (dask#8874) Gil Forsyth
弃用¶
警告用户
engine='auto'
将在未来更改 (dask#8907) Jim Crist-Harif从 parquet API 中移除
pyarrow-legacy
引擎 (dask#8835) Richard (Rick) Zamora
文档¶
添加关于
dask.array.dot
中缺失参数out
的说明 (dask#8913) Francesco Andreuzzi更新
DataFrame.query
docstring (dask#8890) Pavithra Eswaramoorthy
维护¶
不在大型整数数据上测试
da.prod
(dask#8893) Jim Crist-Harif为在没有互联网连接时失败的测试添加
network
标记 (dask#8881) Paul Hobson修复 gpuCI GHA 版本 (dask#8891) Charles Blackmon-Luca
xfail
/skip
一些不稳定的distributed
测试 (dask#8887) Jim Crist-Harif从
ArrowDatasetEngine
中移除未使用(已弃用)的代码 (dask#8885) Richard (Rick) Zamora为通用工具函数添加轻度类型注解,第二部分 (dask#8867) crusaderky
sample()
局限性的文档 (dask#8858) Nadiem Sissouno
2022.04.0¶
Released on April 1, 2022
注意
这是第一个支持 Python 3.10 的版本
新特性¶
添加 Python 3.10 支持 (dask#8566) James Bourbeau
改进¶
对
dtype.itemsize
添加检查,以便产生有用的错误提示 (dask#8860) Davide Gavio为通用工具函数添加轻度类型注解 (dask#8848) Matthew Rocklin
为
divisions
的setter
添加合理性检查 (dask#8806) Jim Crist-Harif对更多任务使用
Blockwise
和map_partitions
(dask#8831) Bryan Weber
错误修复¶
修复
dataframe.merge_asof
以保留right_on
列 (dask#8857) Sarah Charlotte Johnson修复 32 位系统上 pandas >= 1.3 的“Buffer dtype mismatch”错误 (dask#8851) Ben Greiner
弃用¶
移除对 PyPy 的支持 (dask#8863) James Bourbeau
运行时移除对
setuptools
的依赖 (dask#8855) crusaderky移除
dataframe.tseries.resample.getnanos
(dask#8834) Sarah Charlotte Johnson
文档¶
组织诊断和性能文档 (dask#8871) Naty Clementi
添加图片解释
map_blocks
的drop_axis
选项 (dask#8868) ParticularMiner
维护¶
将 gpuCI 的
RAPIDS_VER
更新到22.06
(dask#8828)在 http 中恢复
test_parquet
(dask#8850) Bryan Weber简化 gpuCI 更新流程 (dask#8849) Charles Blackmon-Luca
2022.03.0¶
Released on March 18, 2022
新特性¶
Bag: 添加水库抽样(reservoir sampling)的实现 (dask#7636) Daniel Mesejo-León
向 Dask array 添加
ma.count
(dask#8785) David Hassell将
to_parquet
默认更改为compression="snappy"
(dask#8814) Jim Crist-Harif向
dask.array.reduction
添加weights
参数 (dask#8805) David Hassell添加
ddf.compute_current_divisions
以获取已排序索引或列上的 divisions (dask#8517) Julia Signell
改进¶
为未实现的 merge
how
选项引发异常 (dask#8818) Naty Clementi将
Bag.map_partitions
移至Blockwise
(dask#8646) Richard (Rick) Zamora改进格式错误配置文件时的错误消息 (dask#8801) Jim Crist-Harif
修改列投影优化以捕捉常见的 dask-sql 模式 (dask#8692) Richard (Rick) Zamora
空 divisions 的有用错误提示 (dask#8789) Pavithra Eswaramoorthy
Scipy 1.8.0 兼容性: 将私有类复制到
dask/array/stats.py
(dask#8694) Julia Signell当使用多种类型的调度器且其中之一是
distributed
时,引发警告 (dask#8700) Pedro Silva
错误修复¶
修复在
read_parquet
中应用!=
过滤器的错误 (dask#8824) Richard (Rick) Zamora修复当直接传入 dask Index 时
set_index
的问题 (dask#8680) Paul Hobson快速修复 tensordot 中无限内存使用的问题 (dask#7980) Genevieve Buckley
如果 hdf 文件为空,则在 meta 创建时不要失败 (dask#8809) Julia Signell
更新
clone_key("x")
以保留前缀 (dask#8792) crusaderky修复基于 pyarrow 的
read_parquet
中的“physical”列错误 (dask#8775) Richard (Rick) Zamora修复序列化错误 (dask#8786) Richard (Rick) Zamora
弃用¶
将 diagnostics bokeh 依赖项升级到 2.4.2 (dask#8791) Charles Blackmon-Luca
弃用
bcolz
支持 (dask#8754) Pavithra Eswaramoorthy完成将
map_overlap
的默认 boundarykwarg
设为'none'
(dask#8743) Genevieve Buckley
文档¶
修复自定义集合示例文档 (dask#8807) Doug Davis
在文档中添加
Series.str
,Series.dt
, 和Series.cat
访问器 (dask#8757) Sarah Charlotte Johnson修复
ddf.compute_current_divisions
的 docstring (dask#8793) Julia Signell在
/status
页面上的 Dashboard 文档 (dask#8648) Naty Clementi澄清 repartition docstring 中的
divisions
kwarg
(dask#8781) Sarah Charlotte Johnson更新 Docker 镜像以使用
ghcr.io
(dask#8774) Jacob Tomlinson
维护¶
降低 gpuci
pytest
的并行度 (dask#8826) GALI PREM SAGARabsolufy-imports
- 无相对导入 - PEP8 (dask#8796) Julia Signell整理数组测试中的
assert_eq
调用 (dask#8812) Julia Signell修复
test_describe_empty
使其在没有全局-Werror
的情况下也能工作 (dask#8291) Michał Górny暂时将 windows 上的 graphviz 测试标记为 xfail (dask#8794) Jim Crist-Harif
使用
packaging.parse
实现md5
兼容性 (dask#8763) James Bourbeau使
tokenize
在 FIPS 140-2 环境中工作 (dask#8762) Jim Crist-Harif在议题和 PR 开启时标记为‘needs triage’ (dask#8761) Julia Signell
指定 action 版本并将
pull_request_target
更改为pull_request
(dask#8767) Julia Signell使 scheduler 的
kwarg
在da.assert_eq
中透传到子函数 (dask#8755) Julia Signell
2022.02.1¶
Released on February 25, 2022
新特性¶
向
dask.dataframe.pivot_table
添加聚合函数first
和last
(dask#8649) Knut Nordanger为类似 pandas 的对象添加对
datetime64
dtype
的std()
支持 (dask#8523) Ben Glossner向
HighLevelGraph
和Layer
的 html repr 中添加具体化任务计数 (dask#8589) kori73
改进¶
不允许迭代
DataFrameGroupBy
(dask#8696) Bryan Weber修复对空
DataFrame
调用info()
后缺失换行符的问题 (dask#8727) Naty Clementi改进多 dataframe join 性能 (dask#8740) Holden Karau
为
Index
包含bool
类型 (dask#8732) Naty Clementi允许
ArrowDatasetEngine
子类覆盖 pandas 到 arrow 的转换,也包括分区写入 (dask#8741) Joris Van den Bossche提高
da.diag()
和da.diagonal()
中 k 对角线提取的性能 (dask#8689) ParticularMiner对
dataclasses
进行 tokenize (dask#8557) Gabe Joseph更新
tokenize
以区别对待dict
和kwargs
(dask#8655) James Bourbeau
错误修复¶
修复
dask.array.roll()
中与输入数组大小匹配的 roll-shift 错误 (dask#8723) ParticularMiner修复
normalize_function
的dataclass
方法 (dask#8527) Sarah Charlotte Johnson修复带有 zero-size-chunks 的 rechunking 问题 (dask#8703) ParticularMiner
移动
sqlalchemy
连接的创建,以提高可 picklability 性 (dask#8745) Julia Signell
弃用¶
停止支持 Python 3.7 (dask#8572) James Bourbeau
弃用
iteritems
(dask#8660) James Bourbeau弃用
dataframe.tseries.resample.getnanos
(dask#8752) Sarah Charlotte Johnson为 pyarrow-legacy 引擎添加弃用警告 (dask#8758) Richard (Rick) Zamora
文档¶
更新 changelog 中的链接拼写错误 (dask#8717) James Bourbeau
更新 Docker 示例以使用当前最佳实践 (dask#8731) Jacob Tomlinson
更新文档以包含
distributed.Client.preload
(dask#8679) Bryan Weber记录月度社交会议 (dask#8595) Thomas Grainger
添加关于使用 RBAC/ACL (即 security principal) 访问 Gen2 的文档 (dask#8748) Martin Thøgersen
使用来自
dask-sphinx-theme
的 Dask 配置扩展 (dask#8751) Benjamin Zaitlen
维护¶
在 CI 中解除
coverage
的版本限制 (dask#8690) James Bourbeau为运行测试套件添加手动触发器 (dask#8716) James Bourbeau
Xfail
scheduler_HLG_unpack_import
; 不稳定测试 (dask#8724) Mike McCarty暂时移除
scipy
的上游 CI 构建 (dask#8725) James Bourbeau将预发布版本升级到大于稳定版本 (dask#8728) Charles Blackmon-Luca
将自定义排序函数逻辑移至内部
sort_values
(dask#8571) Charles Blackmon-Luca在文档要求中限定
cloudpickle
和scipy
的版本 (dask#8737) Julia Signell使 labeler 不删除标签,并在正确的位置查找文档 (dask#8746) Julia Signell
修复文档构建警告 (dask#8432) Kristopher Overholt
更新测试状态徽章 (dask#8747) James Bourbeau
修复 parquet
test_pandas_timestamp_overflow_pyarrow
测试 (dask#8733) Joris Van den Bossche仅在相关文件更改时运行 PR 构建 (dask#8756) Charles Blackmon-Luca
2022.02.0¶
Released on February 11, 2022
注意
这是最后一个支持 Python 3.7 的版本
新特性¶
使用现有 array 时,向
to_zarr
添加region
(dask#8590) Chris Roat向
dask.dataframe.to_sql
添加engine_kwargs
支持 (dask#8609) Amir Kadivar向
read_json
添加include_path_column
参数 (dask#8603) Bryan Weber
改进¶
向
assert_eq
工具函数添加 scheduler 选项 (dask#8610) Xinrong Meng修复
axis=None
与 NumPy 的 concatenate 不一致问题 (dask#8686) Tom White类型注解,第一部分 (dask#8295) crusaderky
真正允许将任何可迭代对象作为
meta
传入 (dask#8629) Julia Signell在
to_parquet
中使用map_partitions
(Blockwise) (dask#8487) Richard (Rick) Zamora
错误修复¶
数组归约的结果不应依赖于其 chunk-structure (dask#8637) ParticularMiner
在 ACA 代码路径中,向
map_partitions
传递占位符元数据 (dask#8643) Richard (Rick) Zamora
弃用¶
弃用
is_monotonic
(dask#8653) James Bourbeau移除一些弃用项 (dask#8605) James Bourbeau
文档¶
将 Domino Data Lab 添加到 Hosted / managed Dask 集群 (dask#8675) Ray Bell
修复内部链接并移除已弃用函数 (dask#8715) Julia Signell
修复不平衡的反引号。(dask#8693) Matthias Bussonnier
添加高级图可视化文档 (dask#8483) Genevieve Buckley
更新
ProgressBar
的out
参数文档 (dask#8604) Pedro Silva改进
dask.config.set
的文档 (dask#8705) crusaderky恢复在 type checkers 中提及
mypy
(dask#8699) crusaderky
维护¶
更新
get_dummies
测试中的警告处理 (dask#8651) James Bourbeau添加 github changelog 模板 (dask#8714) Julia Signell
更新 LICENSE.txt 中的年份 (dask#8665) David Hoese
更新
pre-commit
版本 (dask#8691) James Bourbeau在上游 CI 构建中包含
scipy
(dask#8681) James Bourbeau在 CI 中暂时限定
scipy < 1.8.0
的版本 (dask#8683) James Bourbeau在 GPU CI 中将
scipy
限定为小于 1.8.0 (dask#8698) Julia Signell在
test_multi.py
中避免使用pytest.warns(None)
(dask#8678) James Bourbeau更新 GHA 并发作业取消 (dask#8652) James Bourbeau
使
test__get_paths
在设置了site.PREFIXES
时更健壮 (dask#8644) James Bourbeau将 gpuCI 的
PYTHON_VER
升级到 3.9 (dask#8642) Charles Blackmon-Luca
2022.01.1¶
Released on January 28, 2022
新特性¶
添加
dask.dataframe.series.view()
(dask#8533) Pavithra Eswaramoorthy
改进¶
更新
tz
对于fastparquet
+pandas
1.4.0 (dask#8626) Martin Durant清理
pandas
兼容性的杂项测试 (dask#8623) Julia SignellPandas 兼容性:过滤稀疏警告 (dask#8621) Julia Signell
如果
meta
不是pandas
对象,则失败 (dask#8563) Julia Signell使用
fsspec.parquet
模块以获得更好的远程存储read_parquet
性能 (dask#8339) Richard (Rick) Zamora将 DataFrame 的 ACA 聚合移至 HLG (dask#8468) Richard (Rick) Zamora
在
DataFrameIOLayer
中添加关于原始函数调用的可选信息 (dask#8453) Richard (Rick) Zamora重构配置默认搜索路径的检索 (dask#8573) James Bourbeau
向
Bag.to_dataframe
函数添加optimize_graph
标志 (dask#8486) Maxim Lippeveld确保延迟输出操作仍然返回路径列表 (dask#8498) Julia Signell
Pandas 兼容性:修复
to_frame
的name
不传递None
的问题 (dask#8554) Julia SignellPandas 兼容性:修复
axis=None
警告 (dask#8555) Julia Signell
错误修复¶
修复索引分组 series 的
groupby.cumsum
(dask#8588) Julia Signell修复
pandas
方法的derived_from
(dask#8612) Thomas J. Fan强制
ascending
为布尔值以便用于sort_values
(dask#8440) Charles Blackmon-Luca修复
__setitem__
索引的解析 (dask#8601) David Hassell避免切片中的除零错误 (dask#8597) Doug Davis
弃用¶
将 (dask#8563) 中的
meta
错误降级为警告 (dask#8628) Julia SignellPandas 兼容性:当
pandas >= 1.4.0
时弃用append
(dask#8617) Julia Signell
文档¶
重构部署文档 (dask#8602) Jacob Tomlinson
维护¶
在 CI 中限定
coverage
的版本 (dask#8631) James Bourbeau将
cached_cumsum
导入移至来自dask.utils
(dask#8606) James Bourbeau将 gpuCI 的
RAPIDS_VER
更新到22.04
(dask#8600)更新
from_delayed
函数的 docstring (dask#8576) Kirito1397处理
plot_width
/plot_height
弃用 (dask#8544) Bryan Van de Ven移除不必要的
pyyaml
importorskip
(dask#8562) James Bourbeau在 DataFrame
assert_eq
中指定 scheduler (dask#8559) Gabe Joseph
2022.01.0¶
Released on January 14, 2022
新特性¶
添加
DataFrame.nunique
(dask#8479) Sarah Charlotte Johnson添加
da.ndim
以匹配np.ndim
(dask#8502) Julia Signell
改进¶
仅当 NumPy 版本 >= 1.22 时,显示
percentile
的interpolation=
关键字警告 (dask#8564) Julia Signell当
limit
和"array.slicing.split-large-chunks"
为None
时,引发PerformanceWarning
(dask#8511) Julia Signell确保 divisions 始终是 tuples (dask#8393) Charles Blackmon-Luca
允许对
bag.groupby
使用可调用调度器 (dask#8492) Julia Signell使
read_bytes
中的字节块更均匀 (dask#8459) Martin Durant通过完全移除连接操作提高了
matmul()
的效率 (dask#8423) ParticularMiner重塑 dask 数组时限制最大块大小 (dask#8124) Genevieve Buckley
fastparquet superthrift 的更改 (dask#8470) Martin Durant
错误修复¶
修复数组赋值中的布尔索引 (dask#8538) David Hassell
检测类数组对象的默认
dtype
(dask#8501) aeisenbarth修复
optimize_blockwise
处理重复依赖名称的 bug (dask#8542) Richard (Rick) Zamora更新
DataFrame.GroupBy.apply
和 transform 的警告信息 (dask#8507) Sarah Charlotte Johnson在
Delayed
中跟踪 HLG 层名称 (dask#8452) Gabe Joseph修复单个项的
nanmin
和nanmax
归约运算 (dask#8484) Julia Signell使带有
comment
kwarg
的read_csv
在头部包含注释时也能正常工作 (dask#8433) Julia Signell
弃用¶
将
interpolation
替换为method
,将method
替换为internal_method
(dask#8525) Julia Signell移除每日股票演示工具 (dask#8477) James Bourbeau
文档¶
修复 changelog 小节超链接 (dask#8534) Aneesh Nema
为保持一致性,将“single-machine scheduler”使用连字符连接 (dask#8519) Deepyaman Datta
规范
slicing.py
中 doctests 的空白符 (dask#8512) Maren Westermann最佳实践存储行中的拼写错误 (dask#8529) Michael Delgado
更新图表 (dask#8401) Sarah Charlotte Johnson
移除
read_parquet
docstring 中split_row_groups
关于仅支持pyarrow
的说明 (dask#8490) Naty Clementi
维护¶
移除对
fsspec>=2022.1.0
失效的过时LocalFileSystem
测试 (dask#8565) Richard (Rick) Zamora微调:“RuntimeWarning: invalid value encountered in reciprocal” (dask#8561) crusaderky
修复
DataFrame.sem
中skipna=None
的问题 (dask#8556) Julia Signell修复
PANDAS_GT_140
的问题 (dask#8552) Julia Signell具有 HLG 的集合必须始终实现
__dask_layers__
(dask#8548) crusaderky解决
import llvmlite
中的竞态条件问题 (dask#8550) crusaderky为
pyyaml
设置最低版本 (dask#8545) Gaurav Sheni在环境中添加
nodefaults
以解决tiledb
+ mac 问题 (dask#8505) Julia Signell为
setuptools
设置上限 (dask#8509) Julia Signell添加用于生成 Dask 夜间版本的 workflow / recipe (dask#8469) Charles Blackmon-Luca
将 gpuCI
CUDA_VER
提升至 11.5 (dask#8489) Charles Blackmon-Luca
2021.12.0¶
发布于 2021 年 12 月 10 日
新特性¶
添加
Series
和Index
的is_monotonic*
方法 (dask#8304) Daniel Mesejo-León
改进¶
使用
partition_info
进行块操作的map_partitions
(dask#8310) Gabe Joseph对于具有未知块大小的数组,改进长度相关的错误信息 (dask#8436) Doug Davis
在 Groupby 类内部使用
by
代替index
(dask#8441) Julia Signell允许对
sort_values
使用自定义排序函数 (dask#8345) Charles Blackmon-Luca当统计信息和分区不一致时,为
read_parquet
添加警告信息 (dask#8416) Richard (Rick) Zamora
错误修复¶
修复
map_blocks
在生成name
时未使用自身参数的问题 (dask#8462) David Hoese修复读取空 parquet 文件时的索引错误 (dask#8410) Sarah Charlotte Johnson
修复写入分区 parquet 数据时可空 dtype 的错误 (dask#8400) Richard (Rick) Zamora
修复 CSV 头部 bug (dask#8413) Richard (Rick) Zamora
修复空块在
nanmin
/nanmax
中导致异常的问题 (dask#8375) Boaz Mohar
弃用¶
弃用
map_blocks
的token
关键字参数 (dask#8464) James Bourbeaumap_overlap
中 boundary 参数默认值的弃用警告 (dask#8397) Genevieve Buckley
文档¶
澄清
block_info
文档 (dask#8425) Genevieve Buckleyalt text sprint 的输出 (dask#8456) Sarah Charlotte Johnson
更新讲座和演示文稿 (dask#8370) Naty Clementi
更新文档“付费支持”部分中的 Anaconda 链接 (dask#8427) Martin Durant
修复 CuPy doctest 错误 (dask#8412) Genevieve Buckley
维护¶
将 Bokeh 最低版本提升至 2.1.1 (dask#8431) Bryan Van de Ven
修复遵循
fsspec=2021.11.1
发布后出现的问题 (dask#8428) Martin Durant将
dask/ml.py
添加到 pytest 排除列表 (dask#8414) Genevieve Buckley更新 gpuCI
RAPIDS_VER
至22.02
(dask#8394)解除
graphviz
的版本限制,并改进 environment-3.7 中的包管理 (dask#8411) Julia Signell
2021.11.2¶
发布于 2021 年 11 月 19 日
仅每日运行 gpuCI 提升脚本 (dask#8404) Charles Blackmon-Luca
在
assert_eq
中按要求实际忽略索引 (dask#8396) Gabe Joseph确保单分区 join 的
divisions
是tuple
(dask#8389) Charles Blackmon-Luca尝试使 divisions 的行为更清晰 (dask#8379) Julia Signell
修复
set_index
partition_size
参数描述中的拼写错误 (dask#8384) FredericOdermatt在
single_partition_join
中使用blockwise
(dask#8341) Gabe Joseph使用更显式的关键字参数 (dask#8354) Boaz Mohar
修复带有可空布尔
dtype
的 DataFrame 的.loc
问题 (dask#8368) Marco Rossi移除一些文档构建警告 (dask#8369) Boaz Mohar
在 array API 文档中包含属性 (dask#8356) Julia Signell
修复 Zarr 的上游问题 (dask#8367) Julia Signell
限制
graphviz
版本以避免 windows 和 Python 3.7 的问题 (dask#8365) Julia Signell从模块顶部导入
graphviz.Diagraph
,而不是从dot
导入 (dask#8363) Julia Signell
2021.11.0¶
发布于 2021 年 11 月 5 日
修复
read_parquet
中required_extension
的行为 (dask#8351) Richard (Rick) Zamora向
map_partitions
添加align_dataframes
以广播作为参数传递的 dataframe (dask#6628) Julia Signell改进
dask.dataframe.loc
中数组/系列键的处理方式 (dask#8254) Julia Signell向
to_parquet
添加name_function
选项 (dask#7682) Matthew Powers移除
environment-latest.yml
并更新到 Python 3.9 (dask#8275) Julia Signell在 CI 中要求较新的
s3fs
(dask#8336) James BourbeauGroupby Rolling (dask#8176) Julia Signell
向
dask.visualize
添加更多排序诊断信息 (dask#7992) Erik Welchdemo_tuples
产生格式错误的HighLevelGraph
(dask#8325) crusaderkyDask 日历应显示本地时间事件 (dask#8312) Genevieve Buckley
修复不稳定的
test_interrupt
(dask#8314) crusaderky弃用
AxisError
(dask#8305) crusaderky修复扩展文档中 cuDF 的名称 (dask#8311) Vyas Ramasubramani
在 parquet 过滤器中添加单一相等运算符 (=) (dask#8300) Ayush Dattagupta
改进
read_parquet
中 Spark 输出的支持 (dask#8274) Richard (Rick) Zamora添加
dask.ml
模块 (dask#6384) Matthew RocklinCI 修复 (dask#8298) James Bourbeau
使切片错误与 NumPy 匹配 (dask#8248) Julia Signell
修复新 sphinx 主题下 API 文档渲染错误的问题 (dask#8296) Julia Signell
对于块上的类数组操作,用
blockview
替换block
属性 (dask#8242) Davis Bennett弃用
file_path
,并使其能够在 notebook 中保存 (dask#8283) Julia Signell
2021.10.0¶
发布于 2021 年 10 月 22 日
da.store
创建格式正确的HighLevelGraph
(dask#8261) crusaderkyCI:在上游构建中强制使用夜间版
pyarrow
(dask#8281) Joris Van den Bossche移除
chest
(dask#8279) James Bourbeau如果未安装可选依赖项,则跳过 doctests (dask#8258) Genevieve Buckley
更新
tmpdir
和tmpfile
上下文管理器 docstrings (dask#8270) Daniel Mesejo-León在 doctests 中取消注册回调函数 (dask#8276) James Bourbeau
Stale label GitHub action (dask#8244) Genevieve Buckley
Client-shutdown 方法出现两次 (dask#8273) German Shiklov
将 pre-commit 添加到测试依赖项 (dask#8257) Genevieve Buckley
重构
fastparquet
引擎中的read_metadata
(dask#8092) Richard (Rick) Zamora支持
from_zarr
中的Path
对象 (dask#8266) Samuel Gaist使嵌套重定向生效 (dask#8272) Julia Signell
如果在 info 中
verbose
为True
,则将memory_usage
设置为True
(dask#8222) Kinshuk Dua从 sphinx toctree 移除单独的 API 文档页面 (dask#8238) James Bourbeau
忽略 gufunc
signature
中的空白符 (dask#8267) James Bourbeau添加 workflow 以更新 gpuCI (dask#8215) Charles Blackmon-Luca
当只有一个分区时,
DataFrame.head
不应发出警告 (dask#8091) Pankaj Patil如果未安装
pyarrow
,则忽略 arrow doctests (dask#8256) Genevieve Buckley修复
debugging.html
重定向 (dask#8251) James Bourbeau修复单分区 dataframe 的空值排序问题 (dask#8225) Charles Blackmon-Luca
修复
setup.html
重定向 (dask#8249) Florian Jetter在 CI 中运行
pyupgrade
(dask#8246) crusaderky修复上游 CI 构建中的 label 拼写错误 (dask#8237) James Bourbeau
添加对 DataFrame.assign 中“dependent”列的支持 (dask#8086) Suriya Senthilkumar
将 NumPy Dask keys 数组添加到
Array
(dask#7922) Davis Bennett调整从
Executor
获取_max_workers
的方式 (dask#8228) John A Kirkham更新
delayed
最佳实践文档中的函数签名 (dask#8231) Vũ Trung Đức文档重组 (dask#7984) Julia Signell
修复所有缺失数据上的
df.quantile
问题 (dask#8129) Julia Signell添加
tokenize.ensure-deterministic
配置选项 (dask#7413) Hristo Georgiev在
pandas>=1.4.0
和pd.date_range
中使用inclusive
而不是closed
(dask#8213) Julia Signell将
dask-gateway
, Coiled 和 Saturn-Cloud 添加到 Dask 设置工具列表 (dask#7814) Kristopher Overholt确保在序列化
HighLevelGraph
层时,现有 future 作为依赖项传递 (dask#8199) Jim Crist-Harif确保单分区合并的 divisions 在左侧 (dask#8162) Julia Signell
重构
pyarrow
parquet 引擎中的read_metadata
(dask#8072) Richard (Rick) Zamora支持
map_blocks
和map_overlap
中的负drop_axis
(dask#8192) Gregory R. Lee修复上游测试 (dask#8205) Julia Signell
添加对通过 Series 进行标量项赋值的支持 (dask#8195) Charles Blackmon-Luca
在
dask.bag
all
,any
,count
方法的 doc strings 中添加一些基本示例 (dask#7630) Nathan Danielsen不要让上游报告依赖于 commit message (dask#8202) James Bourbeau
确保上游 CI cron job 运行 (dask#8200) James Bourbeau
使用
pytest.param
正确标记特定参数的 GPU 测试 (dask#8197) Charles Blackmon-Luca将
test_set_index
添加到 gpuCI 运行的测试中 (dask#8198) Charles Blackmon-Luca抑制
tmpfile
OSError (dask#8191) James Bourbeau在
set_partitions_pre
中使用s.isna
而不是pd.isna(s)
(修复 cudf CI) (dask#8193) Charles Blackmon-Luca针对
test-upstream
失败打开一个 issue (dask#8067) Wallace Reis修复
to_parquet
调用pyarrow.parquet.read_metadata
时出现的 bug (dask#8186) Richard (Rick) Zamora添加对
sort_values
中空值的处理 (dask#8167) Charles Blackmon-Luca提升 gpuCI 的
RAPIDS_VER
(dask#8184) Charles Blackmon-Luca为延迟注册的 handler 调度遍历 MRO (dask#8185) Jim Crist-Harif
在
DataFrame.from_delayed
中保留HighLevelGraphs
(dask#8174) Gabe Joseph弃用 Dask series 重命名中的
inplace
参数 (dask#8136) Marcel Coetzee修复 rolling 以兼容
pandas > 1.3.0
(dask#8150) Julia Signell对未知块使用
setitem
时引发错误 (dask#8166) Julia Signell在执行
Index.to_series
时包含 divisions (dask#8165) Julia Signell
2021.09.1¶
发布于 2021 年 9 月 21 日
修复未来 pandas 版本的
groupby
问题 (dask#8151) Julia Signell移除测试中不再需要的警告过滤器 (dask#8155) Julia Signell
在本地诊断文档中添加诊断可视化功能的链接 (dask#8157) David Hoese
向
dataframe.describe
添加datetime_is_numeric
(dask#7719) Julia Signell移除对即将弃用的
pd.Int64Index
的引用 (dask#8144) Julia Signell如果需要,为 series
__get_item__
使用loc
(dask#7953) Julia Signell专门忽略空切片平均值上的警告 (dask#8125) Julia Signell
对于 pandas >= 1.3.3,跳过
groupby
nunique
测试 (dask#8142) Julia Signell实现
sort_values
的ascending
参数 (dask#8130) Charles Blackmon-Luca替换
operator.getitem
(dask#8015) Naty Clementi弃用
zero_broadcast_dimensions
和homogeneous_deepmap
(dask#8134) SnkSynthesis允许
scheduler
是一个Executor
(dask#8112) John A Kirkham处理
asarray
/asanyarray
中like
是dask.Array
的情况 (dask#8128) Peter Andreas Entschev向
asarray
和asanyarray
定义添加dtype
和order
(dask#8106) Julia Signell弃用
dask.dataframe.Series.__contains__
(dask#7914) Julia Signell修复
_wrapped_qr
中like
数组的边缘情况问题 (dask#8122) Peter Andreas Entschev弃用
boundary_slice
kwarg:用于 pandas 兼容性的kind
(dask#8037) Julia Signell
2021.09.0¶
发布于 2021 年 9 月 3 日
减少打开的文件数 (dask#7303) Julia Signell
将
FileNotFound
添加到预期的 http 错误中 (dask#8109) Martin Durant将
DataFrame.sort_values
添加到 API 文档 (dask#8107) Benjamin Zaitlen更改
dask.order
:有时更积极一些 (dask#7929) Erik Welch向 CI 添加 pytest 颜色 (dask#8090) James Bourbeau
向 Dataframe copy 方法添加
deep
参数并将其限制为False
(dask#8068) João Paulo Lacerda修复配置文档中的拼写错误 (dask#8104) Robert Hales
更新
DataFrame.query
docstring 的格式 (dask#8100) James Bourbeau对 0.13.0 版本解除
sparse
测试的 xfail 标记 (dask#8102) James Bourbeau向 DataFrame 和 Series 添加 axes 属性 (dask#8069) Jordan Jensen
在
da.unique
中添加 CuPy 支持 (仅限 values) (dask#8021) Peter Andreas Entschevsparse.zeros_like
的单元测试 (xfail) (dask#8093) crusaderky向数组创建函数添加显式
like
kwarg 支持 (dask#8054) Peter Andreas Entschev分离 Array 和 DataFrame mindeps 构建 (dask#8079) James Bourbeau
将
percentile_dispatch
分派到dask.array
(dask#8083) GALI PREM SAGAR确保
to_parquet
中filepath
存在 (dask#8057) James Bourbeau更新
test_scheduler_highlevel_graph_unpack_import
中调度器插件的使用方式 (dask#8080) James Bourbeau向 API 文档添加
DataFrame.shuffle
(dask#8076) Martin Fleischmann按字母顺序排列依赖项 (dask#8073) John A Kirkham
2021.08.1¶
发布于 2021 年 8 月 20 日
向
read_parquet
添加ignore_metadata_file
选项 (仅支持pyarrow-dataset
和fastparquet
) (dask#8034) Richard (Rick) Zamora在 dev 文档中添加对
pytest-xdist
的引用 (dask#8066) Julia Signell在
to_datetime
生成的 meta 中包含tz
(dask#8000) Julia SignellCI 基础设施文档 (dask#7985) Benjamin Zaitlen
在
assert_eq
检查中包含无效的 DataFrame key (dask#8061) James Bourbeau创建 DataFrame 时使用
__class__
(dask#8053) Mads R. B. Kristensen在 gpuCI 构建中使用
distributed
的开发版本 (dask#7976) James Bourbeau在 gufunc
signature
时忽略空白符 (dask#8049) James Bourbeau移动 pandas 导入和百分位数调度重构 (dask#8055) GALI PREM SAGAR
添加颜色以表示高层层类型 (dask#7974) Freyam Mehta
上游实例修复 (dask#8060) Jacob Tomlinson
添加
dask.widgets
并将 HTML repr 迁移到jinja2
(dask#8019) Jacob Tomlinson移除
wrap_func_like_safe
,在 NumPy >= 1.17 中不再需要 (dask#8052) Peter Andreas Entschev修复线程调度器内存背压回归问题 (dask#8040) David Hoese
添加百分位数调度 (dask#8029) GALI PREM SAGAR
在
groupby
中使用公开文档化的属性obj
,而不是私有的_selected_obj
(dask#8038) GALI PREM SAGAR在某些情况下使用
dict
存储 {nan,}arg{min,max} 的数据 (dask#8014) Peter Andreas Entschev修复
read_pandas
中blocksize
描述格式 (dask#8047) Louis Maddox修复文档中“point” -> “pointers” 的拼写错误 (dask#8043) David Chudzicki
2021.08.0¶
发布于 2021 年 8 月 13 日
修复
to_orc
延迟计算行为 (dask#8035) Richard (Rick) Zamora不要在
compute_as_if_collection
中转换为低层任务图 (dask#7969) James Bourbeau修复 hdf 的多文件读取问题 (dask#8033) Julia Signell
解决
distributed
测试中的警告问题 (dask#8025) James Bourbeau更新
to_orc
集合名称 (dask#8024) James Bourbeau对于传递给
to_datetime
的不可索引参数,引发NotImplementedError
(dask#7989) Doug Davis确保对
distributed
的警告引发错误 (dask#8002) James Bourbeau为 graphviz 高级图添加工具提示 (dask#7973) Freyam Mehta
关闭 2021 用户调查 (dask#8007) Julia Signell
将 CuPy 测试重构到多个文件中 (dask#8013) Peter Andreas Entschev
重构和扩展 Dask-Dataframe ORC API (dask#7756) Richard (Rick) Zamora
如果
enforce=False
,则不强制执行 columns (dask#7916) Julia Signell修复
drop_axis
不为None
时map_overlap
的 trimming 行为 (dask#7894) Gregory R. Lee标记 gpuCI CuPy 测试为 flaky (dask#7994) Peter Andreas Entschev
在
to_csv
和to_parquet
中避免使用Delayed
(dask#7968) Matthew Rocklin使用
pytest.warns
而不是 raises 检查 parquet 引擎弃用警告 (dask#7993) Joris Van den Bossche将 gpuCI 中的
RAPIDS_VER
提升至 21.10 (dask#7991) Charles Blackmon-Luca为
pyarrow>=5
添加pyarrow-legacy
测试覆盖 (dask#7988) Richard (Rick) Zamora允许
to_parquet
和read_parquet
中使用pyarrow>=5
(dask#7967) Richard (Rick) Zamora当 NumPy < 1.20 可用时,跳过需要 NEP-35 的 CuPy 测试 (dask#7982) Peter Andreas Entschev
将
tail
和head
添加到SeriesGroupby
(dask#7935) Daniel Mesejo-León更新月度会议的 Zoom 链接 (dask#7979) James Bourbeau
添加 gpuCI 构建脚本 (dask#7966) Charles Blackmon-Luca
弃用
daily_stock
工具 (dask#7949) James Bourbeau将
distributed.nanny
添加到配置参考文档 (dask#7955) James Bourbeau要求 NumPy 1.18+ & Pandas 1.0+ (dask#7939) John A Kirkham
2021.07.2¶
发布于 2021 年 7 月 30 日
注意
这是最后一个支持 NumPy 1.17 和 pandas 0.25 的版本。从下个版本开始,最低支持版本将是 NumPy 1.18 和 pandas 1.0。
将
dask.array
SVG 添加到 HTML Repr (dask#7886) Freyam Mehta在
to_parquet
中避免使用Delayed
(dask#7958) Matthew Rocklin在 CI 中临时限制
pyarrow<5
版本 (dask#7960) James Bourbeau添加对顶级
ucx
和rmm
配置值的弃用警告 (dask#7956) James Bourbeau移除 doctests 中的跳过标记 (4/6) (dask#7865) Zhengnan Zhao
移除 doctests 中的跳过标记 (5/6) (dask#7864) Zhengnan Zhao
向
da.diff
添加缺失的 prepend/append 功能 (dask#7946) Peter Andreas Entschev将 graphviz 字体族更改为 sans (dask#7931) Freyam Mehta
修复 read-csv 名称 - 当路径不同时,为任务使用不同的名称 (dask#7942) Julia Signell
更新
ucx
和rmm
更改的配置参考文档 (dask#7943) James Bourbeau向
__setitem__
添加 meta 支持 (dask#7940) Peter Andreas Entschev支持带有整型 dask 数组切片的 NEP-35 (dask#7927) Peter Andreas Entschev
在 CI 中解除 fastparquet 的版本限制 (dask#7928) James Bourbeau
移除 doctests 中的跳过标记 (3/6) (dask#7872) Zhengnan Zhao
2021.07.1¶
发布于 2021 年 7 月 23 日
使 array
assert_eq
检查 dtype (dask#7903) Julia Signell移除 doctests 中的跳过标记 (6/6) (dask#7863) Zhengnan Zhao
从 actors 文档中移除实验性功能警告 (dask#7925) Matthew Rocklin
移除 doctests 中的跳过标记 (2/6) (dask#7873) Zhengnan Zhao
分离 Array 和 Bag API (dask#7917) Julia Signell
实现 lazy
Array.__iter__
(dask#7905) Julia Signell清理无意中遍历数组的地方 (dask#7913) Julia Signell
为 DataFrame reductions 添加
numeric_only
kwarg (dask#7831) Julia Signell为 GPU 测试添加 pytest 标记 (dask#7876) Charles Blackmon-Luca
在
dask.array
中添加对histogram2d
的支持 (dask#7827) Doug Davis移除 doctests 中的跳过标记 (1/6) (dask#7874) Zhengnan Zhao
为 Graphviz 输出的高级图添加节点大小缩放 (dask#7869) Freyam Mehta
更新旧的 Bokeh 链接 (dask#7915) Bryan Van de Ven
在 CI 中临时限制
fastparquet
版本 (dask#7907) James Bourbeau向进度条文档添加
dask.array
导入 (dask#7910) Fabian Gebhart为每个 DataFrame API 函数和方法使用单独的文件 (dask#7890) Julia Signell
修复
pyarrow-dataset
排序 bug (dask#7902) Richard (Rick) Zamora泛化 unique aggregate (dask#7892) GALI PREM SAGAR
使用
pd.Grouper
时引发NotImplementedError
(dask#7857) Ruben van de Geer添加
aggregate_files
参数,以在read_parquet
中启用多文件分区 (dask#7557) Richard (Rick) Zamora解除
test_daily_stock
的xfail
标记 (dask#7895) James Bourbeau更新访问配置文档 (dask#7837) Naty Clementi
使用 packaging 进行版本比较 (dask#7820) Elliott Sales de Andrade
处理
merge_asof
中的无限循环 (dask#7842) gerrymanoim
2021.07.0¶
发布于 2021 年 7 月 9 日
在上游 CI 构建中包含
fastparquet
(dask#7884) James Bourbeau块操作:处理非字符串常量依赖项 (dask#7849) Mads R. B. Kristensen
fastparquet
现在支持新的时间类型,包括纳秒精度 (dask#7880) Martin Durant在
ArrowDatasetEngine
中追加时避免使用ParquetDataset
API (dask#7544) Richard (Rick) Zamora为
test_shuffle_priority
添加重试逻辑 (dask#7879) Richard (Rick) Zamora在 CI 中使用严格的通道优先级 (dask#7878) James Bourbeau
支持嵌套的
dask.distributed
导入 (dask#7866) Matthew Rocklin应该只检查模块名称,而不是整个目录文件路径 (dask#7856) Genevieve Buckley
由于 https://github.com/dask/fastparquet/pull/623 导致的更新 (dask#7875) Martin Durant
da.eye
针对chunks=-1
的修复 (dask#7854) Naty Clementi暂时将
test_daily_stock
标记为预期失败 (xfail) (dask#7858) James Bourbeau在
SimpleShuffleLayer
中设置优先级注解 (dask#7846) Richard (Rick) ZamoraBlockwise: 将常量键输入转换为字符串 (dask#7838) Mads R. B. Kristensen
允许在
@guvectorize
中混合使用 dask 和 numpy 数组 (dask#6863) Julia Signell计算洗牌组的大小时,不对字典结果进行采样 (dask#7834) Florian Jetter
修复 scipy 测试 (dask#7841) Julia Signell
确定性地对
datetime.date
进行 tokenize (dask#7836) James Bourbeau为类似
read_csv
的函数添加sample_rows
参数 (dask#7825) Martin Durant修复
config.deserialize
文档字符串中的拼写错误 (dask#7830) Geoffrey Lentner移除
test_dataframe_picklable
中的警告过滤器 (dask#7822) James Bourbeauhistogramdd
的改进(用于处理数组序列作为输入的情况)。(dask#7634) Doug Davis将
PY_VERSION
设为私有 (dask#7824) James Bourbeau
2021.06.2¶
发布于 2021 年 6 月 22 日
layers.py
比较parts_out
和set(self.parts_out)
(dask#7787) Genevieve Buckley使
check_meta
更好地理解 pandas dtypes (dask#7813) Julia Signell移除“教育资源”文档页面 (dask#7818) James Bourbeau
2021.06.1¶
发布于 2021 年 6 月 18 日
将资金页面替换为 dask.org 上的“支持者”部分 (dask#7817) James Bourbeau
添加初步的废弃工具 (dask#7810) James Bourbeau
在显式使用
dtype=
的 ufuncs 中强制执行 dtype 保留 (dask#7808) Doug Davis将 Coiled 添加到付费支持组织列表 (dask#7811) Kristopher Overholt
对
Layer
和HighLevelGraph
的 HTML repr 进行微调 (dask#7812) Genevieve Buckley为 HLG HTML repr 添加深色模式支持 (dask#7809) Jacob Tomlinson
移除旧版 distributed 的兼容性条目 (dask#7801) Elliott Sales de Andrade
实现
HighLevelGraph
层的 HTML repr (dask#7763) Genevieve Buckley更新默认
blockwise
token 以避免 DataFrame 列名冲突 (dask#6546) James Bourbeau对
merge_asof
使用 dispatchconcat
(dask#7806) Julia Signell修复上游 freq 测试 (dask#7795) Julia Signell
使用更多标准库中的上下文管理器 (dask#7796) James Bourbeau
简化 parquet 测试中的跳过项 (dask#7802) Elliott Sales de Andrade
移除对过时 bokeh 的检查 (dask#7804) Elliott Sales de Andrade
更多的测试覆盖率上传 (dask#7799) James Bourbeau
移除
dask/__init__.py
中的ImportError
捕获 (dask#7797) James Bourbeau允许
DataFrame.join()
接受 DataFrame 列表进行合并 (dask#7578) Krishan Bhasin修复
dask.array.linspace
中的最大递归深度异常 (dask#7667) Daniel Mesejo-León修复文档链接 (dask#7794) Julia Signell
初步实现
da.select()
并添加测试 (dask#7760) Gabriel Miretti层必须实现
get_output_keys
方法 (dask#7790) Genevieve Buckley在 divisions 中不包含或不期望
freq
(dask#7785) Julia Signell一个用于
map_overlap
的抽象HighLevelGraph
层 (dask#7595) Genevieve Buckley在
drop
中始终包含 kwarg 名称 (dask#7784) Julia Signell仅在需要时重新分块以计算中位数 (dask#7782) Julia Signell
为 DataFrame 和 Series 添加
add_(prefix|suffix)
方法 (dask#7745) tsuga将
read_hdf
移至Blockwise
(dask#7625) Richard (Rick) Zamora使
Layer.get_output_keys
正式成为一个抽象方法 (dask#7775) Genevieve Buckley在
ravel_multi_index
中处理非 dask 数组和广播 (dask#7594) Gabe Joseph修复 parquet 覆盖中以“/”结尾的路径问题 (dask#7773) Martin Durant
修复使用
filename=None
调用.visualize()
的问题 (dask#7740) Freyam Mehta为
SubgraphCallable
生成唯一名称 (dask#7637) Bruce Merry在 CI 中将
fsspec
固定到2021.5.0
(dask#7771) James Bourbeau在
from_delayed
中如果提供了 meta,则延迟评估图 (dask#7769) Florian Jetter为
DatetimeTZDtype
添加meta
支持 (dask#7627) gerrymanoim为自动 PR 标签添加 dispatch 标签 (dask#7701) James Bourbeau
修复 HDFS 测试 (dask#7752) Julia Signell
2021.06.0¶
发布于 2021 年 6 月 4 日
在
rewrite_blockwise
中从图键中移除抽象 tokens (dask#7721) Richard (Rick) Zamora确保 csv
project_columns
中的列顺序正确 (dask#7761) Richard (Rick) Zamora重命名内部循环变量以避免重复 (dask#7741) Boaz Mohar
不在
to_zarr
中返回 delayed 对象 (dask#7738) Chris RoatArray: 在
apply_gufunc
中修正输出数量 (dask#7669) Gabe Joseph使用
da.blockwise
重写da.fromfunction
(dask#7704) John A Kirkham将
make_meta_util
重命名为make_meta
(dask#7743) GALI PREM SAGAR如果请求的分区少于输入分区,则在 shuffle 之前重新分区 (dask#7715) Vibhu Jawa
Blockwise: 处理常量键输入 (dask#7734) Mads R. B. Kristensen
在
apply_gufunc
中添加 raise (dask#7744) Boaz Mohar在 CI 中显示失败测试摘要 (dask#7735) Genevieve Buckley
Python 3.9 中的
sizeof
sets (dask#7739) Mads R. B. Kristensen如果在
dataframe.__getitem__
中使用 pandas 日期时间字符串则发出警告 (dask#7749) Julia Signell高亮显示
client.dashboard_link
(dask#7747) Genevieve Buckley更容易订阅 Google 日历的链接 (dask#7733) Genevieve Buckley
在 Jupyter notebooks 中自动显示图可视化 (dask#7716) Genevieve Buckley
在 API 文档中为
unify_chunks
添加autofunction
(dask#7730) James Bourbeau
2021.05.1¶
发布于 2021 年 5 月 28 日
Pandas 兼容性 (dask#7712) Julia Signell
修复
optimize_dataframe_getitem
错误 (dask#7698) Richard (Rick) Zamora更新文档中的
make_meta
导入 (dask#7713) Benjamin Zaitlen修复错误消息中的格式字符串 (dask#7706) Jiaming Yuan
在
support.rst
中添加 slack 加入链接 (dask#7679) Naty Clementi移除未使用的 alphabet 变量 (dask#7700) James Bourbeau
修复
object
类型下的 meta 创建问题 (dask#7586) GALI PREM SAGAR为
union_categoricals
添加 dispatch (dask#7699) GALI PREM SAGAR整合 array
Dispatch
对象 (dask#7505) James Bourbeau将 DataFrame
dispatch.registers
移动到独立文件 (dask#7503) Julia Signell修复
init=False
的dataclasses
delayed 问题 (dask#7656) Julia Signell允许列名为
divisions
(dask#7605) Julia Signell使用未知块堆叠 nd array (dask#7562) Chris Roat
宣传 2021 年 Dask 用户调查 (dask#7694) Genevieve Buckley
修复
DataFrame.set_index()
中的拼写错误 (dask#7691) James Lamb清理 array API 引用链接 (dask#7684) David Hoese
为了与 NumPy 一致,
flip
接受axis
元组 (dask#7675) Andrew Champion更新
pre-commit
hook 版本 (dask#7676) James Bourbeau清理
to_zarr
文档字符串 (dask#7683) David Hoese修复
read_orc
的文档字符串 (dask#7678) Justus Magin记录
ipyparallel
和mpi4py
concurrent.futures
(dask#7665) John A Kirkham更新测试以支持 CuPy 9 (dask#7671) Peter Andreas Entschev
修复一些
HighLevelGraph
文档不准确之处 (dask#7662) Mads R. B. Kristensen修复 Series
getitem
错误消息中的拼写错误 (dask#7659) Maisie Marshall
2021.05.0¶
发布于 2021 年 5 月 14 日
移除废弃的
kind
kwarg 以符合 pandas 1.3.0 (dask#7653) Julia Signell修复 DataFrame 列投影中的错误 (dask#7645) Richard (Rick) Zamora
打包时合并全局注解 (dask#7565) Mads R. B. Kristensen
在 pandas
set_categories
中避免使用inplace=
(dask#7633) James Bourbeau将 Dask-Dataframe 的 active-fusion 默认值更改为
False
(dask#7620) Richard (Rick) ZamoraArray: 移除
RandomState
中的多余代码 (dask#7487) Gabe Joseph在
others=None
时实现str.concat
(dask#7623) Daniel Mesejo-León修复沙盒环境中的
dask.dataframe
问题 (dask#7601) Noah D. Brenowitz支持
cupyx.scipy.linalg
(dask#7563) Benjamin Zaitlen将
timeseries
和 daily-stock 移至Blockwise
(dask#7615) Richard (Rick) Zamora修复广播连接中的错误 (dask#7617) Richard (Rick) Zamora
对 DataFrame IO (parquet, csv, 和 orc) 使用
Blockwise
(dask#7415) Richard (Rick) Zamora向 Dask
HighLevelGraph
添加块和类型信息 (dask#7309) Genevieve Buckley移除测试 freq 的跳过项 (dask#7608) Julia Signell
移除
ignore_abc_warning
(dask#7606) Julia Signell强化 DataFrame 在列选择和索引之间的合并 (dask#7575) Richard (Rick) Zamora
去除
ignore_abc
装饰器 (dask#7604) Julia Signell移除 bokeh 的 kwarg 验证 (dask#7597) Julia Signell
添加
loky
示例 (dask#7590) Naty ClementiDelayed: 参数变为任务时的
nout
(dask#7593) Gabe Joseph更新 mindep CI 构建中的 distributed 版本 (dask#7602) James Bourbeau
支持分区列和实际列之间的全部或没有重叠 (dask#7541) Richard (Rick) Zamora
2021.04.1¶
发布于 2021 年 4 月 23 日
为
concatenate=True
处理Blockwise
HLG pack/unpack (dask#7455) Richard (Rick) Zamoramap_partitions
: 使用 token 化的信息作为SubgraphCallable
的名称 (dask#7524) Mads R. B. Kristensen使用
tmp_path
和tmpdir
避免仓库中临时文件和目录的残留 (dask#7592) Naty Clementi贡献文档(开发指南) (dask#7591) Naty Clementi
为 Python 3.9 CI 构建添加更多软件包 (dask#7588) James Bourbeau
Array: 修复 finalize 中的 NEP-18 dispatching (dask#7508) Gabe Joseph
numpydoc
的杂项修复 (dask#7569) Matthias Bussonnier避免 pandas
level=
关键字废弃 (dask#7577) James Bourbeau将例如
.repartition(freq="M")
映射到.repartition(freq="MS")
(dask#7504) Ruben van de Geer在并行 CI 运行中移除 hash seeding (dask#7128) Elliott Sales de Andrade
简化 transpose 轴清理 (dask#7561) Julia Signell
将
ValueError in len(index_names) > 1
明确其正在使用fastparquet
(dask#7556) Ray Bell修复
pyarrow
parquet 引擎的dict
列追加问题 (dask#7527) Richard (Rick) Zamora添加文档自动标签 (dask#7560) Doug Davis
将
dask.delayed.Delayed
添加到文档中,以便其他 sphinx 文档可以引用它 (dask#7559) Doug Davis修复上游
idxmaxmin
在split_every
不均匀时的错误 (dask#7538) Julia Signell使 pandas
Series
/DataFrame
的normalize_token
更具前瞻性(无直接块访问) (dask#7318) Joris Van den Bossche重新设计的
__setitem__
实现 (dask#7393) David Hassellhistogram
,histogramdd
改进(文档;返回一致性) (dask#7520) Doug Davis在上游构建中强制使用 nightly
pyarrow
(dask#7530) Joris Van den Bossche修复配置参考文档 (dask#7533) Benjamin Zaitlen
在文档字符串中使用
.to_parquet
ondask.dataframe
(dask#7528) Ray Bell避免 HLG 的双重
msgpack
序列化 (dask#7525) Mads R. B. Kristensen鼓励在配置文档中使用
yaml.safe_load()
(dask#7529) Hristo Georgiev在
to_parquet
中支持custom_metadata=
参数 (dask#7359) Richard (Rick) Zamora清理一些文档警告 (dask#7518) Daniel Mesejo-León
去除更多文档警告 (dask#7426) Julia Signell
添加了
product
(prod
的别名) (dask#7517) Freyam Mehta修复上游
__array_ufunc__
测试 (dask#7494) Julia Signell如果深度为零,则从
map_overlap
退回至map_blocks
(dask#7481) Genevieve Buckley在 array
assert_eq
中添加check_type
(dask#7491) Julia Signell
2021.04.0¶
发布于 2021 年 4 月 2 日
通过
dask.array.histogramdd
添加对多维直方图的支持 (dask#7387) Doug Davis在 PR 中某些文件被触及时自动添加标签 (dask#7506) Julia Signell
从
kwargs
中提取ignore_order
(dask#7500) GALI PREM SAGAR仅在 distributed 缺失时提供安装说明 (dask#7498) Matthew Rocklin
开始添加
isort
(dask#7370) Julia Signell在
dd.concat
中添加ignore_order
参数 (dask#7473) Daniel Mesejo-León显示 RAM 时使用二次幂 (dask#7484) crusaderky
添加许可分类器 (dask#7485) Tom Augspurger
将 conda 替换为 mamba (dask#7227) crusaderky
修复 array 文档中的拼写错误 (dask#7478) James Lamb
在本地调度器中使用
concurrent.futures
(dask#6322) John A Kirkham
2021.03.1¶
发布于 2021 年 3 月 26 日
为
is_categorical_dtype
添加 dispatch 以处理非 pandas 对象 (dask#7469) brandon-b-miller在
test_read_text
中使用multiprocessing.Pool
(dask#7472) John A Kirkham为 gufunc 类添加缺失的
meta
kwarg (dask#7423) Peter Andreas Entschev内存映射 Dask 数组示例 (dask#7380) Dieter Weber
修复 NumPy 上游失败
xfail
pandas 和 fastparquet 失败 (dask#7441) Julia Signell修复 repartition with freq 的错误 (dask#7357) Ruben van de Geer
修复
tril
/triu
的__array_function__
dispatching (dask#7457) Peter Andreas Entschev在一些测试中使用
concurrent.futures.Executors
(dask#7429) John A Kirkham要求 NumPy >=1.16 (dask#7383) crusaderky
微小的
sort_values
内务管理 (dask#7462) Ryan Williams确保 parquet 部分路径的自然排序顺序 (dask#7249) Ryan Williams
移除运行
test_config.py
时发生的全局环境变量变异 (dask#7464) Hristo Georgiev更新 NumPy intersphinx URL (dask#7460) Gabe Joseph
添加
rot90
(dask#7440) Trevor Manz更新文档中关于端点所需软件包的信息 (dask#7454) Nick Vazquez
在
slice_array
文档字符串中将 Master 改为 main (dask#7453) Gabe Joseph扩展
dask.utils.is_arraylike
文档字符串 (dask#7445) Doug Davis简化
BlockwiseIODeps
导入 (dask#7420) Richard (Rick) Zamora更新层注解打包方法 (dask#7430) James Bourbeau
在
test_describe_empty
中删除重复测试 (dask#7431) John A Kirkham添加了 df
kurtosis
方法和测试 (dask#7273) Jan Borchmann避免 HLG cull 的二次时间性能 (dask#7403) Bruce Merry
暂时跳过有问题的
sparse
测试 (dask#7421) James Bourbeau更新一些 CI 工作流名称 (dask#7422) James Bourbeau
修复 HDFS 测试 (dask#7418) Julia Signell
使更新日志副标题与层级结构匹配 (dask#7419) Julia Signell
在
value_counts
中添加对 normalize 的支持 (dask#7342) Julia Signell避免 HLG Layer 解包和实例化时进行不必要的导入 (dask#7381) Richard (Rick) Zamora
Bincount 修复切片问题 (dask#7391) Genevieve Buckley
添加
sliding_window_view
(dask#7234) Deepak Cherian修复
docs/source/develop.rst
中的拼写错误 (dask#7414) Hristo Georgiev将 PR 的文档构建切换到 readthedocs (dask#7397) James Bourbeau
将
sort_values
添加到 dask.DataFrame (dask#7286) gerrymanoim在 CI 中将
sqlalchemy
固定到<1.4.0
(dask#7405) James Bourbeau注释修复 (dask#7215) Ryan Williams
死代码移除 / 修复 (dask#7388) Ryan Williams
对
pa.Table.from_pandas
调用使用单线程 (dask#7347) Richard (Rick) Zamora将
'container'
替换为'image'
(dask#7389) James Lamb在
bag.read_text
中将 delimiter 传递给fsspec
(dask#7349) Martin Durant打包
Blockwise
时,在SubgraphCallable
中嵌入 literals (dask#7353) Mads R. B. Kristensen需要额外的依赖项: cloudpickle, partd, fsspec, toolz (dask#7345) Julia Signell
准备
Blockwise
+ IO 基础设施 (dask#7281) Richard (Rick) Zamora移除
test_slicing.py
中的重复导入 (dask#7365) Hristo Georgiev为 pip 开发添加测试依赖 (dask#7360) Julia Signell
支持非 NumPy 数组的整数切片 (dask#7364) Peter Andreas Entschev
自动取消之前的 CI 构建 (dask#7348) James Bourbeau
dask.array.asarray
应处理xarray
类在顶级命名空间中的情况 (dask#7335) Tom White无需实例化层的
HighLevelGraph
长度 (dask#7274) Gabe Joseph弃用对 Python 3.6 的支持 (dask#7006) James Bourbeau
修复
create_metadata_file
中的 fsspec 用法 (dask#7295) Richard (Rick) Zamora将默认分支从 master 改为 main (dask#7198) Julia Signell
将 Xarray 添加到 CI 软件环境 (dask#7338) James Bourbeau
更新错误文本中的 repartition 参数名称 (dask#7336) Eoin Shanaghy
根据提交消息运行上游测试 (dask#7329) James Bourbeau
对 util 模块使用
pytest.register_assert_rewrite
(dask#7278) Bruce Merry添加在
from_array()
中使用特定块大小的示例 (dask#7330) James Lamb将 NumPy 跳过项移入测试 (dask#7247) Julia Signell
2021.03.0¶
发布于 2021 年 3 月 5 日
注意
这是第一个支持 Python 3.9 的版本,也是最后一个支持 Python 3.6 的版本
提升
distributed
的最低版本 (dask#7328) James Bourbeau修复
dask_cudf
的percentiles_summary
问题 (dask#7325) Peter Andreas Entschev暂时回滚最近的
Array.__setitem__
更新 (dask#7326) James BourbeauBlockwise.clone
(dask#7312) crusaderkyNEP-35 duck array 更新 (dask#7321) James Bourbeau
不允许为 array 设置
.name
(dask#7222) Julia Signell对整数输入创建百分位数时使用最近邻插值 (dask#7305) Kyle Barron
使用 CuPy 数组测试
exp
(dask#7322) John A Kirkham检查计算出的块具有正确的大小和 dtype (dask#7277) Bruce Merry
pytest.mark.flaky
(dask#7319) crusaderky贡献文档: 添加关于在 pip 安装 Dask 之前拉取最新 git 标签的说明 (dask#7308) Genevieve Buckley
支持 Python 3.9 (dask#7289) crusaderky
添加基于广播的合并实现 (dask#7143) Richard (Rick) Zamora
将
split_every
添加到graph_manipulation
(dask#7282) crusaderky优化文档中的拼写错误 (dask#7306) Julius Busecke
dask.graph_manipulation
支持xarray.Dataset
(dask#7276) crusaderky为 Bokeh 2.3.0 添加 plot 宽度和高度支持 (dask#7297) James Bourbeau
添加 NumPy 函数
tri
,triu_indices
,triu_indices_from
,tril_indices
,tril_indices_from
(dask#6997) Illviljan移除 DataFrame 磁盘 shuffle 中的“清理”任务 (dask#7260) Sinclair Target
在 CI 中使用开发版
distributed
(dask#7279) James Bourbeau移动 high level graph pack/unpack Dask 代码 (dask#7179) Mads R. B. Kristensen
提高
merge_percentiles
的性能 (dask#7172) Ashwin Srinath将 tree reduction 添加到
bincount
(dask#7183) Thomas J. Fan改进
from_array
中name
的文档 (dask#7264) Bruce Merry修复空分区的
cumsum
问题 (dask#7230) Julia Signell向 dask array 创建文档添加
map_blocks
示例 (dask#7221) Julia Signell修复
dask.graph_manipulation.wait_on()
的性能问题 (dask#7258) crusaderky将 coveralls 替换为 codecov.io (dask#7246) crusaderky
在 pre-commit 中固定到特定的
black
版本 (dask#7256) Julia Signell文档中的小拼写错误:
array-chunks.rst
(dask#7254) Magnus Nord修复
Blockwise
和ShuffleLayer
中的错误 (dask#7213) Richard (Rick) Zamora修复
"pyarrow-dataset"
引擎在 pyarrow-3.0.0 下的 parquet 过滤错误 (dask#7200) Richard (Rick) Zamora无 NumPy 的
graph_manipulation
(dask#7243) crusaderky支持 NEP-35 (dask#6738) Peter Andreas Entschev
避免在 doctest CI 构建期间运行单元测试 (dask#7240) James Bourbeau
在 CI 上运行 doctests (dask#7238) Julia Signell
清理集合运算的代码质量 (dask#7196) crusaderky
添加
dask.array.delete
(dask#7125) Julia Signell新的 conda-forge recipe 构建完成后,取消 graphviz 固定 (dask#7235) Julia Signell
在 Mac 上不使用 conda-forge 中的 NumPy 1.20 (dask#7211) crusaderky
map_overlap
: 对没有重叠的轴不进行 rechunk (dask#7233) Deepak Cherian固定 graphviz 以避免与最新 conda-forge 构建的问题 (dask#7232) Julia Signell
在文档中使用
html_css_files
来添加自定义 CSS (dask#7220) James BourbeauGraph manipulation:
clone
,bind
,checkpoint
,wait_on
(dask#7109) crusaderky修复 parquet
pyarrow-dataset
引擎中过滤表达式的处理问题 (dask#7186) Joris Van den Bossche扩展
__setitem__
以更接近 match numpy (dask#7033) David Hassell清理 Python 2 语法 (dask#7195) crusaderky
修复
Delayed._length
中的回归问题 (dask#7194) crusaderky__dask_layers__()
测试和调整 (dask#7177) crusaderky在 multiprocessing 调度器中正确转换
HighLevelGraph
(dask#7191) Jim Crist-Harif不在 CI 中快速失败 (dask#7188) James Bourbeau
2021.02.0¶
发布于 2021 年 2 月 5 日
为 NEP-35 添加
percentile
支持 (dask#7162) Peter Andreas Entschev添加了列赋值中对
Float64
的支持 (dask#7173) Nils BraunCoarsen rechunking 错误 (dask#7127) Davis Bennett
修复上游 CI 测试 (dask#6896) Julia Signell
修改
HighLevelGraph
Mapping API (dask#7160) crusaderky更新低级别图规范以使用任何可哈希的对象作为键 (dask#7163) James Bourbeau
泛型地使用不同的键重建集合 (dask#7142) crusaderky
修复 array design doc 中的链接 (dask#7152) Thomas J. Fan
修复使用
blockwise
计算外积的示例 (dask#7119) Bruce Merry弃用
HighlevelGraph.dicts
,推荐使用.layers
(dask#7145) Amit Kumar将
FastParquetEngine
与 pyarrow 引擎对齐 (dask#7091) Richard (Rick) Zamora简化
read_parquet
中 parts list 的内容 (dask#7066) Richard (Rick) Zamoracheck_meta(
): 检查 DataFrame 类型时使用__class__
(dask#7099) Mads R. B. Kristensen修复 parquet
getitem
优化问题 (dask#7106) Richard (Rick) Zamora将 cytoolz 重新添加到 CI 环境 (dask#7103) James Bourbeau
2021.01.1¶
发布于 2021 年 1 月 22 日
部分修复
cumprod
(dask#7089) Julia Signell测试 pandas 1.1.x / 1.2.0 版本和 pandas nightly (dask#6996) Joris Van den Bossche
使用 assign 避免
SettingWithCopyWarning
(dask#7092) Julia Signell将
'mode'
参数传递给bokeh.output_file()
(dask#7034) (dask#7075) patquem在执行
groupby.value_counts
时跳过空分区 (dask#7073) Julia Signell为
assert_eq()
添加错误消息 (dask#7083) James Lamb
2021.01.0¶
发布于 2021 年 1 月 15 日
带有评审意见的
map_partitions
(dask#6776) Kumar Bharath Prabhu确保
population
是一个实际的 list (dask#7027) Julia Signell在
read_csv
中传播storage_options
(dask#7074) Richard (Rick) Zamora移除所有
BlockwiseIO
代码 (dask#7067) Richard (Rick) Zamora修复 CI (dask#7069) James Bourbeau
添加选项以控制
reshape
中的 rechunking (dask#6753) Tom Augspurger修复复杂输入的
linalg.lstsq
问题 (dask#7056) Johnnie Gray为
read_csv
添加compression='infer'
默认值 (dask#6960) Richard (Rick) Zamora回滚
svd_compressed
#7003 中的参数更改 (dask#7004) Eric Czech跳过失败的 s3 测试 (dask#7064) Martin Durant
恢复
BlockwiseIO
(dask#7048) Richard (Rick) Zamora添加一些指向
DataFrame.to_bag()
和Series.to_bag()
的交叉引用 (dask#7049) Rob Malouf将
matmul
重写为不带 contraction/concatenate 的blockwise
(dask#7000) Rafal Wojdyla在
da.shape
中使用functools.cached_property
(dask#7023) Illviljan在 series
non_empty
中使用 meta 值 (dask#6976) Julia Signell恢复 “暂时锁定 sphinx 版本至 3.3.1 (dask#7002)” (dask#7014) Rafal Wojdyla
恢复
python-graphviz
的版本锁定 (dask#7037) Julia Signell不小心提交了 print 语句 (dask#7038) Julia Signell
在
agg
中传递dropna
和observed
(dask#6992) Julia Signell在使用 expand 进行
.str.split
后将索引添加到meta
(dask#7026) Ruben van de GeerCI: 测试 pyarrow 2.0 和 nightly 版本 (dask#7030) Joris Van den Bossche
在 CI 中暂时锁定
python-graphviz
(dask#7031) James Bourbeau在
numpydoc
中给节加上下划线 (dask#7013) Matthias Bussonnier添加自定义优化时保留正常优化 (dask#7016) Matthew Rocklin
暂时锁定 sphinx 版本至 3.3.1 (dask#7002) Rafal Wojdyla
文档:杂项格式调整 (dask#6998) Matthias Bussonnier
为
from_array
添加inline_array
选项 (dask#6773) Tom Augspurger恢复 “blockwise 数组创建例程的初步尝试 (dask#6931)” (:pr:`6995) James Bourbeau
在
set_index
中设置npartitions
(dask#6978) Julia Signell上游
config
序列化和继承 (dask#6987) Jacob Tomlinson提高
test_minimum_time
中的最小时间 (dask#6988) Martin Durant修复
read_parquet
的 pandasdtype
推断 (dask#6985) Richard (Rick) Zamora避免在使用
sorted=True
时set_index
中的数据丢失 (dask#6980) Richard (Rick) Zamora修复
read_parquet
在使用index=False
处理未命名索引时的错误 (dask#6969) Richard (Rick) Zamora比较元数据时使用
__class__
(dask#6981) Mads R. B. Kristensen比较字符串版本并非总是有效 (dask#6979) Rafal Wojdyla
简化
has_parallel_type()
(dask#6927) Mads R. B. Kristensen在
BlockwiseIO
中处理注解解包 (dask#6934) Simon Perkins在
test_sql.py
中避免使用已弃用的yield_fixture
(dask#6968) Richard (Rick) Zamora移除
BlockwiseIO
中错误的图逻辑 (dask#6933) Richard (Rick) Zamora如果变量为
None
,则获取配置项 (dask#6862) Jacob Tomlinson更新
from_pandas
文档字符串 (dask#6957) Richard (Rick) Zamora防止
fuse_roots
覆盖注解 (dask#6955) Simon Perkins
2020.12.0¶
发布于 2020 年 12 月 10 日
亮点¶
版本方案切换为 CalVer。
引入新的
HighLevelGraph
API,支持将任务图的高层表示发送到分布式调度器。引入新的
HighLevelGraph
层对象,包括BasicLayer
,Blockwise
,BlockwiseIO
,ShuffleLayer
等。使用
dask.annotations
上下文管理器添加对应用自定义Layer
级别注解(如priority
,retries
等)的支持。将 pandas 的最低支持版本更新到 0.25.0,NumPy 更新到 1.15.1。
支持
pyarrow.dataset
的read_parquet
API。Dask 数组 SVD 的几处修复。
所有更改¶
使
observed
关键字参数可选 (dask#6952) Julia Signell最低支持 pandas 0.25.0 numpy 1.15.1 (dask#6895) Julia Signell
使分类变量的顺序明确 (dask#6949) Julia Signell
改进
read_parquet
的 “pyarrow-dataset” 统计性能 (dask#6918) Richard (Rick) Zamora为
groupby
添加observed
关键字 (dask#6854) Julia Signell确保当每个文件有多个分区时
include_path_column
正常工作 (dask#6911) Julia Signell修复:当深度是无符号位类型时,
array.overlap
和array.map_overlap
块大小不正确 (dask#6909) GFleishman从
sample
返回一个Bag
(dask#6941) Shang Wang启用 parquet 元数据并行收集 (dask#6921) Richard (Rick) Zamora
如果
_file
为None
,则避免在progressbar
中使用它 (dask#6938) Mark Harfouche将 Zarr 添加到上游 CI 构建中 (dask#6932) James Bourbeau
引入
BlockwiseIO
层 (dask#6878) Richard (Rick) Zamora将
Layer
注解传输到调度器 (dask#6889) Simon Perkins允许
pyarrow >2.0.0
(dask#6772) Richard (Rick) Zamora支持
read_parquet
的pyarrow.dataset
API (dask#6534) Richard (Rick) Zamora当粗化因子不能整除 shape 时,为
da.coarsen
添加更详细的错误消息 (dask#6908) Davis Bennett只在
dask/dask
上运行 cron CI,不包括分支 (dask#6905) Jacob Tomlinson为
ShuffleLayers
添加annotations
(dask#6913) Matthew Rocklin暂时标记
test_from_s3
为预期失败 (dask#6915) James Bourbeau添加 dataframe
skew
方法 (dask#6881) Jan Borchmann修复数组
meta
中的dtype
(dask#6893) Julia Signellhelm install ...
中缺少name
参数 (dask#6903) Ruben van de Geer修复:使用过滤器读取项时发生异常 (dask#6901) Martin Durant
为
dask.array.dot
添加对cupyx
sparse 的支持 (dask#6846) Akira Naruse稍微提高 array mindeps 版本,以使测试通过 [test-mindeps] (dask#6894) Julia Signell
更新/移除 mindeps 中的 pandas 和 numpy (dask#6888) Julia Signell
修复
ArrowEngine
在使用clear_known_categories
时的错误 (dask#6887) Richard (Rick) Zamora修复关于任务调度器的文档 (dask#6879) Zhengnan Zhao
添加人类可读的相对时间格式化工具 (dask#6883) Jacob Tomlinson
6864 问题的可能修复
set_index
问题 (dask#6866) Richard (Rick) ZamoraBasicLayer
: 移除依赖参数 (dask#6859) Mads R. B. KristensenBlockwise
的序列化 (dask#6848) Mads R. B. Kristensen解决
columns=[]
错误 (dask#6871) Richard (Rick) Zamora避免重复的 parquet schema 通信 (dask#6841) Richard (Rick) Zamora
为现有 parquet 数据集添加
create_metadata_file
工具 (dask#6851) Richard (Rick) Zamora改进具有共同终点的工作负载的排序 (dask#6779) Tom Augspurger
字符串化工具 (dask#6852) Mads R. B. Kristensen
为
to_parquet
添加关键字overwrite=True
,以便在覆盖 pyarrowDataset
时移除悬空文件。 (dask#6825) Greg Hayes移除
map_tasks()
和map_basic_layers()
(dask#6853) Mads R. B. Kristensen将 QR 迭代引入
svd_compressed
(dask#6813) RogerMoens__dask_distributed_pack__()
现在接受一个client
参数 (dask#6850) Mads R. B. Kristensen在
set_index
中使用map_partitions
而不是delayed
(dask#6837) Mads R. B. Kristensen提高 GHA
setup-miniconda
版本 (dask#6847) Jacob Tomlinson设置有序索引时移除 NaN 值 (dask#6829) Rockwell Weiner
修复 SVD 中 u 的转置 (dask#6799) RogerMoens
迁移到 GitHub Actions (dask#6794) Jacob Tomlinson
修复 sphinx
currentmodule
的用法 (dask#6839) James Bourbeau修复最低依赖项 CI 构建 (dask#6838) James Bourbeau
避免在
Blockwise
剪枝期间图的实体化 (dask#6815) Richard (Rick) Zamora修复拼写错误 (dask#6834) Devanshu Desai
在
collections_to_dsk
中使用HighLevelGraph.merge
(dask#6836) Mads R. B. Kristensen在 svd
compression_matrix
中尊重dtype
#2849 (dask#6802) RogerMoens将 blocksize 添加到任务名称 (dask#6818) Julia Signell
检查全 NaN 分区 (dask#6821) Rockwell Weiner
将 “institutional” SQL 文档节指向主 SQL 文档 (dask#6823) Martin Durant
修复:
DataFrame.join
不接受 Series 作为 other 参数 (dask#6809) David Katz移除
to_parquet
中的to_delayed
操作 (dask#6801) Richard (Rick) Zamora层注解文档字符串改进 (dask#6806) Simon Perkins
Avro 读取器 (dask#6780) Martin Durant
如果最小块大小小于深度,则对数组进行 rechunk (dask#6708) Julia Signell
添加层注解 (dask#6767) Simon Perkins
为
Blockwise
层添加可选的 IO 子图 (dask#6715) Richard (Rick) Zamora添加分布式高层图的 pack/unpack 功能 (dask#6786) Mads R. B. Kristensen
添加 DataFrame API 中缺失的方法 (dask#6789) Stephannie Jimenez Gacha
添加关于管理环境的文档 (dask#6778) Martin Durant
HLG:
get_all_external_keys()
(dask#6774) Mads R. B. Kristensen避免在 reshape 时使用
chunksize=1
进行 rechunking (dask#6748) Tom Augspurger尝试使分类变量在 join 操作中正常工作 (dask#6205) Julia Signell
修复 array-slice.rst 中的一些小拼写错误和尾随空格 (dask#6771) Magnus Nord
修复空 DataFrame 分区的 parquet 元数据写入错误 (pyarrow) (dask#6741) Callum Noble
文档化
map_blocks
和map_overlap
中的meta
关键字参数。 (dask#6763) Peter Andreas Entschev开始试验使用并行前缀扫描实现
cumsum
和cumprod
(dask#6675) Erik WelchShuffle 层的搞笑序列化 (dask#6760) James Bourbeau
配置 array optimize 跳过融合并返回 HLG (dask#6751) Mads R. B. Kristensen
在 CI 中暂时使用
pyarrow<2
(dask#6759) James Bourbeau修复 min/max 归约的 meta (dask#6736) Peter Andreas Entschev
为
da.linalg.lstsq
添加 2D 功能 - 模仿 numpy (dask#6749) Pascal BourgaultCI: 修复导致 pivot 中测试不稳定失败的 bug (dask#6752) Tom Augspurger
层的序列化 (dask#6693) Mads R. B. Kristensen
移除可变默认参数 (dask#6747) Mads R. B. Kristensen
调整 parquet
ArrowEngine
以便更容易编写子类 (dask#6505) Joris Van den Bossche添加
ShuffleStage
HLG 层 (dask#6650) Richard (Rick) Zamora在
meta_from_array
中处理 literal (dask#6731) Peter Andreas Entschev即使块大小相同,也要进行平衡的 rechunking (dask#6735) Chris Roat
修复
DataFrame.set_index
文档字符串 (dask#6739) Gil Forsyth确保
HighLevelGraph
层始终包含Layer
实例 (dask#6716) James Bourbeau在
HighLevelGraph
层上进行 Map 操作 (dask#6689) Mads R. B. Kristensen更新 overlap
*_like
函数调用和 CuPy 测试 (dask#6728) Peter Andreas Entschev修复使用
__array_function__
的svd
问题 (dask#6727) Peter Andreas Entschev添加 doctest 扩展用于文档 (dask#6397) Jim Circadian
使用 @pentschev 的建议对 #5628 进行小幅修复 (dask#6724) John A Kirkham
当 meta 类型改变时改变 Dask 数组的类型 (dask#5628) Matthew Rocklin
HLG: 单个 key 的
get_dependencies()
(dask#6699) Mads R. B. Kristensen恢复 “恢复 “在集合中的任何地方使用 HighLevelGraph 层 (dask#6510)” (dask#6697)” (dask#6707) Tom Augspurger
允许
*_like
数组创建函数遵循输入数组类型 (dask#6680) Genevieve Buckley更新
dask-sphinx-theme
版本 (dask#6700) Gil Forsyth
2.30.0 / 2020-10-06¶
数组¶
允许
rechunk
均匀分割成 N 块 (dask#6420) Scott Sievert
2.29.0 / 2020-10-02¶
数组¶
_repr_html_
: 使侧面颜色更深,而不是绘制所有线条 (dask#6683) Julia Signell移除
nanstd
和nanvar
的警告 (dask#6667) Thomas J. Fan从原数组获取输出 shape -
map_overlap
(dask#6682) Julia Signell在索引中将
np.searchsorted
替换为bisect
(dask#6669) Joachim B Haga
Bag¶
确保子进程对于 bag
groupby
具有一致的哈希值 (dask#6660) Itamar Turner-Trauring
核心¶
恢复 “在集合中的任何地方使用 HighLevelGraph 层 (dask#6510)” (dask#6697) Tom Augspurger
使用
pandas.testing
(dask#6687) John A Kirkham改进测试中 128 位浮点数的跳过 (dask#6676) Elliott Sales de Andrade
DataFrame¶
允许使用布尔 dataframe 设置 dataframe 项 (dask#6608) Julia Signell
2.28.0 / 2020-09-25¶
数组¶
部分恢复了
Array
索引更改,这些更改会导致大块产生。这恢复了 Dask 2.25.0 及更早版本的行为,并在生成大块时发出警告。提供了一个配置选项以避免创建大块,详见 Efficiency。 (dask#6665) Tom Augspurger为
to_dask_array
添加meta
(dask#6651) Kyle Nicholson修复 dask#6631 和 dask#6611 (dask#6632) Rafal Wojdyla
在数组归约中推断对象类型 (dask#6629) Daniel Saxton
为
svd_flip
添加v_based
标志 (dask#6658) Eric Czech修复数组
mean
的不稳定问题 (dask#6656) Sam Grayson
核心¶
移除
SubgraphCallable.__eq__
中的dsk
相等检查 (dask#6666) Mads R. B. Kristensen在集合中的任何地方使用
HighLevelGraph
层 (dask#6510) Mads R. B. Kristensen为
SubgraphCallable
添加 hash dunder 方法,用于缓存目的 (dask#6424) Andrew Fulton默认情况下停止写入被注释掉的配置文件 (dask#6647) Matthew Rocklin
DataFrame¶
通过
agg
API 添加对 collect list 聚合的支持 (dask#6655) Madhur Tandon稍微更好的错误消息 (dask#6657) Julia Signell
2.27.0 / 2020-09-18¶
数组¶
在
svd
中保留dtype
(dask#6643) Eric Czech
核心¶
store()
: 创建单个 HLG 层 (dask#6601) Mads R. B. Kristensen添加 pre-commit CI 构建 (dask#6645) James Bourbeau
将
.pre-commit-config
更新到最新的 black。 (dask#6641) Julia Signell更新 super 的用法,移除 Python 2 兼容性 (dask#6630) Poruri Sai Rahul
移除 u 字符串前缀 (dask#6633) Poruri Sai Rahul
DataFrame¶
改进
to_sql
的错误消息 (dask#6638) Julia Signell使用空列表作为分类 (dask#6626) Julia Signell
文档¶
为数组 API 文档添加
autofunction
以包含更多 ufuncs (dask#6644) James Bourbeau为
dask.array
文档添加一些缺失的 ufuncs (dask#6642) Ralf Gommers添加
HelmCluster
文档 (dask#6290) Jacob Tomlinson
2.26.0 / 2020-09-11¶
数组¶
单块 SVD 的后端感知 dtype 推断 (dask#6623) Eric Czech
使
array.reduction
文档字符串与 dtype 匹配 (dask#6624) Martin Durant使用行和列为
svd_compressed
设置压缩级别的下限 (dask#6622) Eric Czech改进 SVD 一致性和小数组处理 (dask#6616) Eric Czech
添加
svd_flip
#6599 (dask#6613) Eric Czech处理包含 dask 数组的序列 (dask#6595) Gabe Joseph
避免从使用列表的
getitem
中产生大块 (dask#6514) Tom Augspurger在
from_array
中立即切片 numpy 数组 (dask#6605) Deepak Cherian恢复序列化 dask 数组的能力 (dask#6594) Noah D. Brenowitz
为短而胖的数组添加 SVD 支持 (dask#6591) Eric Czech
添加简单的块类型注册表并根据需要推迟到 upcast 类型 (dask#6393) Jon Thielen
默认情况下对齐 coarsen 块 (dask#6580) Deepak Cherian
修复未知维度上的 reshape 和其他测试修复 (dask#6578) Ryan Williams
核心¶
为
HighLevelGraph
依赖项添加验证和修复 (dask#6588) Mads R. B. Kristensen修复 linting 问题 (dask#6598) Tom Augspurger
跳过
bokeh
版本 2.0.0 (dask#6572) John A Kirkham
DataFrame¶
在
Series.sum
/prod
中处理min_count
(dask#6618) Daniel Saxton在分位数计算中始终计算 0 和 1 分位数 (dask#6564) Erik Welch
修复读取空 csv 文件时的错误路径 (dask#6573) Abdulelah Bin Mahfoodh
文档¶
文档:排查 dashboard 404 问题 (dask#6215) Kilian Lieret
修复
extraConfig
示例 (dask#6625) Tom Augspurger更新支持的 Python 版本 (dask#6609) Julia Signell
文档化 dask/daskhub helm chart (dask#6560) Tom Augspurger
2.25.0 / 2020-08-28¶
核心¶
在
subs()
中比较 key hash (dask#6559) Mads R. B. Kristensen使用最新的
black
版本重新运行 (dask#6568) James Bourbeau许可更新 (dask#6554) Tom Augspurger
文档¶
从文档页面名称中移除版本 (dask#6558) James Bourbeau
更新
kubernetes-helm.rst
(dask#6523) David Sheldon停止 2020 调查 (dask#6547) Tom Augspurger
2.24.0 / 2020-08-22¶
数组¶
修复测试中设置随机种子的问题。 (dask#6518) Elliott Sales de Andrade
在 apply gufunc 中支持 meta (dask#6521) joshreback
将 cupy.sparse 替换为 cupyx.scipy.sparse (dask#6530) John A Kirkham
DataFrame¶
提高 rolling 测试的容忍度 (dask#6502) Julia Signell
实现 DatFrame.__len__ (dask#6515) Tom Augspurger
在 to_parquet 中推断 arrow schema (用于 ArrowEngine`) (dask#6490) Richard (Rick) Zamora
修复没有 pyarrow 时的 parquet 测试 (dask#6524) Martin Durant
移除 ArrowEngine 中有问题的
filter
参数 (dask#6527) Richard (Rick) Zamora默认情况下避免在 ArrowEngine 中进行 schema 验证 (dask#6536) Richard (Rick) Zamora
核心¶
在 make_blockwise_graph 中使用 unpack_collections (dask#6517) Thomas J. Fan
将 key_split() 从 optimization.py 移到 utils.py (dask#6529) Mads R. B. Kristensen
使测试在 moto 服务器上运行 (dask#6528) Martin Durant
2.23.0 / 2020-08-14¶
数组¶
通过广播减少
np.zeros
,ones
, 和full
数组的大小 (dask#6491) Matthias Bussonnier在
map_overlap
中为trim
添加缺失的meta=
(dask#6494) Peter Andreas Entschev
Bag¶
Bag repartition 分区大小 (dask#6371) joshreback
核心¶
Scalar.__dask_layers__()
返回self._name
而不是self.key
(dask#6507) Mads R. B. Kristensen在
fuse_root
优化中正确更新依赖项 (dask#6508) Mads R. B. Kristensen
DataFrame¶
向 dataframe 添加
items
(dask#6503) Thomas J. Fan在
write_table
调用中包含 compression (dask#6499) Julia Signell修复
nonempty_series
中的警告 (dask#6485) Tom Augspurger根据第一个参数的类型智能确定分区 (dask#6479) Matthew Rocklin
修复 pyarrow
mkdirs
(dask#6475) Julia Signell修复
to_parquet
中的重复 parquet 输出 (dask#6451) michaelnarodovitch
文档¶
修复
da.histogram
文档 (dask#6439) Roberto Panai修复 SQL 文档中的一些拼写错误 (dask#6489) Mike McCarty
SQL 文档 (dask#6453) Martin Durant
2.22.0 / 2020-07-31¶
数组¶
NumPy dtype 弃用的兼容性 (dask#6430) Tom Augspurger
核心¶
为某些
bytes
类似对象实现sizeof
(dask#6457) John A Kirkham新
fsspec
的 HTTP 错误 (dask#6446) Martin Durant当抛出
RecursionError
时,从tokenize
函数返回 uuid (dask#6437) Julia Signell安装 upstream-dev 包的依赖项 (dask#6431) Tom Augspurger
在
setup.cfg
中使用更新的链接 (dask#6426) Zhengnan Zhao
DataFrame¶
如果列名是字符串,则在其周围添加单引号 (dask#6471) Gil Forsyth
重构
ArrowEngine
以提高read_parquet
性能 (dask#6346) Richard (Rick) Zamora添加
tolist
dispatch (dask#6444) GALI PREM SAGAR与 pandas 1.1.0rc0 的兼容性 (dask#6429) Tom Augspurger
多值透视表 (dask#6428) joshreback
to_csv
文档字符串中的重复参数定义 (dask#6411) Jun Han (Johnson) Ooi
文档¶
在文档中添加工具,用于将 YAML 配置转换为环境变量并转换回来 (dask#6472) Jacob Tomlinson
修复参数服务器渲染 (dask#6466) Scott Sievert
修复断开的链接 (dask#6403) Jim Circadian
文档中完整的参数服务器实现 (dask#6449) Scott Sievert
修复拼写错误 (dask#6436) Jack Xiaosong Xu
2.21.0 / 2020-07-17¶
数组¶
纠正
array.routines.gradient()
中的错误消息 (dask#6417) johnomotani修复包含某些
dimension=1
的数组的 blockwise concatenate (dask#6342) Matthias Bussonnier
Bag¶
修复
bag.take
示例 (dask#6418) Roberto Panai
核心¶
优化过程中的 group 值应该只包含 graph 和 keys,而不是 optimization + keys (dask#6409) Benjamin Zaitlen
调用自定义优化一次,并提供
kwargs
(dask#6382) Clark Zinzow在 Python 3.7 上测试时包含
pickle5
(dask#6379) John A Kirkham
DataFrame¶
纠正错误消息中的拼写错误 (dask#6422) Tom McTiernan
使用
pytest.warns
检查UserWarning
(dask#6378) Richard (Rick) Zamora从字符串解析
bytes_per_chunk keyword
关键字 (dask#6370) Matthew Rocklin
文档¶
Numpydoc 格式化 (dask#6421) Matthias Bussonnier
在 1.1 发布后解除
numpydoc
的版本锁定 (dask#6407) Gil ForsythNumpydoc 格式化 (dask#6402) Matthias Bussonnier
更新
visualize
文档字符串 (dask#6383) Zhengnan Zhao
2.20.0 / 2020-07-02¶
数组¶
为 numpy zero-strided 数组注册
sizeof
(dask#6343) Matthias Bussonnier在
concatenate
中使用concatenate_lookup
(dask#6339) John A Kirkham修复包含某些零长度维度的数组的 rechunking 问题 (dask#6335) Matthias Bussonnier
DataFrame¶
将
iloc`
调用分派到getitem
(dask#6355) Gil Forsyth在 fastparquet 引擎中处理未命名的 pandas
RangeIndex
(dask#6350) Richard (Rick) Zamora使用 pyarrow 写入分区 parquet 数据集时保留索引 (dask#6282) Richard (Rick) Zamora
为 pandas 的
group_split_dispatch
使用ignore_index
(dask#6251) Richard (Rick) Zamora
2.19.0 / 2020-06-19¶
数组¶
将块大小转换为 python int
dtype
(dask#6326) Gil Forsyth为
*_like()
数组创建函数添加shape=None
(dask#6064) Anderson Banihirwe
核心¶
更新 fsspec 中协议差异的预期错误消息 (dask#6331) Gil Forsyth
修复
parse_bytes
中小于 1 的浮点数问题 (dask#6311) Gil Forsyth修复代码库中各处的异常原因 (dask#6308) Ram Rachum
修复重复的测试 (dask#6303) James Lamb
移除未使用的测试函数 (dask#6304) James Lamb
DataFrame¶
添加高层 CSV 子图 (dask#6262) Gil Forsyth
修复合并仅包含索引的单分区 dataframe 时的
ValueError
(dask#6309) Krishan Bhasin使
index.map
清除 divisions。 (dask#6285) Julia Signell
文档¶
添加 2020 调查链接 (dask#6328) Tom Augspurger
更新
bag.rst
(dask#6317) Ben Shaver
2.18.1 / 2020-06-09¶
数组¶
不要在
full
上尝试设置名称 (dask#6299) Julia Signell直方图:支持 range/bins 的惰性值(另一种方式) (dask#6252) Gabe Joseph
核心¶
修复
utils.py
中的异常原因 (dask#6302) Ram Rachum提高
HighLevelGraph
构建性能 (dask#6293) Julia Signell
文档¶
现在 readthedocs 构建未发布功能的文档字符串 (dask#6295) Antonio Ercole De Luca
添加
asyncssh
intersphinx 映射 (dask#6298) Jacob Tomlinson
2.18.0 / 2020-06-05¶
数组¶
如果切片索引与原数组 shape 相同,则将其转换为 dask 数组 (dask#6273) Julia Signell
修复
stack
错误消息 (dask#6268) Stephanie Gottmap_overlap
支持多个数组 (dask#6165) Eric Czech填充重采样分区以计算边缘 (dask#6255) Julia Signell
Bag¶
从dask bag中随机抽样k个元素 #4799 (dask#6239) Antonio Ercole De Luca
DataFrame¶
向
sort_values
添加dropna
,sort
和ascending
(dask#5880) Julia Signell泛化
from_dask_array
(dask#6263) GALI PREM SAGAR为
SeriesGroupby.nunique
添加派生文档字符串 (dask#6284) Julia Signell移除带有规则的重采样中的
NotImplementedError
(dask#6274) Abdulelah Bin Mahfoodh添加
dd.to_sql
(dask#6038) Ryan Williams
2.17.2 / 2020-05-28¶
核心¶
重新添加
complete
extra (dask#6257) Jim Crist-Harif
DataFrame¶
如果
resample
不会给出正确答案,则抛出错误 (dask#6244) Julia Signell
2.17.1 / 2020-05-28¶
数组¶
空数组重新分块 (dask#6233) Andrew Fulton
核心¶
使
pyyaml
成为必需项 (dask#6250) Jim Crist-Harif修复
ImportError
导致的安装命令错误 (dask#6238) Gaurav Sheni移除 issue 模板 (dask#6249) Jacob Tomlinson
DataFrame¶
从
DataFrame.shuffle
向dd_shuffle
传递ignore_index
(dask#6247) Richard (Rick) Zamora处理缺失的 HDF 键 (dask#6204) Martin Durant
泛化
describe
&quantile
API (dask#5137) GALI PREM SAGAR
2.17.0 / 2020-05-26¶
数组¶
Bag¶
Bag上的随机选择 (dask#6208) Antonio Ercole De Luca
核心¶
抛出警告
delayed.visualise()
(dask#6216) Amol Umbarkar确保其他 pickle 参数有效 (dask#6229) John A Kirkham
全面改革
fuse()
配置 (dask#6198) crusaderky更新
dask.order.order
以同时使用 FIFO 和 LIFO 考虑“下一个”节点 (dask#5872) Erik Welch
DataFrame¶
为更多聚合方法使用 0 作为
fill_value
(dask#6245) Julia Signell泛化
rearrange_by_column_tasks
并添加DataFrame.shuffle
(dask#6066) Richard (Rick) ZamoraXfail
test_rolling_numba_engine
用于较新版本的numba和较旧版本的pandas (dask#6236) James Bourbeau泛化
fix_overlap
(dask#6240) GALI PREM SAGAR当使用重叠分区设置预排序索引时,避免 shuffle (dask#6226) Krishan Bhasin
调整 Parquet 引擎类,使其更容易进行子类化 (dask#6211) Marius van Niekerk
修复
dd.merge_asof
在left_on='col'
&right_index=True
时的 bug (dask#6192) noreentry将
AUTO_BLOCKSIZE
移出read_csv
签名 (dask#6214) Jim Crist-Harif使用可调用对象进行
.loc
索引 (dask#6185) Endre Mark Borza避免在
_compute_sum_of_squares
中使用 apply 进行 groupby std 聚合 (dask#6186) Richard (Rick) Zamoratest_parquet
的微小更正 (dask#6190) Brian Larsen遵守传递的 pat 进行分隔符连接并修复错误消息 (dask#6194) GALI PREM SAGAR
如果没有可用的 parquet 库,则跳过
test_to_parquet_with_get
(dask#6188) Scott Sanderson
文档¶
添加了
distributed.Event
类的文档 (dask#6231) Nils Braun
2.16.0 / 2020-05-08¶
数组¶
修复数组通用 reduction 名称 (dask#6176) Nick Evans
在
unravel_index
中将dim
替换为shape
(dask#6155) Julia SignellMoment: 处理所有元素都被掩码的情况 (dask#5339) Gabe Joseph
核心¶
移除 dask 代码库中冗余的字符串拼接 (dask#6137) GALI PREM SAGAR
上游兼容性 (dask#6159) Tom Augspurger
确保 dict 和序列的
sizeof
返回一个整数 (dask#6179) James Bourbeau使用随机采样估计 python 集合大小 (dask#6154) Florian Jetter
更新上游测试 (dask#6146) Tom Augspurger
跳过 mindeps 构建的测试 (dask#6144) Tom Augspurger
将默认多进程上下文切换到“spawn” (dask#4003) Itamar Turner-Trauring
更新 manifest 以包含 dask-schema (dask#6140) Benjamin Zaitlen
DataFrame¶
加强基于 pyarrow 的
read_parquet
中不一致 schema 的处理 (dask#6160) Richard (Rick) Zamora向将数据写入磁盘的方法添加 compute
kwargs
(dask#6056) Krishan Bhasin修复
unique
从后端返回类似索引结果的问题 (dask#6153) GALI PREM SAGAR修复
map_partitions
使用集合时的内部错误 (dask#6103) Tom Augspurger
文档¶
向索引目录添加计算阶段 (dask#6157) Benjamin Zaitlen
移除调度脚本中未使用的导入 (dask#6138) James Lamb
修复缩进 (dask#6147) Martin Durant
添加 Tom 的日志配置示例 (dask#6143) Martin Durant
2.15.0 / 2020-04-24¶
数组¶
更新
dask.array.from_array
,当传入 Dask 集合时发出警告 (dask#6122) James Bourbeau在
da.repeat
中添加对repeats=0
的支持 (dask#6080) James Bourbeau
核心¶
修复 schema 的 yaml 布局 (dask#6132) Benjamin Zaitlen
配置参考 (dask#6069) Benjamin Zaitlen
添加配置选项以关闭任务融合 (dask#6087) Matthew Rocklin
在 windows 上跳过 pyarrow (dask#6094) Tom Augspurger
设置融合键最大长度的限制 (dask#6057) Lucas Rademaker
添加针对 #6062 的测试 (dask#6072) Martin Durant
升级 checkout action 到 v2 (dask#6065) James Bourbeau
DataFrame¶
泛化分类调用以支持 cudf
Categorical
(dask#6113) GALI PREM SAGAR避免在每个 worker 上都读取
_metadata
(dask#6017) Richard (Rick) Zamora在
apply_concat_apply
中使用group_split_dispatch
和ignore_index
(dask#6119) Richard (Rick) Zamora使用 pyarrow 处理新的 (dtype) pandas 元数据 (dask#6090) Richard (Rick) Zamora
如果未安装 pyarrow,则跳过
test_partition_on_cats_pyarrow
(dask#6112) James Bourbeau更新 DataFrame len 以处理同名列 (dask#6111) James Bourbeau
ArrowEngine
错误修复和测试覆盖 (dask#6047) Richard (Rick) Zamora添加了 mode (dask#5958) Adam Lewis
文档¶
扩展 preload 文档 (dask#6077) Matthew Rocklin
修复 DataFrame
map_partitions()
docstring 中的小拼写错误 (dask#6115) Eugene Huang修复拼写错误:“double”应该是乘,不是加 (dask#6091) David Chudzicki
修复
array.random.*
文档的第一行 (dask#6063) Martin Durant在 distributed 中添加关于
Semaphore
的部分 (dask#6053) Florian Jetter
2.14.0 / 2020-04-03¶
数组¶
添加了
np.iscomplexobj
实现 (dask#6045) Tom Augspurger
核心¶
更新
test_rearrange_disk_cleanup_with_exception
,使其在未安装 cloudpickle 的情况下通过 (dask#6052) James Bourbeau修复了不稳定的
test-rearrange
(dask#5977) Tom Augspurger
DataFrame¶
在
stack_partitions
中使用_meta_nonempty
进行 dtype 转换 (dask#6061) mlondschien修复 parquet
ArrowEngine
中_metadata
创建和过滤的错误 (dask#6023) Richard (Rick) Zamora
文档¶
文档: 添加名称注意事项 (dask#6040) Tom Augspurger
2.13.0 / 2020-03-25¶
数组¶
在
da.random
中支持dtype
和其他关键字参数 (dask#6030) Matthew Rocklin注册支持
cupy
稀疏hstack
/vstack
(dask#5735) Corey J. Nolet在
dask.array
中强制self.name
为str
(dask#6002) Chuanzhu Xu
Bag¶
在
bag.optimize
中默认将rename_fused_keys
设置为None
(dask#6000) Lucas Rademaker
核心¶
更严格的 pandas
xfail
(dask#6024) Tom Augspurger修复 CI 失败 (dask#6013) James Bourbeau
更新
toolz
到 0.8.2 并使用tlz
(dask#5997) Ryan Grout将 Windows CI 构建移到 GitHub Actions (dask#5862) James Bourbeau
DataFrame¶
修复
dd.concat
中的dtype
处理 (dask#6006) mlondschien处理 cudf 的 leftsemi 和 leftanti 连接 (dask#6025) Richard J Zamora
移除
dd.from_pandas
中未使用的npartitions
变量 (dask#6019) Daniel Saxton
文档¶
修复 scheduler-overview 文档中的缩进 (dask#6022) Matthew Rocklin
更新 optimize 文档中的任务图 (dask#5928) Julia Signell
可选地去除 visualize 中的中间框,并添加更多标签 (dask#5976) Julia Signell
2.12.0 / 2020-03-06¶
数组¶
改进临时对象与 numpy 的重用 (dask#5933) Bruce Merry
使带有
block_info
的map_blocks
产生一个Blockwise
(dask#5896) Bruce Merry优化
make_blockwise_graph
(dask#5940) Bruce Merry修复
da.tensordot
中的轴顺序 (dask#5975) Gil Forsyth向
array.pad
添加 empty 模式 (dask#5931) Thomas J. Fan
核心¶
移除
dask.utils
中对toolz.memoize
的依赖 (dask#5978) Ryan Grout关闭泄露子进程的 pool (dask#5979) Tom Augspurger
将
numpydoc
固定到0.8.0
(修复双重自动转义) (dask#5961) Gil Forsyth注册
range
对象的确定性 tokenization (dask#5947) James Bourbeau在 CI 中取消
msgpack
的固定 (dask#5930) JAmes Bourbeau确保 dot 结果放置在唯一文件中。 (dask#5937) Elliott Sales de Andrade
向 Travis 3.8 CI 构建环境添加剩余的可选依赖项 (dask#5920) James Bourbeau
DataFrame¶
跳过某些键的 parquet
getitem
优化 (dask#5917) Tom Augspurger向
rearrange_by_column
代码路径添加ignore_index
参数 (dask#5973) Richard J Zamora添加 DataFrame 和 Series 的
memory_usage_per_partition
方法 (dask#5971) James Bourbeau使用 Pandas 0.24.2 时 xfail test_describe (dask#5948) James Bourbeau
实现
dask.dataframe.to_numeric
(dask#5929) Julia Signell当列顺序不同时添加新的错误消息内容 (dask#5927) Julia Signell
如果可能,对赋值操作使用浅复制 (dask#5740) Richard J Zamora
文档¶
在
dask.array.triu
文档中将 above 改为 below (dask#5984) Henrik Andersson数组切片: 修复
slice_with_int_dask_array
错误消息中的拼写错误 (dask#5981) Gabe Joseph对 docstrings 进行语法和格式更新 (dask#5963) James Lamb
更新 DataFrame 扩展文档的标题 (dask#5954) James Bourbeau
修复了文档中的拼写错误 (dask#5962) James Lamb
在
_bind_*
方法上将原始类或模块添加为kwarg
(dask#5946) Julia Signell更新针对 python 3 的优化文档 (dask#5926) Julia Signell
2.11.0 / 2020-02-19¶
数组¶
缓存
Array.shape
的结果 (dask#5916) Bruce Merry提高
rechunk
的estimate_graph_size
的准确性 (dask#5907) Bruce Merry跳过不改变分块的 rechunk 步骤 (dask#5909) Bruce Merry
在
coarsen
中支持dtype
和其他kwargs
(dask#5903) Matthew Rocklin将来自
map_blocks
的 chunk 覆盖推送到 blockwise (dask#5895) Bruce Merry避免为单例使用
rewrite_blockwise
(dask#5890) Bruce Merry优化
slices_from_chunks
(dask#5891) Bruce Merry当 chunks 具有正确维度时,避免在
block()
中不必要的__getitem__
(dask#5884) Thomas Robitaille
Bag¶
为
dask.bag.read_text
添加include_path
选项 (dask#5836) Yifan Gu修复打包 NumPy 数组延迟执行中的
ValueError
(dask#5828) Surya Avala
核心¶
CI: 固定
msgpack
(dask#5923) Tom Augspurger将
test_inner
重命名为test_outer
(dask#5922) Shiva Raisinghaniquote
也应该引用字典 (dask#5905) Bruce Merry注册 literal 的规范化器 (dask#5898) Bruce Merry
改进非 HLGs 的层名称合成 (dask#5888) Bruce Merry
替换 flake8 pre-commit-hook 为上游版本 (dask#5892) Julia Signell
以模块形式调用 pip 以避免警告 (dask#5861) Cyril Shcherbin
在退出时关闭
ThreadPool
(dask#5852) Tom Augspurger移除 tokenization 代码中的
dask.dataframe
导入 (dask#5855) James Bourbeau
DataFrame¶
要求
pandas>=0.23
(dask#5883) Tom Augspurger移除 dataframe 聚合中的 lambda (dask#5901) Matthew Rocklin
修复
dataframe/__init__.py
中的异常链 (dask#5882) Ram Rachum添加对空 dataframe 上 reduce 的支持 (dask#5804) Shiva Raisinghani
暴露 groupby 的
sort=
参数 (dask#5801) Richard J Zamora使用来自
fastparquet.api.paths_to_cats
的 parquet 读取加速。 (dask#5821) Igor Gotlibovych
文档¶
废弃
doc_wraps
(dask#5912) Tom Augspurger更新 HighLevelGraph 时代的 array 内部设计文档 (dask#5889) Bruce Merry
移过来仪表板连接文档 (dask#5877) Matthew Rocklin
从 distributed.dask.org 移过来 prometheus 文档 (dask#5876) Matthew Rocklin
移除末尾重复的 DO 块 (dask#5878) K.-Michael Aye
map_blocks
参考另见 (dask#5874) Tom Augspurger更多派生自 (dask#5871) Julia Signell
修复拼写错误 (dask#5866) Yetunde Dada
修复
cloud.rst
中的拼写错误 (dask#5860) Andrew Thomas添加指向行为准则和多样性声明的注释 (dask#5844) Matthew Rocklin
2.10.1 / 2020-01-30¶
修复 Pandas 1.0 版本比较 (dask#5851) Tom Augspurger
修复 distributed diagnostics 文档中的拼写错误 (dask#5841) Gerrit Holl
2.10.0 / 2020-01-28¶
支持 pandas 1.0 的新
BooleanDtype
和StringDtype
(dask#5815) Tom Augspurger与 pandas 1.0 的 API 破坏性更改和废弃的兼容性 (dask#5792) Tom Augspurger
修复了某些扩展数组支持的 pandas 对象的非确定性 tokenization (dask#5813) Tom Augspurger
修复了集合中 dataclass 类对象的处理 (dask#5812) Matteo De Wint
延迟最初的 Zarr 数据集创建直到计算发生 (dask#5797) Chris Roat
在使用
pyarrow
引擎的情况下更多地使用 parquet 数据集统计信息 (dask#5799) Richard J Zamora修复了当某些键是大整数时
groupby.std()
中的异常 (dask#5737) H. Thomson Comer
2.9.2 / 2020-01-16¶
数组¶
在
broadcast_arrays
中统一块 (dask#5765) Matthew Rocklin
核心¶
xfail CSV 编码测试 (dask#5791) Tom Augspurger
更新 order 以处理空的 dask 图 (dask#5789) James Bourbeau
重做
dask.order.order
(dask#5646) Erik Welch
DataFrame¶
为磁盘上的 shuffle 添加透明压缩功能,使用
partd
(dask#5786) Christian Wesp修复空 dataframe 的
repr
(dask#5781) Shiva RaisinghaniPandas 1.0.0RC0 兼容性 (dask#5784) Tom Augspurger
移除有 bug 的断言 (dask#5783) Tom Augspurger
Pandas 1.0 兼容性 (dask#5782) Tom Augspurger
修复基于 pyarrow 的
read_parquet
在分区数据集上的 bug (dask#5777) Richard J Zamora兼容 pandas 1.0 (dask#5779) Tom Augspurger
修复使用分类索引时的 groupby/mean 错误 (dask#5776) Richard J Zamora
在执行累积聚合时支持空分区 (dask#5730) Matthew Rocklin
修复了有序
Categorical
在 set index 中的分区问题 (dask#5715) Tom Augspurger
文档¶
注意
normalize_token.register
的附加用例 (dask#5766) Thomas A Caswell小拼写错误 (dask#5771) Maarten Breddels
修复 Task Expectations 文档中的拼写错误 (dask#5767) James Bourbeau
在图页面添加关于任务期望的文档部分 (dask#5764) Devin Petersohn
2.9.1 / 2019-12-27¶
数组¶
支持 Array.view 使用 dtype=None (dask#5736) Anderson Banihirwe
添加 dask.array.nanmedian (dask#5684) Deepak Cherian
核心¶
在 Python 3.8 上 xfail test_temporary_directory (dask#5734) James Bourbeau
添加对 Python 3.8 的支持 (dask#5603) James Bourbeau
DataFrame¶
将 dask dataframe 标量转换为布尔值时抛出错误 (dask#5743) James Bourbeau
确保 dataframe groupby 方差大于零 (dask#5728) Matthew Rocklin
修复 DataFrame.__iter__ (dask#5719) Tom Augspurger
支持合取范式 (disjunctive normal form) 中的 Parquet 过滤器,类似于 PyArrow (dask#5656) Matteo De Wint
在基于 ArrowEngine 的 read_parquet 中自动检测分类列 (dask#5690) Richard J Zamora
如果未找到引擎,则跳过 parquet getitem 优化测试 (dask#5697) James Bourbeau
修复 parquet-getitem 的独立优化 (dask#5613) Tom Augspurger
文档¶
在多处链接到 examples.dask.org (dask#5733) Tom Augspurger
在 performance report 示例中添加缺失的 " (dask#5724) James Bourbeau
解决多个文档构建警告 (dask#5685) James Bourbeau
添加关于 performance_report 的信息 (dask#5713) Benjamin Zaitlen
添加更多文档免责声明 (dask#5710) Julia Signell
更新 numpydoc 依赖项 (dask#5694) James Bourbeau
2.9.0 / 2019-12-06¶
数组¶
修复
da.std
,使其适用于 NumPy 数组 (dask#5681) James Bourbeau
核心¶
注册 Numba 和 RMM 的
sizeof
函数 (dask#5668) John A Kirkham更新会议时间 (dask#5682) Tom Augspurger
DataFrame¶
修改
dd.DataFrame.drop
以使用浅复制 (dask#5675) Richard J Zamora修复
_get_md_row_groups
中的 bug (dask#5673) Richard J Zamora查询数据库后关闭 sqlalchemy 引擎 (dask#5629) Krishan Bhasin
允许
dd.map_partitions
不强制执行 meta (dask#5660) Matthew Rocklin泛化
concat_unindexed_dataframes
以支持 cudf 后端 (dask#5659) Richard J Zamora添加 dataframe 重采样方法 (dask#5636) Benjamin Zaitlen
计算 dataframe 长度为第一列的长度 (dask#5635) Matthew Rocklin
文档¶
文档修复 (dask#5665) James Bourbeau
更新文档构建说明 (dask#5640) James Bourbeau
添加文档构建 (dask#5617) James Bourbeau
2.8.1 / 2019-11-22¶
数组¶
在
da.rechunk
中如果未给定值则使用自动重新分块 (dask#5605) Matthew Rocklin
核心¶
添加简单的 action 以激活 GH actions (dask#5619) James Bourbeau
DataFrame¶
修复
aggregate_row_groups
中的“file_path_0” bug (dask#5627) Richard J Zamora向
read_parquet
添加chunksize
参数 (dask#5607) Richard J Zamora更改
test_repartition_npartitions
以支持 arch64 架构 (dask#5620) ossdev07groupby + agg 后类别丢失 (dask#5423) Oliver Hofkens
修复了 parquet 元数据文件的相对路径问题 (dask#5608) Nuno Gomes Silva
在 dataframes 中启用 GPU 支持的协方差/相关性 (dask#5597) Richard J Zamora
文档¶
修复机构 faq 和未知文档警告 (dask#5616) James Bourbeau
添加一些工具函数的文档 (dask#5609) Tom Augspurger
移除
html_extra_path
(dask#5614) James Bourbeau修复 参考另见 引用错误 (dask#5612) Tom Augspurger
2.8.0 / 2019-11-14¶
数组¶
实现完整的 dask.array.tile 函数 (dask#5574) Bouwe Andela
添加沿轴的中位数,具有自动重新分块功能 (dask#5575) Matthew Rocklin
允许 da.asarray 对输入进行分块 (dask#5586) Matthew Rocklin
Bag¶
在 Bag 名称中使用 key_split (dask#5571) Matthew Rocklin
核心¶
将 Doctests 切换到 Py3.7 (dask#5573) Ryan Nazareth
放宽 get_colors 测试以适应新的 Bokeh 版本 (dask#5576) Matthew Rocklin
添加 dask.blockwise.fuse_roots 优化 (dask#5451) Matthew Rocklin
添加小字典的 sizeof 实现 (dask#5578) Matthew Rocklin
更新 fsspec, gcsfs, s3fs (dask#5588) Tom Augspurger
DataFrame¶
向 groupby 添加 dropna 参数 (dask#5579) Richard J Zamora
恢复“移除 dask_cudf 的导入,它现在是 cudf 的一部分 (dask#5568)” (dask#5590) Matthew Rocklin
文档¶
添加 dask.compute 函数的最佳实践 (dask#5583) Matthew Rocklin
创建 FUNDING.yml (dask#5587) Gina Helfrich
添加协调原语的截屏视频 (dask#5593) Matthew Rocklin
将 funding 移到 .github repo (dask#5589) Tom Augspurger
更新日历链接 (dask#5569) Tom Augspurger
2.7.0 / 2019-11-08¶
此版本取消对 Python 3.5 的支持
数组¶
更新 da.array 使其总是返回 dask 数组 (dask#5510) James Bourbeau
跳过简单输入的 transpose (dask#5523) Ryan Abernathey
在 tokenize 中避免 NumPy 标量字符串表示 (dask#5527) James Bourbeau
移除不必要的 tiledb 形状约束 (dask#5545) Norman Barker
移除稀疏数组 HTML repr 中的 bytes (dask#5556) James Bourbeau
核心¶
取消支持 Python 3.5 (dask#5528) James Bourbeau
更新 distributed 测试中 fixture 的使用 (dask#5497) Matthew Rocklin
在 ensure_dict 中避免使用相同的 dict 进行更新 (dask#5501) James Bourbeau
测试上游 (dask#5516) Tom Augspurger
加速 reverse_dict (dask#5479) Ryan Grout
更新 test_imports.sh (dask#5534) James Bourbeau
在 multiprocess 和 threaded 调度器中支持 cgroups 对 cpu 计数的限制 (dask#5499) Albert DeFusco
更新 CI 上的最小 pyarrow 版本 (dask#5562) James Bourbeau
使 cloudpickle 成为可选依赖项 (dask#5511) crusaderky
DataFrame¶
添加 index_col 用法的示例 (dask#3072) Bruno Bonfils
显式使用 iloc 进行行索引 (dask#5500) Krishan Bhasin
在列赋值中接受 dask 数组 (dask#5224) Henrique Ribeiro-
为 SeriesGroupBy 实现 unique 和 value_counts (dask#5358) Scott Sievert
为 pyarrow 表和列添加 sizeof 定义 (dask#5522) Richard J Zamora
在基于 pyarrow 的 read_parquet 中启用行组任务分区 (dask#5508) Richard J Zamora
从 dd.merge 文档字符串中移除 npartitions=’auto’ (dask#5531) James Bourbeau
应用 enforce 错误消息显示非重叠列。(dask#5530) Tom Augspurger
优化重复 dtype 的 meta_nonempty (dask#5553) Petio Petrov
移除 dask_cudf 导入,它现在是 cudf 的一部分 (dask#5568) Mads R. B. Kristensen
文档¶
使 FAQ 文档中的大小写更一致 (dask#5512) Matthew Rocklin
添加 CONTRIBUTING.md (dask#5513) Jacob Tomlinson
记录可选依赖项 (dask#5456) Prithvi MK
更新 helm chart 文档以反映新的 chart 仓库 (dask#5539) Jacob Tomlinson
将 Resampler 添加到 API 文档 (dask#5551) James Bourbeau
添加自适应部署截屏视频 [skip ci] (dask#5566) Matthew Rocklin
2.6.0 / 2019-10-15¶
核心¶
在进入
toolz.merge
之前对图调用ensure_dict
(dask#5486) Matthew Rocklin整合哈希分派函数 (dask#5476) Richard J Zamora
DataFrame¶
在 Parquet 代码中支持 Python 3.5 (dask#5491) Benjamin Zaitlen
避免在
warn_dtype_mismatch
中进行身份检查 (dask#5489) Tom Augspurger启用未使用的 groupby 测试 (dask#3480) Jörg Dietrich
移除旧的 parquet 和 bcolz dataframe 优化 (dask#5484) Matthew Rocklin
为
read_parquet
添加 getitem 优化 (dask#5453) Tom Augspurger使用
_constructor_sliced
方法确定 Series 类型 (dask#5480) Richard J Zamora修复 map(series) 对于未排序的基础 series 索引的问题 (dask#5459) Justin Waugh
修复 Groupby 标签导致的
KeyError
(dask#5467) Ryan Nazareth
文档¶
使用 Zoom 会议代替 appear.in (dask#5494) Matthew Rocklin
更新 SSH 文档以包含
SSHCluster
(dask#5482) Matthew Rocklin更新“为什么选择 Dask?”页面 (dask#5473) Matthew Rocklin
2.5.2 / 2019-10-04¶
数组¶
修正不对称重叠的块大小逻辑 (dask#5449) Ben Jeffery
将 da.unify_chunks 公开为 API (dask#5443) Matthew Rocklin
DataFrame¶
修复 dask.dataframe.fillna 对 Scalar 对象的处理 (dask#5463) Zhenqing Li
文档¶
移除 Spark 比较页面中的框 (dask#5445) Matthew Rocklin
更新云文档 (dask#5444) Matthew Rocklin
2.5.0 / 2019-09-27¶
核心¶
为 get_dependencies 任务添加 sentinel no_default (dask#5420) James Bourbeau
更新 fsspec 版本 (dask#5415) Matthew Rocklin
DataFrame¶
添加选项以不在 dd.from_delayed 中检查 meta (dask#5436) Christopher J. Wright
修复 pyarrow master 中 test_timeseries_nulls_in_schema 失败的问题 (dask#5421) Richard J Zamora
减少 pyarrow/parquet 中 read_metadata 的输出大小 (dask#5391) Richard J Zamora
取消 pandas-datareader 测试的 xfail 标记 (dask#5430) Tom Augspurger
添加 DataFrame.pop 实现 (dask#5422) Matthew Rocklin
为基于 cudf 的 dataframes 启用带有 cupy
values
的 merge/set_index (dask#5322) Richard J Zamora
文档¶
添加 screencasts 到 array, bag, dataframe, delayed, futures 和 setup (dask#5429) (dask#5424) Matthew Rocklin
修复 delimeter 解析文档 (dask#5428) Mahmut Bulut
更新 overview 图像 (dask#5404) James Bourbeau
2.4.0 / 2019-09-13¶
数组¶
添加显式
h5py.File
mode (dask#5390) James Bourbeau提供计算未知 array chunk sizes 的方法 (dask#5312) Scott Sievert
忽略 Array
compute_meta
中的 runtime warning (dask#5356) estebanag将
_meta
添加到Array.__dask_postpersist__
(dask#5353) Benoit Bovy为 datetime64 dtype 和 xarray 对象修复
da.asarray
和da.asanyarray
(dask#5334) Stephan Hoyer添加 shape 实现 (dask#5293) Tom Augspurger
在 array text repr 中添加 chunktype (dask#5289) James Bourbeau
Array.random.choice: 处理类数组的非数组对象 (dask#5283) Gabe Joseph
核心¶
修复 vectorized func 没有
__name__
时的funcname
(dask#5399) James Bourbeau截断
funcname
以避免过长的 key 名称 (dask#5383) Matthew Rocklin在
funcname
中添加对numpy.vectorize
的支持 (dask#5396) James Bourbeau修复 HDFS upstream 测试 (dask#5395) Tom Augspurger
在
parse_bytes
/timedelta
中支持数字和 None (dask#5384) Matthew Rocklin修复 memmapped numpy 数组上 subindexes 的 tokenizing 问题 (dask#5351) Henry Pinkard
Upstream fixups (dask#5300) Tom Augspurger
DataFrame¶
允许 pandas cast 统计信息的类型 (dask#5402) Richard J Zamora
为 Series 和 DataFrame 实现 explode (dask#5381) Arpit Solanki
categorical 的
set_index
在 category 少于 partition 时失败 (dask#5354) Oliver Hofkens支持输出到单个 CSV 文件 (dask#5304) Hongjiu Zhang
添加
groupby().transform()
(dask#5327) Oliver Hofkens向 pyarrow dataset 调用添加 filter kwarg (dask#5348) Richard J Zamora
为 parquet 实现并检查 compression defaults (dask#5335) Sarah Bird
将 sqlalchemy 参数传递给 delayed 对象 (dask#5332) Arpit Solanki
修复 arrow-parquet 中的 schema 处理问题 (dask#5307) Richard J Zamora
为 DF 和 Series 添加
groupby().idxmin/max()
支持 (dask#5273) Oliver Hofkens添加关联计算并添加测试 (dask#5296) Benjamin Zaitlen
文档¶
Array chunk 文档的微小编辑 (dask#5372) Scott Sievert
将方法添加到 API 文档 (dask#5387) Tom Augspurger
为配置示例添加命名空间 (dask#5374) Matthew Rocklin
将 get_task_stream 和 profile 添加到 diagnostics 页面 (dask#5375) Matthew Rocklin
添加使用 Dask 加载数据的最佳实践 (dask#5369) Matthew Rocklin
在最佳实践中添加 threads 和 processes 注意事项 (dask#5340) Matthew Rocklin
更新 cuDF 链接 (dask#5328) James Bourbeau
修复括号位置的小拼写错误 (dask#5311) Eugene Huang
更新 reshape docstring 中的链接 (dask#5297) James Bourbeau
2.3.0 / 2019-08-16¶
数组¶
当
from_array
接收 dask array 时抛出异常 (dask#5280) David Hoese避免 gufunc 的 meta dtype 两次调整 (dask#5274) Peter Andreas Entschev
为 map_blocks 添加
meta=
关键字并添加 sparse 测试 (dask#5269) Matthew Rocklin添加 rollaxis 和 moveaxis (dask#4822) Tobias de Jong
始终递增旧 chunk 索引 (dask#5256) James Bourbeau
Shuffle dask array (dask#3901) Tom Augspurger
修复使用 bool dask array 索引 dask array 时的排序问题 (dask#5151) James Bourbeau
包¶
为 bag generators 添加 workaround 解决内存泄漏问题 (dask#5208) Marco Neumann
核心¶
设置 strict xfail 选项 (dask#5220) James Bourbeau
test-upstream (dask#5267) Tom Augspurger
修复 HDFS CI 失败问题 (dask#5234) Tom Augspurger
确保如果未安装 fastparquet 和 pyarrow,则跳过 parquet 测试 (dask#5217) James Bourbeau
在 readthedocs 中添加 fsspec (dask#5207) Matthew Rocklin
在 CI 测试中将 NumPy 和 Pandas 版本提升至 1.17 和 0.25 (dask#5179) John A Kirkham
DataFrame¶
修复
DataFrame.query
docstring (numexpr API 不正确) (dask#5271) Doug DavisParquet 元数据处理改进 (dask#5218) Richard J Zamora
改善关于索引的已排序 parquet 列的消息传递 (dask#5265) Martin Durant
为 cudf 添加
rearrange_by_divisions
和set_index
支持 (dask#5205) Richard J Zamora修复带有整数列名的
groupby.std()
问题 (dask#5096) Nicolas Hug泛化
hash_pandas_object
以支持非 pandas 后端 (dask#5184) GALI PREM SAGAR添加 rolling cov (dask#5154) Ivars Geidans
在 drop 函数中添加 columns 参数 (dask#5223) Henrique Ribeiro
文档¶
更新 institutional FAQ 文档 (dask#5277) Matthew Rocklin
添加 institutional FAQ 草稿 (dask#5214) Matthew Rocklin
为 dask-spark 页面制作框 (dask#5249) Martin Durant
为 shuffle 文档添加动机 (dask#5213) Matthew Rocklin
修复 best-practices 的链接和 API 条目 (dask#5246) Martin Durant
移除“bytes”(内部数据摄取)文档页面 (dask#5242) Martin Durant
将本地 distributed 页面重定向到 distributed.dask.org (dask#5248) Matthew Rocklin
清理 API 页面 (dask#5247) Matthew Rocklin
移除 install 文档中多余的空行 (dask#5243) Matthew Rocklin
移除计算阶段文档中的项目列表 (dask#5245) Martin Durant
从 TOC 侧边栏移除 custom graphs (dask#5241) Matthew Rocklin
移除 custom collections 的实验状态 (dask#5236) James Bourbeau
将目录添加到 Why Dask? (dask#5244) James Bourbeau
将 bag overview 移动到顶层 bag 页面 (dask#5240) James Bourbeau
移除 use-cases,转而使用 stories.dask.org (dask#5238) Matthew Rocklin
移除 index.rst 中冗余的 TOC 信息 (dask#5235) James Bourbeau
提升 distributed diagnostics 文档中的 dashboard (dask#5239) Martin Durant
更新 HLG docs 示例中的“add”层 (dask#5237) James Bourbeau
更新 GUFunc 文档 (dask#5232) Matthew Rocklin
2.2.0 / 2019-08-01¶
数组¶
如果输入遵循 NEP-18,则使用 da.from_array(…, asarray=False) (dask#5074) Matthew Rocklin
添加 from_array 文档中缺失的属性 (dask#5108) Peter Andreas Entschev
修复某些 reduction 函数的 meta 计算问题 (dask#5035) Peter Andreas Entschev
如果在 to_zarr 中遇到未知 chunks,则抛出信息性错误 (dask#5148) James Bourbeau
移除无效的 pad 测试 (dask#5122) Tom Augspurger
忽略 compute_meta 中的 NumPy warnings (dask#5103) Peter Andreas Entschev
修复单维度输入数组的 kurtosis 计算 (dask#5177) @andrethrill
在测试中支持 Numpy 1.17 (dask#5192) Matthew Rocklin
包¶
为 bag 测试提供 pool 以解决间歇性失败 (dask#5172) Tom Augspurger
核心¶
基于 fsspec 构建 dask (dask#5064) (dask#5121) Martin Durant
各种 upstream 兼容性修复 (dask#5056) Tom Augspurger
再次使 distributed 测试成为可选。(dask#5128) Elliott Sales de Andrade
修复 dask 中的 HDFS 问题 (dask#5130) Martin Durant
忽略更多无效值警告。(dask#5140) Elliott Sales de Andrade
DataFrame¶
修复 pd.MultiIndex 大小估计 (dask#5066) Brett Naul
泛化 has_known_categories (dask#5090) GALI PREM SAGAR
重构 Parquet 引擎 (dask#4995) Richard J Zamora
修复 flaky partd 测试 (dask#5111) Tom Augspurger
调整 is_dataframe_like 以适应 value_counts 更改 (dask#5143) Tom Augspurger
泛化 rolling windows 以支持非 Pandas dataframes (dask#5149) Nick Becker
避免 pivot_table 中不必要的聚合 (dask#5173) Daniel Saxton
向 apply_and_enforce 错误消息添加列名 (dask#5180) Matthew Rocklin
向 to_parquet 添加 schema 关键字参数 (dask#5150) Sarah Bird
允许 fastparquet 处理 file lists 的 gather_statistics=False (dask#5157) Richard J Zamora
文档¶
将 NumFOCUS 徽章添加到 README (dask#5086) James Bourbeau
记录 DataFrame.set_index 计算行为 Natalya Rapstine
使用 pip install . 而不是调用 setup.py (dask#5139) Matthias Bussonier
关闭用户调查 (dask#5147) Tom Augspurger
修复 Google Calendar 会议链接 (dask#5155) Loïc Estève
添加 docker 镜像定制示例 (dask#5171) James Bourbeau
更新 fsspec 后的 remote-data-services 文档 (dask#5170) Martin Durant
修复 spark.rst 中的拼写错误 (dask#5164) Xavier Holt
更新 setup/python 文档以支持 async/await API (dask#5163) Matthew Rocklin
更新 Local Storage HPC 文档 (dask#5165) Matthew Rocklin
2.1.0 / 2019-07-08¶
数组¶
为
svd_compressed
添加recompute=
关键字以降低内存使用 (dask#5041) Matthew Rocklin更改
__array_function__
实现以实现向后兼容 (dask#5043) Ralf Gommers向
apply_along_axis
添加dtype
和shape
kwargs (dask#3742) Davis Bennett修复 axis 为空元组的 reduction 问题 (dask#5025) Peter Andreas Entschev
在
stack
中丢弃大小为 0 的数组 (dask#4978) John A Kirkham
核心¶
从 pandas
to_parquet
调用中移除 index 关键字 (dask#5075) James Bourbeau修复 upstream dev CI 构建安装问题 (dask#5072) James Bourbeau
确保 scalar 数组不渲染为 SVG (dask#5058) Willi Rath
环境创建大修 (dask#5038) Tom Augspurger
s3fs, moto 兼容性 (dask#5033) Tom Augspurger
pytest 5.0 兼容 (dask#5027) Tom Augspurger
DataFrame¶
修复 blockwise 中的
compute_meta
递归问题 (dask#5048) Peter Andreas Entschev移除
get_dummies
中对 pandas 的硬依赖 (dask#5057) GALI PREM SAGAR修复 cumulative 函数在 partitions 多于 1 的表上的问题 (dask#5034) tshatrov
处理 repartition 中不可整除的大小问题 (dask#5013) George Sakkis
处理 pyarrow 中 timestamp 和
preserve_index
的变化 (dask#5018) Richard J Zamora修复
str.split(expand=False)
未定义meta
的问题 (dask#5022) Brett Naul移除用于调试
merge_asof
的检查 (dask#5011) Cody Johnson在 dataframes 中获取 accessor 时不使用 type (dask#4992) Matthew Rocklin
将
melt
添加为 Dask DataFrame 的方法 (dask#4984) Dustin Tindall为
to_hdf
添加 path-like 支持 (dask#5003) James Bourbeau
文档¶
在 JupyterHub 文档中指向最新的 K8s setup 文章 (dask#5065) Sean McKenna
将 vizualize 更改为 visualize (dask#5061) David Brochart
修复 delayed best practices 中的
from_sequence
拼写错误 (dask#5045) James Bourbeau在文档中添加用户调查链接 (dask#5026) James Bourbeau
修复 optimization 文档中的拼写错误 (dask#5015) James Bourbeau
更新 community meeting 信息 (dask#5006) Tom Augspurger
2.0.0 / 2019-06-25¶
数组¶
支持 da.indices 中的自动分块 (dask#4981) James Bourbeau
如果没有要堆叠的数组,则报错 (dask#4975) John A Kirkham
不对称数组重叠 (dask#4863) Michael Eaton
在 dask array 中尽可能分派 concatenate (dask#4669) Hameer Abbasi
修复同一文件不同部分上 memmapped numpy 数组的 tokenization 问题 (dask#4931) Henry Pinkard
在 da.asarray 中保留 NumPy 条件以保留输出形状 (dask#4945) Alistair Miles
扩展 foo_like_safe 的使用范围 (dask#4946) Peter Andreas Entschev
将 einsum 的 order/casting 参数延迟到 NumPy 实现 (dask#4914) Peter Andreas Entschev
移除 moment 计算中的 numpy warning (dask#4921) Matthew Rocklin
修复 meta_from_array 以支持 Xarray 测试套件 (dask#4938) Matthew Rocklin
缓存整数切片的块边界 (dask#4923) Bruce Merry
在 concatenate 中丢弃大小为 0 的数组 (dask#4167) John A Kirkham
如果 concatenate 没有提供数组,则抛出 ValueError (dask#4927) John A Kirkham
使用 _meta 提升 concatenate 中的类型 (dask#4925) John A Kirkham
在 Dask array 的 html repr 中添加 chunk 类型 (dask#4895) Matthew Rocklin
- 添加 Dask Array._meta 属性 (dask#4543) Peter Andreas Entschev
修复 _meta 对 flexible 类型的切片问题 (dask#4912) Peter Andreas Entschev
concatenate 中次要的 meta 构建清理 (dask#4937) Peter Andreas Entschev
进一步放宽 Array meta 检查以支持 Xarray (dask#4944) Matthew Rocklin
在 da.from_delayed 中支持 meta= 关键字 (dask#4972) Matthew Rocklin
沿 axis concatenate meta (dask#4977) John A Kirkham
在 stack 中使用 meta (dask#4976) John A Kirkham
将 blockwise_meta 移至更通用的 compute_meta 函数 (dask#4954) Matthew Rocklin
将 dask arrays 的 .partitions 别名为 .blocks 属性 (dask#4853) Genevieve Buckley
删除过时的 numpy_compat 函数 (dask#4850) John A Kirkham
允许 da.eye 通过 chunks=’auto’ 支持任意分块大小 (dask#4834) Anderson Banihirwe
修复 dask.array 测试中的 CI warnings (dask#4805) Tom Augspurger
使 map_blocks 适用于 drop_axis + block_info (dask#4831) Bruce Merry
在 Array._repr_html_ 中添加 SVG 图像和表格 (dask#4794) Matthew Rocklin
ufunc: 避免 __array_wrap__,倾向于 __array_function__ (dask#4708) Peter Andreas Entschev
确保 trivial padding 返回原始数组 (dask#4990) John A Kirkham
使用 0-size 数组测试
da.block
(dask#4991) John A Kirkham
核心¶
在 CI 中抑制依赖安装的输出 (dask#4960) Tom Augspurger
在测试中警告即报错 (dask#4916) Tom Augspurger
为 setup.py 添加 diagnostics extra (包含 bokeh) (dask#4924) John A Kirkham
重载 HighLevelGraphs values 方法 (dask#4918) James Bourbeau
为 Dask collections 添加 __await__ 方法 (dask#4901) Matthew Rocklin
同时忽略如果安装了 snappy (而非 python-snappy) 可能发生的 AttributeError (dask#4908) Mark Bell
在 config.rename 中规范化 key 名称 (dask#4903) Ian Bolliger
将最低 partd 版本提升到 0.3.10 (dask#4890) Tom Augspurger
捕获 async def SyntaxError (dask#4836) James Bourbeau
在 ensure_file 中捕获 IOError (dask#4806) Justin Poehnelt
清理 CI warnings (dask#4798) Tom Augspurger
将 distributed 的 parse 和 format 函数移动到 dask.utils (dask#4793) Matthew Rocklin
应用 black formatting (dask#4983) James Bourbeau
在 wheels 中打包 license 文件 (dask#4988) John A Kirkham
DataFrame¶
为 repartition 添加可选的 partition_size 参数 (dask#4416) George Sakkis
merge_asof 和 prefix_reduction (dask#4877) Cody Johnson
允许使用 dask arrays 索引 dataframes (dask#4882) Endre Mark Borza
避免 pytest.raises 中已弃用的 message 参数 (dask#4962) James Bourbeau
移除 Dataframe accessors 中的 pandas pinning (dask#4955) Matthew Rocklin
修复具有相同名称的 series 的关联计算 (dask#4934) Philipp S. Sommer
将 Dask Series 映射到 Dask Series (dask#4872) Justin Waugh
添加 groupby Covariance/Correlation (dask#4889) Benjamin Zaitlen
to_datetime 保留索引名称 (dask#4905) Ian Bolliger
为 dataframes 添加并行方差计算 (dask#4865) Ksenia Bobrova
为 arrays 和 dataframes 添加 divmod 实现 (dask#4884) Henrique Ribeiro
避免使用 pandas.compat (dask#4881) Tom Augspurger
为 Series, DataFrame 和 Index 添加 accessor 注册 (dask#4829) Tom Augspurger
为 read_json 添加 read_function 关键字 (dask#4810) Richard J Zamora
在 check_meta 中提供完整的类型名称 (dask#4819) Matthew Rocklin
添加对 describe() 的非数字数据支持 (dask#4791) Ksenia Bobrova
Extension dtypes 的 Scalars。(dask#4459) Tom Augspurger
在 dd.from_delayed 中在 compute 之前调用 head (dask#4802) Matthew Rocklin
为具有时间基准索引的 DataFrames 添加支持 rolling operations,其窗口可能大于 partition size (dask#4796) Jorge Pessoa
使用 warning 更新 groupby-apply 文档 (dask#4800) Tom Augspurger
更改 _maybe_slice 中的 groupby 相关测试 (dask#4786) Benjamin Zaitlen
添加 master best practices 文档 (dask#4745) Matthew Rocklin
添加 Dask 如何与 GPU 配合使用的文档 (dask#4792) Matthew Rocklin
添加 cli API 文档 (dask#4788) James Bourbeau
确保 concat 输出具有一致的 dtypes (dask#4692) Guillaume Lemaitre
修复 pandas_datareader 依赖安装问题 (dask#4989) James Bourbeau
允许 read_hdf 中的 pattern 接受 pathlib.Path (dask#3335) Jörg Dietrich
文档¶
将 CLI API 文档移动到相关页面 (dask#4980) James Bourbeau
将 to_datetime 函数添加到 dataframe API 文档 Matthew Rocklin
为 dask.array.ma.average 添加文档条目 (dask#4970) Bouwe Andela
将 bag.read_avro 添加到 bag API 文档 (dask#4969) James Bourbeau
移除修改 changelog 的要求 (dask#4915) Matthew Rocklin
添加关于 meta 列顺序的文档 (dask#4887) Tom Augspurger
在 DataFrame.shift 中添加文档说明 (dask#4886) Tom Augspurger
文档:修复拼写错误 (dask#4868) Paweł Kordek
在 delayed best practice 文档中将 do/don’t 放入框中 (dask#3821) Martin Durant
文档修复 (dask#2528) Tom Augspurger
在 paid support 文档部分添加 quansight (dask#4838) Martin Durant
添加 custom startup 文档 (dask#4833) Matthew Rocklin
允许 utils.derive_from 接受函数,并在 array 上应用 (dask#4804) Martin Durant
在最佳实践中添加“避免大分区”部分 (dask#4808) Matthew Rocklin
更新 joblib 的 URL 到其新的文档网站 (dask#4816) Christian Hudon
1.2.2 / 2019-05-08¶
数组¶
澄清 array.store 的 regions kwarg (dask#4759) Martin Durant
为 da.random.randint 添加 dtype= 参数 (dask#4753) Matthew Rocklin
将 Xarray 数据集规范化为 Dask arrays (dask#4756) Matthew Rocklin
移除 da.histogram 中的 normed 关键字 (dask#4755) Matthew Rocklin
包¶
为 Bag.distinct 添加 key 参数 (dask#4423) Daniel Severo
核心¶
添加核心 dask 配置文件 (dask#4774) Matthew Rocklin
将核心 dask 配置文件添加到 MANIFEST.in (dask#4780) James Bourbeau
启用带有 HTTP 文件系统的 glob (dask#3926) Martin Durant
使用 whence=1 的 HTTPFile.seek (dask#4751) Martin Durant
DataFrame¶
移除 dask.dataframe.groupby 中对 Pandas 的显式引用 (dask#4778) Matthew Rocklin
在 DataFrame.groupby() 中添加对 group_keys kwarg 的支持 (dask#4771) Brian Chu
描述文档 (dask#4762) Martin Durant
移除累积聚合中的显式 pandas 检查 (dask#4765) Nick Becker
为 read_json 和测试添加元数据 (dask#4588) Abhinav Ralhan
添加 dtype 转换测试 (dask#4760) Martin Durant
实现 Series.str.split(expand=True) (dask#4744) Matthew Rocklin
文档¶
调整 develop.rst 以便运行测试 (dask#4772) Christian Hudon
添加描述计算阶段的文档 (dask#4766) Matthew Rocklin
在 spark 文档中引导用户使用 Dask-Yarn (dask#4770) Matthew Rocklin
更新延迟执行文档中的图片以移除标签 (dask#4768) Martin Durant
解释 dask 数组的中间存储 (dask#4025) John A Kirkham
在数组最佳实践中指定 bash 代码块 (dask#4764) James Bourbeau
添加数组最佳实践文档 (dask#4705) Matthew Rocklin
更新优化文档,因为 cull 已不再自动化 (dask#4752) Matthew Rocklin
1.2.1 / 2019-04-29¶
数组¶
修复带有 block_info 和广播的 map_blocks (dask#4737) Bruce Merry
使 da.bincount 中的 'minlength' 关键字参数可选 (dask#4684) Genevieve Buckley
添加对没有数组参数的 map_blocks 的支持 (dask#4713) Bruce Merry
添加 dask.array.trace (dask#4717) Danilo Horta
添加 sizeof 对 cupy.ndarray 的支持 (dask#4715) Peter Andreas Entschev
为 from_zarr 添加 name kwarg (dask#4663) Michael Eaton
为 from_array 添加 chunks='auto' (dask#4704) Matthew Rocklin
如果将 dask 数组作为 shape 传递给 da.ones, zeros, empty 或 full,则引发 TypeError (dask#4707) Genevieve Buckley
添加 TileDB 后端 (dask#4679) Isaiah Norton
核心¶
延迟长列表参数 (dask#4735) Matthew Rocklin
将 numpy 提升至 >= 1.13, pandas 提升至 >= 0.21.0 (dask#4720) Jim Crist
移除文件 "test" (dask#4710) James Bourbeau
重新启用开发构建,使用上游库 (dask#4696) Peter Andreas Entschev
移除 HighLevelGraph 构造函数中的断言 (dask#4699) Matthew Rocklin
数据框¶
改变累积聚合的最后一个非空值算法 (dask#4736) Nick Becker
重构 array.percentile 和 dataframe.quantile 以使用 t-digest (dask#4677) Janne Vuorela
允许简单地拼接已排序的数据框 (dask#4725) Matthew Rocklin
通过使用 methodcaller 移除 melt 对 pandas 的硬依赖 (dask#4719) Nick Becker
添加 Dataframe.replace (dask#4714) Matthew Rocklin
添加 'threshold' 参数到 pd.DataFrame.dropna (dask#4625) Nathan Matare
文档¶
在 docstring 开头添加关于派生 docstring 的警告 (dask#4716) Matthew Rocklin
创建数据框最佳实践文档 (dask#4703) Matthew Rocklin
取消注释 dask_sphinx_theme (dask#4728) James Bourbeau
修复 Queue/fire_and_forget 示例中的小拼写错误 (dask#4709) Matthew Rocklin
更新 from_pandas docstring 以匹配签名 (dask#4698) James Bourbeau
1.2.0 / 2019-04-12¶
数组¶
修复稀疏数组上的 mean() 和 moment() (dask#4525) Peter Andreas Entschev
添加 NEP-18 测试。 (dask#4675) Hameer Abbasi
允许在 normalize_chunks 中使用 None 表示“不分块” (dask#4656) Matthew Rocklin
修复 auto_chunks 中的 limit 值 (dask#4645) Matthew Rocklin
核心¶
更新诊断 bokeh 测试以兼容 bokeh>=1.1.0 (dask#4680) Philipp Rudiger
调整 codecov 的目标/阈值,禁用补丁 (dask#4671) Peter Andreas Entschev
始终以空的 http 缓冲区开始,而不是 None (dask#4673) Martin Durant
数据框¶
从数组创建 dask 数据框时传播索引 dtype 和名称 (dask#4686) Henrique Ribeiro
清理并文档化 rearrange_column_by_tasks (dask#4674) Matthew Rocklin
将某些 parquet 测试标记为 xfail (dask#4667) Peter Andreas Entschev
修复 arrow 0.13.0 导致的 parquet 问题 (dask#4668) Martin Durant
修复 parquet 加载时的时区元数据推断 (dask#4655) Martin Durant
在 dd.utils 中使用 is_dataframe/index_like (dask#4657) Matthew Rocklin
为 groupby sum 方法添加 min_count 参数 (dask#4648) Henrique Ribeiro
文档¶
为安装文档添加延迟执行的额外依赖项 (dask#4660) James Bourbeau
1.1.5 / 2019-03-29¶
数组¶
确保我们在 normalize_chunks 中使用 dtype 关键字 (dask#4646) Matthew Rocklin
核心¶
在 LocalFileSystem 中使用递归 glob (dask#4186) Brett Naul
避免 YAML 弃用 (dask#4603)
修复 CI 并添加 set -e (dask#4605) James Bourbeau
在 dask.visualize 中支持内置序列类型 (dask#4602)
unpack/repack orderedDict (dask#4623) Justin Poehnelt
将 da.random.randint 添加到 API 文档 (dask#4628) James Bourbeau
将 zarr 添加到 CI 环境 (dask#4604) James Bourbeau
启用 codecov (dask#4631) Peter Andreas Entschev
数据框¶
支持设置索引 (dask#4565)
DataFrame.itertuples 接受 index, name kwargs (dask#4593) Dan O’Donovan
在 dd.Series.unique 中支持非 Pandas Series (dask#4599) Benjamin Zaitlen
使用 ._is_partition_type 谓词替换显式类型检查的使用 (dask#4533)
移除测试中额外的 pandas 警告 (dask#4576)
检查对象是否具有 name/dtype 属性而不是检查类型 (dask#4606)
修复设置分类代码为浮点数时出现的警告 (dask#4624) Julia Signell
修复索引 to_frame 方法的重命名问题 (dask#4498) Henrique Ribeiro
修复连接两个单分区数据框时的 divisions 问题 (dask#4636) Justin Waugh
给出信息丰富的 meta= 警告 (dask#4637) Matthew Rocklin
为 Series.__getitem__ 添加信息丰富的错误消息 (dask#4638) Matthew Rocklin
在使用 read_csv 中的 index 或 index_col 时添加明确的异常消息 (dask#4651) Álvaro Abella Bascarán
文档¶
添加自定义 groupby 聚合的文档 (dask#4571)
数据框连接文档 (dask#4569)
指定基于 fork 的贡献 (dask#4619) James Bourbeau
修正 docs 中 to_parquet 示例的代码 (dask#4641) Aaron Fowles
更新并保护一些引用 (dask#4649) Søren Fuglede Jørgensen
1.1.4 / 2019-03-08¶
数组¶
在 compress 中使用掩码选择 (dask#4548) John A Kirkham
在 extract 中使用 asarray (dask#4549) John A Kirkham
测试拼接时使用正确的 dtype。 (dask#4539) Elliott Sales de Andrade
修复 CuPy 测试或正确标记为 xfail (dask#4564) Peter Andreas Entschev
核心¶
在 read_bytes(sample=…) 中使用 parse_bytes (dask#4554) Matthew Rocklin
数据框¶
再次修复对象 dtype 键上的 groupby 标准差 (dask#4541) Matthew Rocklin
TST/CI: pandas 0.24.1 更新 (dask#4551) Tom Augspurger
添加控制 time_series 中唯一元素数量的能力 (dask#4557) Matthew Rocklin
在 read_csv 中支持 parameter skiprows 用于其他可迭代对象 (dask#4560) @JulianWgs
文档¶
DataFrame 到 Array 的转换和未知块大小 (dask#4516) Scott Sievert
添加随机数组创建的文档 (dask#4566) Matthew Rocklin
修复 docstring 中的拼写错误 (dask#4572) Shyam Saladi
1.1.3 / 2019-03-01¶
数组¶
修改 mean chunk 函数以返回 dict 而不是数组 (dask#4513) Matthew Rocklin
更改 CI 中的稀疏安装以兼容 NumPy/Python2 (dask#4537) Matthew Rocklin
数据框¶
使 merge 能够在 pandas/其他数据框类型上进行分派 (dask#4522) Matthew Rocklin
read_sql_table - datetime 索引修复和索引类型检查 (dask#4474) Joe Corbett
使用泛化的索引检查形式 (is_index_like) (dask#4531) Benjamin Zaitlen
添加带有对象 dtypes 的 groupby 聚合测试 (dask#4535) Matthew Rocklin
文档¶
添加文档索引中缺失的方法 (dask#4528) Bart Broere
1.1.2 / 2019-02-25¶
数组¶
修复 normalize_array 中的另一个 unicode/混合类型边界情况 (dask#4489) Marco Neumann
添加 dask.array.diagonal (dask#4431) Danilo Horta
修改 moment chunk 函数以返回 dicts (dask#4519) Peter Andreas Entschev
Bag¶
确保 bag.from_sequence 总是包含至少一个分区 (dask#4475) Anderson Banihirwe
为 bag.fold 实现 out_type (dask#4502) Matthew Rocklin
从 bag keynames 中移除 map (dask#4500) Matthew Rocklin
避免在 map_partitions 中使用 itertools.repeat (dask#4507) Matthew Rocklin
数据框¶
修复 fastparquet 在 Windows 上解析相对路径的问题 (dask#4445) Janne Vuorela
修复 pyarrow 和 hdfs 中的错误 (dask#4453) (dask#4455) Michał Jastrzębski
将 cudf 特定代码替换为 dask-cudf 导入 (dask#4470) Matthew Rocklin
避免在 groupby-var 中使用 groupby.agg(callable) (dask#4482) Matthew Rocklin
在 check_meta 中将 uint 类型视为数值类型 (dask#4485) Marco Neumann
修复 groupby 注释中的一些拼写错误 (dask#4494) Daniel Saxton
添加关于 set_index(inplace=True) 的错误消息 (dask#4501) Matthew Rocklin
为预期的 meta 错误消息添加模块名称 (dask#4499) Matthew Rocklin
文档¶
更新文档以使用
from_zarr
(dask#4472) John A KirkhamDOC: 为 remote-data-services 添加关于 使用其他 S3 兼容服务 的章节 (dask#4405) Aploium
修复 changelog 中章节的标题级别 (dask#4483) Bruce Merry
为 pip install [skip-ci] 添加引号 (dask#4508) James Bourbeau
核心¶
在状态初始化 *后* 扩展 started_cbs (dask#4460) Marco Neumann
修复 HTTPFile._fetch_range 带有 headers 的错误 (dask#4479) (dask#4480) Ross Petchler
重复 optimize_blockwise 以进行钻石融合 (dask#4492) Matthew Rocklin
1.1.1 / 2019-01-31¶
数组¶
添加对 cupy.einsum 的支持 (dask#4402) Johnnie Gray
在 chunks 关键字中提供字节大小 (dask#4434) Adam Beberg
为 histogram bins 和 range 引发更有信息量的错误 (dask#4430) James Bourbeau
数据框¶
延迟注册更多 cudf 函数并移至 backends 文件 (dask#4396) Matthew Rocklin
rearrange_by_column: 确保如果在 dask.config 中 shuffle 参数为 None,则默认值为 'disk' (dask#4414) George Sakkis
为 _read_pyarrow 实现 filters (dask#4415) George Sakkis
避免在 is_dataframe_like 中检查类型 (dask#4418) Matthew Rocklin
使用 pyarrow 时将 username 作为 'user' 传递 (dask#4438) Roma Sokolov
延迟执行¶
修复 DelayedAttr 返回值 (dask#4440) Matthew Rocklin
文档¶
流水线图使用 SVG 格式 (dask#4406) John A Kirkham
为 py.test 文档添加 doctest-modules (dask#4427) Daniel Severo
核心¶
解决 psutil 5.5.0 不允许 pickle Process 对象的问题 Janne Vuorela
1.1.0 / 2019-01-18¶
数组¶
修复存在掩码数组时的 average 函数 (dask#4236) Damien Garaud
为 hstack 和 vstack 添加 allow_unknown_chunksizes (dask#4287) Paul Vecchio
修复 27+ 维度的 tensordot 问题 (dask#4304) Johnnie Gray
修复带有轴的 block_info。 (dask#4301) Tom Augspurger
对 matmul 使用 safe_wraps (dask#4346) Mark Harfouche
在数组创建例程中使用 chunks="auto" (dask#4354) Matthew Rocklin
修复 dask.array.Array.__array_ufunc__ 中的 np.matmul 问题 (dask#4363) Stephan Hoyer
兼容性: 重新启用 multifield 复制->视图更改 (dask#4357) Diane Trout
重写 normalize_array 以处理 numpy 数据 (dask#4312) Marco Neumann
数据框¶
为 series 比较添加 fill_value 支持 (dask#4250) James Bourbeau
在空表的 read_sql_table 中添加 schema name (dask#4268) Mina Farid
调整 map_blocks 中对坏块的检查 (dask#4308) Tom Augspurger
在 dask 数据框中使用 atop 融合 (dask#4229) Matthew Rocklin
在 from_pandas 中使用 parallel_types() (dask#4331) Matthew Rocklin
将 DataFrame._repr_data 改为方法 (dask#4330) Matthew Rocklin
为 Appveyor 安装 pyarrow fastparquet (dask#4338) Gábor Lipták
移除显式 pandas 检查并提供 cudf 延迟注册 (dask#4359) Matthew Rocklin
将 isinstance(…, pandas) 替换为 is_dataframe_like (dask#4375) Matthew Rocklin
增强: 支持第三方 ExtensionArrays (dask#4379) Tom Augspurger
Pandas 0.24.0 兼容性 (dask#4374) Tom Augspurger
文档¶
修复 array api 文档中指向 'map_blocks' 函数的链接 (dask#4258) David Hoese
复制编辑文档 (dask#4267), (dask#4263), (dask#4262), (dask#4277), (dask#4271), (dask#4279), (dask#4265), (dask#4295), (dask#4293), (dask#4296), (dask#4302), (dask#4306), (dask#4318), (dask#4314), (dask#4309), (dask#4317), (dask#4326), (dask#4325), (dask#4322), (dask#4332), (dask#4333), Miguel Farrajota
文档: 更新 array-api.rst (dask#4259) (dask#4282) Prabakaran Kumaresshan
更新 hpc 文档 (dask#4266) Guillaume Eynard-Bontemps
文档: 将文档中的 from_avro 替换为 read_avro (dask#4313) Prabakaran Kumaresshan
移除文档中对“get”调度器函数的引用 (dask#4350) Matthew Rocklin
修复 docstring 中的拼写错误 (dask#4376) Daniel Saxton
添加 dask.dataframe.merge 的文档 (dask#4382) Jendrik Jördening
核心¶
避免 dask.core.get 中的递归 (dask#4219) Matthew Rocklin
移除 pytest setup.cfg 中的 verbose 标志 (dask#4281) Matthew Rocklin
通过显式指定标记来支持 Pytest 4.0 (dask#4280) Takahiro Kojima
添加 High Level Graphs (dask#4092) Matthew Rocklin
修复 SerializableLock 的 locked 和 acquire 方法 (dask#4294) Stephan Hoyer
在测试中将 boto3 锁定到早期版本以避免 moto 冲突 (dask#4276) Martin Durant
更新 config 时,将 None 视为配置缺失 (dask#4324) Matthew Rocklin
将 Appveyor 更新到 Python 3.6 (dask#4337) Gábor Lipták
在 dask.dataframe/bytes/bag 中更普遍地使用 parse_bytes (dask#4339) Matthew Rocklin
在 cloudpickle 缺失时添加更好的错误消息 (dask#4342) Mark Harfouche
支持 threaded/multiprocessing get 函数中的 pool= 关键字参数 (dask#4351) Matthew Rocklin
在 config.update 中允许从任意 Mappings 进行更新,而不仅仅是 dicts。 (dask#4356) Stuart Berg
将 dask/array/top.py 代码移到 dask/blockwise.py (dask#4348) Matthew Rocklin
添加 has_parallel_type (dask#4395) Matthew Rocklin
CI: 更新 Appveyor (dask#4381) Tom Augspurger
1.0.0 / 2018-11-28¶
数组¶
添加 nancumsum/nancumprod 单元测试 (dask#4215) crusaderky
数据框¶
为 to_dask_dataframe docstring 添加 index (dask#4232) James Bourbeau
使用 fastparquet 时,处理和修复分类附加的问题 (dask#4245) Martin Durant
将 ParquetFile 传递给 read_parquet 时,不要重新读取元数据 (dask#4247) Martin Durant
文档¶
核心¶
避免一些警告 (dask#4223) Matthew Rocklin
移除 dask.store 模块 (dask#4221) Matthew Rocklin
移除 AUTHORS.md Jim Crist
0.20.2 / 2018-11-15¶
数组¶
避免融合 atop 聚合的依赖关系 (dask#4207) Matthew Rocklin
数据框¶
改进数据框相关性的内存占用 (dask#4193) Damien Garaud
为 boundary_slice 添加空 DataFrame 检查 (dask#4212) James Bourbeau
文档¶
复制编辑文档 (dask#4197) (dask#4204) (dask#4198) (dask#4199) (dask#4200) (dask#4202) (dask#4209) Miguel Farrajota
添加 stats 模块命名空间 (dask#4206) James Bourbeau
修复数据框文档中的链接 (dask#4208) James Bourbeau
0.20.1 / 2018-11-09¶
数组¶
只在 wrapped_pad_func 中分配结果空间 (dask#4153) John A Kirkham
将 expand_pad_width 泛化为 expand_pad_value (dask#4150) John A Kirkham
测试带有 2D linear_ramp 情况的 da.pad (dask#4162) John A Kirkham
重写 Dask Array 的 pad 以仅添加新块 (dask#4152) John A Kirkham
验证 atop 的索引输入 (dask#4182) Matthew Rocklin
核心¶
Dask.config set 和 get 规范化下划线和连字符 (dask#4143) James Bourbeau
只对核心集合进行 subs,不对子类进行 (dask#4159) Matthew Rocklin
为 HTTPFileSystem 添加 block_size=0 选项。 (dask#4171) Martin Durant
添加对 dataclasses 的遍历支持 (dask#4165) Armin Berres
避免对没有依赖关系的 sharedicts 进行优化 (dask#4181) Matthew Rocklin
更新 TravisCI 的 pytest 版本 (dask#4189) Damien Garaud
在 visualize 名称中使用 key_split 而不是 funcname (dask#4160) Matthew Rocklin
数据框¶
为 DataFrame.__setitem__ 添加 index 的修复 (dask#4151) Anderson Banihirwe
修复将文件列表传递给 fastparquet 时的列选择问题 (dask#4174) Martin Durant
将 engine_kwargs 从 read_sql_table 传递给 sqlalchemy (dask#4187) Damien Garaud
文档¶
修复 Delayed 最佳实践示例中返回空列表的文档问题 (dask#4147) Jonathan Fraine
复制编辑文档 (dask#4164) (dask#4175) (dask#4185) (dask#4192) (dask#4191) (dask#4190) (dask#4180) Miguel Farrajota
修复 docstring 中的拼写错误 (dask#4183) Carlos Valiente
0.20.0 / 2018-10-26¶
数组¶
融合 Atop 操作 (dask#3998), (dask#4081) Matthew Rocklin
支持对 dask 数据框使用 da.asanyarray (dask#4080) Matthew Rocklin
移除 datetime 测试中不必要的 endianness 检查 (dask#4113) Elliott Sales de Andrade
在 array foo_like 函数中设置 name=False (dask#4116) Matthew Rocklin
移除 dask.array.ghost 模块 (dask#4121) Matthew Rocklin
修复 dask array 中 getargspec 的使用问题 (dask#4125) Stephan Hoyer
添加 dask.array.invert (dask#4127), (dask#4131) Anderson Banihirwe
对未知块大小的 arg-reduction 引发信息量大的错误 (dask#4128), (dask#4135) Matthew Rocklin
规范化 dask array 中的反向切片 (dask#4126) Matthew Rocklin
Bag¶
添加 bag.to_avro (dask#4076) Martin Durant
核心¶
从 config.get 中获取 num_workers (dask#4086), (dask#4093) James Bourbeau
修复带有原始字符串的无效转义序列 (dask#4112) Elliott Sales de Andrade
对使用 get= 关键字和 set_options 引发错误 (dask#4077) Matthew Rocklin
添加 Azure DataLake 存储的导入并添加文档 (dask#4132) Martin Durant
避免 collections.Mapping/Sequence (dask#4138) Matthew Rocklin
数据框¶
在 to_dask_dataframe 中包含 index 关键字 (dask#4071) Matthew Rocklin
为 DataFrame 的 sum 和 prod 方法实现 min_count (dask#4090) Bart Broere
移除 concat 中的 pandas 警告 (dask#4095) Matthew Rocklin
DataFrame.to_csv header 选项仅在第一个块中输出 headers (dask#3909) Rahul Vaidya
移除 Series.to_parquet (dask#4104) Justin Dennison
避免警告和已弃用的 pandas 方法 (dask#4115) Matthew Rocklin
报告追加错误时交换 'old' 和 'previous' (dask#4130) Martin Durant
文档¶
复制编辑文档 (dask#4073), (dask#4074), (dask#4094), (dask#4097), (dask#4107), (dask#4124), (dask#4133), (dask#4139) Miguel Farrajota
修复代码示例中的拼写错误 (dask#4089) Antonino Ingargiola
gcsfs 的快速描述 (dask#4109) Martin Durant
修复 read_sql_table 方法 docstrings 中的拼写错误 (dask#4114) TakaakiFuruse
如果目标目录不存在,则在重定向中创建 (dask#4136) Matthew Rocklin
0.19.4 / 2018-10-09¶
数组¶
实现
apply_gufunc(..., axes=..., keepdims=...)
(dask#3985) Markus Gonser
Bag¶
修复 datasets.make_people 中的拼写错误 (dask#4069) Matthew Rocklin
数据框¶
为 dask.dataframe.describe 方法添加 percentiles 选项 (dask#4067) Zhenqing Li
添加类似 Array.blocks 的 DataFrame.partitions 访问器 (dask#4066) Matthew Rocklin
核心¶
通过 scheduler 关键字传递 get 函数和 Clients (dask#4062) Matthew Rocklin
文档¶
修复 hpc 示例中的拼写错误。(缺少 kwarg 中的 =)。 (dask#4068) Matthias Bussonier
大量复制编辑: (dask#4065), (dask#4064), (dask#4063) Miguel Farrajota
0.19.3 / 2018-10-05¶
数组¶
使 da.RandomState 可扩展到其他模块 (dask#4041) Matthew Rocklin
添加 cupy 的基础架构 (dask#4019) Matthew Rocklin
避免 for from_array(getitem) 的 asarray 和 lock 参数 (dask#4044) Matthew Rocklin
将 corrcoef 中的局部导入移至全局导入 (dask#4030) John A Kirkham
将局部 indices 导入移至全局导入 (dask#4029) John A Kirkham
修复 Dask Array 的 fromfunction 中关于 dtype 和 kwargs 的问题 (dask#4028) John A Kirkham
在 overlapped 中不要使用 dummy expansion 进行 trim_internal (dask#3964) Mark Harfouche
添加 unravel_index (dask#3958) John A Kirkham
Bag¶
在 Bag.frequencies 中对结果排序 (dask#4033) Matthew Rocklin
在 groupby 中添加对 npartitions=1 边界情况的支持 (dask#4050) James Bourbeau
为人物添加新的随机数据集 (dask#4018) Matthew Rocklin
提高 bag.read_text 在小文件上的性能 (dask#4013) Eric Wolak
添加 bag.read_avro (dask#4000) (dask#4007) Martin Durant
Dataframe¶
为
dask.dataframe.from_dask_array()
添加了index
参数,用于从给定索引的 Dask 数组创建 Dask DataFrame。(dask#3991) Tom Augspurger改进 Dask DataFrame 的子类化能力 (dask#4015) Matthew Rocklin
为无需预扫描读取多个 parquet 文件创建路径 (dask#3978) Martin Durant
dd.from_dask_array 中的 Index (dask#3991) Tom Augspurger
使 skiprows 参数接受列表 (dask#3975) Julia Signell
在 fastparquet 读取中对不存在的列尽早失败 (dask#3989) Martin Durant
Core¶
在 groupby 中添加对 npartitions=1 边界情况的支持 (dask#4050) James Bourbeau
在 map_blocks/partitions 中使用 dask.delayed 自动封装大参数 (dask#4002) Matthew Rocklin
使多进程上下文可配置 (dask#3763) Itamar Turner-Trauring
Documentation¶
大量文本编辑 (dask#4049), (dask#4034), (dask#4031), (dask#4020), (dask#4021), (dask#4022), (dask#4023), (dask#4016), (dask#4017), (dask#4010), (dask#3997), (dask#3996), Miguel Farrajota
更新 shuffle 方法选择文档 (dask#4048) James Bourbeau
移除 docs/source/examples,指向 examples.dask.org (dask#4014) Matthew Rocklin
将 readthedocs 链接替换为 dask.org (dask#4008) Matthew Rocklin
更新 DataFrame.to_hdf docstring 中的返回值 (dask#3992) James Bourbeau
0.19.2 / 2018-09-17¶
Array¶
apply_gufunc
实现函数输出 dtype 的自动推断 (dask#3936) Markus Gonser修复数组包含 nan 时直方图范围错误 (dask#3980) James Bourbeau
from_array: 添加 @martindurant 关于数组如何进行哈希的解释。(dask#3965) Mark Harfouche
支持带有坐标的梯度计算 (dask#3949) Keisuke Fujii
Core¶
修复 Python 2.7 中 has_keyword 与 partial 的使用错误 (dask#3966) Mark Harfouche
设置 pyarrow 为 HDFS 的默认引擎 (dask#3957) Matthew Rocklin
Documentation¶
使用 dask_sphinx_theme (dask#3963) Matthew Rocklin
在主页的 Binder 链接中使用 JupyterLab Matthew Rocklin
DOC: 修复 sphinx 语法错误 (dask#3960) Tom Augspurger
0.19.1 / 2018-09-06¶
Array¶
如果结果没有 dtype,则不强制执行 dtype (dask#3928) Matthew Rocklin
修复 NumPy issubtype 弃用警告 (dask#3939) Bruce Merry
修复 arg reduction 令牌,使其在不同参数下唯一 (dask#3955) Tobias de Jong
部分修复 Linalg.norm ndim 沿轴计算 (dask#3933) Tobias de Jong
Dataframe¶
确定性 DataFrame.set_index (dask#3867) George Sakkis
修复 read_parquet 在处理 filters #3831 #3930 时 divisions 的错误 (dask#3923) (dask#3931) @andrethrill
修复 categorical.as_known 中的返回类型 (dask#3888) Sriharsha Hatwar
修复 DataFrame.assign 对可调用对象的问题 (dask#3919) Tom Augspurger
在 repartition 中包含宽度为零的分区 (dask#3941) Matthew Rocklin
在 dataframe shuffle 中不限制 stage/k dtype (dask#3942) Matthew Rocklin
Documentation¶
在主登陆页添加“立即尝试”按钮 (dask#3924) Matthew Rocklin
0.19.0 / 2018-08-29¶
Array¶
支持在梯度计算中指定坐标 (dask#3949) Keisuke Fujii
修复 argtopk split_every 错误 (dask#3810) crusaderky
确保计算 dask.array.isnull() 的结果总是返回一个 numpy 数组 (dask#3825) Stephan Hoyer
支持 dask 数组中 scipy.sparse 的 concatenate 操作 (dask#3836) Matthew Rocklin
修复 32 位系统上的 argtopk 问题。(dask#3823) Elliott Sales de Andrade
在 rechunk 中标准化 keys (dask#3820) Matthew Rocklin
允许 dask.array 的 shape 为 numpy 数组 (dask#3844) Mark Harfouche
修复关于元组索引的 numpy 弃用警告 (dask#3851) Tobias de Jong
将 ghost 模块重命名为 overlap (dask#3830) Robert Sare
确保复制保留 masked 数组 (dask#3852) Tobias de Jong
DataFrame¶
为
dask.dataframe.get_dummies()
添加了dtype
和sparse
关键字 (dask#3792) Tom Augspurger添加了
dask.dataframe.to_dask_array()
,用于将 Dask Series 或 DataFrame 转换为 Dask Array,可能包含已知块大小 (dask#3884) Tom Augspurger更改了
dask.array.asarray()
对 Dask DataFrame 和 Series 输入的处理方式。之前,Series 会在创建具有已知块大小的 Dask 数组之前,急切地转换为内存中的 NumPy 数组,这导致了意外的高内存使用。现在,不创建中间 NumPy 数组,并返回具有未知块大小的 Dask 数组 (dask#3884) Tom AugspurgerDataFrame.iloc (dask#3805) Tom Augspurger
读取多个路径时,展开 glob。(dask#3828) Irina Truong
在 resample 后添加索引列名称 (dask#3833) Eric Bonfadini
为 dataframe 和 series 添加 (lazy) shape 属性 (dask#3212) Henrique Ribeiro
重命名 to_csv keys 以便诊断 (dask#3890) Matthew Rocklin
匹配 pandas 中 concat sort 的警告 (dask#3897) Tom Augspurger
在 read_csv 中包含文件名 (dask#3908) Julia Signell
Core¶
在缺少常见依赖项时提供更好的导入错误消息 (dask#3771) Danilo Horta
添加 DASK_ROOT_CONFIG 环境变量 (dask#3849) Joe Hamman
修复 Python 3.7.0 中 collections.abc 的弃用警告 (dask#3876) Jan Margeta
允许 dot jpeg 在 visualize 测试中 xfail (dask#3896) Matthew Rocklin
在 travis.yml 中添加 Python 3.7 (dask#3894) Matthew Rocklin
为 dask.config 添加 expand_environment_variables (dask#3893) Joe Hamman
文档¶
修复 diagnostics 导入语句中的拼写错误 (dask#3826) John Mrziglod
修复登陆页 index.html 中的小拼写错误 (dask#3746) Christoph Moehl
更新 delayed-custom.rst (dask#3850) Anderson Banihirwe
DOC: 澄清 delayed docstring (dask#3709) Scott Sievert
将 dask array normalize_chunks 添加到文档中 (dask#3878) Daniel Rothenberg
文档: 修复 snakeviz 链接 (dask#3900) Hans Moritz Günther
0.18.2 / 2018-07-23¶
Array¶
重新实现
argtopk
以释放 GIL (dask#3610) crusaderky在
map_overlap
中,不要在非重叠维度上重叠 (dask#3653) Matthew Rocklin修复
linalg.tsqr
处理长度不确定维度的问题 (dask#3662) Jeremy Chen将不均匀的整数数组切片拆分成单独的块 (dask#3648) Matthew Rocklin
将自动块大小与提供的块对齐,而不是与 shape 对齐 (dask#3679) Matthew Rocklin
为 linspace 添加 endpoint 和 retstep 支持 (dask#3675) James Bourbeau
实现
.blocks
访问器 (dask#3689) Matthew Rocklin为
map_blocks
函数添加block_info
关键字 (dask#3686) Matthew Rocklin通过整数 Dask 数组进行切片 (dask#3407) crusaderky
支持
arange
中的dtype
参数 (dask#3722) crusaderky修复
argtopk
处理不均匀块的问题 (dask#3720) crusaderky当
da.choice
中的replace=False
时引发错误 (dask#3765) James Bourbeau更新
Array.__setitem__
中的块信息 (dask#3767) Itamar Turner-Trauring添加一个
chunksize
便利属性 (dask#3777) Jacob Tomlinson确保
to_zarr
在return_stored
设置为True
时返回 Dask Array (dask#3786) John A Kirkham
Bag¶
在
to_textfiles
中添加last_endline
可选参数 (dask#3745) George Sakkis
Dataframe¶
为 rolling 对象添加聚合函数 (dask#3772) Gerome Pistre
正确标记累积 groupby 聚合的 token (dask#3799) Cloves Almeida
Delayed¶
为 delayed 对象添加
@
运算符 (dask#3691) Mark Harfouche为文档添加 delayed 最佳实践 (dask#3737) Matthew Rocklin
Core¶
修复额外的进度条 (dask#3669) Mike Neish
如果任务只有一个依赖项,则允许其回到排序堆栈 (dask#3652) Matthew Rocklin
排序时优先选择依赖项数量少且下游依赖项多的结束任务 (dask#3588) Tom Augspurger
将
assert_eq
添加到顶级模块 (dask#3726) Matthew Rocklin测试 dask collections 是否可以持有
scipy.sparse
数组 (dask#3738) Matthew Rocklin修复 lz4 解压缩函数的设置 (dask#3782) Elliott Sales de Andrade
添加 datasets 模块 (dask#3780) Matthew Rocklin
0.18.1 / 2018-06-22¶
Array¶
from_array
现在支持输入中的标量类型和嵌套列表/元组,就像所有 numpy 函数一样;当输入是纯 ndarray 时,它也会生成一个更简单的图 (dask#3568) crusaderky修复由于 cumsum dtype 错误导致的大切片问题 (dask#3620) Marco Rossi
添加 Dask Array 的 pad 实现 (dask#3578) John A Kirkham
修复数组随机 API 示例 (dask#3625) James Bourbeau
为 dask array 添加 average 函数 (dask#3640) James Bourbeau
用 axes 标记 ghost_internal 的 token (dask#3643) Matthew Rocklin
为 Dask Array 添加 outer 函数 (dask#3658) John A Kirkham
DataFrame¶
添加 Index.to_series 方法 (dask#3613) Henrique Ribeiro
修复 pyarrow-parquet 中缺失的分区列问题 (dask#3636) Martin Durant
Core¶
CI 的微小调整 (dask#3629) crusaderky
重新添加 dask.utils.effective_get (dask#3642) Matthew Rocklin
将 unpack_collections 中的 ‘collections’ key 替换为唯一的 key (dask#3632) Yu Feng
在 dask.config.set 中避免深拷贝 (dask#3649) Matthew Rocklin
0.18.0 / 2018-06-14¶
Array¶
为 Zarr 格式数据集和数组添加 to/from_zarr (dask#3460) Martin Durant
实验性地添加泛化 ufunc 支持,包括
apply_gufunc
,gufunc
, 和as_gufunc
(dask#3109) (dask#3526) (dask#3539) Markus Gonser避免不必要的 rechunking 任务 (dask#3529) Matthew Rocklin
在运行时计算 fft 的 dtypes (dask#3511) Matthew Rocklin
为所有 da.store 操作生成 UUID (dask#3540) Martin Durant
修正 Dask SVD 的内部维度 (dask#3517) John A Kirkham
BUG: 在 array.vindex 中,对于 identity slice 不应引发 IndexError (dask#3559) Scott Sievert
添加 isneginf 和 isposinf (dask#3581) John A Kirkham
移除 Dask Array 的 learn 模块 (dask#3580) John A Kirkham
添加 sfqr (short-and-fat) 作为 tsqr 的对应方法... (dask#3575) Jeremy Chen (dask#3396) crusaderky
允许 dask.array.rechunk 中存在宽度为 0 的块 (dask#3591) Marc Pfister
在公共 API 中记录 Dask Array 的 nan_to_num (dask#3599) John A Kirkham
显示块示例 (dask#3601) John A Kirkham
在 map_blocks 中将 token= 关键字替换为 name= (dask#3597) Matthew Rocklin
禁用 to_zarr 中的锁定 (在分布式环境中使用 to_zarr 所必需) (dask#3607) John A Kirkham
支持 to_zarr/from_zarr 中的 Zarr Arrays (dask#3561) John A Kirkham
为 array/linalg/tsqr 添加递归,以更好地管理单核瓶颈 (dask#3586) Jeremy Chan (dask#3396) crusaderky
Dataframe¶
添加 to/read_json (dask#3494) Martin Durant
将
index
添加到DataFrame.rename
方法不支持的参数列表中 (dask#3522) James Bourbeau添加使用
numpy.ndarray
,pandas.Series
和pandas.Index
对象对 Dask DataFrame 列进行子集选择的支持 (dask#3536) James Bourbeau如果 meta 列与 dataframe 不匹配,则引发错误 (dask#3485) Christopher Ren
将 index 添加到 DataFrame.rename 不支持的参数列表中 (dask#3522) James Bourbeau
添加使用 pandas Index/Series 和 numpy ndarrays 对 DataFrames 进行子集选择的支持 (dask#3536) James Bourbeau
修复 dataframe sample 方法 docstring (dask#3566) James Bourbeau
为 sample 方法添加 n 参数 (dask#3606) James Bourbeau
添加 fastparquet ParquetFile 对象支持 (dask#3573) @andrethrill
Bag¶
在 bag.groupby 中将 method= 关键字重命名为 shuffle= (dask#3470) Matthew Rocklin
Core¶
将 get= 关键字替换为 scheduler= 关键字 (dask#3448) Matthew Rocklin
添加集中式 dask.config 模块来处理所有 Dask 子项目的配置 (dask#3432) (dask#3513) (dask#3520) Matthew Rocklin
修复 HTTP 完整文件读取,不依赖头部信息 (dask#3496) Martin Durant
将同步调度器语法添加到调试文档 (dask#3509) James Bourbeau
将 dask.set_options 替换为 dask.config.set (dask#3502) Matthew Rocklin
更新 sphinx readthedocs-theme (dask#3516) Matthew Rocklin
引入 normalize_chunks 的“auto”值 (dask#3507) Matthew Rocklin
修复 env=None 时配置检查的问题 (dask#3562) Simon Perkins
更新 sizeof 定义 (dask#3582) Matthew Rocklin
从 travis-ci 中移除 –verbose 标志 (dask#3477) Matthew Rocklin
从随机数组 keys 中移除“da.random” (dask#3604) Matthew Rocklin
0.17.5 / 2018-05-16¶
Array¶
修复字典中 chunksize 为 -1 时
rechunk
的问题 (dask#3469) Stephan Hoyereinsum
现在接受split_every
参数 (dask#3471) crusaderky
DataFrame¶
与 pandas 0.23.0 的兼容性 (dask#3499) Tom Augspurger
0.17.4 / 2018-05-03¶
Dataframe¶
添加对使用字符串子类索引 Dask DataFrames 的支持 (dask#3461) James Bourbeau
允许在 read_hdf 中同时使用 sorted_index 和 chunksize (dask#3463) Pierre Bartet
将文件系统传递给 arrow piece reader (dask#3466) Martin Durant
切换到使用 dask.compat string_types (dask#3462) James Bourbeau
0.17.3 / 2018-05-02¶
Array¶
为 Dask Arrays 添加
einsum
(dask#3412) Simon Perkins为 Dask Arrays 添加
piecewise
(dask#3350) John A Kirkham修复
broadcast_shapes
处理nan
的问题 (dask#3356) John A Kirkham为 dask 数组添加
isin
(dask#3363)。 Stephan Hoyer大修了 Dask Arrays 的
topk
:更快的算法,特别是对于大的 k 值;添加了对多个轴、递归聚合的支持,以及一个选择底部 k 个元素的选项。(dask#3395) crusaderkytopk
API 已从 topk(k, array) 更改为更常规的 topk(array, k)。旧版 API 仍然可用,但现已弃用。(dask#2965) crusaderkyDask Arrays 的新函数
argtopk
(dask#3396) crusaderky修复
map_overlap
处理 partial depth 和 boundary 的问题 (dask#3445) John A Kirkham为 Dask Arrays 添加
gradient
(dask#3434) John A Kirkham
DataFrame¶
为 to_hdf 允许 t 作为 table 的简写,以兼容 pandas (dask#3330) Jörg Dietrich
为 Dask DataFrames 添加顶层 isna 方法 (dask#3294) Christopher Ren
修复
read_parquet
中engine="pyarrow"
对 partition column 的选择问题 (dask#3207) Uwe Korn添加 DataFrame.squeeze 方法 (dask#3366) Christopher Ren
为
read_parquet
添加 infer_divisions 选项,用于指定读取引擎是否应该计算 divisions (dask#3387) Jon Mease为 meta= 错误提供更具信息性的错误消息 (dask#3343) Matthew Rocklin
添加 orc reader (dask#3284) Martin Durant
parquet 的默认压缩方式现在总是 Snappy,与 pandas 一致 (dask#3373) Martin Durant
修复 Dask DataFrame 和 Series 与 NumPy 标量比较时的错误 (dask#3436) James Bourbeau
移除 repartition docstring 中过时的要求 (dask#3440) Jörg Dietrich
修复只选择 Series 进行聚合时的错误 (dask#3446) Jörg Dietrich
为 make_timeseries 添加默认值 (dask#3421) Matthew Rocklin
Core¶
支持在 persist, visualize 和 optimize 中遍历 collections (dask#3410) Jim Crist
为 compute 和 persist 添加 schedule= 关键字。这取代了 get= 关键字的常见用法 (dask#3448) Matthew Rocklin
0.17.2 / 2018-03-21¶
Array¶
为 Dask Arrays 添加
broadcast_arrays
(dask#3217) John A Kirkham添加
bitwise_*
ufuncs (dask#3219) John A Kirkham为
squeeze
添加可选的axis
参数 (dask#3261) John A Kirkham验证 atop 的输入 (dask#3307) Matthew Rocklin
如果所有部分具有相同的 dtype,则避免在 concatenate 中调用 astype (dask#3301) Martin Durant
DataFrame¶
修复由于过度截断导致的 shuffle 错误 (dask#3201) Matthew Rocklin
支持在
read_parquet
中使用categories=[…]
为engine="pyarrow"
指定分类列 (dask#3177) Uwe Korn添加
dd.tseries.Resampler.agg
(dask#3202) Richard Postelnik支持混合 dataframe 和 arrays 的操作 (dask#3230) Matthew Rocklin
支持在
dd.groupby._Groupby.apply
中添加额外的 Scalar 和 Delayed 参数 (dask#3256) Gabriele Lanaro
Bag¶
支持与单分区 bag 和 delayed 对象进行 join (dask#3254) Matthew Rocklin
Core¶
修复使用 unexpected 但可哈希的类型作为 keys 时的错误 (dask#3238) Daniel Collins
修复任务排序中的错误,使我们能够始终如一地按照 key name 打破平局 (dask#3271) Matthew Rocklin
当任务数量非常大时,避免按顺序排序任务 (dask#3298) Matthew Rocklin
0.17.1 / 2018-02-22¶
Array¶
修正 indices 中的维度分块问题 (dask#3166, dask#3167) Simon Perkins
将 `store`’s
return_stored
选项的store_chunk
调用内联 (dask#3153) John A Kirkham与 NumPy 1.14.1 版本中 struct dtypes 变更的兼容性 (dask#3187) Matthew Rocklin
DataFrame¶
错误修复,允许列赋值 pandas datetime (dask#3164) Max Epstein
Core¶
新的 HTTP(S) 文件系统,允许直接从特定 URL 加载 (dask#3160) Martin Durant
修复 tokenizing 没有关键字的 partials 时的错误 (dask#3191) Matthew Rocklin
使用更新的 LZ4 API (dask#3157) Thrasibule
为进度条引入输出流参数 (dask#3185) Dieter Weber
0.17.0 / 2018-02-09¶
Array¶
为 nansum, nanmin 和 nanmax 添加了对对象类型数组的支持 (dask#3133) Keisuke Fujii
更新当 len 被空块调用时的错误处理 (dask#3058) Xander Johnson
修复
store
的return_stored
选项的元数据错误 (dask#3064) John A Kirkham修复
optimization.fuse_slice
中的错误,以正确处理第一个输入为None
的情况 (dask#3076) James Bourbeau支持 percentile 中具有未知块大小的数组 (dask#3107) Matthew Rocklin
Tokenize scipy.sparse 数组和 np.matrix (dask#3060) Roman Yurchak
DataFrame¶
支持 repartition(freq=…) 中的月份 timedeltas (dask#3110) Matthew Rocklin
避免 dataframe groupby 测试中的 mutation (dask#3118) Matthew Rocklin
read_csv
,read_table
, 和read_parquet
接受可迭代的路径 (dask#3124) Jim Crist当 UDF 返回 numpy 数组时,从 df.map_partitions 调用中返回 dask.arrays (dask#3147) Matthew Rocklin
更改
dd.read_parquet
中columns
和index
的处理方式,使其更一致,尤其是在处理多重索引时 (dask#3149) Jim Cristfastparquet append=True 允许创建新数据集 (dask#3097) Martin Durant
sql 查询的 dtype 合理化 (dask#3100) Martin Durant
Core¶
更改默认任务排序,优先选择依赖方少且下游依赖多的节点 (dask#3056) Matthew Rocklin
为 visualize 添加 color= 选项,按任务顺序着色 (dask#3057) (dask#3122) Matthew Rocklin
由于维护成本高,移除 short-circuit hdfs 读取处理。稍后可能会以更稳健的方式重新添加 (dask#3079) Jim Crist
添加
dask.base.optimize
,用于在不计算的情况下优化多个 collections。(dask#3071) Jim Crist将
dask.optimize
模块重命名为dask.optimization
(dask#3071) Jim Crist更改任务排序以执行完整遍历 (dask#3066) Matthew Rocklin
为所有
to_delayed
方法添加optimize_graph
关键字,以控制转换时是否进行优化。(dask#3126) Jim Crist
0.16.1 / 2018-01-09¶
Array¶
修复
percentile
中标量百分位数处理的问题 (dask#3021) James Bourbeau阻止
bool()
强制类型转换调用 compute (dask#2958) Albert DeFusco添加
matmul
(dask#2904) John A Kirkham支持带有
matmul
的 N 维数组 (dask#2909) John A Kirkham添加
vdot
(dask#2910) John A Kirkhambroadcast_to
的显式chunks
参数 (dask#2943) Stephan Hoyer添加
meshgrid
(dask#2938) John A Kirkham 和 (dask#3001) Markus Gonser在
fftshift
/ifftshift
中保留单例块 (dask#2733) John A Kirkham修复
vindex
中负数索引的处理问题,并对超出边界的索引引发错误 (dask#2967) Stephan Hoyer添加
flip
,flipud
,fliplr
(dask#2954) John A Kirkham添加
float_power
ufunc (dask#2962) (dask#2969) John A Kirkham与即将发布的 NumPy 1.14 版本中结构化数组变更的兼容性 (dask#2964) Tom Augspurger
添加
block
(dask#2650) John A Kirkham为
store
添加return_stored
选项,用于链式存储结果 (dask#2980) John A Kirkham
DataFrame¶
修复累积聚合中的命名错误 (dask#3037) Martijn Arts
修复当给定
names
但未设置header
为None
时dd.read_csv
的错误 (dask#2976) Martijn Arts修复
dd.read_csv
,使其在dtype
中传入CategoricalDtype
实例时能得到已知的分类数据 (dask#2997) Tom Augspurger阻止
bool()
强制类型转换调用 compute (dask#2958) Albert DeFuscoDataFrame.read_sql()
读取空数据库表时返回空的 dask dataframe (dask#2928) Apostolos Vlachopoulos与 PyArrow 0.8.0 写入的 Parquet 文件读取兼容性 (dask#2973) Tom Augspurger
在读取
dd.read_parquet
时正确处理列名 (df.columns.name) (dask#2973) Tom Augspurger修复
dd.concat
在数据包含分类类型时丢失 index dtype 的错误 (dask#2932) Tom Augspurger移除了已弃用的
dd.rolling*
方法,为下个 pandas 版本中移除做准备 (dask#2995) Tom Augspurger
Core¶
改进 32 位兼容性 (dask#2937) Matthew Rocklin
改变任务优先级以避免向上分支 (dask#3017) Matthew Rocklin
0.16.0 / 2017-11-17¶
这是一个主要版本。它包含重大变更、新协议和大量错误修复。
Array¶
添加
atleast_1d
,atleast_2d
, 和atleast_3d
(dask#2760) (dask#2765) John A Kirkham添加
allclose
(dask#2771) by John A Kirkham从 Dask Array API 文档中移除
random.different_seeds
(dask#2772) John A Kirkham弃用
vnorm
,推荐使用dask.array.linalg.norm
(dask#2773) John A Kirkham重新实现
unique
使其变为惰性 (dask#2775) John A Kirkham支持 Dask Arrays 与 0 长度维度的广播 (dask#2784) John A Kirkham
将
asarray
和asanyarray
添加到 Dask Array API 文档 (dask#2787) James Bourbeau支持
unique
的return_*
参数 (dask#2779) John A Kirkham简化
_unique_internal
(dask#2850) (dask#2855) John A Kirkham
DataFrame¶
修复了当存在缺失值时
DataFrame.quantile
和Series.quantile
返回nan
的问题 (dask#2791) Tom Augspurger修复了当
q
是标量时DataFrame.quantile
丢失结果.name
的问题 (dask#2791) Tom Augspurger修复了沿列连接单个 Series 时
dd.concat
返回dask.Dataframe
的问题,与 pandas 的行为一致 (dask#2800) James Munroe修复了
DataFrame.eval
的默认 inplace 参数,使其与 pandas >= 0.21.0 的默认值匹配 (dask#2838) Tom Augspurger修复了在文本列上调用
DataFrame.set_index
时,如果其中一个分区为空,则会引发异常的问题 (dask#2831) Jesse Vogt在空 DataFrame 上调用
DataFrame.set_index
时不引发异常 (dask#2827) Jesse Vogt修复了使用
Series
值填充时Dataframe.fillna
中的 bug (dask#2810) Tom Augspurger弃用
dd.to_parquet
中旧的参数顺序,以更好地匹配将 DataFrame 放在首位的约定 (dask#2867) Jim Cristdf.astype(categorical_dtype -> known categoricals (dask#2835) Jim Crist
针对 Pandas 发布候选版本进行测试 (dask#2814) Tom Augspurger
为 read_parquet(engine=’pyarrow’) 添加更多测试 (dask#2822) Uwe Korn
移除 aggregate 中不必要的 map_partitions (dask#2712) Christopher Prohm
在
dd.to_parquet
中支持使用pyarrow
读写 hdfs (dask#2894, dask#2881) Jim Crist
Core¶
允许元组作为 sharedict 键 (dask#2763) Matthew Rocklin
在 dask.distributed 任务中调用 compute 默认使用分布式调度器 (dask#2762) Matthew Rocklin
使用 gcs:// 协议时自动导入 gcsfs (dask#2776) Matthew Rocklin
完全移除 dask.async 模块,改用 dask.local (dask#2828) Thomas Caswell
与 bokeh 0.12.10 的兼容性 (dask#2844) Tom Augspurger
在 XArray 集成期间更新 Dask collection 接口 (dask#2847) Matthew Rocklin
修复文档中 bokeh dashboard 的端口 (dask#2889) Ian Hopkinson
0.15.3 / 2017-09-24¶
Array¶
添加 masked arrays (dask#2301)
添加
*_like array creation functions
(dask#2640)使用无符号整数数组进行索引 (dask#2647)
改进了使用不同维度布尔数组的切片 (dask#2658)
支持
top
和atop
中的字面量 (dask#2661)累积函数中的可选 axis 参数 (dask#2664)
使用
assert_eq
改进对标量的测试 (dask#2681)修复 norm keepdims (dask#2683)
添加
ptp
(dask#2691)添加 apply_along_axis (dask#2690) 和 apply_over_axes (dask#2702)
DataFrame¶
0.15.2 / 2017-08-25¶
Array¶
DataFrame¶
0.15.1 / 2017-07-08¶
0.14.2 / 2017-05-03¶
Array¶
DataFrame¶
0.14.1 / 2017-03-22¶
Array¶
DataFrame¶
修复了 to_parquet 在空分区上的问题 (dask#2020)
set_index
中的可选npartitions='auto'
模式 (dask#2025)优化 shuffle 性能 (dask#2032)
支持沿时间窗口的高效 repartitioning,例如
repartition(freq='12h')
(dask#2059)提高 categorize 的速度 (dask#2010)
支持单行 dataframe 算术运算 (dask#2085)
在设置索引时自动避免 shuffle,如果使用已排序的列 (dask#2091)
改进 read_csv 中整数-na 处理 (dask#2098)
0.13.0 / 2017-01-02¶
Array¶
DataFrame¶
添加
map_overlap
用于自定义滚动操作 (dask#1769)添加
shift
(dask#1773)添加 Parquet 支持 (dask#1782) (dask#1792) (dask#1810), (dask#1843), (dask#1859), (dask#1863)
添加缺失的方法 combine, abs, autocorr, sem, nsmallest, first, last, prod, (dask#1787)
具有多个输出分区的归约 (用于 drop_duplicates 等操作) (dask#1808), (dask#1823) (dask#1828)
添加 delitem 和 copy 到 DataFrames,增加变异支持 (dask#1858)
Delayed¶
更改了
delayed(nout=0)
和delayed(nout=1)
的行为:delayed(nout=1)
不再默认为out=None
,并且也启用了delayed(nout=0)
。即,可以正确处理返回元组长度为 1 或 0 的函数。这对于被delayed
包装的具有可变数量输出的函数尤其方便。例如,一个简单的例子:delayed(lambda *args: args, nout=len(vals))(*vals)
0.12.0 / 2016-11-03¶
DataFrame¶
当提供给
dataframe.map_partitions
的函数返回标量时,返回 Series (dask#1515)修复 Series 的类型大小推断问题 (dask#1513)
dataframe.DataFrame.categorize
不再包含categories
中的缺失值。这是为了与 pandas 的一项更改 兼容 (dask#1565)修复
dataframe.read_csv
中的头部解析器错误,当某些行包含引号时 (dask#1495)添加
dataframe.reduction
和series.reduction
方法,将通用行级归约应用于 dataframes 和 series (dask#1483)dataframe.read_hdf
现在支持读取Series
(dask#1564)支持 Pandas 0.19.0 (dask#1540)
实现
select_dtypes
(dask#1556)String accessor 支持索引 (dask#1561)
为 dask.dataframe 添加 pipe 方法 (dask#1567)
为 merge 添加
indicator
关键字 (dask#1575)read_hdf
支持 Series (dask#1575)支持带有缺失值的 Categories (dask#1578)
支持 inplace 运算符,例如
df.x += 1
(dask#1585)Str accessor 传递 args 和 kwargs (dask#1621)
改进了对单机多进程调度器的 groupby 支持 (dask#1625)
树形归约 (dask#1663)
透视表 (dask#1665)
添加 clip (dask#1667), align (dask#1668), combine_first (dask#1725), 和 any/all (dask#1724)
改进了 dask-pandas merge 上的 divisions 处理 (dask#1666)
添加
groupby.aggregate
方法 (dask#1678)添加
dd.read_table
函数 (dask#1682)支持
loc
中的二维索引 (dask#1726)扩展
resample
以包含 DataFrames (dask#1741)支持 dask.array ufuncs on dask.dataframe objects (dask#1669)
Array¶
添加关于
dask.array
chunks
参数如何工作的信息 (dask#1504)修复
dask.array
中非标量字段的字段访问问题 (dask#1484)为 atop 添加 concatenate= 关键字,用于连接收缩维度的块
扩展
atop
,增加concatenate=
(dask#1609)new_axes=
(dask#1612) 和adjust_chunks=
(dask#1716) 关键字添加 clip (dask#1610) swapaxes (dask#1611) round (dask#1708) repeat
在
atop
支持的操作中自动对齐块 (dask#1644)在切片时剔除 dask.arrays (dask#1709)
Administration¶
添加了更新日志 (dask#1526)
在线程中操作时创建新的线程池 (dask#1487)
将示例文档页面合并为一个 (dask#1520)
添加 versioneer 用于基于 git-commit 的版本控制 (dask#1569)
在点状图可视化中传递 node_attr 和 edge_attr 关键字 (dask#1614)
添加 Windows 的持续测试,使用 Appveyor (dask#1648)
移除 multiprocessing.Manager 的使用 (dask#1653)
为 compute 添加全局优化关键字 (dask#1675)
微优化 get_dependencies (dask#1722)
0.11.0 / 2016-08-24¶
主要变化¶
DataFrames 现在强制在所有地方了解完整的元数据(列、dtypes)。以前,当函数丢失 dtype 信息(例如 apply
)时,我们会在不明确的状态下操作。现在所有 DataFrames 都始终知道它们的 dtypes,并且如果无法推断(通常可以),会引发错误要求提供信息。一些内部属性,例如 _pd
和 _pd_nonempty
已被移动。
分布式调度器的内部结构已经重构,以在明确的状态之间转换任务。这提高了弹性、调度推理、插件操作和日志记录。它还使调度器代码更容易让新手理解。
重大更改¶
distributed.s3
和distributed.hdfs
命名空间已移除。改为使用普通方法中的协议,例如read_text('s3://...'
。Dask.array.reshape
现在在某些情况下会出错,而以前它会创建非常多的任务。
0.10.2 / 2016-07-27¶
更多的 Dataframe shuffle 现在可以在分布式设置中工作,范围从设置索引到哈希连接、排序连接和 groupbys。
在 Python 的 optimized-OO 模式下运行时,Dask 通过了完整的测试套件。
发现在某些高度并发的情况下,特别是 Windows 上,磁盘 shuffle 会产生错误结果。通过对 partd 库的修复,这个问题已得到解决。
修复了在大量数据通信下发生的打开文件描述符增长的问题
支持
--bokeh-whitelist
选项中的端口,以便更好地路由非简单网络设置后面的 web 界面消息worker 失败的弹性得到了一些改进(尽管其他已知故障仍然存在)
现在可以在任何 worker 上启动 IPython 内核,以改进调试和分析
改进了
dask.dataframe.read_hdf
,特别是在从多个文件和文档读取时
0.10.0 / 2016-06-13¶
主要变化¶
此版本放弃对 Python 2.6 的支持
Conda 包从 conda-forge 构建和提供
dask.distributed
可执行文件已从 dfoo 重命名为 dask-foo。例如,dscheduler 重命名为 dask-schedulerBag 和 DataFrame 都包含初步的分布式 shuffle。
Bag¶
为分布式 groupbys 添加基于任务的 shuffle
为累积归约添加 accumulate
DataFrame¶
添加了适用于分布式连接、groupby-apply 和 set_index 操作的基于任务的 shuffle。单机 shuffle 保持不变(效率更高)。
支持新的 Pandas rolling API,提高了分布式系统上的通信性能。
添加
groupby.std/var
在
read_csv
中传递 S3/HDFS 存储选项改进分类分区
为 dataframes 添加 eval, info, isnull, notnull
Distributed¶
将可执行文件(如 dscheduler)重命名为 dask-scheduler
提高在许多快速任务情况下的调度器性能(对 shuffle 很重要)
改进 work stealing,使其了解预期的函数运行时间和数据大小。这极大地增加了可以在分布式调度器上高效运行的算法范围,而无需用户具备专业的知识。
支持流式队列中的最大缓冲区大小
使用 Bokeh 诊断 web 界面时改进 Windows 支持
支持协议中超大字节字符串的压缩
支持 Joblib 接口中提交 futures 的干净取消
其他¶
所有与 dask 相关的项目(dask, distributed, s3fs, hdfs, partd)现在都在 conda-forge 上构建 conda 包。
更改 s3fs 中的凭据处理方式,仅在明确给出 secret/key 时传递委托凭据。默认情况下,依赖托管环境。可以通过明确提供关键字参数来改回。如果需要匿名模式,必须明确声明。
0.9.0 / 2016-05-11¶
API 变化¶
dask.do
和dask.value
已重命名为dask.delayed
dask.bag.from_filenames
已重命名为dask.bag.read_text
所有 S3/HDFS 数据摄取函数,例如
db.from_s3
或distributed.s3.read_csv
已移入普通read_text
,read_csv functions
,它们现在支持协议,例如dd.read_csv('s3://bucket/keys*.csv')
Array¶
添加对
scipy.LinearOperator
的支持改进磁盘数据结构的可选锁定
更改 rechunk 以暴露中间块
Bag¶
将
from_filename
s 重命名为read_text
移除
from_s3
,改为使用read_text('s3://...')
DataFrame¶
修复了相关性和协方差的数值稳定性问题
允许 from_pandas 无哈希,以便快速往返 pandas 对象
总体重新设计了
read_csv
,使其更符合 Pandas 的行为支持针对已排序列的快速
set_index
操作
Delayed¶
将
do/value
重命名为delayed
将
to/from_imperative
重命名为to/from_delayed
Distributed¶
将 s3 和 hdfs 功能移入 dask 仓库
针对非常快的任务,自适应超额分配 worker
改进 PyPy 支持
改进针对不均衡 worker 的 work stealing
使用 tree-scatters 高效分散数据
其他¶
添加 lzma/xz 压缩支持
尝试拆分不可拆分压缩类型(如 gzip 或 bz2)时发出警告
改进单机 shuffle 操作的哈希
添加新的 start state 回调方法
通用性能调优
0.8.1 / 2016-03-11¶
Array¶
修复了 range slicing 的 bug,该 bug 可能周期性地导致不正确的结果。
改进了对
arg
归约(argmin
,argmax
等)的支持和弹性
Bag¶
添加
zip
函数
DataFrame¶
添加
corr
和cov
函数添加
melt
函数修复了 io 到 bcolz 和 hdf5 的 bug
0.8.0 / 2016-02-20¶
Array¶
将默认数组归约拆分从 32 更改为 4
线性代数,
tril
,triu
,LU
,inv
,cholesky
,solve
,solve_triangular
,eye
,lstsq
,diag
,corrcoef
。
Bag¶
添加树状归约
添加 range 函数
移除
from_hdfs
函数(现在 hdfs3 和 distributed 项目中存在更好的功能)
DataFrame¶
重构
dask.dataframe
以包含完整的空 pandas dataframe 作为元数据。移除 Series 上的.columns
属性添加 Series 分类访问器,series.nunique,移除 series 的
.columns
属性。read_csv
修复(多列 parse_dates,整数列名等)内部更改以改进图序列化
其他¶
文档更新
为所有 collections 添加 from_imperative 和 to_imperative 函数
profiler 绘图的美学变化
将 dask 项目移至新的 dask 组织
0.7.6 / 2016-01-05¶
Array¶
改进线程安全
树状归约
添加
view
,compress
,hstack
,dstack
,vstack
方法map_blocks
现在可以移除和添加维度
DataFrame¶
改进线程安全
扩展抽样以包含替换选项
Imperative¶
移除融合结果的优化 passes。
Core¶
移除
dask.distributed
提高块文件读取性能
序列化改进
测试 Python 3.5
0.7.4 / 2015-10-23¶
这主要是错误修复版本。一些值得注意的变化包括
修复与 numpy 1.10 和 pandas 0.17 发布相关的微小 bug
修复了随机数生成中的一个 bug,该 bug 会因生日悖论导致重复的块
dask.dataframe.read_hdf
默认使用锁,以避免并发问题将
dask.get
默认指向dask.async.get_sync
允许可视化函数接受通用 graphviz 图选项,例如 rankdir=’LR’
为
dask.array
添加 reshape 和 ravel支持从
dask.imperative
对象创建dask.arrays
弃用¶
此版本还包含对 dask.distributed
的弃用警告,该模块将在下一版本中移除。
dask 的分布式计算未来开发正在此处进行:https://distributed.dask.org.cn 。非常欢迎社区对该项目提供反馈。
0.7.3 / 2015-09-25¶
诊断¶
已在
dask.diagnostics
模块中添加了一个用于分析内存和 CPU 使用率的工具。
DataFrame¶
此版本改进了 pandas API 的覆盖率。其中包括 nunique
, nlargest
, quantile
。修复了读取非 ascii csv 文件时的编码问题。改进了 resample 的性能并修复了 bug。更灵活的 read_hdf 支持 globbing。以及更多内容。修复了 dask.imperative
和 dask.bag
中的各种 bug。
0.7.0 / 2015-08-15¶
DataFrame¶
此版本包含重要的 bug 修复以及与 Pandas API 的对齐。这是使用以及 Pandas 核心开发人员最近参与的结果。
新操作:query, rolling operations, drop
改进的操作:quantiles, 对完整 dataframe 的算术运算, dropna, constructor logic, merge/join, elemwise operations, groupby aggregations
Bag¶
修复了 fold 在 null 默认参数时的 bug
Array¶
新操作:da.fft 模块,da.image.imread
基础设施¶
数组和 dataframe 集合使用确定性键创建图。这些键往往较长(哈希字符串),但在计算之间应该保持一致。这对于未来的缓存非常有用。
所有集合(Array, Bag, DataFrame)都继承自共同的子类
0.6.1 / 2015-07-23¶
Distributed¶
改进了(尽管尚未足够)
dask.distributed
在 worker 死亡时的弹性
DataFrame¶
改进了写入各种格式的功能,包括 to_hdf, to_castra, 和 to_csv
改进了从 dask Arrays 和 Bags 创建 dask DataFrames 的功能
改进了对 categoricals 和各种其他方法的支持
Array¶
各种 bug 修复
Histogram 函数
调度¶
添加了并行工作负载中任务的平局排序,以便更好地处理和清除中间结果
其他¶
添加了 dask.do 函数,用于使用普通 python 代码显式构建图
将 pydot 替换为 graphviz 库用于图打印,以支持 Python3
还有一个 gitter 聊天室和 stackoverflow 标签