API
目录
API¶
创建 Bag¶
|
从 Python 序列创建 dask Bag。 |
|
从多个 dask Delayed 对象创建 Bag。 |
|
从 URL 创建 dask Bag。 |
|
从零到 n 的数字 |
|
从文本文件读取行 |
|
读取一组 avro 文件 |
从 DataFrame 创建¶
|
从 Series 创建 Dask Bag |
|
从 Series 创建 Dask Bag |
顶级函数¶
|
将多个 Bag 拼接在一起,联合所有元素。 |
|
对一个或多个 Bag 的元素逐一应用函数。 |
|
对一个或多个 Bag 的每个分区应用函数。 |
|
将 dask Bag 写入磁盘,每个分区一个文件名,每个元素一行。 |
|
按分区的 Bag zip 操作 |
随机抽样¶
|
返回一个大小为 k 的列表,元素可重复抽取。 |
|
从 Bag 中抽取 k 个唯一的随机元素。 |
将 Bag 转换为其他类型¶
|
将 dask Bag 写入磁盘,每个分区一个文件名,每个元素一行。 |
|
从 Dask Bag 创建 Dask DataFrame。 |
|
转换为 |
|
将 Bag 写入一组 avro 文件 |
Bag 方法¶
|
Python 对象的并行集合 |
|
重复地将二元函数应用于序列,累积结果。 |
|
所有元素都是真值吗? |
|
任何元素是真值吗? |
|
计算此 dask 集合 |
|
计算元素数量。 |
|
集合中的不同元素 |
|
使用谓词函数过滤集合中的元素。 |
将嵌套列表展平为一个长列表。 |
|
|
可并行化的归约 |
|
结合归约和分组。 |
|
计算每个不同元素的出现次数。 |
|
按键函数对集合进行分组 |
|
将集合与另一个集合连接。 |
|
对一个或多个 Bag 的元素逐一应用函数。 |
|
对一个或多个 Bag 的每个分区应用函数。 |
|
最大元素 |
|
算术平均值 |
|
最小元素 |
|
将此 dask 集合持久化到内存 |
|
从集合中的所有元组/字典中选择项。 |
|
两个 Bag 的笛卡尔积。 |
|
使用归约运算符归约集合。 |
|
以 |
|
删除集合中符合谓词的元素。 |
|
在新的划分上重新对 Bag 进行分区。 |
|
使用给定 Bag 中的参数元组应用函数。 |
|
标准差 |
|
求所有元素之和 |
|
取前 k 个元素。 |
|
将 Bag 写入一组 avro 文件 |
|
从 Dask Bag 创建 Dask DataFrame。 |
|
转换为 |
|
将 dask Bag 写入磁盘,每个分区一个文件名,每个元素一行。 |
|
集合中最大的 K 个元素 |
|
方差 |
|
使用 graphviz 渲染此对象的任务图计算过程。 |
Item 方法¶
|
|
|
|
|
计算此 dask 集合 |
|
从 dask.delayed 值创建 bag 项。 |
|
将此 dask 集合持久化到内存 |
|
转换为 |
|
使用 graphviz 渲染此对象的任务图计算过程。 |