API
目录
API¶
创建 Bag¶
|
从 Python 序列创建 Dask Bag。 |
|
从多个 Dask Delayed 对象创建 Bag。 |
|
从 URL 创建 Dask Bag。 |
|
从零到 n 的数字 |
|
从文本文件读取行 |
|
读取 Avro 文件集 |
从 DataFrame¶
|
从 Series 创建 Dask Bag |
|
从 Series 创建 Dask Bag |
顶层函数¶
|
将多个 Bag 拼接在一起,并合并所有元素。 |
|
将一个函数逐元素应用于一个或多个 Bag。 |
|
将一个函数应用于一个或多个 Bag 的每个分区。 |
|
将 Dask Bag 写入磁盘,每个分区一个文件名,每个元素一行。 |
|
按分区合并 Bag |
随机采样¶
|
返回一个大小为 k 的列表,其中的元素是通过有放回抽样选取的。 |
|
从 Bag 中选择 k 个唯一的随机元素。 |
将 Bag 转换为其他类型¶
|
将 Dask Bag 写入磁盘,每个分区一个文件名,每个元素一行。 |
|
从 Dask Bag 创建 Dask DataFrame。 |
|
转换为一个包含 |
|
将 Bag 写入一组 Avro 文件 |
Bag 方法¶
|
Python 对象的并行集合 |
|
对序列重复应用二元函数,并累积结果。 |
|
所有元素都是真值吗? |
|
任意元素是真值吗? |
|
计算此 Dask 集合 |
|
计算元素的数量。 |
|
集合中的唯一元素 |
|
使用谓词函数过滤集合中的元素。 |
将嵌套列表连接成一个长列表。 |
|
|
可并行化的归约 |
|
归约与分组的组合。 |
|
计算每个不同元素的出现次数。 |
|
按键函数对集合进行分组 |
|
将集合与另一个集合进行连接。 |
|
将一个函数逐元素应用于一个或多个 Bag。 |
|
将一个函数应用于一个或多个 Bag 的每个分区。 |
|
最大元素 |
|
算术平均值 |
|
最小元素 |
|
将此 Dask 集合持久化到内存中 |
|
从集合中的所有元组/字典中选择项。 |
|
两个 Bag 之间的笛卡尔积。 |
|
使用归约运算符归约集合。 |
|
从 Bag 中以概率 |
|
移除集合中符合谓词的元素。 |
|
在新的分区划分下重新分区 Bag。 |
|
使用给定 Bag 中的参数元组应用函数。 |
|
标准差 |
|
求所有元素的和 |
|
取前 k 个元素。 |
|
将 Bag 写入一组 Avro 文件 |
|
从 Dask Bag 创建 Dask DataFrame。 |
|
转换为一个包含 |
|
将 Dask Bag 写入磁盘,每个分区一个文件名,每个元素一行。 |
|
集合中最大的 K 个元素 |
|
方差 |
|
使用 graphviz 渲染此对象的任务图计算过程。 |
Item 方法¶
|
|
|
|
|
计算此 Dask 集合 |
|
从 |
|
将此 Dask 集合持久化到内存中 |
|
转换为一个 |
|
使用 graphviz 渲染此对象的任务图计算过程。 |