API

创建 Bag

from_sequence(seq[, partition_size, npartitions])

从 Python 序列创建 Dask Bag。

from_delayed(values)

从多个 Dask Delayed 对象创建 Bag。

from_url(urls)

从 URL 创建 Dask Bag。

range(n, npartitions)

从零到 n 的数字

read_text(urlpath[, blocksize, compression, ...])

从文本文件读取行

read_avro(urlpath[, blocksize, ...])

读取 Avro 文件集

从 DataFrame

DataFrame.to_bag([index, format])

从 Series 创建 Dask Bag

Series.to_bag([index, format])

从 Series 创建 Dask Bag

顶层函数

concat(bags)

将多个 Bag 拼接在一起,并合并所有元素。

map(func, *args, **kwargs)

将一个函数逐元素应用于一个或多个 Bag。

map_partitions(func, *args, **kwargs)

将一个函数应用于一个或多个 Bag 的每个分区。

to_textfiles(b, path[, name_function, ...])

将 Dask Bag 写入磁盘,每个分区一个文件名,每个元素一行。

zip(*bags)

按分区合并 Bag

随机采样

random.choices(population[, k, split_every])

返回一个大小为 k 的列表,其中的元素是通过有放回抽样选取的。

random.sample(population, k[, split_every])

从 Bag 中选择 k 个唯一的随机元素。

将 Bag 转换为其他类型

Bag.to_textfiles(path[, name_function, ...])

将 Dask Bag 写入磁盘,每个分区一个文件名,每个元素一行。

Bag.to_dataframe([meta, columns, optimize_graph])

从 Dask Bag 创建 Dask DataFrame。

Bag.to_delayed([optimize_graph])

转换为一个包含 dask.delayed 对象的列表,每个分区对应一个对象。

Bag.to_avro(filename, schema[, ...])

将 Bag 写入一组 Avro 文件

Bag 方法

Bag(dsk, name, npartitions)

Python 对象的并行集合

Bag.accumulate(binop[, initial])

对序列重复应用二元函数,并累积结果。

Bag.all([split_every])

所有元素都是真值吗?

Bag.any([split_every])

任意元素是真值吗?

Bag.compute(**kwargs)

计算此 Dask 集合

Bag.count([split_every])

计算元素的数量。

Bag.distinct([key])

集合中的唯一元素

Bag.filter(predicate)

使用谓词函数过滤集合中的元素。

Bag.flatten()

将嵌套列表连接成一个长列表。

Bag.fold(binop[, combine, initial, ...])

可并行化的归约

Bag.foldby(key, binop[, initial, combine, ...])

归约与分组的组合。

Bag.frequencies([split_every, sort])

计算每个不同元素的出现次数。

Bag.groupby(grouper[, method, npartitions, ...])

按键函数对集合进行分组

Bag.join(other, on_self[, on_other])

将集合与另一个集合进行连接。

Bag.map(func, *args, **kwargs)

将一个函数逐元素应用于一个或多个 Bag。

Bag.map_partitions(func, *args, **kwargs)

将一个函数应用于一个或多个 Bag 的每个分区。

Bag.max([split_every])

最大元素

Bag.mean()

算术平均值

Bag.min([split_every])

最小元素

Bag.persist(**kwargs)

将此 Dask 集合持久化到内存中

Bag.pluck(key[, default])

从集合中的所有元组/字典中选择项。

Bag.product(other)

两个 Bag 之间的笛卡尔积。

Bag.reduction(perpartition, aggregate[, ...])

使用归约运算符归约集合。

Bag.random_sample(prob[, random_state])

从 Bag 中以概率 prob 返回元素。

Bag.remove(predicate)

移除集合中符合谓词的元素。

Bag.repartition([npartitions, partition_size])

在新的分区划分下重新分区 Bag。

Bag.starmap(func, **kwargs)

使用给定 Bag 中的参数元组应用函数。

Bag.std([ddof])

标准差

Bag.sum([split_every])

求所有元素的和

Bag.take(k[, npartitions, compute, warn])

取前 k 个元素。

Bag.to_avro(filename, schema[, ...])

将 Bag 写入一组 Avro 文件

Bag.to_dataframe([meta, columns, optimize_graph])

从 Dask Bag 创建 Dask DataFrame。

Bag.to_delayed([optimize_graph])

转换为一个包含 dask.delayed 对象的列表,每个分区对应一个对象。

Bag.to_textfiles(path[, name_function, ...])

将 Dask Bag 写入磁盘,每个分区一个文件名,每个元素一行。

Bag.topk(k[, key, split_every])

集合中最大的 K 个元素

Bag.var([ddof])

方差

Bag.visualize([filename, format, optimize_graph])

使用 graphviz 渲染此对象的任务图计算过程。

Item 方法

Item(dsk, key[, layer])

Item.apply(func)

Item.compute(**kwargs)

计算此 Dask 集合

Item.from_delayed(value)

dask.delayed 值创建 Bag Item。

Item.persist(**kwargs)

将此 Dask 集合持久化到内存中

Item.to_delayed([optimize_graph])

转换为一个 dask.delayed 对象。

Item.visualize([filename, format, ...])

使用 graphviz 渲染此对象的任务图计算过程。