API

目录

API¶

创建 Bag¶

`from_sequence`(seq[, partition_size, npartitions])	从 Python 序列创建 Dask Bag。
`from_delayed`(values)	从多个 Dask Delayed 对象创建 Bag。
`from_url`(urls)	从 URL 创建 Dask Bag。
`range`(n, npartitions)	从零到 n 的数字
`read_text`(urlpath[, blocksize, compression, ...])	从文本文件读取行
`read_avro`(urlpath[, blocksize, ...])	读取 Avro 文件集

从 DataFrame¶

`DataFrame.to_bag`([index, format])	从 Series 创建 Dask Bag
`Series.to_bag`([index, format])	从 Series 创建 Dask Bag

顶层函数¶

`concat`(bags)	将多个 Bag 拼接在一起，并合并所有元素。
`map`(func, args, *kwargs)	将一个函数逐元素应用于一个或多个 Bag。
`map_partitions`(func, args, *kwargs)	将一个函数应用于一个或多个 Bag 的每个分区。
`to_textfiles`(b, path[, name_function, ...])	将 Dask Bag 写入磁盘，每个分区一个文件名，每个元素一行。
`zip`(*bags)	按分区合并 Bag

随机采样¶

`random.choices`(population[, k, split_every])	返回一个大小为 k 的列表，其中的元素是通过有放回抽样选取的。
`random.sample`(population, k[, split_every])	从 Bag 中选择 k 个唯一的随机元素。

将 Bag 转换为其他类型¶

`Bag.to_textfiles`(path[, name_function, ...])	将 Dask Bag 写入磁盘，每个分区一个文件名，每个元素一行。
`Bag.to_dataframe`([meta, columns, optimize_graph])	从 Dask Bag 创建 Dask DataFrame。
`Bag.to_delayed`([optimize_graph])	转换为一个包含 `dask.delayed` 对象的列表，每个分区对应一个对象。
`Bag.to_avro`(filename, schema[, ...])	将 Bag 写入一组 Avro 文件

Bag 方法¶

`Bag`(dsk, name, npartitions)	Python 对象的并行集合
`Bag.accumulate`(binop[, initial])	对序列重复应用二元函数，并累积结果。
`Bag.all`([split_every])	所有元素都是真值吗？
`Bag.any`([split_every])	任意元素是真值吗？
`Bag.compute`(**kwargs)	计算此 Dask 集合
`Bag.count`([split_every])	计算元素的数量。
`Bag.distinct`([key])	集合中的唯一元素
`Bag.filter`(predicate)	使用谓词函数过滤集合中的元素。
`Bag.flatten`()	将嵌套列表连接成一个长列表。
`Bag.fold`(binop[, combine, initial, ...])	可并行化的归约
`Bag.foldby`(key, binop[, initial, combine, ...])	归约与分组的组合。
`Bag.frequencies`([split_every, sort])	计算每个不同元素的出现次数。
`Bag.groupby`(grouper[, method, npartitions, ...])	按键函数对集合进行分组
`Bag.join`(other, on_self[, on_other])	将集合与另一个集合进行连接。
`Bag.map`(func, args, *kwargs)	将一个函数逐元素应用于一个或多个 Bag。
`Bag.map_partitions`(func, args, *kwargs)	将一个函数应用于一个或多个 Bag 的每个分区。
`Bag.max`([split_every])	最大元素
`Bag.mean`()	算术平均值
`Bag.min`([split_every])	最小元素
`Bag.persist`(**kwargs)	将此 Dask 集合持久化到内存中
`Bag.pluck`(key[, default])	从集合中的所有元组/字典中选择项。
`Bag.product`(other)	两个 Bag 之间的笛卡尔积。
`Bag.reduction`(perpartition, aggregate[, ...])	使用归约运算符归约集合。
`Bag.random_sample`(prob[, random_state])	从 Bag 中以概率 `prob` 返回元素。
`Bag.remove`(predicate)	移除集合中符合谓词的元素。
`Bag.repartition`([npartitions, partition_size])	在新的分区划分下重新分区 Bag。
`Bag.starmap`(func, **kwargs)	使用给定 Bag 中的参数元组应用函数。
`Bag.std`([ddof])	标准差
`Bag.sum`([split_every])	求所有元素的和
`Bag.take`(k[, npartitions, compute, warn])	取前 k 个元素。
`Bag.to_avro`(filename, schema[, ...])	将 Bag 写入一组 Avro 文件
`Bag.to_dataframe`([meta, columns, optimize_graph])	从 Dask Bag 创建 Dask DataFrame。
`Bag.to_delayed`([optimize_graph])	转换为一个包含 `dask.delayed` 对象的列表，每个分区对应一个对象。
`Bag.to_textfiles`(path[, name_function, ...])	将 Dask Bag 写入磁盘，每个分区一个文件名，每个元素一行。
`Bag.topk`(k[, key, split_every])	集合中最大的 K 个元素
`Bag.var`([ddof])	方差
`Bag.visualize`([filename, format, optimize_graph])	使用 graphviz 渲染此对象的任务图计算过程。

Item 方法¶

`Item`(dsk, key[, layer])
`Item.apply`(func)
`Item.compute`(**kwargs)	计算此 Dask 集合
`Item.from_delayed`(value)	从 `dask.delayed` 值创建 Bag Item。
`Item.persist`(**kwargs)	将此 Dask 集合持久化到内存中
`Item.to_delayed`([optimize_graph])	转换为一个 `dask.delayed` 对象。
`Item.visualize`([filename, format, ...])	使用 graphviz 渲染此对象的任务图计算过程。

上一页

创建 Dask Bag

下一页

dask.bag.from_sequence