Dask DataFrame API 与逻辑查询规划
目录
Dask DataFrame API 与逻辑查询规划¶
DataFrame¶
|
类似 DataFrame 的表达式集合。 |
返回一个 Series/DataFrame,其中包含每个元素的绝对数值。 |
|
|
|
|
使用指定的连接方法在其轴上对齐两个对象。 |
|
返回是否所有元素都为 True,可能跨轴。 |
|
返回是否任一元素为 True,可能跨轴。 |
|
pandas.DataFrame.apply 的并行版本 |
|
为 DataFrame 分配新列。 |
|
将 pandas 对象转换为指定的 dtype |
|
使用下一个有效观测值填充 NA/NaN 值。 |
|
将 DataFrame 的列转换为 category dtype。 |
|
计算此 dask 集合 |
|
创建 DataFrame 的副本 |
|
计算列的成对相关性,排除 NA/null 值。 |
|
计算每列或每行的非 NA 单元格数量。 |
|
计算列的成对协方差,排除 NA/null 值。 |
|
返回 DataFrame 或 Series 轴上的累积最大值。 |
|
返回 DataFrame 或 Series 轴上的累积最小值。 |
|
返回 DataFrame 或 Series 轴上的累积乘积。 |
|
返回 DataFrame 或 Series 轴上的累积和。 |
|
生成描述性统计信息。 |
|
元素的第一个离散差值。 |
|
|
|
|
一个包含 |
|
|
从行或列中删除指定的标签。 |
|
返回已移除重复行的 DataFrame。 |
|
移除缺失值。 |
返回数据类型 |
|
|
|
|
评估描述 DataFrame 列操作的字符串。 |
|
将类似列表的每个元素转换为一行,复制索引值。 |
|
通过将最后一个有效观测值传播到下一个有效位置来填充 NA/NaN 值。 |
|
使用指定的方法填充 NA/NaN 值。 |
|
|
|
|
获取表示第 n 个分区的 dask DataFrame/Series。 |
|
|
使用映射器或按列的 Series 对 DataFrame 进行分组。 |
|
|
|
数据集的前 n 行 |
|
返回请求轴上最大值的首次出现索引。 |
|
返回请求轴上最小值的首次出现索引。 |
纯粹基于整数位置的索引,用于按位置选择。 |
|
返回 dask Index 实例 |
|
|
Dask DataFrame 的简明摘要 |
|
DataFrame 中的每个元素是否包含在 values 中。 |
检测缺失值。 |
|
DataFrame.isnull 是 DataFrame.isna 的别名。 |
|
迭代 (列名, Series) 对。 |
|
迭代 DataFrame 行作为 (索引, Series) 对。 |
|
|
迭代 DataFrame 行作为 namedtuples。 |
|
连接另一个 DataFrame 的列。 |
分区是否已知。 |
|
|
|
纯粹基于标签位置的索引器,用于按标签选择。 |
|
|
|
|
将 Python 函数应用于每个分区 |
|
替换条件为 True 的值。 |
|
返回请求轴上的最大值。 |
|
返回请求轴上的平均值。 |
|
返回请求轴上的中位数。 |
|
返回请求轴上值的近似中位数。 |
|
将 DataFrame 从宽格式转换为长格式,可选地保留标识符。 |
|
返回每列的内存使用量(字节)。 |
返回每个分区的内存使用量 |
|
|
将 DataFrame 与另一个 DataFrame 合并 |
|
返回请求轴上的最小值。 |
|
|
|
获取沿选定轴的每个元素的众数。 |
|
|
返回维度 |
|
|
|
|
返回按 columns 降序排列的前 n 行。 |
返回分区数量 |
|
|
返回按 columns 升序排列的前 n 行。 |
按分区切片 DataFrame |
|
|
将此 dask 集合持久化到内存中 |
|
创建一个电子表格风格的透视表作为 DataFrame。 |
|
返回项并从 frame 中删除。 |
|
|
|
返回请求轴上的值乘积。 |
|
DataFrame 的近似行方向和精确列方向分位数 |
|
使用复杂表达式过滤 DataFrame |
|
|
|
按行伪随机地将 DataFrame 分割成不同的部分 |
|
|
|
重命名列或索引标签。 |
|
设置索引或列的轴名称。 |
|
对集合进行重新分区 |
|
将 to_replace 中给定的值替换为 value。 |
|
重采样时间序列数据。 |
|
将索引重置为默认索引。 |
|
|
|
|
|
|
|
将 DataFrame 四舍五入到指定的小数位数。 |
|
|
|
|
|
|
|
项的随机抽样 |
|
根据列 dtype 返回 DataFrame 列的子集。 |
|
返回请求轴上的无偏标准误差。 |
|
使用现有列设置 DataFrame 索引(行标签)。 |
|
将 DataFrame 重排到新分区中 |
Series 或 DataFrame 的大小作为 Delayed 对象。 |
|
|
按单个列对数据集进行排序。 |
|
将一维轴对象压缩为标量。 |
|
返回请求轴上的样本标准差。 |
|
|
|
返回请求轴上的值总和。 |
|
数据集的后 n 行 |
|
切换到新的 DataFrame 后端 |
|
从 Series 创建 Dask Bag |
|
有关更多信息,请参阅 dd.to_csv 文档字符串 |
|
将 dask DataFrame 转换为 dask 数组。 |
|
转换为 |
|
有关更多信息,请参阅 dd.to_hdf 文档字符串 |
|
将 DataFrame 渲染为 HTML 表格。 |
|
有关更多信息,请参阅 dd.to_json 文档字符串 |
|
有关更多信息,请参阅 dd.to_orc 文档字符串 |
|
|
|
|
|
将 DataFrame 渲染为控制台友好的表格输出。 |
|
|
|
转换为时间戳的 DatetimeIndex,位于时间段的开始。 |
|
|
返回此 DataFrame 值的 dask.array |
|
|
返回请求轴上的无偏方差。 |
|
可视化表达式或任务图 |
|
替换条件为 False 的值。 |
Series¶
|
类似 Series 的表达式集合。 |
|
|
|
使用指定的连接方法在其轴上对齐两个对象。 |
|
返回是否所有元素都为 True,可能跨轴。 |
|
返回是否任一元素为 True,可能跨轴。 |
|
pandas.Series.apply 的并行版本 |
|
将 pandas 对象转换为指定的 dtype |
|
计算滞后 N 的自相关。 |
|
返回等同于 left <= series <= right 的布尔 Series。 |
|
使用下一个有效观测值填充 NA/NaN 值。 |
忘记分区信息。 |
|
|
在输入阈值处修剪值。 |
|
计算此 dask 集合 |
|
创建 DataFrame 的副本 |
|
计算与 other Series 的相关性,排除缺失值。 |
|
计算每列或每行的非 NA 单元格数量。 |
|
计算与 Series 的协方差,排除缺失值。 |
|
返回 DataFrame 或 Series 轴上的累积最大值。 |
|
返回 DataFrame 或 Series 轴上的累积最小值。 |
|
返回 DataFrame 或 Series 轴上的累积乘积。 |
|
返回 DataFrame 或 Series 轴上的累积和。 |
|
生成描述性统计信息。 |
|
元素的第一个离散差值。 |
|
|
|
|
返回一个移除缺失值的新 Series。 |
|
|
|
将类列表的每个元素转换为一行。 |
|
|
通过将最后一个有效观测值传播到下一个有效位置来填充 NA/NaN 值。 |
|
使用指定的方法填充 NA/NaN 值。 |
|
|
|
|
获取表示第 n 个分区的 dask DataFrame/Series。 |
|
|
使用映射器或 Series 列进行 Series 分组。 |
|
|
|
数据集的前 n 行 |
|
返回请求轴上最大值的首次出现索引。 |
|
返回请求轴上最小值的首次出现索引。 |
|
DataFrame 中的每个元素是否包含在 values 中。 |
检测缺失值。 |
|
DataFrame.isnull 是 DataFrame.isna 的别名。 |
|
分区是否已知。 |
|
|
|
纯粹基于标签位置的索引器,用于按标签选择。 |
|
|
|
|
根据输入映射或函数映射 Series 的值。 |
|
对每个分区应用函数,与相邻分区共享行。 |
|
将 Python 函数应用于每个分区 |
|
替换条件为 True 的值。 |
|
返回请求轴上的最大值。 |
|
返回请求轴上的平均值。 |
返回请求轴上的中位数。 |
|
|
返回请求轴上值的近似中位数。 |
|
返回 Series 的内存使用量。 |
|
返回每个分区的内存使用量 |
|
返回请求轴上的最小值。 |
|
|
|
|
字节数 |
|
返回维度 |
|
|
|
|
返回最大的 n 个元素。 |
DataFrame.notnull 是 DataFrame.notna 的别名。 |
|
|
返回最小的 n 个元素。 |
|
返回对象中唯一元素的数量。 |
|
唯一行数的近似值。 |
|
将此 dask 集合持久化到内存中 |
|
应用接受 Series 或 DataFrame 作为输入的链式函数。 |
|
|
|
返回请求轴上的值乘积。 |
|
Series 的近似分位数 |
|
|
|
按行伪随机地将 DataFrame 分割成不同的部分 |
|
|
|
对集合进行重新分区 |
|
将 to_replace 中给定的值替换为 value。 |
|
更改 Series 索引标签或名称 |
|
重采样时间序列数据。 |
|
将索引重置为默认索引。 |
|
提供滚动转换。 |
|
将 DataFrame 四舍五入到指定的小数位数。 |
|
项的随机抽样 |
|
返回请求轴上的无偏标准误差。 |
返回一个表示 DataFrame 维度的元组。 |
|
|
通过所需的周期数移动索引,可选择指定时间 freq。 |
Series 或 DataFrame 的大小作为 Delayed 对象。 |
|
|
返回请求轴上的样本标准差。 |
|
|
|
返回请求轴上的值总和。 |
|
切换到新的 DataFrame 后端 |
|
从 Series 创建 Dask Bag |
|
有关更多信息,请参阅 dd.to_csv 文档字符串 |
|
将 dask DataFrame 转换为 dask 数组。 |
|
转换为 |
|
将 Series 转换为 DataFrame。 |
|
有关更多信息,请参阅 dd.to_hdf 文档字符串 |
|
渲染 Series 的字符串表示。 |
|
转换为时间戳的 DatetimeIndex,位于时间段的开始。 |
|
|
|
返回对象中唯一值的 Series。 |
|
返回一个包含唯一值计数的 Series。 |
返回此 DataFrame 值的 dask.array |
|
|
返回请求轴上的无偏方差。 |
|
可视化表达式或任务图 |
|
替换条件为 False 的值。 |
索引¶
|
类似索引的表达式集合。 |
|
|
|
使用指定的连接方法在其轴上对齐两个对象。 |
|
返回是否所有元素都为 True,可能跨轴。 |
|
返回是否任一元素为 True,可能跨轴。 |
|
pandas.Series.apply 的并行版本 |
|
将 pandas 对象转换为指定的 dtype |
|
计算滞后 N 的自相关。 |
|
返回等同于 left <= series <= right 的布尔 Series。 |
|
使用下一个有效观测值填充 NA/NaN 值。 |
忘记分区信息。 |
|
|
在输入阈值处修剪值。 |
|
计算此 dask 集合 |
|
创建 DataFrame 的副本 |
|
计算与 other Series 的相关性,排除缺失值。 |
|
计算每列或每行的非 NA 单元格数量。 |
|
计算与 Series 的协方差,排除缺失值。 |
|
返回 DataFrame 或 Series 轴上的累积最大值。 |
|
返回 DataFrame 或 Series 轴上的累积最小值。 |
|
返回 DataFrame 或 Series 轴上的累积乘积。 |
|
返回 DataFrame 或 Series 轴上的累积和。 |
|
生成描述性统计信息。 |
|
元素的第一个离散差值。 |
|
|
|
|
返回一个移除缺失值的新 Series。 |
|
|
|
将类列表的每个元素转换为一行。 |
|
|
通过将最后一个有效观测值传播到下一个有效位置来填充 NA/NaN 值。 |
|
使用指定的方法填充 NA/NaN 值。 |
|
|
|
|
获取表示第 n 个分区的 dask DataFrame/Series。 |
|
|
使用映射器或 Series 列进行 Series 分组。 |
|
|
|
数据集的前 n 行 |
如果对象中的值单调递减,则返回布尔值。 |
|
如果对象中的值单调递增,则返回布尔值。 |
|
|
DataFrame 中的每个元素是否包含在 values 中。 |
检测缺失值。 |
|
DataFrame.isnull 是 DataFrame.isna 的别名。 |
|
分区是否已知。 |
|
|
|
纯粹基于标签位置的索引器,用于按标签选择。 |
|
|
|
|
使用输入映射或函数映射值。 |
|
对每个分区应用函数,与相邻分区共享行。 |
|
将 Python 函数应用于每个分区 |
|
替换条件为 True 的值。 |
|
返回请求轴上的最大值。 |
返回请求轴上的中位数。 |
|
|
返回请求轴上值的近似中位数。 |
|
值的内存使用量。 |
|
返回每个分区的内存使用量 |
|
返回请求轴上的最小值。 |
|
|
|
|
字节数 |
|
返回维度 |
|
|
|
|
返回最大的 n 个元素。 |
DataFrame.notnull 是 DataFrame.notna 的别名。 |
|
|
返回最小的 n 个元素。 |
|
返回对象中唯一元素的数量。 |
|
唯一行数的近似值。 |
|
将此 dask 集合持久化到内存中 |
|
应用接受 Series 或 DataFrame 作为输入的链式函数。 |
|
|
|
Series 的近似分位数 |
|
|
|
按行伪随机地将 DataFrame 分割成不同的部分 |
|
|
|
更改 Series 索引标签或名称 |
|
对集合进行重新分区 |
|
将 to_replace 中给定的值替换为 value。 |
|
重采样时间序列数据。 |
|
将索引重置为默认索引。 |
|
提供滚动转换。 |
|
将 DataFrame 四舍五入到指定的小数位数。 |
|
项的随机抽样 |
|
返回请求轴上的无偏标准误差。 |
返回一个表示 DataFrame 维度的元组。 |
|
|
通过所需的周期数移动索引,可选择指定时间 freq。 |
Series 或 DataFrame 的大小作为 Delayed 对象。 |
|
|
|
|
切换到新的 DataFrame 后端 |
|
从 Series 创建 Dask Bag |
|
有关更多信息,请参阅 dd.to_csv 文档字符串 |
|
将 dask DataFrame 转换为 dask 数组。 |
|
转换为 |
|
创建一个包含 Index 的列的 DataFrame。 |
|
有关更多信息,请参阅 dd.to_hdf 文档字符串 |
|
创建一个 Index 和值都等于索引键的 Series。 |
|
渲染 Series 的字符串表示。 |
|
转换为时间戳的 DatetimeIndex,位于时间段的开始。 |
|
|
|
返回对象中唯一值的 Series。 |
|
返回一个包含唯一值计数的 Series。 |
返回此 DataFrame 值的 dask.array |
|
|
可视化表达式或任务图 |
|
替换条件为 False 的值。 |
|
创建一个包含 Index 的列的 DataFrame。 |
访问器¶
与 pandas 类似,Dask 在各种访问器下提供了特定于 dtype 的方法。这些是 Series
中仅适用于特定数据类型的独立命名空间。
日期时间访问器¶
方法
|
对数据执行向上取整操作到指定的 freq。 |
|
对数据执行向下取整操作到指定的 freq。 |
根据 ISO 8601 标准计算年、周和日。 |
|
|
将时间转换为午夜。 |
|
对数据执行四舍五入操作到指定的 freq。 |
|
使用指定的 date_format 转换为 Index。 |
属性
返回 python |
|
日期时间中的日。 |
|
星期几(周一=0,周日=6)。 |
|
一年中的序号日。 |
|
当月的天数。 |
|
日期时间中的小时。 |
|
日期时间中的微秒。 |
|
日期时间中的分钟。 |
|
月份(一月=1,十二月=12)。 |
|
日期时间中的纳秒。 |
|
日期中的季度。 |
|
日期时间中的秒。 |
|
返回 |
|
返回带有时区的 |
|
返回时区。 |
|
一年中的周序号。 |
|
星期几(周一=0,周日=6)。 |
|
一年中的周序号。 |
|
日期时间中的年份。 |
字符串访问器¶
方法
将 Series/Index 中的字符串首字母大写。 |
|
将 Series/Index 中的字符串折叠大小写。 |
|
|
|
|
填充 Series/Index 中字符串的左侧和右侧。 |
|
测试模式或正则表达式是否包含在 Series 或 Index 的字符串中。 |
|
计算 Series/Index 中每个字符串中模式的出现次数。 |
|
使用指定的编码解码 Series/Index 中的字符串。 |
|
使用指定的编码编码 Series/Index 中的字符串。 |
|
测试每个字符串元素的结尾是否匹配模式。 |
|
将 regex pat 中的捕获组提取为 DataFrame 中的列。 |
|
将 regex pat 中的捕获组提取为 DataFrame 中的列。 |
|
返回 Series/Index 中每个字符串的最低索引。 |
|
查找 Series/Index 中模式或正则表达式的所有出现。 |
|
确定每个字符串是否完全匹配正则表达式。 |
从每个组件中提取指定位置或具有指定键的元素。 |
|
|
返回 Series/Index 中每个字符串的最低索引。 |
检查每个字符串中的所有字符是否都是字母或数字。 |
|
检查每个字符串中的所有字符是否都是字母。 |
|
检查每个字符串中的所有字符是否都是十进制数字。 |
|
检查每个字符串中的所有字符是否都是数字。 |
|
检查每个字符串中的所有字符是否都是小写。 |
|
检查每个字符串中的所有字符是否都是数字。 |
|
检查每个字符串中的所有字符是否都是空格。 |
|
检查每个字符串中的所有字符是否都是标题格式。 |
|
检查每个字符串中的所有字符是否都是大写。 |
|
|
使用传递的分隔符连接 Series/Index 中包含的列表元素。 |
计算 Series/Index 中每个元素的长度。 |
|
|
填充 Series/Index 中字符串的右侧。 |
将 Series/Index 中的字符串转换为小写。 |
|
|
移除前导字符。 |
|
确定每个字符串是否以匹配正则表达式开头。 |
|
返回 Series/Index 中字符串的 Unicode 标准化形式。 |
|
填充 Series/Index 中的字符串至指定的宽度。 |
|
在第一次出现 sep 的位置分割字符串。 |
|
复制 Series 或 Index 中的每个字符串。 |
|
替换 Series/Index 中模式/regex 的每个出现。 |
|
返回 Series/Index 中每个字符串的最高索引。 |
|
返回 Series/Index 中每个字符串的最高索引。 |
|
填充 Series/Index 中字符串的左侧。 |
|
在最后一次出现 sep 的位置分割字符串。 |
|
|
|
移除尾部字符。 |
|
从 Series 或 Index 中的每个元素切片子字符串。 |
|
已知的不一致:对于未知的 |
|
测试每个字符串元素的开头是否匹配模式。 |
|
移除前导和尾部字符。 |
转换 Series/Index 中的字符串大小写。 |
|
将 Series/Index 中的字符串转换为标题格式。 |
|
|
通过给定的映射表映射字符串中的所有字符。 |
将 Series/Index 中的字符串转换为大写。 |
|
|
在指定的行宽度处包装 Series/Index 中的字符串。 |
|
通过在 Series/Index 中的字符串前面添加“0”字符来填充。 |
分类访问器¶
方法
|
添加新类别。 |
|
确保此 Series 中的类别是已知的。 |
|
将 Categorical 设置为有序。 |
确保此 Series 中的类别是未知的 |
|
|
将 Categorical 设置为无序。 |
|
移除指定的类别。 |
移除未使用的类别 |
|
|
重命名类别。 |
|
按照 new_categories 中指定的方式重新排序类别。 |
|
将类别设置为指定的新类别。 |
属性
此分类的类别。 |
|
此分类的代码。 |
|
类别是否完全已知 |
|
类别是否有序关系 |
分组操作¶
DataFrame 分组¶
|
使用一个或多个指定操作进行聚合 |
|
pandas GroupBy.apply 的并行版本 |
|
向后填充值。 |
|
计算组的计数,不包括缺失值。 |
对每个组中的每个项进行编号,从 0 到该组的长度减 1。 |
|
|
计算每个组的累积乘积。 |
|
计算每个组的累积和。 |
|
向前填充值。 |
|
从具有指定名称的组构造 DataFrame。 |
|
计算组值的最大值。 |
|
计算组的均值,不包括缺失值。 |
|
计算组的最小值。 |
|
计算组的大小。 |
|
计算组的标准差,不包括缺失值。 |
|
计算组值的总和。 |
|
计算组的方差,不包括缺失值。 |
|
计算列的成对协方差,排除 NA/null 值。 |
|
计算列的成对相关性,排除 NA/null 值。 |
|
计算每个组内每列的第一个条目。 |
|
计算每个组内每列的最后一个条目。 |
|
返回请求轴上最小值的首次出现索引。 |
|
返回请求轴上最大值的首次出现索引。 |
|
提供滚动转换。 |
|
pandas GroupBy.transform 的并行版本 |
Series 分组¶
|
使用一个或多个指定操作进行聚合 |
|
pandas GroupBy.apply 的并行版本 |
|
向后填充值。 |
|
计算组的计数,不包括缺失值。 |
对每个组中的每个项进行编号,从 0 到该组的长度减 1。 |
|
|
计算每个组的累积乘积。 |
|
计算每个组的累积和。 |
|
向前填充值。 |
从具有指定名称的组构造 DataFrame。 |
|
|
计算组值的最大值。 |
|
计算组的均值,不包括缺失值。 |
|
计算组的最小值。 |
|
返回组中唯一元素的数量。 |
|
计算组的大小。 |
|
计算组的标准差,不包括缺失值。 |
|
计算组值的总和。 |
|
计算组的方差,不包括缺失值。 |
|
计算每个组内每列的第一个条目。 |
|
计算每个组内每列的最后一个条目。 |
|
返回请求轴上最小值的首次出现索引。 |
|
返回请求轴上最大值的首次出现索引。 |
|
提供滚动转换。 |
|
pandas GroupBy.transform 的并行版本 |
自定义聚合¶
|
用户定义的 groupby 聚合。 |
滚动操作¶
|
提供滚动转换。 |
|
提供滚动转换。 |
|
计算滚动自定义聚合函数。 |
|
计算非 NaN 观测值的滚动计数。 |
|
计算基于 Fisher 定义的无偏滚动峰度。 |
|
计算滚动最大值。 |
|
计算滚动平均值。 |
|
计算滚动中位数。 |
|
计算滚动最小值。 |
|
计算滚动分位数。 |
|
计算无偏滚动偏度。 |
|
计算滚动标准差。 |
|
计算滚动总和。 |
|
计算滚动方差。 |
创建 DataFrame¶
|
将 CSV 文件读取到 Dask.DataFrame 中 |
|
将分隔文件读取到 Dask.DataFrame 中 |
|
将固定宽度文件读取到 Dask.DataFrame 中 |
|
将 Parquet 文件读取到 Dask DataFrame 中 |
|
将 HDF 文件读取到 Dask DataFrame 中 |
|
从一组 JSON 文件创建 DataFrame |
|
从 ORC 文件读取 DataFrame |
|
将 SQL 数据库表读取到 DataFrame 中。 |
|
将 SQL 查询读取到 DataFrame 中。 |
|
将 SQL 查询或数据库表读取到 DataFrame 中。 |
|
将任何可切片数组读取到 Dask Dataframe 中 |
|
从 Dask Array 创建 Dask DataFrame。 |
|
从多个 Dask Delayed 对象创建 Dask DataFrame |
|
从自定义函数映射创建 DataFrame 集合。 |
|
从 Pandas DataFrame 构建 Dask DataFrame |
|
从 Python 字典构建 Dask DataFrame |
存储 DataFrame¶
|
将 Dask DataFrame 存储到 CSV 文件 |
|
将 Dask.dataframe 存储到 Parquet 文件 |
|
将 Dask Dataframe 存储到层次化数据格式 (HDF) 文件 |
|
从 Dask Dataframe 创建 Dask Array |
|
将 Dask Dataframe 存储到 SQL 表 |
|
将 DataFrame 写入 JSON 文本文件 |
|
将 Dask.dataframe 存储到 ORC 文件 |
转换 DataFrame¶
|
从 Series 创建 Dask Bag |
|
将 dask DataFrame 转换为 dask 数组。 |
|
转换为 |
重塑 DataFrame¶
|
将类别变量转换为虚拟变量/指示变量。 |
|
创建一个电子表格风格的透视表作为 DataFrame。 |
|
连接 DataFrame¶
|
将 DataFrame 与另一个 DataFrame 合并 |
|
沿行连接 DataFrame。 |
|
使用数据库风格的连接合并 DataFrame 或命名 Series 对象。 |
|
按键距离执行合并。 |
重采样¶
|
使用一个或多个操作进行聚合 |
|
沿指定轴使用一个或多个操作进行聚合。 |
计算组的计数,不包括缺失值。 |
|
计算每个组内每列的第一个条目。 |
|
计算每个组内每列的最后一个条目。 |
|
计算组的最大值。 |
|
计算组的均值,不包括缺失值。 |
|
计算组的中位数,不包括缺失值。 |
|
计算组的最小值。 |
|
返回组中唯一元素的数量。 |
|
计算组的开盘价、最高价、最低价和收盘价,不包括缺失值。 |
|
计算组值的乘积。 |
|
返回给定分位数的值。 |
|
计算组平均值的标准误,不包括缺失值。 |
|
计算组的大小。 |
|
计算组的标准差,不包括缺失值。 |
|
计算组值的总和。 |
|
计算组的方差,不包括缺失值。 |
查询规划与优化¶
|
创建表达式的图表示。 |
|
可视化表达式或任务图 |
|
输出表达式中每个节点的统计信息。 |
其他函数¶
|
一次性计算多个 dask 集合。 |
|
在每个 DataFrame 分区上应用 Python 函数。 |
|
对每个分区应用函数,与相邻分区共享行。 |
将参数转换为 datetime 类型。 |
|
|
将参数转换为数字类型。 |
将参数转换为 timedelta 类型。 |