Dask DataFrame API 和逻辑查询规划
目录
Dask DataFrame API 和逻辑查询规划¶
DataFrame¶
|
DataFrame 类似的 Expr 集合。 |
返回每个元素的绝对数值的 Series/DataFrame。 |
|
|
|
|
使用指定的 join 方法对齐两个对象的轴。 |
|
返回所有元素是否为 True,可以指定轴。 |
|
返回是否存在任何元素为 True,可以指定轴。 |
|
pandas.DataFrame.apply 的并行版本 |
|
为 DataFrame 分配新列。 |
|
将 pandas 对象强制转换为指定的 dtype |
|
使用下一个有效观测值填充 NA/NaN 值。 |
|
将 DataFrame 的列转换为 category dtype。 |
|
计算此 dask 集合 |
|
创建 dataframe 的副本 |
|
计算列的成对相关性,不包括 NA/null 值。 |
|
计算每列或每行的非 NA 单元格数。 |
|
计算列的成对协方差,不包括 NA/null 值。 |
|
返回 DataFrame 或 Series 轴上的累积最大值。 |
|
返回 DataFrame 或 Series 轴上的累积最小值。 |
|
返回 DataFrame 或 Series 轴上的累积乘积。 |
|
返回 DataFrame 或 Series 轴上的累积总和。 |
|
生成描述性统计信息。 |
|
元素的第一个离散差分。 |
|
|
|
|
一个元组,包含 |
|
|
从行或列中删除指定的标签。 |
|
返回删除了重复行的 DataFrame。 |
|
删除缺失值。 |
返回数据类型 |
|
|
|
|
评估描述 DataFrame 列操作的字符串。 |
|
将类列表的每个元素转换为一行,并复制索引值。 |
|
通过将最后一个有效观测值传播到下一个有效位置来填充 NA/NaN 值。 |
|
使用指定方法填充 NA/NaN 值。 |
|
|
|
|
获取代表第 nth 个分区的 dask DataFrame/Series。 |
|
|
使用映射器或按一系列列对 DataFrame 进行分组。 |
|
|
|
数据集的前 n 行 |
|
返回请求轴上最大值的第一个出现位置的索引。 |
|
返回请求轴上最小值的第一个出现位置的索引。 |
用于按位置选择的纯整数位置索引。 |
|
返回 dask Index 实例 |
|
|
Dask DataFrame 的简洁摘要 |
|
DataFrame 中的每个元素是否包含在 values 中。 |
检测缺失值。 |
|
DataFrame.isnull 是 DataFrame.isna 的别名。 |
|
迭代 (列名, Series) 对。 |
|
迭代 DataFrame 行,以 (索引, Series) 对的形式。 |
|
|
迭代 DataFrame 行,以命名元组 (namedtuples) 的形式。 |
|
连接另一个 DataFrame 的列。 |
分区是否已知。 |
|
|
|
用于按标签选择的纯标签位置索引器。 |
|
|
|
|
将 Python 函数应用于每个分区 |
|
替换条件为 True 的值。 |
|
返回请求轴上的最大值。 |
|
返回请求轴上的平均值。 |
|
返回请求轴上的中位数。 |
|
返回请求轴上的近似中位数。 |
|
将 DataFrame 从宽格式转换为长格式,可以选择保留标识符。 |
|
以字节为单位返回每列的内存使用量。 |
返回每个分区的内存使用量 |
|
|
将 DataFrame 与另一个 DataFrame 合并 |
|
返回请求轴上的最小值。 |
|
|
|
获取沿选定轴的每个元素的众数。 |
|
|
返回维度 |
|
|
|
|
返回按 columns 降序排列的前 n 行。 |
返回分区数量 |
|
|
返回按 columns 升序排列的前 n 行。 |
按分区切片 DataFrame |
|
|
将此 Dask 集合持久化到内存中 |
|
创建一个类似电子表格的透视表作为 DataFrame。 |
|
返回项并从框架中删除。 |
|
|
|
返回沿请求轴的值的乘积。 |
|
DataFrame 的近似行级和精确列级分位数 |
|
使用复杂表达式过滤 DataFrame |
|
|
|
按行伪随机地将 DataFrame 分割成不同的部分 |
|
|
|
重命名列或索引标签。 |
|
设置索引或列的轴名称。 |
|
重新分区集合 |
|
用 value 替换 to_replace 中给定的值。 |
|
对时间序列数据进行重采样。 |
|
将索引重置为默认索引。 |
|
|
|
|
|
|
|
将 DataFrame 四舍五入到可变数量的小数位。 |
|
|
|
|
|
|
|
随机采样项 |
|
根据列的数据类型返回 DataFrame 列的子集。 |
|
返回沿请求轴的均值的无偏标准误差。 |
|
使用现有列设置 DataFrame 索引(行标签)。 |
|
将 DataFrame 重新排列到新的分区中 |
作为 Delayed 对象的 Series 或 DataFrame 的大小。 |
|
|
按单列对数据集进行排序。 |
|
将一维轴对象压缩为标量。 |
|
返回沿请求轴的样本标准差。 |
|
|
|
返回沿请求轴的值的总和。 |
|
数据集的最后 n 行 |
|
移动到新的 DataFrame 后端 |
|
从 Series 创建 Dask Bag |
|
更多信息请参阅 dd.to_csv 的文档字符串 |
|
将 Dask DataFrame 转换为 Dask array。 |
|
转换为 |
|
更多信息请参阅 dd.to_hdf 的文档字符串 |
|
将 DataFrame 渲染为 HTML 表格。 |
|
更多信息请参阅 dd.to_json 的文档字符串 |
|
更多信息请参阅 dd.to_orc 的文档字符串 |
|
|
|
|
|
将 DataFrame 渲染为控制台友好的表格输出。 |
|
|
|
转换为时间戳的 DatetimeIndex,位于周期的开始。 |
|
|
返回此 DataFrame 值的 Dask array。 |
|
|
返回沿请求轴的无偏方差。 |
|
可视化表达式或任务图 |
|
在条件为 False 的地方替换值。 |
Series¶
|
类似 Series 的 Expr 集合。 |
|
|
|
使用指定的 join 方法对齐两个对象的轴。 |
|
返回所有元素是否为 True,可以指定轴。 |
|
返回是否存在任何元素为 True,可以指定轴。 |
|
pandas.Series.apply 的并行版本 |
|
将 pandas 对象强制转换为指定的 dtype |
|
计算滞后 N 的自相关。 |
|
返回相当于 left <= series <= right 的布尔 Series。 |
|
使用下一个有效观测值填充 NA/NaN 值。 |
清除分区信息。 |
|
|
修剪输入阈值处的值。 |
|
计算此 dask 集合 |
|
创建 dataframe 的副本 |
|
计算与 other Series 的相关性,不包括缺失值。 |
|
计算每列或每行的非 NA 单元格数。 |
|
计算与 Series 的协方差,不包括缺失值。 |
|
返回 DataFrame 或 Series 轴上的累积最大值。 |
|
返回 DataFrame 或 Series 轴上的累积最小值。 |
|
返回 DataFrame 或 Series 轴上的累积乘积。 |
|
返回 DataFrame 或 Series 轴上的累积总和。 |
|
生成描述性统计信息。 |
|
元素的第一个离散差分。 |
|
|
|
|
返回一个移除了缺失值的新 Series。 |
|
|
|
将类似列表的每个元素转换为一行。 |
|
|
通过将最后一个有效观测值传播到下一个有效位置来填充 NA/NaN 值。 |
|
使用指定方法填充 NA/NaN 值。 |
|
|
|
|
获取代表第 nth 个分区的 dask DataFrame/Series。 |
|
|
使用映射器或列 Series 对 Series 进行分组。 |
|
|
|
数据集的前 n 行 |
|
返回请求轴上最大值的第一个出现位置的索引。 |
|
返回请求轴上最小值的第一个出现位置的索引。 |
|
DataFrame 中的每个元素是否包含在 values 中。 |
检测缺失值。 |
|
DataFrame.isnull 是 DataFrame.isna 的别名。 |
|
分区是否已知。 |
|
|
|
用于按标签选择的纯标签位置索引器。 |
|
|
|
|
根据输入映射或函数映射 Series 的值。 |
|
将函数应用于每个分区,与相邻分区共享行。 |
|
将 Python 函数应用于每个分区 |
|
替换条件为 True 的值。 |
|
返回请求轴上的最大值。 |
|
返回请求轴上的平均值。 |
返回请求轴上的中位数。 |
|
|
返回请求轴上的近似中位数。 |
|
返回 Series 的内存使用情况。 |
|
返回每个分区的内存使用量 |
|
返回请求轴上的最小值。 |
|
|
|
|
字节数 |
|
返回维度 |
|
|
|
|
返回最大的 n 个元素。 |
DataFrame.notnull 是 DataFrame.notna 的别名。 |
|
|
返回最小的 n 个元素。 |
|
返回对象中唯一元素的数量。 |
|
近似唯一元素数。 |
|
将此 Dask 集合持久化到内存中 |
|
应用期望 Series 或 DataFrame 的可链式函数。 |
|
|
|
返回沿请求轴的值的乘积。 |
|
Series 的近似分位数 |
|
|
|
按行伪随机地将 DataFrame 分割成不同的部分 |
|
|
|
重新分区集合 |
|
用 value 替换 to_replace 中给定的值。 |
|
修改 Series 索引标签或名称 |
|
对时间序列数据进行重采样。 |
|
将索引重置为默认索引。 |
|
提供滚动变换。 |
|
将 DataFrame 四舍五入到可变数量的小数位。 |
|
随机采样项 |
|
返回沿请求轴的均值的无偏标准误差。 |
返回表示 DataFrame 维度的元组。 |
|
|
按所需的周期数(可选带时间 freq)移动索引。 |
作为 Delayed 对象的 Series 或 DataFrame 的大小。 |
|
|
返回沿请求轴的样本标准差。 |
|
|
|
返回沿请求轴的值的总和。 |
|
移动到新的 DataFrame 后端 |
|
从 Series 创建 Dask Bag |
|
更多信息请参阅 dd.to_csv 的文档字符串 |
|
将 Dask DataFrame 转换为 Dask array。 |
|
转换为 |
|
将 Series 转换为 DataFrame。 |
|
更多信息请参阅 dd.to_hdf 的文档字符串 |
|
渲染 Series 的字符串表示。 |
|
转换为时间戳的 DatetimeIndex,位于周期的开始。 |
|
|
|
返回对象中唯一值的 Series。 |
|
返回一个包含唯一值计数的 Series。 |
返回此 DataFrame 值的 Dask array。 |
|
|
返回沿请求轴的无偏方差。 |
|
可视化表达式或任务图 |
|
在条件为 False 的地方替换值。 |
Index¶
|
类似 Index 的 Expr 集合。 |
|
|
|
使用指定的 join 方法对齐两个对象的轴。 |
|
返回所有元素是否为 True,可以指定轴。 |
|
返回是否存在任何元素为 True,可以指定轴。 |
|
pandas.Series.apply 的并行版本 |
|
将 pandas 对象强制转换为指定的 dtype |
|
计算滞后 N 的自相关。 |
|
返回相当于 left <= series <= right 的布尔 Series。 |
|
使用下一个有效观测值填充 NA/NaN 值。 |
清除分区信息。 |
|
|
修剪输入阈值处的值。 |
|
计算此 dask 集合 |
|
创建 dataframe 的副本 |
|
计算与 other Series 的相关性,不包括缺失值。 |
|
计算每列或每行的非 NA 单元格数。 |
|
计算与 Series 的协方差,不包括缺失值。 |
|
返回 DataFrame 或 Series 轴上的累积最大值。 |
|
返回 DataFrame 或 Series 轴上的累积最小值。 |
|
返回 DataFrame 或 Series 轴上的累积乘积。 |
|
返回 DataFrame 或 Series 轴上的累积总和。 |
|
生成描述性统计信息。 |
|
元素的第一个离散差分。 |
|
|
|
|
返回一个移除了缺失值的新 Series。 |
|
|
|
将类似列表的每个元素转换为一行。 |
|
|
通过将最后一个有效观测值传播到下一个有效位置来填充 NA/NaN 值。 |
|
使用指定方法填充 NA/NaN 值。 |
|
|
|
|
获取代表第 nth 个分区的 dask DataFrame/Series。 |
|
|
使用映射器或列 Series 对 Series 进行分组。 |
|
|
|
数据集的前 n 行 |
如果对象中的值单调递减,则返回布尔值。 |
|
如果对象中的值单调递增,则返回布尔值。 |
|
|
DataFrame 中的每个元素是否包含在 values 中。 |
检测缺失值。 |
|
DataFrame.isnull 是 DataFrame.isna 的别名。 |
|
分区是否已知。 |
|
|
|
用于按标签选择的纯标签位置索引器。 |
|
|
|
|
使用输入映射或函数映射值。 |
|
将函数应用于每个分区,与相邻分区共享行。 |
|
将 Python 函数应用于每个分区 |
|
替换条件为 True 的值。 |
|
返回请求轴上的最大值。 |
返回请求轴上的中位数。 |
|
|
返回请求轴上的近似中位数。 |
|
值的内存使用情况。 |
|
返回每个分区的内存使用量 |
|
返回请求轴上的最小值。 |
|
|
|
|
字节数 |
|
返回维度 |
|
|
|
|
返回最大的 n 个元素。 |
DataFrame.notnull 是 DataFrame.notna 的别名。 |
|
|
返回最小的 n 个元素。 |
|
返回对象中唯一元素的数量。 |
|
近似唯一元素数。 |
|
将此 Dask 集合持久化到内存中 |
|
应用期望 Series 或 DataFrame 的可链式函数。 |
|
|
|
Series 的近似分位数 |
|
|
|
按行伪随机地将 DataFrame 分割成不同的部分 |
|
|
|
修改 Series 索引标签或名称 |
|
重新分区集合 |
|
用 value 替换 to_replace 中给定的值。 |
|
对时间序列数据进行重采样。 |
|
将索引重置为默认索引。 |
|
提供滚动变换。 |
|
将 DataFrame 四舍五入到可变数量的小数位。 |
|
随机采样项 |
|
返回沿请求轴的均值的无偏标准误差。 |
返回表示 DataFrame 维度的元组。 |
|
|
按所需的周期数(可选带时间 freq)移动索引。 |
作为 Delayed 对象的 Series 或 DataFrame 的大小。 |
|
|
|
|
移动到新的 DataFrame 后端 |
|
从 Series 创建 Dask Bag |
|
更多信息请参阅 dd.to_csv 的文档字符串 |
|
将 Dask DataFrame 转换为 Dask array。 |
|
转换为 |
|
创建一个包含 Index 的 DataFrame。 |
|
更多信息请参阅 dd.to_hdf 的文档字符串 |
|
创建一个索引和值都等于索引键的 Series。 |
|
渲染 Series 的字符串表示。 |
|
转换为时间戳的 DatetimeIndex,位于周期的开始。 |
|
|
|
返回对象中唯一值的 Series。 |
|
返回一个包含唯一值计数的 Series。 |
返回此 DataFrame 值的 Dask array。 |
|
|
可视化表达式或任务图 |
|
在条件为 False 的地方替换值。 |
|
创建一个包含 Index 的 DataFrame。 |
访问器¶
与 pandas 类似,Dask 在各种访问器下提供了特定数据类型的方法。这些是 Series
中的单独命名空间,仅适用于特定的数据类型。
日期时间访问器¶
方法
|
对数据执行向上取整操作到指定的 freq。 |
|
对数据执行向下取整操作到指定的 freq。 |
根据 ISO 8601 标准计算年、周和日。 |
|
|
将时间转换为午夜。 |
|
对数据执行四舍五入操作到指定的 freq。 |
|
使用指定的 date_format 转换为 Index。 |
属性
返回 Python |
|
datetime 的日。 |
|
周几,周一为 0,周日为 6。 |
|
当年的序号日。 |
|
月中的天数。 |
|
datetime 的小时。 |
|
datetime 的微秒。 |
|
datetime 的分钟。 |
|
月份,一月为 1,十二月为 12。 |
|
datetime 的纳秒。 |
|
日期的季度。 |
|
datetime 的秒。 |
|
返回 |
|
返回带时区的 |
|
返回时区。 |
|
当年的周序号。 |
|
周几,周一为 0,周日为 6。 |
|
当年的周序号。 |
|
datetime 的年份。 |
字符串访问器¶
方法
将 Series/Index 中的字符串首字母大写。 |
|
将 Series/Index 中的字符串进行大小写折叠。 |
|
|
|
|
在 Series/Index 中字符串的左右两侧填充。 |
|
测试模式或正则表达式是否包含在 Series 或 Index 的字符串中。 |
|
计算 Series/Index 中每个字符串中模式的出现次数。 |
|
使用指定的编码解码 Series/Index 中的字符串。 |
|
使用指定的编码编码 Series/Index 中的字符串。 |
|
测试每个字符串元素的末尾是否与模式匹配。 |
|
将正则表达式 pat 中的捕获组提取为 DataFrame 中的列。 |
|
将正则表达式 pat 中的捕获组提取为 DataFrame 中的列。 |
|
返回 Series/Index 中每个字符串中最低的索引。 |
|
在 Series/Index 中查找模式或正则表达式的所有出现。 |
|
确定每个字符串是否完全匹配正则表达式。 |
从每个组件中提取指定位置或指定键处的元素。 |
|
|
返回 Series/Index 中每个字符串中最低的索引。 |
检查每个字符串中的所有字符是否为字母数字。 |
|
检查每个字符串中的所有字符是否为字母。 |
|
检查每个字符串中的所有字符是否为十进制数字。 |
|
检查每个字符串中的所有字符是否为数字。 |
|
检查每个字符串中的所有字符是否为小写。 |
|
检查每个字符串中的所有字符是否为数字。 |
|
检查每个字符串中的所有字符是否为空白字符。 |
|
检查每个字符串中的所有字符是否为标题格式。 |
|
检查每个字符串中的所有字符是否为大写。 |
|
|
使用传递的分隔符连接 Series/Index 中作为元素包含的列表。 |
计算 Series/Index 中每个元素的长度。 |
|
|
在 Series/Index 中字符串的右侧填充。 |
将 Series/Index 中的字符串转换为小写。 |
|
|
删除前导字符。 |
|
确定每个字符串是否以正则表达式匹配开头。 |
|
返回 Series/Index 中字符串的 Unicode 规范化形式。 |
|
填充 Series/Index 中的字符串至指定宽度。 |
|
在第一次出现 sep 的位置分割字符串。 |
|
复制 Series 或 Index 中的每个字符串。 |
|
替换 Series/Index 中模式/正则表达式的每个匹配项。 |
|
返回 Series/Index 中每个字符串中子串出现的最高索引。 |
|
返回 Series/Index 中每个字符串中子串出现的最高索引。 |
|
填充 Series/Index 中字符串的左侧。 |
|
在最后一次出现 sep 的位置分割字符串。 |
|
|
|
移除末尾字符。 |
|
从 Series 或 Index 的每个元素中切片出子字符串。 |
|
已知的不一致性: |
|
测试每个字符串元素的开头是否匹配模式。 |
|
移除开头和末尾字符。 |
转换 Series/Index 中的字符串,使其大小写互换。 |
|
转换 Series/Index 中的字符串为标题大写形式。 |
|
|
通过给定的映射表映射字符串中的所有字符。 |
将 Series/Index 中的字符串转换为大写。 |
|
|
在指定的行宽处换行 Series/Index 中的字符串。 |
|
通过在 Series/Index 中的字符串前添加 '0' 字符进行填充。 |
分类访问器¶
方法
|
添加新分类。 |
|
确保此 series 中的分类是已知的。 |
|
将 Categorical 设置为有序。 |
确保此 series 中的分类是未知的。 |
|
|
将 Categorical 设置为无序。 |
|
移除指定的分类。 |
移除未使用的分类。 |
|
|
重命名分类。 |
|
按照 new_categories 中指定的顺序重新排列分类。 |
|
将分类设置为指定的新分类。 |
属性
此 categorical 的分类。 |
|
此 categorical 的编码。 |
|
分类是否完全已知。 |
|
分类是否具有有序关系。 |
分组操作¶
DataFrame 分组¶
|
使用一个或多个指定操作进行聚合。 |
|
pandas GroupBy.apply 的并行版本。 |
|
向后填充值。 |
|
计算组计数,不包括缺失值。 |
对每个组中的每个项目进行编号,从 0 到该组长度减 1。 |
|
|
计算每个组的累积积。 |
|
计算每个组的累积和。 |
|
向前填充值。 |
|
根据提供的名称从组构建 DataFrame。 |
|
计算组值的最大值。 |
|
计算组均值,不包括缺失值。 |
|
计算组值的最小值。 |
|
计算组大小。 |
|
计算组标准差,不包括缺失值。 |
|
计算组值之和。 |
|
计算组方差,不包括缺失值。 |
|
计算列的成对协方差,不包括 NA/null 值。 |
|
计算列的成对相关性,不包括 NA/null 值。 |
|
计算每个组中每列的第一个条目。 |
|
计算每个组中每列的最后一个条目。 |
|
返回请求轴上最小值的第一个出现位置的索引。 |
|
返回请求轴上最大值的第一个出现位置的索引。 |
|
提供滚动变换。 |
|
pandas GroupBy.transform 的并行版本。 |
Series 分组¶
|
使用一个或多个指定操作进行聚合。 |
|
pandas GroupBy.apply 的并行版本。 |
|
向后填充值。 |
|
计算组计数,不包括缺失值。 |
对每个组中的每个项目进行编号,从 0 到该组长度减 1。 |
|
|
计算每个组的累积积。 |
|
计算每个组的累积和。 |
|
向前填充值。 |
根据提供的名称从组构建 DataFrame。 |
|
|
计算组值的最大值。 |
|
计算组均值,不包括缺失值。 |
|
计算组值的最小值。 |
|
返回组中唯一元素的数量。 |
|
计算组大小。 |
|
计算组标准差,不包括缺失值。 |
|
计算组值之和。 |
|
计算组方差,不包括缺失值。 |
|
计算每个组中每列的第一个条目。 |
|
计算每个组中每列的最后一个条目。 |
|
返回请求轴上最小值的第一个出现位置的索引。 |
|
返回请求轴上最大值的第一个出现位置的索引。 |
|
提供滚动变换。 |
|
pandas GroupBy.transform 的并行版本。 |
自定义聚合¶
|
用户定义的分组聚合。 |
滚动操作¶
|
提供滚动变换。 |
|
提供滚动变换。 |
|
计算滚动自定义聚合函数。 |
|
计算非 NaN 观测值的滚动计数。 |
|
计算无偏差的滚动 Fisher's 定义的峰度。 |
|
计算滚动最大值。 |
|
计算滚动均值。 |
|
计算滚动中位数。 |
|
计算滚动最小值。 |
|
计算滚动分位数。 |
|
计算滚动无偏斜度。 |
|
计算滚动标准差。 |
|
计算滚动和。 |
|
计算滚动方差。 |
创建 DataFrames¶
|
将 CSV 文件读入 Dask.DataFrame。 |
|
将分隔文件读入 Dask.DataFrame。 |
|
将固定宽度文件读入 Dask.DataFrame。 |
|
将 Parquet 文件读入 Dask DataFrame。 |
|
将 HDF 文件读入 Dask DataFrame。 |
|
从一组 JSON 文件创建 DataFrame。 |
|
从 ORC 文件读入 DataFrame。 |
|
将 SQL 数据库表读入 DataFrame。 |
|
将 SQL 查询读入 DataFrame。 |
|
将 SQL 查询或数据库表读入 DataFrame。 |
|
将任何可切片数组读入 Dask DataFrame。 |
|
从 Dask Array 创建 Dask DataFrame。 |
|
从多个 Dask Delayed 对象创建 Dask DataFrame。 |
|
从自定义函数映射创建 DataFrame 集合。 |
|
从 Pandas DataFrame 构造 Dask DataFrame。 |
|
从 Python 字典构造 Dask DataFrame。 |
存储 DataFrames¶
|
将 Dask DataFrame 存储到 CSV 文件。 |
|
将 Dask.dataframe 存储到 Parquet 文件。 |
|
将 Dask DataFrame 存储到分层数据格式 (HDF) 文件。 |
|
从 Dask DataFrame 创建 Dask Array。 |
|
将 Dask DataFrame 存储到 SQL 表。 |
|
将 DataFrame 写入 JSON 文本文件。 |
|
将 Dask.dataframe 存储到 ORC 文件。 |
转换 DataFrames¶
|
从 Series 创建 Dask Bag |
|
将 Dask DataFrame 转换为 Dask array。 |
|
转换为 |
重塑 DataFrames¶
|
将分类变量转换为哑变量/指示变量。 |
|
创建一个类似电子表格的透视表作为 DataFrame。 |
|
连接 DataFrames¶
|
将 DataFrame 与另一个 DataFrame 合并 |
|
沿行连接 DataFrames。 |
|
使用数据库风格的连接合并 DataFrame 或命名 Series 对象。 |
|
按键距离执行合并。 |
重采样¶
|
使用一个或多个操作进行聚合。 |
|
沿指定的轴使用一个或多个操作进行聚合。 |
计算组计数,不包括缺失值。 |
|
计算每个组中每列的第一个条目。 |
|
计算每个组中每列的最后一个条目。 |
|
计算组的最大值。 |
|
计算组均值,不包括缺失值。 |
|
计算组中位数,不包括缺失值。 |
|
计算组的最小值。 |
|
返回组中唯一元素的数量。 |
|
计算组的开盘价、最高价、最低价和收盘价,不包括缺失值。 |
|
计算组值的乘积。 |
|
返回给定分位数的值。 |
|
计算组均值的标准误差,不包括缺失值。 |
|
计算组大小。 |
|
计算组标准差,不包括缺失值。 |
|
计算组值之和。 |
|
计算组方差,不包括缺失值。 |
查询规划与优化¶
|
创建 Expression 的图表示。 |
|
可视化表达式或任务图 |
|
输出表达式中每个节点的统计信息。 |
其他函数¶
|
一次性计算多个 Dask 集合。 |
|
对每个 DataFrame 分区应用 Python 函数。 |
|
将函数应用于每个分区,与相邻分区共享行。 |
将参数转换为 datetime。 |
|
|
将参数转换为数字类型。 |
将参数转换为 timedelta。 |