Dask 安装
目录
Dask 安装¶
如何安装 Dask¶
您可以使用 conda
、pip
或从源代码安装 Dask。
如果您使用 Anaconda 发行版,Dask 将默认安装。
您也可以使用 conda install 命令安装或升级 Dask
conda install dask
这将安装 Dask 和所有常用依赖,包括 pandas 和 NumPy。Dask 包在默认通道和 conda-forge 上都有维护。您可以使用 -c
标志选择通道
conda install dask -c conda-forge
或者,您可以使用以下命令获取最小化的 Dask 安装
conda install dask-core
这将安装运行 Dask 所需的最小依赖集,类似于(但不完全相同)python -m pip install dask
。
使用 pip
安装 Dask 运行以下命令
python -m pip install "dask[complete]" # Install everything
这将安装 Dask、分布式调度器以及 pandas、Numpy 等常用依赖。
您也可以只安装 Dask 库而不安装可选依赖
python -m pip install dask # Install only core parts of dask
Dask 模块如 dask.array
、dask.dataframe
或 dask.distributed
在您安装相应的 NumPy、pandas 或 Tornado 之前将无法工作。这对用户来说不常见,但对下游库的维护者来说更常见。
我们也维护了针对不同功能子集的其他依赖项集合
python -m pip install "dask[array]" # Install requirements for dask array
python -m pip install "dask[dataframe]" # Install requirements for dask dataframe
python -m pip install "dask[diagnostics]" # Install requirements for dask diagnostics
python -m pip install "dask[distributed]" # Install requirements for distributed dask
我们提供这些选项,以便轻量级核心 Dask 调度器的用户无需下载集合中更特殊的依赖项(如 Numpy、pandas, Tornado 等)。
分布式部署¶
要在分布式集群上运行 Dask,您还需要安装与您的资源管理器(如 Kubernetes、SLURM、PBS、LSF、AWS、GCP、Azure 或类似技术)相匹配的 Dask 集群管理器。
更多关于此主题的信息请参阅部署文档
可选依赖¶
Dask 中的特定功能可能需要额外的可选依赖。例如,从 Amazon S3 读取需要 s3fs。这些可选依赖及其最低支持版本列在下方。
依赖项 |
版本 |
描述 |
---|---|---|
|
生成 Dask 执行配置文件( |
|
|
用于 dask 数组的 |
|
|
使用缓存进行计算 |
|
|
使用 CityHash 和 FarmHash 哈希函数进行数组哈希(比 MurmurHash 快约 2 倍) |
|
|
使用 |
|
|
内部迭代器、函数和字典的更快 cython 实现 |
|
|
使用 Dask 扩展的常用机器学习函数 |
|
|
存储和读取 Apache Avro 文件中的数据 |
|
|
存储和读取 Google Cloud Storage 中的数据 |
|
|
使用 graphviz 引擎进行图可视化 |
|
|
将数组数据存储到 hdf5 文件中 |
|
|
使用 cytoscape 引擎进行图可视化 |
|
|
将使用 graphviz 引擎生成的图可视化写入文件 |
|
|
Dask 对象在 Jupyter notebook 中的 HTML 表示( |
|
|
透明使用 lz4 压缩算法 |
|
|
图可视化的颜色映射支持 |
|
|
使用 |
|
|
使用 MurmurHash 哈希函数进行数组哈希(比 SHA1 快约 8 倍) |
|
|
|
|
|
|
|
|
将 CPU 亲和性计入 CPU 计数,读取 CSV 文件时智能推断块大小 |
|
|
存储/读取 Apache ORC 或 Parquet 文件时对 Apache Arrow 数据类型 & 引擎的支持 |
|
|
存储/读取 Avro 或 Parquet 文件时使用的 Snappy 压缩 (bs) |
|
|
存储和读取位于 Amazon S3 中的数据 |
|
|
|
|
|
使用 sparse 数组作为 dask 数组的后端 |
|
|
写入和读取 SQL 数据库 |
|
|
worker 回溯对象的序列化 |
|
|
存储和读取 TileDB 文件中的数据 |
|
|
使用 xxHash 哈希函数进行数组哈希(比 MurmurHash 快约 2 倍,比 CityHash 略慢) |
|
|
存储和读取 Zarr 文件中的数据 |