欢迎来到MindSpore Pandas

MindSpore Pandas介绍
- 概述
- 总体架构
安装方式
验证安装是否成功
快速入门
文档
贡献
版本说明
许可证

MindSpore Pandas介绍

概述

MindSpore Pandas使用分布式计算引擎来加速Pandas运算，与现有Pandas代码无缝集成和兼容，使用MindSpore Pandas进行计算，可以使用计算机上所有的CPU核心，这使得MindSpore Pandas在处理较大的数据集上效果特别好。

总体架构

MindSpore Pandas采用分布式实现，而原生Pandas是基于单线程实现的。这意味着每次只能使用一个CPU核。

然而，MindSpore Pandas能使用机器上更多的线程和内核，或者整个集群的所有内核。

详细架构设计，请参阅官网文档。

安装方式

确认系统环境信息

下表列出了安装、编译和运行MindSpore Pandas所需的系统环境：

软件名称	版本
Linux-x86_64操作系统	Ubuntu >=18.04 Euler >=2.9
Python	3.8-3.9
glibc	>=2.25

请确保环境中安装了libxml2-utils。
其他的第三方依赖请参考requirements文件。

pip安装

请从MindSpore Pandas下载页面下载whl包，使用pip指令安装。

在联网状态下，安装whl包时会自动下载MindSpore Pandas安装包的依赖项（依赖项详情参见requirement.txt），其余情况需自行安装。

源码安装

下载源码，下载后进入mindpandas目录，运行build.sh脚本。

git clone https://gitee.com/mindspore/mindpandas.git
cd mindpandas
bash build.sh

编译完成后，whl包在output目录下，使用pip安装：

pip install output/mindpandas-0.1.0-cp38-cp38-linux_x86_64.whl

验证安装是否成功

在shell中执行以下命令，如果没有报错No module named 'mindpandas'，则说明安装成功。

python -c "import mindpandas"

快速入门

首先通过如下命令导入MindSpore Pandas。

import mindpandas as pd

通过如下命令设置MindSpore Pandas的运行模式，这样可以加快您的MindSpore Pandas工作流程。

pd.set_concurrency_mode('multithread')

完整示例如下：

>>> import mindpandas as pd
>>> pd.set_concurrency_mode('multithread')
>>> pd.set_partition_shape((16, 2))
>>> pd_df = pd.DataFrame([[1, 2, 3], [4, 5, 6]])
>>> sum = pd_df.sum()
>>> print(sum)
0 5
1 7
2 9
Name: sum, dtype: int64

文档

有关安装指南、教程和API的更多详细信息，请参阅用户文档。

贡献

欢迎参与贡献。更多详情，请参阅我们的贡献者Wiki。

版本说明

版本说明请参阅RELEASE。

许可证

Apache License 2.0