Mega Spark说明

该项目旨在通过spark进行一站式数据分析与模型训练，保证最终落地的只有分析报告，可视化，以及模型训练评估结果，其次该项目将pysaprk封装成mega对象来延续pandas的使用方法，进而实现在大数据场景下的使用pandas方法进行数据分析和模型训练，消除相关同学在spark上投入的学习成本

目前提供以下模块：

本地安装

如果要给该项目贡献代码，在本地调试好后测试，本地安装方法

$ git clone .
$ cd megaspark
$ python install .

建议使用官方镜像，安装最新版本。

$ pip install --index-url https://pypi.org/simple/ mega-spark

以tomega模块为例，安装完成之后，可以使用以下方法导入使用

import megaspark.tomega as mg

data_df = mg.read_csv("path/to/file.csv")
data_df.mega.head(5)

$ cd /path/to/megaspark
$ python3 setup.py sdist bdist_wheel
$ pip3 install twine
$ python3 -m twine upload dist/*

如果使用ml模块中的xgboost，需要在SPARK_HOME/jar中添加xgboost4j-0.72.jar以及xgboost4j-spark-0.72.jar