# 开源项目:机器学习集成学习与模型融合(基于python)
(一) 项目初衷
这件事开始于我们参加一些机器学习比赛,在类似于kaggle等大型数据科学竞赛的时候, 我们总喜欢去观摩高分选手的一些参赛模型,得出一个很重要的结论就是:除了深度学习以外的高分模型,无一例外地见到了集成学习和模型融合的身影。这个发现迫使我去学习一些除了基础模型以外的集成学习方法以便在这些比赛上获得更好的成绩。但是,当我使用具体的sklearn编程的时候, 往往因为不懂得集成学习的一 些底层知识而不懂参数的含义。因此,在本项目中我们会从基础模型的推导以及 sklearn应用过渡到使用集成学习的技术去优化我们的基础模型,使得我们的模型能更好地解决机器学习问题。
(二) 内容设置
(三) 人员安排
教程贡献情况:
李祖贤: CH1、CH2、CH4、CH5
薛传雨:CH3
杨毅远:CH6
李嘉骐:CH3优化
组队学习贡献情况:
六一:长期学习流程设计、组织协调、23期运营&作业评审(task1)、24期运营&作业评审(task3)
萌弟:23期答疑&直播(3次)&作业评审(task3&4)、24期答疑&直播(3次)&作业评审(task4&5)
薛传雨:23期运营&答疑&作业评审(task5)、24期运营
陈琰钰:23期作业评审(task2&6)
杨毅远:23期答疑
李嘉骐:24期答疑&作业评审(task1&2)
(四) 课程编排与使用方法
- 课程编排:
课程现分为三个阶段,大致可以分为:机器学习模型回顾,集成学习方法的进阶, 集成学习项目的实践。
- 第一部分:当我们可以比较熟练的操作数据并认识这个数据之后,我们需要开始数据清洗以及重
构, 将原始数据变为一个可用好用的数据, 基于sklearn构建模型以及模型评价,在这个部分我们会重点详细学习各个基础模型的原理以及sklearn的各个参数。
- 第二部分:我们要使用sklearn, xgboost, lightgbm以及mIxtend库去学习集成学习的具体方法以及原理底层。
- 第三单元:通过前面的理论学习,现在可以开始进行实践了,这里有两个大型集成学习项目的实践。
- 使用方法:
我们的代码都是jupyter notebook和markdown形式, 我们在每一章后面会给出几道小习题方便大家掌握。其中的内容会作为组队学习的项目安排!
(五) 反馈
# 开源项目:机器学习集成学习与模型融合(基于python)
(一) 项目初衷
这件事开始于我们参加一些机器学习比赛,在类似于kaggle等大型数据科学竞赛的时候, 我们总喜欢去观摩高分选手的一些参赛模型,得出一个很重要的结论就是:除了深度学习以外的高分模型,无一例外地见到了集成学习和模型融合的身影。这个发现迫使我去学习一些除了基础模型以外的集成学习方法以便在这些比赛上获得更好的成绩。但是,当我使用具体的sklearn编程的时候, 往往因为不懂得集成学习的一 些底层知识而不懂参数的含义。因此,在本项目中我们会从基础模型的推导以及 sklearn应用过渡到使用集成学习的技术去优化我们的基础模型,使得我们的模型能更好地解决机器学习问题。
(二) 内容设置
第一章:机器学习数学基础(待完善)
高等数学微分学
线性代数
概率论与数理统计
随机过程与抽样原理
第二章:机器学习基础
第三章:集成学习之投票法与Bagging
第四章:集成学习之Boosting提升法
第五章:集成学习之Blending与Stacking
第六章:集成学习之案例分析
(三) 人员安排
教程贡献情况:
李祖贤: CH1、CH2、CH4、CH5
薛传雨:CH3
杨毅远:CH6
李嘉骐:CH3优化
组队学习贡献情况:
六一:长期学习流程设计、组织协调、23期运营&作业评审(task1)、24期运营&作业评审(task3)
萌弟:23期答疑&直播(3次)&作业评审(task3&4)、24期答疑&直播(3次)&作业评审(task4&5)
薛传雨:23期运营&答疑&作业评审(task5)、24期运营
陈琰钰:23期作业评审(task2&6)
杨毅远:23期答疑
李嘉骐:24期答疑&作业评审(task1&2)
(四) 课程编排与使用方法
(五) 反馈