GithubRepo
目前代办
初步设想
第一步 数据收集与预处理
- 数据来源:仓库采用课程ppt上采用的”https://github.com/tensorflow/tensorflow“ tensorflow库
- 数据格式:
- 版本信息:提交记录(commit),对应的时间戳与贡献者信息
- 文件改动记录:改动文件路径、行数变化(新增/删除)
- 代码内容:具体代码改动内容,增量代码/删除代码
- 处理步骤:
- 清洗并标准化数据(时间格式统一,文件路径分类)
- 提取代码改动的关键词—-函数名
- 创建开发者与文件的关系矩阵(重要—且需要进行可视化)
tensorflow库,你们如果还需要的话,就自己clone进自己的本地仓库里,我试过了,没法把整个tensorflow的github仓库推送到远程仓库里去
完成了数据收集与预处理,
包含了文件修改记录的csv保存在cleaned_commit_datas中
只包含了提交commit记录的csv保存在了cleaned_commit_datas_just_commit中
第二步 数据分析
File_CodeModelAnalysis.py
文件级分析
- 统计开发者对不同文件类型的改动频率和分布
- 识别开发热点(高频被改动的文件或模块)
代码级分析
- 挖掘代码改动类型(新增/删除/重构)
- 分析代码语义和结构特征,定位核心功能模块
开发者行为分析
- 识别核心开发者与外围贡献者角色
- 分析开发者与模块的交互模式,挖掘团队协作特征
行为预测
特征工程
特征提取
- 时间序列特征:提交频率、活跃时间段
- 语义特征:提交信息关键词分析
模式训练与预测
分类预测:预测改动文件类型
未来行为趋势分析
构建ARIMA/LSTM模型,预测未来一段时间(30天)内开发趋势
GithubRepo
目前代办
初步设想
选择一个社区开源仓库(需求:目前仍然在活跃提交,提交次数超过1万次,贡献者超过1千人的仓库)
进行从github仓库上的数据提取与分析:
数据分析可视化
整合出仓库数据分析报告
第一步 数据收集与预处理
tensorflow库,你们如果还需要的话,就自己clone进自己的本地仓库里,我试过了,没法把整个tensorflow的github仓库推送到远程仓库里去 完成了数据收集与预处理, 包含了文件修改记录的csv保存在cleaned_commit_datas中 只包含了提交commit记录的csv保存在了cleaned_commit_datas_just_commit中
第二步 数据分析
File_CodeModelAnalysis.py
文件级分析
代码级分析
开发者行为分析
行为预测
特征工程
特征提取
模式训练与预测
分类预测:预测改动文件类型
未来行为趋势分析
构建ARIMA/LSTM模型,预测未来一段时间(30天)内开发趋势