gitlink-research：科研仓库洞察与成果沉淀工具链

面向 GitLink 智能化服务开源项目贡献赛 子赛题四（应用 GitLink 辅助科研） 的参赛作品。

把一个科研代码仓库的提交历史、协作记录、版本演进，转化为科研工作者看得懂、用得上的产出：项目发展报告、技术迭代脉络、协作网络图、贡献者画像。目标是让课题组在复盘一个项目、接手一份遗留代码、或撰写成果材料时，不必手工翻几千条提交记录。

作者：陈涛

解决什么问题

科研团队用 Git 管理实验代码已是常态，但代码仓库里沉淀的过程信息很少被利用：

一个项目做了一年，技术路线怎么演进的？哪几个阶段是转折点？——答案散落在几千条 commit 里，没人会逐条读。
课题组里谁在写核心模块，谁在修边角，协作结构是什么样？——贡献者列表只给了一个总数，看不出分工。
接手一份师兄师姐留下的代码，从哪读起？项目的关键节点在哪？——README 通常只讲怎么跑，不讲怎么来的。

gitlink-research 把这些过程数据自动提炼成结构化成果。它不替代科研判断，而是把”读两千条提交”这件体力活变成”看一份五页报告”。

它能产出什么

对任意一个 GitLink 上的科研仓库，运行一条命令，得到：

科研项目发展报告（Markdown）——项目体量、活跃周期、技术迭代阶段划分、关键词演进、协作概况、复盘建议
提交活跃度时间线（PNG, 300 DPI）——按月统计的提交节奏，标注活跃高峰与停滞期
技术演进时间线（PNG）——从 commit message 中提炼的技术主题随时间的变化
协作网络图（PNG）——贡献者之间的协作结构，节点大小反映贡献量
贡献者画像（Markdown + 数据）——核心/活跃/边缘贡献者分层，贡献集中度
结构化数据（JSON）——所有指标的机器可读版本，便于二次分析

三个组成部分

gitlink-research/
├── src/                       分析工具链（Python）
│   ├── fetch.py               数据采集：公开 API + gitlink-cli 双通道
│   ├── analyze.py             科研分析：阶段划分、关键词演进、协作网络、画像
│   ├── report.py              报告生成：科研项目发展报告
│   ├── viz.py                 可视化：活跃度/演进/协作网络，科研级配色
│   └── main.py                主入口：串联采集→分析→报告→可视化
├── skills/gitlink-research/   自定义科研 Skill（适配 Claude Code 等 Agent）
│   ├── SKILL.md
│   ├── REFERENCE.md
│   └── examples/
├── scripts/run_demo.ps1       一键复现脚本
├── examples/config.json       示例配置
├── tests/test_research.py     单元测试
└── docs/                      架构说明、快速开始、应用报告、验证记录

分析工具链（src/）：可独立运行的 Python 命令行工具，不依赖在线大模型，纯本地分析。
科研 Skill（skills/gitlink-research/）：遵循 gitlink-cli Skills 规范，让 Claude Code、OpenClaw、Cursor 等 AI Agent 能直接理解并调用这套科研分析能力。
文档与验证（docs/）：完整中文文档，含在真实科研仓库上的验证记录。

快速开始

环境要求：Python 3.10+，安装依赖：

pip install -r requirements.txt

分析一个仓库（数据采集走 GitLink 公开 API，无需登录）：

python src/main.py --owner flagos-ai --repo FlagGems

或直接运行一键复现脚本，跑通内置的双仓库示例：

.\scripts\run_demo.ps1

产物默认输出到 outputs/<owner>_<repo>_<时间戳>/ 目录下。

数据来源与采集通道

工具支持两条采集通道，自动选择：

公开 API 通道（默认）：直接调用 GitLink 平台公开数据接口（https://www.gitlink.org.cn/api），无需 token，适合分析任意公开科研仓库。
gitlink-cli 通道（可选）：当本地安装了 gitlink-cli 且需要访问私有仓库时，通过 gitlink-cli api 命令采集，复用其认证体系。

通过 --channel 参数切换，默认 auto（优先公开 API，失败时若有 cli 则回退）。

真实仓库验证

作品在两个真实 GitLink 仓库上完成验证，覆盖全部分析维度：

仓库	类型	数据规模	验证维度
`flagos-ai/FlagGems`	AI 算子库（大规模提交）	2363 commits	提交脉络、技术迭代阶段、活跃度时间线
`Gitlink/gitlink-cli`	开源工具研发（原生协作）	127 commits / 17 issues / 117 PR / 19 贡献者	协作网络、贡献者画像、Issue-PR 分析

选这两个仓库是有原因的：GitLink 上的 AI 科研仓库多为 GitHub 镜像，协作数据（Issue/PR）留在源站，但提交历史完整；而原生协作数据最完整的活跃项目恰好是 gitlink-cli 自身。两者组合，正好把”提交分析”和”协作分析”两条线都验证到位。详见 docs/verification.md。

与现有 GitLink Skills 的差异

gitlink-cli 生态已有健康度（gitlink-health）、洞察（gitlink-insight）等面向工程运营的 Skill，但它们回答的是”项目健康不健康、本周干了多少活”。gitlink-research 回答的是科研语境下的问题：”这个研究的技术路线怎么走过来的、核心研究者是谁、关键转折在哪、接手该从哪读起”。它面向的是科研复盘与成果沉淀，而非日常运营。

文档导航

docs/quickstart.md — 最短复现路径
docs/architecture.md — 架构设计与数据流
docs/demo.md — 三个真实仓库的运行演示与成果图表
docs/科研场景应用报告.md — 技术实现、科研赋能价值、落地效果
docs/verification.md — 真实仓库验证记录
docs/agent-verification.md — AI Agent 平台加载与执行验证
skills/gitlink-research/SKILL.md — 科研 Skill 使用指南

许可证

Mulan PSL v2，与 gitlink-cli 主仓库保持一致。