目录

DynamicEvaluation

基于 IRT(项目反应理论)+ 认知诊断 的大模型能力–难度匹配动态测评项目。先标定题目参数与模型能力,再按 Fisher 信息量自适应选题(CAT),用更少题目、更公平地评估 LLM 能力。


快速恢复上下文(新电脑 / 新克隆后)

  1. 待办与下一步:根目录 TODO.md — 当前任务与下一步清单(随 Git 同步);详细说明见 md/PROJECT_CONTEXT_AND_NEXT_STEPS.md 第五节。
  2. 完整上下文md/PROJECT_CONTEXT_AND_NEXT_STEPS.md — 项目目标、Phase 1–3 文档索引、代码结构、完成情况。
  3. 运行管线(项目根目录):
    pip install -r code/requirements.txt
    python code/run_full_pipeline.py
    输出在 code/output/(item_params.csv, theta_full.csv, cat_results.csv, pipeline_metrics.csv)。

目录结构

DynamicEvaluation/
├── README.md                    # 本文件
├── .cursorrules                 # Cursor 项目规则(AI 上下文)
├── TODO.md                      # 待办与下一步(随 Git 同步)
├── md/
│   ├── PROJECT_CONTEXT_AND_NEXT_STEPS.md   # 完整上下文与下一步(必读)
│   ├── phase1/                  # 理论方案、可行性、创新性、与 PDF 对齐
│   │   ├── phase1_overall_document.md
│   │   ├── phase1_complete.md
│   │   └── step1 ~ step5 详细文档
│   ├── phase2/
│   │   └── methodology_overview.md        # 方法论:数据→标定→初筛→选题→停止→指标
│   └── phase3/
│       ├── README.md            # Phase 3 总览与运行说明
│       ├── part1_code_design.md  # 代码与 Phase 2 对应关系
│       └── part1_experiments.md  # 实验设计、基线、指标、效果 vs 效率
├── code/
│   ├── config.py                # 路径、停止条件、锚题数、随机种子
│   ├── requirements.txt         # numpy, scipy, pandas
│   ├── data/                    # 反应矩阵 R、Q 矩阵
│   ├── calibration/             # 3PL 标定、Fisher 信息
│   ├── adaptive/                # 锚题初筛、选题、EAP 更新、CAT 主循环
│   ├── metrics/                 # 准确性、效率
│   ├── run_calibration.py       # 仅标定
│   ├── run_cat.py               # 仅 CAT(可读入已有题目参数)
│   ├── run_full_pipeline.py     # 端到端流水线
│   └── output/                  # 标定与 CAT 结果(运行后生成)
└── pdf/                         # 参考文献(如 icml.pdf, NeuralCD.pdf)

文档索引

用途 文档
快速恢复上下文、下一步 md/PROJECT_CONTEXT_AND_NEXT_STEPS.md
总体方案、开题/汇报 md/phase1/phase1_overall_document.md
完整理论+可行性+创新性 md/phase1/phase1_complete.md
理论与相关工作 md/phase1/step1_theoretical_and_related_work.md
可行性分析与实验设计 md/phase1/step2_feasibility_and_experiment_design.md
创新性分析 md/phase1/step3_novelty_analysis.md
与 NeuralCD/ICML 对齐 md/phase1/step4_pdf_based_experiment_alignment.md
文献综述 md/phase1/step5_comprehensive_literature_review.md
方法论(Method) md/phase2/methodology_overview.md
Phase 3 总览与运行 md/phase3/README.md
代码模块与 Method 对应 md/phase3/part1_code_design.md
实验设计、基线、指标、效果 vs 效率 md/phase3/part1_experiments.md

运行说明

  • 环境:Python ≥ 3.8,依赖见 code/requirements.txt
  • 全流程(合成数据 → 标定 → CAT → 指标):
    python code/run_full_pipeline.py
  • 仅标定:输出题目参数与全量能力到 code/output/
    python code/run_calibration.py
  • 仅 CAT:可指定已标定题目参数。
    python code/run_cat.py [--item_params code/output/item_params.csv]

当前完成情况

类别 状态
Phase 1 文档 ✅ 完成
Phase 2 方法论 ✅ 完成
Phase 3 Part1 代码与实验设计 ✅ 完成
Phase 3 Part2(实验运行与管理) ⏳ 待补充
真实 Benchmark 数据接入、分层/个体化表单 ⏳ 可选扩展

关键概念速查

  • R 矩阵:N 模型 × M 题目,0/1 反应。
  • Q 矩阵:M 题目 × K 能力维度,题目–能力关联。
  • 3PL:P(Y=1|θ)=c+(1-c)/(1+exp(-a(θ-b)));a 区分度,b 难度,c 猜测。
  • CAT:锚题初筛 → 按 Fisher 信息选题 → EAP 更新 θ、SE → SE<δ 或题数≥L_max 停止。
  • 效果 vs 效率:同题数下 RMSE/相关/公平性/区分度 → 效果;题数缩减、达目标 SE 所需题数 → 效率。详见 md/phase3/part1_experiments.md §4.0。
关于
3.3 MB
邀请码
    Gitlink(确实开源)
  • 加入我们
  • 官网邮箱:gitlink@ccf.org.cn
  • QQ群
  • QQ群
  • 公众号
  • 公众号

版权所有:中国计算机学会技术支持:开源发展技术委员会
京ICP备13000930号-9 京公网安备 11010802032778号