DynamicEvaluation

基于 IRT（项目反应理论）+ 认知诊断 的大模型能力–难度匹配动态测评项目。先标定题目参数与模型能力，再按 Fisher 信息量自适应选题（CAT），用更少题目、更公平地评估 LLM 能力。

快速恢复上下文（新电脑 / 新克隆后）

待办与下一步：根目录 TODO.md — 当前任务与下一步清单（随 Git 同步）；详细说明见 md/PROJECT_CONTEXT_AND_NEXT_STEPS.md 第五节。
完整上下文：md/PROJECT_CONTEXT_AND_NEXT_STEPS.md — 项目目标、Phase 1–3 文档索引、代码结构、完成情况。
运行管线（项目根目录）：
```
pip install -r code/requirements.txt
python code/run_full_pipeline.py
```
输出在 code/output/（item_params.csv, theta_full.csv, cat_results.csv, pipeline_metrics.csv）。

目录结构

DynamicEvaluation/
├── README.md                    # 本文件
├── .cursorrules                 # Cursor 项目规则（AI 上下文）
├── TODO.md                      # 待办与下一步（随 Git 同步）
├── md/
│   ├── PROJECT_CONTEXT_AND_NEXT_STEPS.md   # 完整上下文与下一步（必读）
│   ├── phase1/                  # 理论方案、可行性、创新性、与 PDF 对齐
│   │   ├── phase1_overall_document.md
│   │   ├── phase1_complete.md
│   │   └── step1 ~ step5 详细文档
│   ├── phase2/
│   │   └── methodology_overview.md        # 方法论：数据→标定→初筛→选题→停止→指标
│   └── phase3/
│       ├── README.md            # Phase 3 总览与运行说明
│       ├── part1_code_design.md  # 代码与 Phase 2 对应关系
│       └── part1_experiments.md  # 实验设计、基线、指标、效果 vs 效率
├── code/
│   ├── config.py                # 路径、停止条件、锚题数、随机种子
│   ├── requirements.txt         # numpy, scipy, pandas
│   ├── data/                    # 反应矩阵 R、Q 矩阵
│   ├── calibration/             # 3PL 标定、Fisher 信息
│   ├── adaptive/                # 锚题初筛、选题、EAP 更新、CAT 主循环
│   ├── metrics/                 # 准确性、效率
│   ├── run_calibration.py       # 仅标定
│   ├── run_cat.py               # 仅 CAT（可读入已有题目参数）
│   ├── run_full_pipeline.py     # 端到端流水线
│   └── output/                  # 标定与 CAT 结果（运行后生成）
└── pdf/                         # 参考文献（如 icml.pdf, NeuralCD.pdf）

文档索引

用途	文档
快速恢复上下文、下一步	`md/PROJECT_CONTEXT_AND_NEXT_STEPS.md`
总体方案、开题/汇报	`md/phase1/phase1_overall_document.md`
完整理论+可行性+创新性	`md/phase1/phase1_complete.md`
理论与相关工作	`md/phase1/step1_theoretical_and_related_work.md`
可行性分析与实验设计	`md/phase1/step2_feasibility_and_experiment_design.md`
创新性分析	`md/phase1/step3_novelty_analysis.md`
与 NeuralCD/ICML 对齐	`md/phase1/step4_pdf_based_experiment_alignment.md`
文献综述	`md/phase1/step5_comprehensive_literature_review.md`
方法论（Method）	`md/phase2/methodology_overview.md`
Phase 3 总览与运行	`md/phase3/README.md`
代码模块与 Method 对应	`md/phase3/part1_code_design.md`
实验设计、基线、指标、效果 vs 效率	`md/phase3/part1_experiments.md`

运行说明

环境：Python ≥ 3.8，依赖见 code/requirements.txt。
全流程（合成数据 → 标定 → CAT → 指标）：
```
python code/run_full_pipeline.py
```
仅标定：输出题目参数与全量能力到 code/output/。
```
python code/run_calibration.py
```

仅 CAT：可指定已标定题目参数。

python code/run_cat.py [--item_params code/output/item_params.csv]

当前完成情况

类别	状态
Phase 1 文档	✅ 完成
Phase 2 方法论	✅ 完成
Phase 3 Part1 代码与实验设计	✅ 完成
Phase 3 Part2（实验运行与管理）	⏳ 待补充
真实 Benchmark 数据接入、分层/个体化表单	⏳ 可选扩展

关键概念速查

R 矩阵：N 模型 × M 题目，0/1 反应。
Q 矩阵：M 题目 × K 能力维度，题目–能力关联。
3PL：P(Y=1|θ)=c+(1-c)/(1+exp(-a(θ-b)))；a 区分度，b 难度，c 猜测。
CAT：锚题初筛 → 按 Fisher 信息选题 → EAP 更新 θ、SE → SE<δ 或题数≥L_max 停止。
效果 vs 效率：同题数下 RMSE/相关/公平性/区分度 → 效果；题数缩减、达目标 SE 所需题数 → 效率。详见 md/phase3/part1_experiments.md §4.0。