完善cursor同步文件
基于 IRT(项目反应理论)+ 认知诊断 的大模型能力–难度匹配动态测评项目。先标定题目参数与模型能力,再按 Fisher 信息量自适应选题(CAT),用更少题目、更公平地评估 LLM 能力。
TODO.md
md/PROJECT_CONTEXT_AND_NEXT_STEPS.md
pip install -r code/requirements.txt python code/run_full_pipeline.py
code/output/
DynamicEvaluation/ ├── README.md # 本文件 ├── .cursorrules # Cursor 项目规则(AI 上下文) ├── TODO.md # 待办与下一步(随 Git 同步) ├── md/ │ ├── PROJECT_CONTEXT_AND_NEXT_STEPS.md # 完整上下文与下一步(必读) │ ├── phase1/ # 理论方案、可行性、创新性、与 PDF 对齐 │ │ ├── phase1_overall_document.md │ │ ├── phase1_complete.md │ │ └── step1 ~ step5 详细文档 │ ├── phase2/ │ │ └── methodology_overview.md # 方法论:数据→标定→初筛→选题→停止→指标 │ └── phase3/ │ ├── README.md # Phase 3 总览与运行说明 │ ├── part1_code_design.md # 代码与 Phase 2 对应关系 │ └── part1_experiments.md # 实验设计、基线、指标、效果 vs 效率 ├── code/ │ ├── config.py # 路径、停止条件、锚题数、随机种子 │ ├── requirements.txt # numpy, scipy, pandas │ ├── data/ # 反应矩阵 R、Q 矩阵 │ ├── calibration/ # 3PL 标定、Fisher 信息 │ ├── adaptive/ # 锚题初筛、选题、EAP 更新、CAT 主循环 │ ├── metrics/ # 准确性、效率 │ ├── run_calibration.py # 仅标定 │ ├── run_cat.py # 仅 CAT(可读入已有题目参数) │ ├── run_full_pipeline.py # 端到端流水线 │ └── output/ # 标定与 CAT 结果(运行后生成) └── pdf/ # 参考文献(如 icml.pdf, NeuralCD.pdf)
md/phase1/phase1_overall_document.md
md/phase1/phase1_complete.md
md/phase1/step1_theoretical_and_related_work.md
md/phase1/step2_feasibility_and_experiment_design.md
md/phase1/step3_novelty_analysis.md
md/phase1/step4_pdf_based_experiment_alignment.md
md/phase1/step5_comprehensive_literature_review.md
md/phase2/methodology_overview.md
md/phase3/README.md
md/phase3/part1_code_design.md
md/phase3/part1_experiments.md
code/requirements.txt
python code/run_full_pipeline.py
python code/run_calibration.py
python code/run_cat.py [--item_params code/output/item_params.csv]
版权所有:中国计算机学会技术支持:开源发展技术委员会 京ICP备13000930号-9 京公网安备 11010802032778号
DynamicEvaluation
基于 IRT(项目反应理论)+ 认知诊断 的大模型能力–难度匹配动态测评项目。先标定题目参数与模型能力,再按 Fisher 信息量自适应选题(CAT),用更少题目、更公平地评估 LLM 能力。
快速恢复上下文(新电脑 / 新克隆后)
TODO.md— 当前任务与下一步清单(随 Git 同步);详细说明见md/PROJECT_CONTEXT_AND_NEXT_STEPS.md第五节。md/PROJECT_CONTEXT_AND_NEXT_STEPS.md— 项目目标、Phase 1–3 文档索引、代码结构、完成情况。code/output/(item_params.csv, theta_full.csv, cat_results.csv, pipeline_metrics.csv)。目录结构
文档索引
md/PROJECT_CONTEXT_AND_NEXT_STEPS.mdmd/phase1/phase1_overall_document.mdmd/phase1/phase1_complete.mdmd/phase1/step1_theoretical_and_related_work.mdmd/phase1/step2_feasibility_and_experiment_design.mdmd/phase1/step3_novelty_analysis.mdmd/phase1/step4_pdf_based_experiment_alignment.mdmd/phase1/step5_comprehensive_literature_review.mdmd/phase2/methodology_overview.mdmd/phase3/README.mdmd/phase3/part1_code_design.mdmd/phase3/part1_experiments.md运行说明
code/requirements.txt。code/output/。当前完成情况
关键概念速查
md/phase3/part1_experiments.md§4.0。