LLM-MCTS |
2305 |
常规;search |
在专家数据集上微调 |
无 |
无 |
使用世界模型生成先验知识进行指导(prompt),引导MCTS的搜索 |
|
RAP |
2308 |
常规;search |
不训练 |
无 |
无 |
大模型作为世界模型,提供状态转移用于MCTS evaluation |
|
LATS |
2310 |
(1) a self-generated LM score and (2) a self-consistency score用于value估计;search |
不训练 |
无 |
无 |
首次将LATS引入智能体任务,并配合self-reflection等agent方法 |
不涉及训练,推理时还要求环境可回溯 |
ReST-MCTS∗ |
2403 |
PRM Guided Search, Self-Critic用于提前终止检索,剪枝未完成叶子节点; 收集偏好数据 |
正样本微调 |
正负样本+MSE |
策略和PRM都迭代多轮 |
PRM Guided Search |
为了得到绝对的value值,抽取流程很复杂 |
AlphaMath Almost Zero |
2405 |
使用当前策略做PUCT,使用PRM做rollout时的value估计;构建偏好数据 |
正样本微调 |
正负样本+MSE |
策略&奖励同时训练并迭代多轮 |
价值模型和策略模型结合,用多任务损失函数同时训练 |
|
MCTS-DPO |
2405 |
使用当前策略做PUCT;收集偏好数据 |
MCTS收集的数据使用DPO训练 |
无 |
策略迭代多轮 |
首次用DPO训练MCTS构建得到的偏好对 |
|
Q * |
2406 |
A*而非MCTS, 使用策略做rollout;构建Q-value标签 |
在专家数据集上微调 |
MCTS收集的数据训练Q model拟合标签(MSE) |
一轮Q-value Model |
Inference时将Q value model加入启发式函数进行规划 |
|
Agent Q |
2408 |
常规;收集偏好数据和search |
正负样本,使用DPO训练 |
无 |
一轮策略迭代 |
将MCTS收集偏好数据训练policy的方法引入智能体任务;有真实booking场景 |
|
LLM Agent with Q |
2409 |
常规;收集偏好数据 |
不训练 |
正负样本+step-level DPO训练 |
一轮Q-value model |
将MCTS收集偏好数据训练PRM的方法引入智能体任务 |
由于没训练policy model,MCTS是upper bound |
ALPHALLM-CPL |
2410 |
vanilla |
正负样本,使用课程学习DPO训练 |
无 |
一轮策略迭代 |
引入课程学习思路去挑选MCTS样本,提高对MCTS数据集的利用效率 |
解决动机的方法并不直接,挑样本放到哪都能讲;挑样本的metrics有点拍脑袋 |
Awesome_MCTS_LLM
数学推理
RAP: Reasoning with Language Model is Planning with World Model
论文公布时间:2023年8月
投/录用会议: EMNLP 2023 录用
单位:加州大学圣迭戈分校,佛罗里达大学
贡献:大模型作为世界模型,给出状态转移用于MCTS的Rollout simulation
任务:Blocksworld,GSM8k,PrOntoQA
Code: Official
ReST-MCTS∗: LLM Self-Training via Process Reward Guided Tree Search
MCTS-DPO: Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning
AlphaMath Almost Zero: Process Supervision without Process
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning
ALPHALLM-CPL: Towards Self-Improvement of LLMs via MCTS: Leveraging Stepwise Knowledge with Curriculum Preference Learning
Agent
方法梗概汇总(时间顺序)
可关注的点
TODO list ⏳✅