目录
目录README.md

Awesome_MCTS_LLM

format:
- [title](paper link) [links]
  - 论文公布时间:
  - 投/录用会议:
  - 单位:
  - 贡献:
  - 任务:
  - code:

数学推理

Agent

方法梗概汇总(时间顺序)

方法 时间 MCTS用法;用途 策略模型 奖励模型 训练方法 创新点 不足
LLM-MCTS 2305 常规;search 在专家数据集上微调 使用世界模型生成先验知识进行指导(prompt),引导MCTS的搜索
RAP 2308 常规;search 不训练 大模型作为世界模型,提供状态转移用于MCTS evaluation
LATS 2310 (1) a self-generated LM score and (2) a self-consistency score用于value估计;search 不训练 首次将LATS引入智能体任务,并配合self-reflection等agent方法 不涉及训练,推理时还要求环境可回溯
ReST-MCTS∗ 2403 PRM Guided Search, Self-Critic用于提前终止检索,剪枝未完成叶子节点; 收集偏好数据 正样本微调 正负样本+MSE 策略和PRM都迭代多轮 PRM Guided Search 为了得到绝对的value值,抽取流程很复杂
AlphaMath Almost Zero 2405 使用当前策略做PUCT,使用PRM做rollout时的value估计;构建偏好数据 正样本微调 正负样本+MSE 策略&奖励同时训练并迭代多轮 价值模型和策略模型结合,用多任务损失函数同时训练
MCTS-DPO 2405 使用当前策略做PUCT;收集偏好数据 MCTS收集的数据使用DPO训练 策略迭代多轮 首次用DPO训练MCTS构建得到的偏好对
Q * 2406 A*而非MCTS, 使用策略做rollout;构建Q-value标签 在专家数据集上微调 MCTS收集的数据训练Q model拟合标签(MSE) 一轮Q-value Model Inference时将Q value model加入启发式函数进行规划
Agent Q 2408 常规;收集偏好数据和search 正负样本,使用DPO训练 一轮策略迭代 将MCTS收集偏好数据训练policy的方法引入智能体任务;有真实booking场景
LLM Agent with Q 2409 常规;收集偏好数据 不训练 正负样本+step-level DPO训练 一轮Q-value model 将MCTS收集偏好数据训练PRM的方法引入智能体任务 由于没训练policy model,MCTS是upper bound
ALPHALLM-CPL 2410 vanilla 正负样本,使用课程学习DPO训练 一轮策略迭代 引入课程学习思路去挑选MCTS样本,提高对MCTS数据集的利用效率 解决动机的方法并不直接,挑样本放到哪都能讲;挑样本的metrics有点拍脑袋

可关注的点

  • 趋势是越来越关注PRM;但用MSE拟合需要估计optimal Q-value,使用Preference-learning的方法不存在这个问题,但样本利用率很低且没有实验结果支撑其优越性(LLM Agent with Q的AAAI审稿人问了);还有没有更好的适用MCTS收集到的数据的PRM训练方法?
  • MCTS收集到的数据哪些该训policy model,哪些该训外部Q model? 我理解前者要是通用的推理能力,后者要场景特定的专用能力,如何从数据层面把这两者区分开? 这样就可以面向多个agent场景收集数据,彼此之间有迁移作用而不是相互影响。
  • MCTS还有哪些高级用法可以被LLM场景借鉴?参考awesomeMCTS;比如由于大模型采样很贵,且动作空间巨大,如何进一步提高mcts探索效率?比如生成的时候用conditional方法
  • AgentLite给WebShop和HotPotQA场景做了PlanReAct,借鉴CPL: Critical Planning Step Learning Boosts LLM Generalization in Reasoning Tasks,但生成固定的静态plan一般会起反作用。我们是不是可以根据Feedback做一个动态的plan?(具体怎么做还没想好);Plan是不是更多的是通用的规划能力,可以在任务之间迁移?

TODO list ⏳✅

  • ⏳ MCTS的Expansion时,生成动作使用conditional
关于
96.0 KB
邀请码
    Gitlink(确实开源)
  • 加入我们
  • 官网邮箱:gitlink@ccf.org.cn
  • QQ群
  • QQ群
  • 公众号
  • 公众号

©Copyright 2023 CCF 开源发展委员会
Powered by Trustie& IntelliDE 京ICP备13000930号