可控开源社区

Huanxi Liu/awesome_MCTS_LLM

复刻自翟远钊 / awesome_MCTS_LLM

关注点赞复刻(Fork)

目录

冲

1年前3次提交

README.md冲1年前

Awesome_MCTS_LLM

Agent

数学推理

ReST-MCTS∗: LLM Self-Training via Process Reward Guided Tree Search
- 论文公布时间：2024年3月
- 投/录用会议: NeurIPS 2024录用
- 单位：清华，加利福尼亚大学
- 贡献：
- Code: Official
MCTS-DPO: Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning
- 论文公布时间：2024年5月
- 投/录用会议: NeurIPS 2024被拒
- 单位：新加坡国立，Deepmind
- 贡献：MCTS 迭代收集偏好数据，用于DPO更新policy model
- Code: Official

方法创新点汇总

方法	MCTS使用	策略模型	奖励模型	训练方法	创新点
ReST-MCTS∗
MCTS-DPO	使用当前策略做PUCT，构建偏好数据	使用DPO训练	无	策略多轮迭代	首次将DPO训练MCTS构建得到的偏好对

关于

44.0 KB

邀请码

Gitlink（确实开源）

加入我们
官网邮箱：gitlink@ccf.org.cn

QQ群

QQ群

公众号

公众号

版权所有：中国计算机学会技术支持：开源发展技术委员会
京ICP备13000930号-9 京公网安备 11010802047560号