目录
目录README.md

Awesome_MCTS_LLM

Agent

数学推理

方法创新点汇总

方法 MCTS使用 策略模型 奖励模型 训练方法 创新点
ReST-MCTS∗
MCTS-DPO 使用当前策略做PUCT,构建偏好数据 使用DPO训练 策略多轮迭代 首次将DPO训练MCTS构建得到的偏好对
关于
44.0 KB
邀请码
    Gitlink(确实开源)
  • 加入我们
  • 官网邮箱:gitlink@ccf.org.cn
  • QQ群
  • QQ群
  • 公众号
  • 公众号

©Copyright 2023 CCF 开源发展委员会
Powered by Trustie& IntelliDE 京ICP备13000930号