fix misunderstanding about GRPO
[ English | 中文 ]
作为一名强化学习(RL)的学习者,我一直在寻找能够在难度和实用度之间达到适当平衡的学习资源。Sutton 的《强化学习导论》虽然是强化学习领域的经典之作,但从头到尾通读需要付出大量精力。
所以我用自己的RL学习笔记制作了这个教程:一个精简的”知识库”,希望能帮助其他RL入门者更快更轻松地掌握核心概念
💡 核心理念: 本教程精选了《强化学习导论》中的重要章节,并将其与Coursera强化学习专项课程的内容融合,以提供更高效的学习体验。
🛠️ 使用方法: 在本网站阅读完整教程。在第0章(序言)中,你将找到更多关于这个项目的来龙去脉以及最佳使用方法的详细信息。
欢迎大家为改进这个教程做出贡献!以下是可以提供帮助的方式:
本项目采用MIT许可证。详情请参阅LICENSE文件。
An reconstruction of RL Introduction and its course materials for a more efficient entry
©Copyright 2023 CCF 开源发展委员会 Powered by Trustie& IntelliDE 京ICP备13000930号
📚 蒸馏版强化学习:简明导论
[ English | 中文 ]
📚 项目简介
作为一名强化学习(RL)的学习者,我一直在寻找能够在难度和实用度之间达到适当平衡的学习资源。Sutton 的《强化学习导论》虽然是强化学习领域的经典之作,但从头到尾通读需要付出大量精力。
所以我用自己的RL学习笔记制作了这个教程:一个精简的”知识库”,希望能帮助其他RL入门者更快更轻松地掌握核心概念
🎯 项目目的与使用方法
📋 目录
🌟 介绍
🧮 表格解决方法
强化学习基础
基于采样的学习方法
🤖 近似解决方法
价值函数近似
策略近似
🤝 贡献
欢迎大家为改进这个教程做出贡献!以下是可以提供帮助的方式:
📜 许可证
本项目采用MIT许可证。详情请参阅LICENSE文件。