🚀无门槛学习ChatGPT核心技术-深度强化学习算法的理论、语言和实现🚀

⭕《深度强化学习:基于Python的理论及实践》是一本系统介绍深度强化学习理论与实践的书籍。本书深入浅出地讲解了深度强化学习的基本原理、算法和技术,并通过丰富的案例和实际项目,引导读者掌握深度强化学习的应用方法。

🌈首先,这本书的内容非常全面,涵盖了深度强化学习的各个方面。从强化学习的基础知识到深度强化学习的进阶概念,再到各种具体的算法和技术,都有详细的阐述和解释。通过阅读这本书,读者可以建立起完整的深度强化学习知识体系,深入了解这一领域的最新进展和趋势。

🚀其次,这本书注重实践和动手能力的培养。作者不仅介绍了深度强化学习的理论和方法,还通过具体的案例和项目,引导读者亲自动手实现深度强化学习算法,解决实际问题。这些案例包括游戏、自动驾驶、机器人等领域,使读者能够更加深入地了解深度强化学习的应用价值和实践经验。

👌此外,这本书的可读性也很高。作者采用了通俗易懂的语言,避免了过多的数学公式和理论推导,使得即便是没有深厚数学背景的读者也能够轻松上手。同时,书中的代码注释和说明也非常详细,方便读者理解和掌握。

🚀最后,这本书还具有一定的前瞻性和引导性。作者在介绍传统深度强化学习算法的同时,也介绍了近年来新兴的深度强化学习技术,如自适应学习率、多智能体系统等。这使得读者能够紧跟时代步伐,了解深度强化学习领域的最新进展和趋势。

👉《深度强化学习:基于Python的理论及实践》是一本非常优秀的深度强化学习入门教材。它不仅适合初学者学习,也可以作为进阶和提高的参考资料。通过阅读这本书,读者可以系统地掌握深度强化学习的基本知识和技术,培养解决实际问题的能力,为进一步探索和研究打下坚实的基础。如果你对人工智能和机器学习感兴趣,特别是对深度强化学习这一领域感兴趣,那么这本书一定值得一读。

👆请点击上面《深度强化学习》了解更多详情!👆

书籍信息

书名: 深度强化学习
作者: Laura Graesser/Wah Loon Keng
出版社: 机械工业出版社
译者: 许静/过辰楷/金骁/刘磊/朱静雯
出版年: 2021-10
页数: 308
装帧: 平装
丛书: 智能科学与技术丛书
ISBN: 9787111689331

深度强化学习

内容简介

深度强化学习结合了深度学习和强化学习,使人工智能体能够在没有监督的情况下学习如何解决顺序决策问题。在过去的十年中,深度强化学习在一系列问题上取得了显著的成果,涵盖从单机游戏和多人游戏到机器人技术等方方面面。本书采用理论结合实践的方法,从直觉开始,然后仔细解释深度强化学习算法的理论,讨论在配套软件库SLM Lab中的实现,最后呈现深度强化学习算法的实践细节。
通过本书,你将:
理解深度强化学习问题的每个关键方面。
探索基于策略和基于值的算法,包括REINFORCE算法、SARSA算法、深度Q网络(DQN)算法和改进的深度Q网络算法。
深入研究基于策略和基于值的组合算法,包括演员-评论家算法和近端策略优化(PPO)算法。
了解算法的同步并行和异步并行。
在SLM Lab中运行算法,学习深度强化学习的实现细节。
探索算法基准测试结果与调优超参数。
了解深度强化学习的环境设计。
本书可以作为高等院校人工智能、计算机、大数据等相关专业的本科或研究生教材,也可以作为人工智能相关领域的研究人员和技术人员的参考书籍。此外,对强化学习感兴趣的读者也可以将本书作为自学的参考教材。

作者简介

劳拉·格雷泽
(Laura Graesser)
软件工程师,在谷歌从事机器人技术方面的工作。她拥有纽约大学计算机科学硕士学位,专攻机器学习方向。
龚辉伦
(Wah Loon Keng)
Machine Zone的人工智能工程师,致力于将深度强化学习应用于工业问题。他拥有理论物理和计算机科学的背景。
他们共同开发了两个深度强化学习软件库,并就此进行了多次主题讲座和技术辅导。
主要译者:
许静
南开大学人工智能学院副院长,机器智能所所长,教授,博士生导师。2003年获得南开大学博士学位,主要研究方向为人工智能、大数据分析和软件安全。已完成多项国jia级、省部级、国际合作、国内合作项目,发表学术论文100余篇,出版教材一部,申请发明专利20余项;获得天津市科技进步二等奖两项;现为IEEE会员、CCF高级会员、天津市图形图像学会常务理事。

书籍目录

赞誉
译者序
序言
前言
致谢
第1章 强化学习简介1
1.1 强化学习1
1.2 强化学习中的MDP4
1.3 强化学习中的学习函数7
1.4 深度强化学习算法9
1.4.1 基于策略的算法9
1.4.2 基于值的算法10
1.4.3 基于模型的算法10
1.4.4 组合方法11
1.4.5 本书中的算法12
1.4.6 同策略和异策略算法12
1.4.7 小结12
1.5 强化学习中的深度学习13
1.6 强化学习与监督学习14
1.6.1 缺乏先知14
1.6.2 反馈稀疏性15
1.6.3 数据生成15
1.7 总结16
第一部分 基于策略的算法和基于值的算法
第2章 REINFORCE18
2.1 策略18
2.2 目标函数19
2.3 策略梯度19
2.3.1 策略梯度推导20
2.4 蒙特卡罗采样22
2.5 REINFORCE算法23
2.5.1 改进的REINFORCE算法23
2.6 实现REINFORCE24
2.6.1 一种最小化REINFORCE的实现24
2.6.2 用PyTorch构建策略26
2.6.3 采样动作28
2.6.4 计算策略损失29
2.6.5 REINFORCE训练循环30
2.6.6 同策略内存回放31
2.7 训练REINFORCE智能体33
2.8 实验结果36
2.8.1 实验:评估折扣因子γ的影响36
2.8.2 实验:评估基准线的影响37
2.9 总结39
2.10 扩展阅读39
2.11 历史回顾39
第3章 SARSA40
3.1 Q函数和V函数40
3.2 时序差分学习42
3.2.1 时间差分学习示例44
3.3 SARSA中的动作选择48
3.3.1 探索和利用49
3.4 SARSA算法50
3.4.1 同策略算法51
3.5 实现SARSA52
3.5.1 动作函数:ε-贪婪52
3.5.2 计算Q损失52
3.5.3 SARSA训练循环54
3.5.4 同策略批处理内存回放55
3.6 训练SARSA智能体56
3.7 实验结果58
3.7.1 实验:评估学习率的影响58
3.8 总结60
3.9 扩展阅读60
3.10 历史回顾60
第4章 深度Q网络62
4.1 学习DQN中的Q函数62
4.2 DQN中的动作选择64
4.2.1 Boltzmann策略65
4.3 经验回放67
4.4 DQN算法68
4.5 实现DQN69
4.5.1 计算Q损失70
4.5.2 DQN训练循环70
4.5.3 内存回放71
4.6 训练DQN智能体74
4.7 实验结果77
4.7.1 实验:评估网络架构的影响77
4.8 总结78
4.9 扩展阅读79
4.10 历史回顾79
第5章 改进的深度Q网络80
5.1 目标网络80
5.2 双重DQN算法82
5.3 优先级经验回放85
5.3.1 重要性抽样86
5.4 实现改进的DQN88
5.4.1 网络初始化88
5.4.2 计算Q损失89
5.4.3 更新目标网络90
5.4.4 包含目标网络的DQN91
5.4.5 双重DQN91
5.4.6 优先级经验回放91
5.5 训练DQN智能体玩Atari游戏96
5.6 实验结果101
5.6.1 实验:评估双重DQN与PER的影响101
5.7 总结104
5.8 扩展阅读104
第二部分 组合方法
第6章 优势演员-评论家算法106
6.1 演员106
6.2 评论家107
6.2.1 优势函数107
6.2.2 学习优势函数110
6.3 A2C算法111
6.4 实现A2C113
6.4.1 优势估计113
6.4.2 计算值损失和策略损失115
6.4.3 演员-评论家训练循环116
6.5 网络架构117
6.6 训练A2C智能体118
6.6.1 在Pong上使用n步回报的A2C算法118
6.6.2 在Pong上使用GAE的A2C算法121
6.6.3 在BipedalWalker上使用n步回报的A2C算法122
6.7 实验结果124
6.7.1 实验:评估n步回报的影响124
6.7.2 实验:评估GAE中λ的影响126
6.8 总结127
6.9 扩展阅读128
6.10 历史回顾128
第7章 近端策略优化算法130
7.1 替代目标函数130
7.1.1 性能突然下降130
7.1.2 修改目标函数132
7.2 近端策略优化136
7.3 PPO算法139
7.4 实现PPO141
7.4.1 计算PPO的策略损失141
7.4.2 PPO训练循环142
7.5 训练PPO智能体143
7.5.1 在Pong上使用PPO算法143
7.5.2 在BipedalWalker上使用PPO算法146
7.6 实验结果149
7.6.1 实验:评估GAE中λ的影响149
7.6.2 实验:评估裁剪变量ε的影响150
7.7 总结152
7.8 扩展阅读152
第8章 并行方法153
8.1 同步并行153
8.2 异步并行154
8.2.1 Hogwild!算法155
8.3 训练A3C智能体157
8.4 总结160
8.5 扩展阅读160
第9章 算法总结161
第三部分 实践细节
第10章 深度强化学习工程实践164
10.1 软件工程实践164
10.1.1 单元测试164
10.1.2 代码质量169
10.1.3 Git工作流170
10.2 调试技巧171
10.2.1 生命迹象172
10.2.2 策略梯度诊断172
10.2.3 数据诊断173
10.2.4 预处理器174
10.2.5 内存174
10.2.6 算法函数174
10.2.7 神经网络175
10.2.8 算法简化177
10.2.9 问题简化177
10.2.10 超参数178
10.2.11 实验室工作流178
10.3 Atari技巧179
10.4 深度强化学习小结181
10.4.1 超参数表181
10.4.2 算法性能比较184
10.5 总结186
第11章 SLMLab187
11.1 SLMLab算法实现187
11.2 spec文件188
11.2.1 搜索spec语法190
11.3 运行SLMLab192
11.3.1 SLMLab指令193
11.4 分析实验结果193
11.4.1 实验数据概述193
11.5 总结195
第12章 神经网络架构196
12.1 神经网络的类型196
12.1.1 多层感知机196
12.1.2 卷积神经网络198
12.1.3 循环神经网络199
12.2 选择网络族的指导方法199
12.2.1 MDP与POMDP200
12.2.2 根据环境选择网络202
12.3 网络API204
12.3.1 输入层和输出层形状推断205
12.3.2 自动构建网络207
12.3.3 训练步骤209
12.3.4 基础方法的使用210
12.4 总结211
12.5 扩展阅读212
第13章 硬件213
13.1 计算机213
13.2 数据类型217
13.3 在强化学习中优化数据类型219
13.4 选择硬件222
13.5 总结223
第四部分 环境设计
第14章 状态226
14.1 状态示例226
14.2 状态完整性231
14.3 状态复杂性231
14.4 状态信息损失235
14.4.1 图像灰度235
14.4.2 离散化235
14.4.3 散列冲突236
14.4.4 元信息损失236
14.5 预处理238
14.5.1 标准化239
14.5.2 图像预处理240
14.5.3 时间预处理241
14.6 总结244
第15章 动作245
15.1 动作示例245
15.2 动作完整性247
15.3 动作复杂性248
15.4 总结251
15.5 扩展阅读:日常事务中的动作设计252
第16章 奖励255
16.1 奖励的作用255
16.2 奖励设计准则256
16.3 总结259
第17章 转换函数260
17.1 可行性检测260
17.2 真实性检测262
17.3 总结263后记264
附录A 深度强化学习时间线267
附录B 示例环境269
参考文献274

版权声明:
作者:admin
链接:https://manboo.net/159.html
来源:学习笔记
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
QQ群
< <上一篇
下一篇>>
文章目录
关闭
目 录