深入浅出强化学习原理入门豆瓣在线阅读-深入浅出强化学习原理入门PDF电子书免费版-精品

深入浅出强化学习原理入门豆瓣在线阅读-深入浅出强化学习原理入门PDF电子书免费版-精品

编辑点评:

《深入浅出强化学习:原理入门》针对初学者的需求,直接分析原理,并辅以编程实践。从解决问题的思路,层层剖析,普及了传统的强化学习基本方法和当前炙手可热的深度强化学习方法,直接将读者带入强化学习的殿堂

深入浅出强化学习原理入门PDF电子书下载

前言

2017年5月,AlphaGo击败世界围棋冠军柯洁,标志着人工智能进入-

个新的阶段。AlphaGo背后的核心算法-深度强化学习-成为继深度学习之后广泛受人关注的前沿热点。与深度学习相比,深度强化学习具有更宽泛的应用背景,可应用于机器人、游戏、自然语言处理、图像处理、视频处理等领域。深度强化学习算法被认为是最有可能实现通用人工智能计算的方法。不过,由于深度强化学习算法融合了深度学习、统计、信息学、运筹学、概率论、优化等多个学科的内容,因此强化学习的入内内槛比较高,并且,到目前为止,市面上没有一本零基础全面介绍强化学习算法的书籍。

本书是笔者在南开大学计算机与控制工程学院做博士后期间,每周在课题组内讲解强化学习知识的讲义合集。在学习强化学习基本理论的时候,我深深地感受到强化学习理论中的很多概念和公式都很难理解。经过大量资料和文献的查阅并终于理解一个全新的概念时,内心涌现的那种喜悦和兴奋,鼓动着我将这些知识分享给大家。为此,我在知乎开辟了《强化学习知识大讲堂》专栏,并基本保持了每周一次更新的速度。该专栏得到大家的关注,很多知友反映受益良多,本书的雏形正是来源于此。在成书时,考虑到书的逻辑性和完整性,又添加了很多数学基础和实例讲解。

希望本书能帮助更多的人入内强化学习,开启自己的人工智能之旅。在写作过程中,博士后合作导师方勇纯教授给了大量的建议,包括书的整体结构、每一章的讲述方式,甚至每个标题的选择。写作后,方老师细致地审阅了全文,给出了详细的批注,并多次当面指导书稿的修改。正是因为方老师的耐心指导与辛勤付出,本书才得以顺利完成。

同时,非常感谢组内的研究生丁杰、朱威和赵铭慧三位同学,通过与他们的交流,我学会了如何更明晰地讲解一个概念。本书的很多讲解方式都是在与他们的交流中产生。

本书在写作过程中参考了很多文献资料,这些文献资料是无数科研工作者们日日夜夜奋斗的成果。本书对这些成果进行加工并形成了一套自成体系的原理入内教程。可以说没有这些科研工作者们的丰硕成果就没有今天蓬勃发展的人工智能,也就没有这本书,在此对这些科学工作者们表示由衷的敬意。

本书前六章的内容及组织思路很大部分参考了David Silver的网络课程,同时参考了强化学习鼻祖Richard S.Sutton等人所著的Reinforcement Learning:An Introduction,在此向Silver和Sutton致敬。

本书第8章介绍了置信域强化学习算法,主要参考了John Shulman的博士论文,在此向John Shulman博士及其导师Pieter Abbeel致敬。第10章主要介绍了Sergey Levine博士的工作,在此对其表示感谢。在强化学习前沿部分,本书介绍了最近一年该领域很优秀的研究工作,如Donoghue的组合策略梯度和Qleaming方法,Tamar的值迭代网络,Deisenroth的PILCO方法和McAllister的PILCO扩展方法,在此对这些作者表示感谢。当然,本书还介绍了很多其他科研工作者的工作,在此对他们一并致谢。

本书阐述的主要是前人提出的强化学习算法的基本理论,并没有介绍笔者个人的工作,但在此仍然要感谢目前我负责的两项基金的支持:国家自然科学基金青年基金(61603200)和中国博士后基金面上项目

(2016M601256)。这两个项目都和强化学习有关,本书也可看成是这两个项目的前期调研和积累。关于更多笔者个人的工作,留待以后再与大家分享。

内容简介

《深入浅出强化学习:原理入门》用通俗易懂的语言深入浅出地介绍了强化学习的基本原理,覆盖了传统的强化学习基本方法和当前炙手可热的深度强化学习方法。开篇从最基本的马尔科夫决策过程入手,将强化学习问题纳入到严谨的数学框架中,接着阐述了解决此类问题最基本的方法——动态规划方法,并从中总结出解决强化学习问题的基本思路:交互迭代策略评估和策略改善。

基于这个思路,分别介绍了基于值函数的强化学习方法和基于直接策略搜索的强化学习方法。最后介绍了逆向强化学习方法和近年具有代表性、比较前沿的强化学习方法。

除了系统地介绍基本理论,书中还介绍了相应的数学基础和编程实例。因此,《深入浅出强化学习:原理入门》既适合零基础的人员入门学习、也适合相关科研人员作为研究参考。

强化学习的发展趋势

第一,强化学习算法与深度学习的结合会更加紧密。

机器学习算法常被分为监督学习、非监督学习和强化学习,以前三类方法分得很清楚,而如今三类方法联合起来使用效果会更好。所以,强化学习算法其中一个趋势便是三类机器学习方法在逐渐走向统一的道路。谁结合得好,谁就会有更好的突破。该方向的代表作如基于深度强化学习的对话生成等。

第二,强化学习算法与专业知识结合得将更加紧密。

如果将一般的强化学习算法,如Qleaning算法直接套到专业领域中,很可能不工作。这时一定不能灰心,因为这是正常现象。这时需要把专业领域中的知识加入到强化学习算法中,如何加?这没有统一的方法,而是根据每个专业的内容而变化。通常来说可以重新塑造回报函数,或修改网络结构(大家可以开心地炼丹灌水了。)。该方向的代表作是NIPS2016的最佳论文值选代网络(Value Iteration Networks)等。

第三,强化学习算法理论分析会更强,算法会更稳定和高效。

强化学习算法大火之后,必定会吸引一大批理论功底很强的牛人。这些牛人不愁吃穿,追求完美主义、又有很强的数学技巧,所以在强化学习这个理论还几乎是空白的领域,他们必定会建功立业,名垂千史。该方向的代表作如基于深度能量的策略方法,值函数与策略方法的等价性等。

第四,强化学习算法与脑科学、认知神经科学、记忆的联系会更紧密。

脑科学和认知神经科学一直是机器学习灵感的源泉,这个源泉往往会给机器学习算法带来革命性的成功。人们对大脑的认识还很片面,随着脑科学家和认知神经科学家逐步揭开大脑的神秘面纱,机器学习领域必定会再次受益。这个流派应该是以DeepMind 和伦敦大学学院为首,因为这些团体里面不仅有很多人工智能学家还有很多认知神经科学家。该方向的代表作如DeepMind关于记忆的一列论文。

深入浅出强化学习原理入门PDF电子书下载截图

深入浅出强化学习原理入门豆瓣在线阅读-深入浅出强化学习原理入门PDF电子书免费版-精品插图(1)深入浅出强化学习原理入门豆瓣在线阅读-深入浅出强化学习原理入门PDF电子书免费版-精品插图(2)深入浅出强化学习原理入门豆瓣在线阅读-深入浅出强化学习原理入门PDF电子书免费版-精品插图(3)深入浅出强化学习原理入门豆瓣在线阅读-深入浅出强化学习原理入门PDF电子书免费版-精品插图(4)

评分及评论

无用户评分

来评个分数吧

  • 5 分
    0
  • 4 分
    0
  • 3 分
    0
  • 2 分
    0
  • 1 分
    0

Comments