乐于分享
好东西不私藏

【经典书】强化学习算法,98页pdf

【经典书】强化学习算法,98页pdf

强化学习是一种学习范式,它关注的是如何控制一个系统,从而最大化一个表示长期目标的数值性能度量。强化学习与监督学习的区别在于,对于学习器的预测,只会给予部分反馈。此外,这些预测可能通过影响被控制系统的未来状态而产生长期影响。因此,时间扮演着特殊的角色。强化学习的目标是发展有效的学习算法,以及了解算法的优点和局限性。强化学习之所以引起人们极大的兴趣,是因为它可以用于解决大量的实际应用,从人工智能到运筹学或控制工程的问题。在这本书中,我们专注于那些建立在强大的动态规划理论基础上的强化学习算法。我们给出了一个相当全面的学习问题的目录,描述了核心思想,关注大量的最先进的算法,然后讨论了它们的理论性质和局限性。

https://sites.ualberta.ca/~szepesva/rlbook.html

目录内容

  1. Preface ix

  2. Acknowledgments xiii

  3. Markov Decision Processes 1

    1. Preliminaries 1

    2. Markov Decision Processes 1

    3. Value functions 6

    4. Dynamic programming algorithms for solving MDPs 10

  4. Value Prediction Problems 11

    1. TD(lambda) with function approximation 22

    2. Gradient temporal difference learning 25

    3. Least-squares methods 27

    4. The choice of the function space 33

    5. Tabular TD(0) 11

    6. Every-visit Monte-Carlo 14

    7. TD(lambda): Unifying Monte-Carlo and TD(0) 16

    1. Temporal difference learning in finite state spaces 11

    2. Algorithms for large state spaces 18

  5. Control 37

    1. Implementing a critic 54

    2. Implementing an actor 56

    3. Q-learning in finite MDPs 47

    4. Q-learning with function approximation 49

    5. Online learning in bandits 38

    6. Active learning in bandits 40

    7. Active learning in Markov Decision Processes 41

    8. Online learning in Markov Decision Processes 42

    1. A catalog of learning problems 37

    2. Closed-loop interactive learning 38

    3. Direct methods 47

    4. Actor-critic methods 52

  6. For Further Exploration 63

    1. Further reading 63

    2. Applications 63

    3. Software 64

  7. Appendix: The Theory of Discounted Markovian Decision Processes 65

    1. A.1 Contractions and Banach’s fixed-point theorem 65

    2. A.2 Application to MDPs 69

  8. Bibliography 73

  9. Author's Biography 89

专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“RL98” 就可以获取【经典书】强化学习算法,98页pdf》专知下载链接

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“阅读原文”,了解使用专知,查看获取5000+AI主题知识资源
×
订阅图标按钮