强化学习从理论迈向实际聚焦SafeRL和OfflineRL

3.0 2025-05-14 33 0 4521 KB 29 页 VIP免费 PDF

侵权投诉

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

0 人已下载

立即下载

摘要：

魏巍山西大学计算机与信息技术学院计算智能与中文信息处理教育部重点实验室2024.10强化学习：从理论迈向实际——聚焦Safe RL 和 Offline RL目录CONTENTS第一部分第二部分研究背景与意义第三部分Safe RL 的一些探索Offline RL 的一些探索第四部分总结第一部分研究背景与意义1.1 强化学习理论研究进展迅速仿真环境⚫智能对战 (围棋等)⚫机器人控制（mujoco等）⚫街机游戏(atari等) ⚫角色扮演游戏 (RLCraft等)⚫多智能体游戏（MPE、SMAC等）强化学习的来源与两个领域密切相关：心理学中的动物学习和最优控制的优化理论。1954年Minsky首次提出“强化”和“强化学习”的概念和术语。1965年在控制理论中Waltz和傅京孙也提出这一概念，描述通过奖惩的手段进行学习的基本思想。经典强化学习研究大多局限于游戏等模拟环境，处于“好看不好用”的境地！！！经典算法⚫DQN (2015-Nature)⚫DDPG（2016-ICLR）⚫PPO(2017-ML)⚫TD3（2018-ICML）⚫QMIX(2018-ICML)1.2 强化学习在现实世界中的应用机器人⚫运动控制⚫自主导航自动驾驶⚫路径规划⚫交通管理金融⚫股票交易策略⚫风险管理医疗⚫个性化治疗⚫药物发现智能制造⚫生产优化⚫设备维护军事博弈⚫无人机空战⚫军事推演1.3 近期强化学习在实际应用中取得了重要进展强化学习在实际应用中的典型案例可控核聚变 (DeepMind，Nature 2022)塑造ChatGPT的RLHF (NeurIPS2022)使用RL设计蛋白质架构 (Science 2023)战胜无人机竞速世界冠军 (Nature 2023)1.4 强化学习从理论迈向实际的挑战高性能样本效率安全约束Sim2Real离线策略学习从理论迈向实际的挑战1.4 强化学习从理论迈向实际的挑战高性能样本效率安全约束Sim2Real离线策略学习从理论迈向实际的挑战第二部分Safe RL 的一些探索2.1 研究现状在复杂多变的现实世界中，实现安全的决策是一大难题无人工厂无人机协同智能交通无线传感器网络安全强化学习研究已经形成了一套区别于经典强化学习的独特研究体系！【1970 Management Science】哥伦比亚大学的研究团队在建模住院计划的排队模型时考虑了安全问题【202

展开>> 收起<<

强化学习从理论迈向实际聚焦SafeRL和OfflineRL

共 29 页,预览5页

还剩24页未读，继续阅读