强化学习从理论迈向实际聚焦SafeRL和OfflineRL




魏 巍山西大学 计算机与信息技术学院计算智能与中文信息处理教育部重点实验室2024.10强化学习:从理论迈向实际——聚焦Safe RL 和 Offline RL目 录CONTENTS第一部分第二部分研究背景与意义第三部分Safe RL 的一些探索Offline RL 的一些探索第四部分总结第一部分研究背景与意义1.1 强化学习理论研究进展迅速仿真环境⚫智能对战 (围棋等)⚫机器人控制(mujoco等)⚫街机游戏(atari等) ⚫角色扮演游戏 (RLCraft等)⚫多智能体游戏(MPE、SMAC等)强化学习的来源与两个领域密切相关:心理学中的动物学习和最优控制的优化理论。1954年Minsky首次提出“强化”和“强化学习”的概念和术语。1965年在控制理论中Waltz和傅京孙也提出这一概念,描述通过奖惩的手段进行学习的基本思想。经典强化学习研究大多局限于游戏等模拟环境,处于“好看不好用”的境地!!!经典算法⚫DQN (2015-Nature)⚫DDPG(2016-ICLR)⚫PPO(2017-ML)⚫TD3(2018-ICML)⚫QMIX(2018-ICML)1.2 强化学习在现实世界中的应用机器人⚫运动控制⚫自主导航自动驾驶⚫路径规划⚫交通管理金融⚫股票交易策略⚫风险管理医疗⚫个性化治疗⚫药物发现智能制造⚫生产优化⚫设备维护军事博弈⚫无人机空战⚫军事推演1.3 近期强化学习在实际应用中取得了重要进展强化学习在实际应用中的典型案例可控核聚变 (DeepMind,Nature 2022)塑造ChatGPT的RLHF (NeurIPS2022)使用RL设计蛋白质架构 (Science 2023)战胜无人机竞速世界冠军 (Nature 2023)1.4 强化学习从理论迈向实际的挑战高性能样本效率安全约束Sim2Real离线策略学习从理论迈向实际的挑战1.4 强化学习从理论迈向实际的挑战高性能样本效率安全约束Sim2Real离线策略学习从理论迈向实际的挑战第二部分Safe RL 的一些探索2.1 研究现状在复杂多变的现实世界中,实现安全的决策是一大难题无人工厂无人机协同智能交通无线传感器网络安全强化学习研究已经形成了一套区别于经典强化学习的独特研究体系!【1970 Management Science】哥伦比亚大学的研究团队在建模住院计划的排队模型时考虑了安全问题【202
相关推荐
-
2025-05-13 19936
-
2025-05-15 19943
-
2025-05-13 19950
-
2025-05-15 17939
-
2025-05-13 19833
-
2025-05-14 19537
-
2025-05-14 18531
-
2025-05-15 18933
-
2025-06-05 465
-
2025-06-05 301
相关内容
-
甲子光年2025年DeepSeeK开启AI算法变革元年报告16页
分类:机构报告
时间:2025-05-13
标签:
格式:PDF
-
新战略咨询2024移动机器人AGV_AMR专用激光雷达产品发展蓝皮书31页
分类:机构报告
时间:2025-05-15
标签:
格式:PDF
-
鼎帷咨询2025年DeepSeek战略创新分析报告-围绕DeepSeek尖刀点加速打造AI产业刀锋链39页
分类:机构报告
时间:2025-05-13
标签:
格式:PDF
-
少年商学院2025年DeepSeek中小学生使用手册81页
分类:机构报告
时间:2025-05-13
标签:
格式:PDF
-
英普利集团2025企业出海白皮书中东篇精编版39页
分类:机构报告
时间:2025-05-14
标签:
格式:PDF
-
火山引擎2024火山引擎视频云实践精选集224页
分类:机构报告
时间:2025-05-15
标签:
格式:PDF
-
曼昆律所2024年Web3.0区块链项目出海法律白皮书71页
分类:机构报告
时间:2025-05-14
标签:
格式:PDF
-
CyberRobo2024全球人形机器人产品数据库报告-人形机器人洞察研究BTIResearch99页
分类:机构报告
时间:2025-05-15
标签:
格式:PDF
-
2025泡泡玛特POP MART品牌手册
分类:
时间:2025-06-21
标签:
格式:PDF
-
利用人工智能技术全面应对电子邮件威胁
分类:
时间:2025-06-21
标签:
格式:PDF