白辰甲-可泛化强化学习和具身应用




可泛化强化学习和具身应用Generalized Reinforcement Learning and Embodied Generalization白辰甲 中国电信人工智能研究院具身智能研究中心PI,研究科学家2研究背景强化学习是实现通用人工智能的重要途径•AlphaGo / AlphaZero成为人工智能发展的里程碑•策略梯度法的RLHF 方法成为对齐大模型和人类偏好的基础•强化学习算法强调解决特定任务的专一性,泛化能力弱:•不同任务的奖励函数不同,优化方向不同(Cross-Task)•不同环境具有不同的状态转移函数(Cross-Domain)3策略泛化:迈向通用策略学习的途径研究背景仿真训练真实迁移多任务/多场景/多技能决策1. 技能驱动的可泛化强化学习2. 跨域度量和具身仿真-真实迁移3. 基础模型驱动的具身策略泛化大模型4研究提纲提纲1. 技能驱动的可泛化强化学习2. 跨域度量和具身仿真-真实迁移3. 基础模型驱动的具身策略泛化5Trajectories generated from different skills in a Maze environment.Locomotion skill from paper Diversity is All You NeedStandRunSkill policyFinetuningPretraining 2M steps100k stepsRandom policyUnseen downstream tasks Skill Discovery技能学习驱动的策略泛化Max$(&;()聚类技能发现Constrained Ensemble ExplorationChenjia Bai, et al. Constrained Ensemble Exploration for Unsupervised Skill Discovery. ICML 20246技能学习驱动的策略泛化Method•聚类. 使用状态聚类来获得不同的技能访问区域,根据聚类中心来划分不同的技能策略.•探索. 每个技能进行独立的分区探索,不断扩展自身的访问空间,从而扩展总体的探索空间.•约束. 对于探索后的区域进行重新聚类分配和约束,获得不重叠的访问空间聚类技能发现Constrained Ensemble ExplorationChenjia Bai,
相关推荐
-
2025-05-13 19936
-
2025-05-15 19943
-
2025-05-13 19950
-
2025-05-15 17939
-
2025-05-13 19833
-
2025-05-14 19537
-
2025-05-14 18531
-
2025-05-15 18933
-
2025-06-05 465
-
2025-06-05 301
相关内容
-
甲子光年2025年DeepSeeK开启AI算法变革元年报告16页
分类:机构报告
时间:2025-05-13
标签:
格式:PDF
-
新战略咨询2024移动机器人AGV_AMR专用激光雷达产品发展蓝皮书31页
分类:机构报告
时间:2025-05-15
标签:
格式:PDF
-
鼎帷咨询2025年DeepSeek战略创新分析报告-围绕DeepSeek尖刀点加速打造AI产业刀锋链39页
分类:机构报告
时间:2025-05-13
标签:
格式:PDF
-
少年商学院2025年DeepSeek中小学生使用手册81页
分类:机构报告
时间:2025-05-13
标签:
格式:PDF
-
英普利集团2025企业出海白皮书中东篇精编版39页
分类:机构报告
时间:2025-05-14
标签:
格式:PDF
-
火山引擎2024火山引擎视频云实践精选集224页
分类:机构报告
时间:2025-05-15
标签:
格式:PDF
-
曼昆律所2024年Web3.0区块链项目出海法律白皮书71页
分类:机构报告
时间:2025-05-14
标签:
格式:PDF
-
CyberRobo2024全球人形机器人产品数据库报告-人形机器人洞察研究BTIResearch99页
分类:机构报告
时间:2025-05-15
标签:
格式:PDF
-
2025泡泡玛特POP MART品牌手册
分类:
时间:2025-06-21
标签:
格式:PDF
-
利用人工智能技术全面应对电子邮件威胁
分类:
时间:2025-06-21
标签:
格式:PDF