白辰甲-可泛化强化学习和具身应用






可泛化强化学习和具身应用Generalized Reinforcement Learning and Embodied Generalization白辰甲 中国电信人工智能研究院具身智能研究中心PI,研究科学家2研究背景强化学习是实现通用人工智能的重要途径•AlphaGo / AlphaZero成为人工智能发展的里程碑•策略梯度法的RLHF 方法成为对齐大模型和人类偏好的基础•强化学习算法强调解决特定任务的专一性,泛化能力弱:•不同任务的奖励函数不同,优化方向不同(Cross-Task)•不同环境具有不同的状态转移函数(Cross-Domain)3策略泛化:迈向通用策略学习的途径研究背景仿真训练真实迁移多任务/多场景/多技能决策1. 技能驱动的可泛化强化学习2. 跨域度量和具身仿真-真实迁移3. 基础模型驱动的具身策略泛化大模型4研究提纲提纲1. 技能驱动的可泛化强化学习2. 跨域度量和具身仿真-真实迁移3. 基础模型驱动的具身策略泛化5Trajectories generated from different skills in a Maze environment.Locomotion skill from paper Diversity is All You NeedStandRunSkill policyFinetuningPretraining 2M steps100k stepsRandom policyUnseen downstream tasks Skill Discovery技能学习驱动的策略泛化Max$(&;()聚类技能发现Constrained Ensemble ExplorationChenjia Bai, et al. Constrained Ensemble Exploration for Unsupervised Skill Discovery. ICML 20246技能学习驱动的策略泛化Method•聚类. 使用状态聚类来获得不同的技能访问区域,根据聚类中心来划分不同的技能策略.•探索. 每个技能进行独立的分区探索,不断扩展自身的访问空间,从而扩展总体的探索空间.•约束. 对于探索后的区域进行重新聚类分配和约束,获得不重叠的访问空间聚类技能发现Constrained Ensemble ExplorationChenjia Bai,
相关推荐
相关内容
-
腾讯云中国信通院中国通信标准化协会2024年AI大模型应用发展研究报告58页
分类:
时间:2025-05-09
标签:
格式:PDF
-
利用智能视觉组件简化嵌入式视觉开发
分类:
时间:2025-05-09
标签:
格式:PDF
-
俄勒冈州交通规划在快速变化和不确定的时代利用情景规划的案例研究
分类:
时间:2025-05-09
标签:
格式:PDF
-
SiCMOSFET技术进展与发展方向
分类:
时间:2025-05-09
标签:
格式:PDF
-
康嘉种业-每一头猪都代表着康嘉人的尊严
分类:
时间:2025-05-09
标签:
格式:PDF
-
汽车行业周报小米SU7Ultra正式发布Helix带动Figure效率跃升-25030118页
分类:
时间:2025-05-09
标签:
格式:PDF
-
杨昕-AI驱动抖音用户体验中台探索与实践
分类:
时间:2025-05-10
标签:
格式:PDF
-
跨国的AI采用者的肖像公司特征资产的互补性和生产力
分类:
时间:2025-05-10
标签:
格式:PDF
-
OrChechikandDanielFrank-从侦察到毁灭揭露伊朗AgriusAPT最新TTPs
分类:
时间:2025-05-10
标签:
格式:PDF
-
爱立信混合工作模式调查结果
分类:
时间:2025-05-10
标签:
格式:PDF