白辰甲-可泛化强化学习和具身应用

3.0 2025-05-14 74 0 19268 KB 61 页 PDF
侵权投诉
白辰甲-可泛化强化学习和具身应用
白辰甲-可泛化强化学习和具身应用
白辰甲-可泛化强化学习和具身应用
白辰甲-可泛化强化学习和具身应用
白辰甲-可泛化强化学习和具身应用
摘要:

可泛化强化学习和具身应用Generalized Reinforcement Learning and Embodied Generalization白辰甲 中国电信人工智能研究院具身智能研究中心PI,研究科学家2研究背景强化学习是实现通用人工智能的重要途径•AlphaGo / AlphaZero成为人工智能发展的里程碑•策略梯度法的RLHF 方法成为对齐大模型和人类偏好的基础•强化学习算法强调解决特定任务的专一性,泛化能力弱:•不同任务的奖励函数不同,优化方向不同(Cross-Task)•不同环境具有不同的状态转移函数(Cross-Domain)3策略泛化:迈向通用策略学习的途径研究背景仿真训练真实迁移多任务/多场景/多技能决策1. 技能驱动的可泛化强化学习2. 跨域度量和具身仿真-真实迁移3. 基础模型驱动的具身策略泛化大模型4研究提纲提纲1. 技能驱动的可泛化强化学习2. 跨域度量和具身仿真-真实迁移3. 基础模型驱动的具身策略泛化5Trajectories generated from different skills in a Maze environment.Locomotion skill from paper Diversity is All You NeedStandRunSkill policyFinetuningPretraining 2M steps100k stepsRandom policyUnseen downstream tasks Skill Discovery技能学习驱动的策略泛化Max$(&;()聚类技能发现Constrained Ensemble ExplorationChenjia Bai, et al. Constrained Ensemble Exploration for Unsupervised Skill Discovery. ICML 20246技能学习驱动的策略泛化Method•聚类. 使用状态聚类来获得不同的技能访问区域,根据聚类中心来划分不同的技能策略.•探索. 每个技能进行独立的分区探索,不断扩展自身的访问空间,从而扩展总体的探索空间.•约束. 对于探索后的区域进行重新聚类分配和约束,获得不重叠的访问空间聚类技能发现Constrained Ensemble ExplorationChenjia Bai,

展开>> 收起<<
白辰甲-可泛化强化学习和具身应用

共 61 页,预览3页

还剩58页未读, 继续阅读

声明:企商查报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
作者: 分类: 属性:61 页 大小:19268 KB 格式:PDF 时间:2025-05-14

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 3
客服
关注