毛航宇_强化学习多智能体和大语言模型多智能体

3.0 2025-05-14 72 0 961 KB 24 页 PDF
侵权投诉
毛航宇_强化学习多智能体和大语言模型多智能体
毛航宇_强化学习多智能体和大语言模型多智能体
毛航宇_强化学习多智能体和大语言模型多智能体
摘要:

从强化学习(多)智能体到大语言模型(多)智能体毛航宇,快手科技2024年10月12日@RLChina2024目录21.强化学习(多)智能体到大语言模型(多)智能体十年研究脉络梳理2.强化学习(多)智能体到大语言模型(多)智能体代表工作选讲Deep RL Agent (DRL)Transformer-based RL Agent (TRL)LLM-based AI Agent3. 企业实践中的心得体会Background: RL AgentsBackground: AI Agentshttps://lilianweng.github.io/posts/2023-06-23-agent/强化学习(多)智能体和大语言模型(多)智能体十年研究脉络Deep RLDeep MARLNLPLLM –AI AgentLLM –AI Agents15DRL Foundation15-2: DQN15-2: TRPO15-6: GAE15-9: DDPG16-1: AlphaGo17-7: PPO--------16CommunicationCommNet/BiCNet/ACCNetATOC/IC3Net/Gated-ACML------17Transformer----18Novel PerspectiveRainbow DQNC51/QR-DQNEvolution StrategyModel-based RLScaling RLHierarchal RL (SEIHAI)Offline RLCTDE17: MADDPG/19: ATT-MADDPG18: VDN/QMIX21: IPPO/MAPPO22: PTDEBERT----19GPT-2----20Novel PerspectiveGrouping/Role/Graph/AttentionCognition Consistency (NCC-MARL)Permutation Invariant/EquivalentGPT-3----21TRL Foundation21-6: DT/TT22-5: Generalist Agent22-12: RT-1Prompt Tuning----22MAT3-4: InstructGPT11-30: ChatGPT----23Novel Perspective22: Prompting

展开>> 收起<<
毛航宇_强化学习多智能体和大语言模型多智能体

共 24 页,预览3页

还剩21页未读, 继续阅读

毛航宇_强化学习多智能体和大语言模型多智能体
毛航宇_强化学习多智能体和大语言模型多智能体
毛航宇_强化学习多智能体和大语言模型多智能体
声明:企商查报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
作者: 分类:机构报告 属性:24 页 大小:961 KB 格式:PDF 时间:2025-05-14

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 3
客服
关注