毛航宇_强化学习多智能体和大语言模型多智能体




从强化学习(多)智能体到大语言模型(多)智能体毛航宇,快手科技2024年10月12日@RLChina2024目录21.强化学习(多)智能体到大语言模型(多)智能体十年研究脉络梳理2.强化学习(多)智能体到大语言模型(多)智能体代表工作选讲Deep RL Agent (DRL)Transformer-based RL Agent (TRL)LLM-based AI Agent3. 企业实践中的心得体会Background: RL AgentsBackground: AI Agentshttps://lilianweng.github.io/posts/2023-06-23-agent/强化学习(多)智能体和大语言模型(多)智能体十年研究脉络Deep RLDeep MARLNLPLLM –AI AgentLLM –AI Agents15DRL Foundation15-2: DQN15-2: TRPO15-6: GAE15-9: DDPG16-1: AlphaGo17-7: PPO--------16CommunicationCommNet/BiCNet/ACCNetATOC/IC3Net/Gated-ACML------17Transformer----18Novel PerspectiveRainbow DQNC51/QR-DQNEvolution StrategyModel-based RLScaling RLHierarchal RL (SEIHAI)Offline RLCTDE17: MADDPG/19: ATT-MADDPG18: VDN/QMIX21: IPPO/MAPPO22: PTDEBERT----19GPT-2----20Novel PerspectiveGrouping/Role/Graph/AttentionCognition Consistency (NCC-MARL)Permutation Invariant/EquivalentGPT-3----21TRL Foundation21-6: DT/TT22-5: Generalist Agent22-12: RT-1Prompt Tuning----22MAT3-4: InstructGPT11-30: ChatGPT----23Novel Perspective22: Prompting
相关推荐
-
2025-05-13 19936
-
2025-05-15 19943
-
2025-05-13 19950
-
2025-05-15 17939
-
2025-05-13 19833
-
2025-05-14 19537
-
2025-05-14 18531
-
2025-05-15 18933
-
2025-06-05 465
-
2025-06-05 301
相关内容
-
甲子光年2025年DeepSeeK开启AI算法变革元年报告16页
分类:机构报告
时间:2025-05-13
标签:
格式:PDF
-
新战略咨询2024移动机器人AGV_AMR专用激光雷达产品发展蓝皮书31页
分类:机构报告
时间:2025-05-15
标签:
格式:PDF
-
鼎帷咨询2025年DeepSeek战略创新分析报告-围绕DeepSeek尖刀点加速打造AI产业刀锋链39页
分类:机构报告
时间:2025-05-13
标签:
格式:PDF
-
少年商学院2025年DeepSeek中小学生使用手册81页
分类:机构报告
时间:2025-05-13
标签:
格式:PDF
-
英普利集团2025企业出海白皮书中东篇精编版39页
分类:机构报告
时间:2025-05-14
标签:
格式:PDF
-
火山引擎2024火山引擎视频云实践精选集224页
分类:机构报告
时间:2025-05-15
标签:
格式:PDF
-
曼昆律所2024年Web3.0区块链项目出海法律白皮书71页
分类:机构报告
时间:2025-05-14
标签:
格式:PDF
-
CyberRobo2024全球人形机器人产品数据库报告-人形机器人洞察研究BTIResearch99页
分类:机构报告
时间:2025-05-15
标签:
格式:PDF
-
2025泡泡玛特POP MART品牌手册
分类:
时间:2025-06-21
标签:
格式:PDF
-
利用人工智能技术全面应对电子邮件威胁
分类:
时间:2025-06-21
标签:
格式:PDF