毛航宇_强化学习多智能体和大语言模型多智能体

3.0 2025-05-14 73 0 961 KB 24 页 VIP免费 PDF

侵权投诉

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

0 人已下载

立即下载

摘要：

从强化学习(多)智能体到大语言模型(多)智能体毛航宇，快手科技2024年10月12日@RLChina2024目录21.强化学习(多)智能体到大语言模型(多)智能体十年研究脉络梳理2.强化学习(多)智能体到大语言模型(多)智能体代表工作选讲Deep RL Agent (DRL)Transformer-based RL Agent (TRL)LLM-based AI Agent3. 企业实践中的心得体会Background: RL AgentsBackground: AI Agentshttps://lilianweng.github.io/posts/2023-06-23-agent/强化学习(多)智能体和大语言模型(多)智能体十年研究脉络Deep RLDeep MARLNLPLLM –AI AgentLLM –AI Agents15DRL Foundation15-2: DQN15-2: TRPO15-6: GAE15-9: DDPG16-1: AlphaGo17-7: PPO--------16CommunicationCommNet/BiCNet/ACCNetATOC/IC3Net/Gated-ACML------17Transformer----18Novel PerspectiveRainbow DQNC51/QR-DQNEvolution StrategyModel-based RLScaling RLHierarchal RL (SEIHAI)Offline RLCTDE17: MADDPG/19: ATT-MADDPG18: VDN/QMIX21: IPPO/MAPPO22: PTDEBERT----19GPT-2----20Novel PerspectiveGrouping/Role/Graph/AttentionCognition Consistency (NCC-MARL)Permutation Invariant/EquivalentGPT-3----21TRL Foundation21-6: DT/TT22-5: Generalist Agent22-12: RT-1Prompt Tuning----22MAT3-4: InstructGPT11-30: ChatGPT----23Novel Perspective22: Prompting

展开>> 收起<<

毛航宇_强化学习多智能体和大语言模型多智能体

共 24 页,预览5页

还剩19页未读，继续阅读