大语言模型高效自动对齐

3.0 2025-05-12 20 0 2922 KB 12 页 PDF

侵权投诉

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

0 人已下载

立即下载

摘要：

大语言模型高效自动对齐基于反馈学习的模型能力自动强化演进糜飞华为-诺亚方舟实验室-语音语义【盘古大模型研发研究员】YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024Ø可能下一阶段大模型越用越智能、商业化能力提升的重点，是数据飞轮、基于反馈的自动强化&对齐Ø协同数据&系统工程 + 算法Related work1. Huawei, Aligning Large Language Models with Human: A Survey2. Alibaba, A Survey on Self-Evolution of Large Language Models监督学习: 数据反馈学习: 数据+算法预训练监督学习SFT反馈学习RLHFRLAIFLLM开发周期PreliminaryYSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024YSSNLP2024lOpenAI投入20%的计算资源在超级对齐研究上，由Ilya Sutskever和Jan Leike共同领导（Anthropic）Pillar 1: 在人类可以直接评估的任务上如何与人类对齐RLHFSFTPillar 2: 在人类难以直接评估的任务上，辅助AI高效对齐(Scalable Oversight)3. AI反馈对齐（细粒度强化）1. AI问题自动发现（突破难例发现效率）2. AI辅助反馈（高质量反馈）OpenAI超级对齐背景：分阶段实现强智能体的安全可控、自动对齐人工反馈AI辅助人工对齐（超级对齐初级阶段）AI辅助AI对齐（终极超级对齐）Step1Step 3Step 2•(OpenAI) 过程反馈：稠密过程奖励模型，提升数学推理精度10%•(OpenAI) 过程对齐：利用过程奖励模型，分步骤打分强化学习训练，精度提升6%•(Apple、Google、Llama、Qwen)：多阶段/在线强化学习，显著提升模型性能•(Google) 工具反馈：拆解规划并使用工具校验，提升高阶推理精度20%•(Google) 自动化红队：构建自动攻击红队模型，提升问题空间难例发现效率3倍•(Google)

展开>> 收起<<

大语言模型高效自动对齐

共 12 页,预览3页

还剩9页未读，继续阅读