北京大学2025年DeepSeek-R1及类强推理模型开发解读报告76页






DeepSeek-R1 \Kimi 1.5 及类强推理模型开发解读北大对齐小组陈博远北京大学2022级“通班”主要研究方向:大语言模型对齐与可扩展监督https://cby-pku.github.io/https://pair-lab.com/2Outline➢DeepSeek-R1 开创RL加持下强推理慢思考范式新边界➢DeepSeek-R1 Zero 及 R1 技术剖析➢Pipeline 总览 \DeepSeek-V3 Base \DeepSeek-R1 Zero 及 R1 细节分析➢RL 算法的创新:GRPO及其技术细节➢DeepSeek-R1 背后的Insights & Takeaways:RL加持下的长度泛化 \推理范式的涌现➢DeepSeek-R1 社会及经济效益➢技术对比探讨➢STaR-based Methods vs. RL-based Methods 强推理路径对比 (DS-R1 \Kimi-1.5 \o-series) ➢蒸馏vs. 强化学习驱动:国内外现有各家技术路线对比分析及Takeaways ➢PRM & MCTS 的作用➢从文本模态到多模态➢其他讨论:Over-Thinking 过度思考等➢未来方向分析探讨➢模态穿透赋能推理边界拓展:Align-DS-V➢合成数据及Test-Time Scaling: 突破数据再生产陷阱➢强推理下的安全:形式化验证Formal Verification \审计对齐 Deliberative Alignment➢补充拓展:DeepSeek-V3 解读3DeepSeek-R1 开创RL加持下强推理慢思考范式新边界➢OpenAI o1 开启后训练 Post-Training 时代下的RL新范式:后训练扩展律 Post-Training Scaling Law➢DS-R1 独立发现了一些通往o1路上的核心理念,并且效果还好到受到了OpenAI 的认可➢如何通过有效的 Test-Time Scaling 和 Train-Time Scaling 提升模型的推理能力?➢得益于纯大规模强化学习,DeepSeek-R1 具备强大推理能力与长文本思考能力,继开源来备受关注。➢DeepSeekR1-Zero 和 R1的出现再次证明了强化学习的潜力所在:➢R1-Zero 从基础模型开始构建,完全依赖强化学习,而不使用人类专家标
相关推荐
相关内容
-
腾讯云中国信通院中国通信标准化协会2024年AI大模型应用发展研究报告58页
分类:
时间:2025-05-09
标签:
格式:PDF
-
利用智能视觉组件简化嵌入式视觉开发
分类:
时间:2025-05-09
标签:
格式:PDF
-
俄勒冈州交通规划在快速变化和不确定的时代利用情景规划的案例研究
分类:
时间:2025-05-09
标签:
格式:PDF
-
SiCMOSFET技术进展与发展方向
分类:
时间:2025-05-09
标签:
格式:PDF
-
康嘉种业-每一头猪都代表着康嘉人的尊严
分类:
时间:2025-05-09
标签:
格式:PDF
-
汽车行业周报小米SU7Ultra正式发布Helix带动Figure效率跃升-25030118页
分类:
时间:2025-05-09
标签:
格式:PDF
-
杨昕-AI驱动抖音用户体验中台探索与实践
分类:
时间:2025-05-10
标签:
格式:PDF
-
跨国的AI采用者的肖像公司特征资产的互补性和生产力
分类:
时间:2025-05-10
标签:
格式:PDF
-
OrChechikandDanielFrank-从侦察到毁灭揭露伊朗AgriusAPT最新TTPs
分类:
时间:2025-05-10
标签:
格式:PDF
-
爱立信混合工作模式调查结果
分类:
时间:2025-05-10
标签:
格式:PDF