51CTO2025年DeepSeek入门宝典-技术解析篇22页

3.0 2025-05-13 35 0 2129 KB 22 页 PDF
侵权投诉
51CTO2025年DeepSeek入门宝典-技术解析篇22页
51CTO2025年DeepSeek入门宝典-技术解析篇22页
51CTO2025年DeepSeek入门宝典-技术解析篇22页
摘要:

DeepSeek是什么?•DeepSeek 是什么?•DeepSeek R1的三大特点•使用DeepSeek的五种方式对比DeepSeek 是什么? •DeepSeek是幻方量化于2023年创立的大模型子公司,创始人为梁文锋•2024年1月5日,其发布第一个同名AI大模型 DeepSeek LLM•2025年1月20日,DeepSeek R1正式发布,为对标 OpenAI o1正式版的高性能推理模型; R1上线后火速出圈,其应用创造了全球 APP 历史上增长最快的记录 图片来源:AI产品榜图片来源:DeepSeek官网推理表现媲美OpenAI o1正式版R1开源,并公开训练技术,允许开发者访问和学习R1开发成本仅为OpenAI o1的2%左右图注:DeepSeek与OpenAI各版本的准确率对比(图片来源:DeepSeek官网)DeepSeek R1的三大特点高性能开源低成本使用DeepSeek的五种方式对比普通用户作为生产力工具及技术尝鲜https://chat.deepseek.com/开发者、企业用户保障访问稳定性和可扩展性https://deepseekapi.io/可借助Ollama、vLLM 和 MNN等工具硅基流动、腾讯云、阿里云等https://chat.deepseek.com/官网APPAPI本地部署云平台DeepSeek R1核心技术揭秘•R1的基座模型——V3•R1的三种变体•R1训练的技术路径•R1的核心技术解析•R1的关键技术贡献R1的基座模型:V3V3模型的特征•V3是去年12月发布的自研 MoE 模型•参数与GPT-4大致在同一数量级: V3 有671B 参数,每个Token的计算激活约37B•在 14.8T token 上进行了预训练R1在DeepSeek V3基础上进行了开发图注:DeepSeek V3与发布时其他主流大模型的准确率对比(图片来源:DeepSeek官网)•V3:对标GPT-4o ,通过指令微调和偏好微调提升性能•R1:专注于推理能力R1的三种变体DeepSeek V3R1-ZeroR1DeepSeek-R1-Distill基座模型变体 1变体2变体3直接强化学习训练多阶段渐进训练模型蒸馏R1训练的技术路径原图作者:Sebastian RaschkaR1的核心技术解析:强化学习图片来源:《基于场景动力学和强化

展开>> 收起<<
51CTO2025年DeepSeek入门宝典-技术解析篇22页

共 22 页,预览3页

还剩19页未读, 继续阅读

51CTO2025年DeepSeek入门宝典-技术解析篇22页
51CTO2025年DeepSeek入门宝典-技术解析篇22页
51CTO2025年DeepSeek入门宝典-技术解析篇22页
声明:企商查报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
作者: 分类:机构报告 属性:22 页 大小:2129 KB 格式:PDF 时间:2025-05-13

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 3
客服
关注