孟令公-大模型在得物部署优化实践

3.0 2025-08-16 775 17 9007 KB 52 页 VIP免费 PDF
侵权投诉
孟令公-大模型在得物部署优化实践
孟令公-大模型在得物部署优化实践
孟令公-大模型在得物部署优化实践
孟令公-大模型在得物部署优化实践
孟令公-大模型在得物部署优化实践
摘要:

大模型在得物部署优化实践孟令公 | 得物孟令公得物 机器学习高级专家得物机器学习高级专家,算法工程方向,主要负责得物算法平台的相关研发工作。在得物从0到1打造通用大模型训练和推理平台。曾就职于腾讯,阿里等多家互联网大厂。2022年加入得物,专注于大模型相关技术,包括推理加速与各应用场景落地。目 录CONTENTSI.背景II.如何设计高性能的大模型推理引擎III.通用大模型性能优化之路解决显存碎片问题,大幅提升吞吐—Paged Attention缓存之前请求的计算结果,减少重复计算—Radix Attention请求分块处理,避免单个请求卡顿—Chunked Prefill使用多卡推理,推理速度翻倍小模型推理+大模型验证—推测解码IV. DeepSeek性能优化DeepSeek:专家并行 VS Tensor并行DeepSeek:MTP与推测解码DeepSeek: 单机部署与双机部署V. 得物大模型训练推理平台得物大模型训练推理平台:一键发起微调训练与推理部署得物大模型训练推理平台:多lora部署方式Vi. 总结与展望Deepseek-r1等大模型的火爆标志着本地部署大模型的需求日益增长。我们将探讨如何优化本地部署大模型的性能,并结合我们的实践进行评测分析。同时,我们还将分享如何在本地高效部署完整版本的Deepseek-r1大模型。优化方法大多来源于开源社区,但我们希望大家能更多关注这些优化背后的思路。背景吞吐量•传统上,我们用每秒请求数(QPS)来衡量吞吐量,即系统每秒能够处理多少请求。•大模型有一个重要指标——每秒Token数(tokens/s),它反映了系统每秒能处理的输入或输出Token数量。响应时间•系统处理每个请求所需的时间。•大模型有一个指标——首个Token到达时间(TTFT: Time To First Token),即从开始处理请求到输出第一个Token所需的时间。背景大模型推理性能的两个关键指标性能足够高•CPU与GPU分离设计扩展性好•模块高内聚低耦合如何设计高性能的大模型推理引擎1.在传统的Python多线程环境中,CPU密集型任务与GPU任务会争夺GIL,导致GPU利用率低和高并发场景下响应速度差。2.CPU与GPU分离解决了Python中全局解释器锁(GIL)带来的性能瓶颈问题。3.通过分离CPU与GPU,避免了GI

展开>> 收起<<
孟令公-大模型在得物部署优化实践

共 52 页,预览5页

还剩47页未读, 继续阅读

孟令公-大模型在得物部署优化实践
孟令公-大模型在得物部署优化实践
孟令公-大模型在得物部署优化实践
孟令公-大模型在得物部署优化实践
孟令公-大模型在得物部署优化实践
声明:企商查报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
属性:52 页 大小:9007 KB 格式:PDF 时间:2025-08-16

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 3
客服
关注