孟令公-大模型在得物部署优化实践

3.0 2025-08-16 775 17 9007 KB 52 页 VIP免费 PDF

侵权投诉

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

17 人已下载

立即下载

摘要：

大模型在得物部署优化实践孟令公 | 得物孟令公得物机器学习高级专家得物机器学习高级专家，算法工程方向，主要负责得物算法平台的相关研发工作。在得物从0到1打造通用大模型训练和推理平台。曾就职于腾讯，阿里等多家互联网大厂。2022年加入得物，专注于大模型相关技术，包括推理加速与各应用场景落地。目录CONTENTSI.背景II.如何设计高性能的大模型推理引擎III.通用大模型性能优化之路解决显存碎片问题，大幅提升吞吐—Paged Attention缓存之前请求的计算结果，减少重复计算—Radix Attention请求分块处理，避免单个请求卡顿—Chunked Prefill使用多卡推理，推理速度翻倍小模型推理+大模型验证—推测解码IV. DeepSeek性能优化DeepSeek：专家并行 VS Tensor并行DeepSeek：MTP与推测解码DeepSeek: 单机部署与双机部署V. 得物大模型训练推理平台得物大模型训练推理平台：一键发起微调训练与推理部署得物大模型训练推理平台：多lora部署方式Vi. 总结与展望Deepseek-r1等大模型的火爆标志着本地部署大模型的需求日益增长。我们将探讨如何优化本地部署大模型的性能，并结合我们的实践进行评测分析。同时，我们还将分享如何在本地高效部署完整版本的Deepseek-r1大模型。优化方法大多来源于开源社区，但我们希望大家能更多关注这些优化背后的思路。背景吞吐量•传统上，我们用每秒请求数（QPS）来衡量吞吐量，即系统每秒能够处理多少请求。•大模型有一个重要指标——每秒Token数（tokens/s），它反映了系统每秒能处理的输入或输出Token数量。响应时间•系统处理每个请求所需的时间。•大模型有一个指标——首个Token到达时间（TTFT: Time To First Token），即从开始处理请求到输出第一个Token所需的时间。背景大模型推理性能的两个关键指标性能足够高•CPU与GPU分离设计扩展性好•模块高内聚低耦合如何设计高性能的大模型推理引擎1.在传统的Python多线程环境中，CPU密集型任务与GPU任务会争夺GIL，导致GPU利用率低和高并发场景下响应速度差。2.CPU与GPU分离解决了Python中全局解释器锁（GIL）带来的性能瓶颈问题。3.通过分离CPU与GPU，避免了GI

展开>> 收起<<

孟令公-大模型在得物部署优化实践

共 52 页,预览5页

还剩47页未读，继续阅读