孟令公-大模型在得物部署优化实践






大模型在得物部署优化实践孟令公 | 得物孟令公得物 机器学习高级专家得物机器学习高级专家,算法工程方向,主要负责得物算法平台的相关研发工作。在得物从0到1打造通用大模型训练和推理平台。曾就职于腾讯,阿里等多家互联网大厂。2022年加入得物,专注于大模型相关技术,包括推理加速与各应用场景落地。目 录CONTENTSI.背景II.如何设计高性能的大模型推理引擎III.通用大模型性能优化之路解决显存碎片问题,大幅提升吞吐—Paged Attention缓存之前请求的计算结果,减少重复计算—Radix Attention请求分块处理,避免单个请求卡顿—Chunked Prefill使用多卡推理,推理速度翻倍小模型推理+大模型验证—推测解码IV. DeepSeek性能优化DeepSeek:专家并行 VS Tensor并行DeepSeek:MTP与推测解码DeepSeek: 单机部署与双机部署V. 得物大模型训练推理平台得物大模型训练推理平台:一键发起微调训练与推理部署得物大模型训练推理平台:多lora部署方式Vi. 总结与展望Deepseek-r1等大模型的火爆标志着本地部署大模型的需求日益增长。我们将探讨如何优化本地部署大模型的性能,并结合我们的实践进行评测分析。同时,我们还将分享如何在本地高效部署完整版本的Deepseek-r1大模型。优化方法大多来源于开源社区,但我们希望大家能更多关注这些优化背后的思路。背景吞吐量•传统上,我们用每秒请求数(QPS)来衡量吞吐量,即系统每秒能够处理多少请求。•大模型有一个重要指标——每秒Token数(tokens/s),它反映了系统每秒能处理的输入或输出Token数量。响应时间•系统处理每个请求所需的时间。•大模型有一个指标——首个Token到达时间(TTFT: Time To First Token),即从开始处理请求到输出第一个Token所需的时间。背景大模型推理性能的两个关键指标性能足够高•CPU与GPU分离设计扩展性好•模块高内聚低耦合如何设计高性能的大模型推理引擎1.在传统的Python多线程环境中,CPU密集型任务与GPU任务会争夺GIL,导致GPU利用率低和高并发场景下响应速度差。2.CPU与GPU分离解决了Python中全局解释器锁(GIL)带来的性能瓶颈问题。3.通过分离CPU与GPU,避免了GI
相关推荐
-
2025-05-13 19940
-
2025-05-15 19947
-
2025-05-13 19955
-
2025-05-15 17949
-
2025-05-13 19839
-
2025-05-14 19541
-
2025-05-14 18533
-
2025-05-15 18939
-
2025-06-05 472
-
2025-06-05 307
相关内容
-
甲子光年2025年DeepSeeK开启AI算法变革元年报告16页
分类:机构报告
时间:2025-05-13
标签:
格式:PDF
-
新战略咨询2024移动机器人AGV_AMR专用激光雷达产品发展蓝皮书31页
分类:机构报告
时间:2025-05-15
标签:
格式:PDF
-
鼎帷咨询2025年DeepSeek战略创新分析报告-围绕DeepSeek尖刀点加速打造AI产业刀锋链39页
分类:机构报告
时间:2025-05-13
标签:
格式:PDF
-
少年商学院2025年DeepSeek中小学生使用手册81页
分类:机构报告
时间:2025-05-13
标签:
格式:PDF
-
英普利集团2025企业出海白皮书中东篇精编版39页
分类:机构报告
时间:2025-05-14
标签:
格式:PDF
-
火山引擎2024火山引擎视频云实践精选集224页
分类:机构报告
时间:2025-05-15
标签:
格式:PDF
-
曼昆律所2024年Web3.0区块链项目出海法律白皮书71页
分类:机构报告
时间:2025-05-14
标签:
格式:PDF
-
CyberRobo2024全球人形机器人产品数据库报告-人形机器人洞察研究BTIResearch99页
分类:机构报告
时间:2025-05-15
标签:
格式:PDF
-
中国购车用户家庭存款洞察报告 (2025版)
分类:
时间:2025-07-11
标签:
格式:PDF
-
2025中国低空经济市场现状报告
分类:
时间:2025-07-11
标签:
格式:PDF