车漾-基于开源技术栈构建智能弹性大模型推理服务的架构实践






基于开源技术栈构建智能弹性大模型推理服务的架构实践车漾 | 阿里云车漾阿里云 高级技术专家阿里巴巴云原生应用平台高级技术专家,从事 Kubernetes和容器相关产品的开发,重点探索利用容器技术加速异构计算、深度学习、边缘计算等广泛场景方案的交付与落地,同时是对于开源社区的积极参与者。他是CNCF旗下开源项目Fluid的创始人之一,也是核心维护者。也是业界第一个 GPU共享调度的主要作者和维护者。他还是Alluxio开源项目的管理委员会成员(PMCMember),Kubernetes,Docker和Kubeflow等社区的积极贡献者。目 录CONTENTSI.大模型推理对基础设施服务带来新的挑战II.KNative基于请求数的自动弹性策略III.AHPA优化大模型的智能弹性IV.Fluid:弹性数据集编排和加速V.模型加载优化VI.Demo演示Kubernetes 正成为数字化、智能化应用的云原生基础设施The Data on Kubernetes Community 2022调查报告,90%的受访者认为Kubernetes已经可以很好支持有状态应用,其中70%的受访者已经将其运行在生产环境。IDC预测:到2025年,几乎50%的用于性能密集型计算(如AI、HPC和大数据分析)的加速基础设施将迁移至云端Public CloudEdge ComputingPrivate CloudKubernetes(容器服务 ACK / ACS)Web/mobile applications−Stateless−Idempotent−Horizontal scalableMySQLSparkFlinkElastic-searchKafkaTensor-FlowPyTorchRedisZoo-KeeperData on Kubernetes 2022异构算力ECS, GPU, FPGA, ECI高性能网络VPC, ENI, RDMA, SLB, DNS高性能存储EBS, NAS, CPFS, OSS大模型推理对基础设施服务带来新的挑战•算力:千卡GPU任务,万卡集群•数据:PB级存储,TB级吞吐•网络:800Gbps~3.2Tbps RDMA•训练:分布式,混合并行•推理:模型优化、服务QoS•资源成本:如何充分利用有限计算资源•运维成本:降低复杂度GPT3:175B 参数,单次训练
相关推荐
-
2025-05-13 19940
-
2025-05-15 19947
-
2025-05-13 19955
-
2025-05-15 17949
-
2025-05-13 19839
-
2025-05-14 19541
-
2025-05-14 18533
-
2025-05-15 18939
-
2025-06-05 472
-
2025-06-05 307
相关内容
-
甲子光年2025年DeepSeeK开启AI算法变革元年报告16页
分类:机构报告
时间:2025-05-13
标签:
格式:PDF
-
新战略咨询2024移动机器人AGV_AMR专用激光雷达产品发展蓝皮书31页
分类:机构报告
时间:2025-05-15
标签:
格式:PDF
-
鼎帷咨询2025年DeepSeek战略创新分析报告-围绕DeepSeek尖刀点加速打造AI产业刀锋链39页
分类:机构报告
时间:2025-05-13
标签:
格式:PDF
-
少年商学院2025年DeepSeek中小学生使用手册81页
分类:机构报告
时间:2025-05-13
标签:
格式:PDF
-
英普利集团2025企业出海白皮书中东篇精编版39页
分类:机构报告
时间:2025-05-14
标签:
格式:PDF
-
火山引擎2024火山引擎视频云实践精选集224页
分类:机构报告
时间:2025-05-15
标签:
格式:PDF
-
曼昆律所2024年Web3.0区块链项目出海法律白皮书71页
分类:机构报告
时间:2025-05-14
标签:
格式:PDF
-
CyberRobo2024全球人形机器人产品数据库报告-人形机器人洞察研究BTIResearch99页
分类:机构报告
时间:2025-05-15
标签:
格式:PDF
-
中国购车用户家庭存款洞察报告 (2025版)
分类:
时间:2025-07-11
标签:
格式:PDF
-
2025中国低空经济市场现状报告
分类:
时间:2025-07-11
标签:
格式:PDF