蒋菁菁-企业级云原生机器学习平台GPU资源效能提升实践






例:支撑海量数据的大数据平台与架构 例:茹炳晟例:腾讯Tech Lead,腾讯研究院特约研究员正文要求: 微软雅黑 :最小字号 8号 宋体 :最小字号 10号 等线:最小字号 12号企业级云原生机器学习平台GPU资源效能提升实践 蒋菁菁eBay高级技术专家蒋菁菁eBay高级技术专家在机器学习平台领域有丰富的工作经验。2018年加入eBay机器学习平台,参与并负责了eBay机器学习模型训练平台分布式训练功能支持、用户权限管理系统、多集群管理等项目的设计和开发,对模型训练平台有丰富的设计开发经验。对数据平台及其接入有实战经验和深入了解。目前负责训练及推理平台GPU资源利用的优化工作。CONTENTS目录1.背景介绍2.GPU资源利用率的问题与挑战3.提高GPU资源利用率的解决策略4.成果与案例分析5.结论与展望背景介绍昂贵的GPUNvidia B100: $30,000-35,000GPU资源在机器学习中的重要性海量数据算力算法AI模型推理请求推理结果AI平台-MLOps生命周期GPU利用率的问题与挑战GPU资源利用率低下的概况利用率共享部门1部门2离线资源池离线在线利用率中低工作类型主要影响因素分析流水型作业探索实验型利用率离线工作类型利用率时间探索型使用模式闲置的探索型作业降低利用率主要影响因素分析共享部门1部门2隔离的资源池降低利用率离线资源池在线资源池主要影响因素分析固定GPU实例数的在线部署降低利用率利用率时间TPS时间在线部署GPU实例数对企业的影响•资源浪费•分配不均–总体GPU有空闲,但个别部门的GPU业务要等待•效率低下提高GPU利用率的解决策略业务混部策略Global GPU SchedulerOnline production SLA pool (HA model serving)Autoscaling based on site trafficFree GPUs in poolOffline pool (batch inference, training)High priority batch workloadsPreemptible workloadsFree GPUs allocated to preemptible workloadsSuper pod (foundation model training)WIP策略说明
相关推荐
相关内容
-
腾讯云中国信通院中国通信标准化协会2024年AI大模型应用发展研究报告58页
分类:
时间:2025-05-09
标签:
格式:PDF
-
利用智能视觉组件简化嵌入式视觉开发
分类:
时间:2025-05-09
标签:
格式:PDF
-
俄勒冈州交通规划在快速变化和不确定的时代利用情景规划的案例研究
分类:
时间:2025-05-09
标签:
格式:PDF
-
SiCMOSFET技术进展与发展方向
分类:
时间:2025-05-09
标签:
格式:PDF
-
康嘉种业-每一头猪都代表着康嘉人的尊严
分类:
时间:2025-05-09
标签:
格式:PDF
-
汽车行业周报小米SU7Ultra正式发布Helix带动Figure效率跃升-25030118页
分类:
时间:2025-05-09
标签:
格式:PDF
-
杨昕-AI驱动抖音用户体验中台探索与实践
分类:
时间:2025-05-10
标签:
格式:PDF
-
跨国的AI采用者的肖像公司特征资产的互补性和生产力
分类:
时间:2025-05-10
标签:
格式:PDF
-
OrChechikandDanielFrank-从侦察到毁灭揭露伊朗AgriusAPT最新TTPs
分类:
时间:2025-05-10
标签:
格式:PDF
-
爱立信混合工作模式调查结果
分类:
时间:2025-05-10
标签:
格式:PDF