蒋菁菁-企业级云原生机器学习平台GPU资源效能提升实践

3.0 2025-05-10 69 0 5720 KB 34 页 PDF
侵权投诉
蒋菁菁-企业级云原生机器学习平台GPU资源效能提升实践
蒋菁菁-企业级云原生机器学习平台GPU资源效能提升实践
蒋菁菁-企业级云原生机器学习平台GPU资源效能提升实践
蒋菁菁-企业级云原生机器学习平台GPU资源效能提升实践
蒋菁菁-企业级云原生机器学习平台GPU资源效能提升实践
摘要:

例:支撑海量数据的大数据平台与架构 例:茹炳晟例:腾讯Tech Lead,腾讯研究院特约研究员正文要求: 微软雅黑 :最小字号 8号 宋体 :最小字号 10号 等线:最小字号 12号企业级云原生机器学习平台GPU资源效能提升实践 蒋菁菁eBay高级技术专家蒋菁菁eBay高级技术专家在机器学习平台领域有丰富的工作经验。2018年加入eBay机器学习平台,参与并负责了eBay机器学习模型训练平台分布式训练功能支持、用户权限管理系统、多集群管理等项目的设计和开发,对模型训练平台有丰富的设计开发经验。对数据平台及其接入有实战经验和深入了解。目前负责训练及推理平台GPU资源利用的优化工作。CONTENTS目录1.背景介绍2.GPU资源利用率的问题与挑战3.提高GPU资源利用率的解决策略4.成果与案例分析5.结论与展望背景介绍昂贵的GPUNvidia B100: $30,000-35,000GPU资源在机器学习中的重要性海量数据算力算法AI模型推理请求推理结果AI平台-MLOps生命周期GPU利用率的问题与挑战GPU资源利用率低下的概况利用率共享部门1部门2离线资源池离线在线利用率中低工作类型主要影响因素分析流水型作业探索实验型利用率离线工作类型利用率时间探索型使用模式闲置的探索型作业降低利用率主要影响因素分析共享部门1部门2隔离的资源池降低利用率离线资源池在线资源池主要影响因素分析固定GPU实例数的在线部署降低利用率利用率时间TPS时间在线部署GPU实例数对企业的影响•资源浪费•分配不均–总体GPU有空闲,但个别部门的GPU业务要等待•效率低下提高GPU利用率的解决策略业务混部策略Global GPU SchedulerOnline production SLA pool (HA model serving)Autoscaling based on site trafficFree GPUs in poolOffline pool (batch inference, training)High priority batch workloadsPreemptible workloadsFree GPUs allocated to preemptible workloadsSuper pod (foundation model training)WIP策略说明

展开>> 收起<<
蒋菁菁-企业级云原生机器学习平台GPU资源效能提升实践

共 34 页,预览3页

还剩31页未读, 继续阅读

声明:企商查报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
作者: 分类: 属性:34 页 大小:5720 KB 格式:PDF 时间:2025-05-10

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 3
客服
关注