国产适配:异构算力管理与成本优化




国产适配:异构算力管理与成本优化主讲人:吴伟-腾讯专有云PaaS平台TencentTCS1、趋势与挑战2、TencentTCS异构算力管理平台解决方案3、成功案例算力短缺的背景下,加速芯片类型呈现出多元化的趋势《中国半年度加速计算市场(2024下半年)跟踪》报告,2025年3月,https://www.idc.com/getdoc.jsp?containerId=prCHC53286125Ø2024年中国加速服务器市场规模达到221亿美元,同比2023年增长134%。Ø到2029年将超过千亿美元,其中非GPU服务器市场规模将接近50%。Ø2024年,中国加速芯片的市场规模增长迅速,超过270万张。从技术角度来看,GPU卡占据70%的市场份额。Ø注:2022年中国加速芯片出货量约为109万张,其中英伟达市场份额约为85%。如何高效管理和调度这些异构算力资源如何高效管理和调度这些异构算力资源,同时保持成本控制与业务增长之间的平衡,成为企业亟待解决的关键问题。Ø成本高昂、供应不稳,需求激增,这三点勾勒出了中国AI算力的整体发展背景。Ø大多数AI加速芯片厂商还无法实现规模化出货,更多是以参与混合型算力的方式,加入到企业AI集群的建设当中。由此,异构算力开始成为企业和数据中心新的需求。算力资源分散难以统一管理缺乏智能化监控运维及故障自愈能力复杂的资源配置和调度资源利用率低下导致成本飙升主要挑战如何提升AI场景的硬件故障运维效率2024年7月23日,Meta发布了当时最强大的开源模型Llama 3.1 405B,在其发布的论文中提到:Ø为期54天训练,发生了419次非预期中断,其中58.7%中断是GPU相关的故障,严重影响训练效率和模型性能。Ø除了3次人工处理介入,其他故障全部实现自动化处理。对AI场景的硬件稳定性和故障管理上需要投入更多关注,故障的自动处理至关重要《The Llama 3 Herd of Models》•Approximately 78% of the unexpected interruptions are attributed to confirmed•hardware issues, such as GPU or host component failures, or suspected hardware-related issues like sile
相关推荐
-
2025-05-13 19936
-
2025-05-15 19943
-
2025-05-13 19951
-
2025-05-15 17941
-
2025-05-13 19833
-
2025-05-14 19537
-
2025-05-14 18531
-
2025-05-15 18934
-
2025-06-05 465
-
2025-06-05 301
相关内容
-
甲子光年2025年DeepSeeK开启AI算法变革元年报告16页
分类:机构报告
时间:2025-05-13
标签:
格式:PDF
-
新战略咨询2024移动机器人AGV_AMR专用激光雷达产品发展蓝皮书31页
分类:机构报告
时间:2025-05-15
标签:
格式:PDF
-
鼎帷咨询2025年DeepSeek战略创新分析报告-围绕DeepSeek尖刀点加速打造AI产业刀锋链39页
分类:机构报告
时间:2025-05-13
标签:
格式:PDF
-
少年商学院2025年DeepSeek中小学生使用手册81页
分类:机构报告
时间:2025-05-13
标签:
格式:PDF
-
英普利集团2025企业出海白皮书中东篇精编版39页
分类:机构报告
时间:2025-05-14
标签:
格式:PDF
-
火山引擎2024火山引擎视频云实践精选集224页
分类:机构报告
时间:2025-05-15
标签:
格式:PDF
-
曼昆律所2024年Web3.0区块链项目出海法律白皮书71页
分类:机构报告
时间:2025-05-14
标签:
格式:PDF
-
CyberRobo2024全球人形机器人产品数据库报告-人形机器人洞察研究BTIResearch99页
分类:机构报告
时间:2025-05-15
标签:
格式:PDF
-
2025泡泡玛特POP MART品牌手册
分类:
时间:2025-06-21
标签:
格式:PDF
-
海南自由贸易港重点产业人才需求目录
分类:
时间:2025-07-09
标签:
格式:PDF