弹性AI构建容错AI系统






Dan RabinovitsjVP, Engineering MetaResilient AIBuilding Fault-Tolerant AI SystemsArtificial intelligence (AI) is having quite a momentAI-enabled creation toolsText-to-image generationA hedgehog playing chessLarge Language Models(LLMs)Llama 3.1Source: Meta for Business. 'Culture Rising: 2023 Trends Report.' 2023. pushed our model training tonew heights, leveraging a significantly optimized full training stack16K H100 GPUsused to train Llama 3.1 405B>15T tokensTRAINED AT UNPRECEDENTED SCALEThe Challenge of Scale: Llama 3’s Infrastructure6K clustersJob size: 128-512 GPUs202216-24K clustersJob size: 16K GPUs2023AI jobs at scale: massive change in 2023AI jobs at scale: TodaySoftware InfraPhysical InfrastructureLlama2024Training @ Scale is Not Linear! Not scaling linearlyThroughput# of GPUsOne Small StepInterruptions302010025k50k75k100k250k500k750k1 millionInterruptions per HourNumber of GPUsMore GPUsequalsMore FailuresRoadmap to Resilient AI: Metrics Driven OutcomesEffective Training TimeE2
相关推荐
相关内容
-
腾讯云中国信通院中国通信标准化协会2024年AI大模型应用发展研究报告58页
分类:
时间:2025-05-09
标签:
格式:PDF
-
利用智能视觉组件简化嵌入式视觉开发
分类:
时间:2025-05-09
标签:
格式:PDF
-
俄勒冈州交通规划在快速变化和不确定的时代利用情景规划的案例研究
分类:
时间:2025-05-09
标签:
格式:PDF
-
SiCMOSFET技术进展与发展方向
分类:
时间:2025-05-09
标签:
格式:PDF
-
康嘉种业-每一头猪都代表着康嘉人的尊严
分类:
时间:2025-05-09
标签:
格式:PDF
-
汽车行业周报小米SU7Ultra正式发布Helix带动Figure效率跃升-25030118页
分类:
时间:2025-05-09
标签:
格式:PDF
-
杨昕-AI驱动抖音用户体验中台探索与实践
分类:
时间:2025-05-10
标签:
格式:PDF
-
跨国的AI采用者的肖像公司特征资产的互补性和生产力
分类:
时间:2025-05-10
标签:
格式:PDF
-
OrChechikandDanielFrank-从侦察到毁灭揭露伊朗AgriusAPT最新TTPs
分类:
时间:2025-05-10
标签:
格式:PDF
-
爱立信混合工作模式调查结果
分类:
时间:2025-05-10
标签:
格式:PDF