汤文君-GenAI时代从容应对数据驱动的AI带来的IO挑战






GenAI时代,从容应对数据驱动的AI带来的I/O挑战演讲人:汤文军Alluxio 资深架构师010203040目录AI 所带来的的IO挑战IO挑战的解决思路——Alluxio介绍Alluxio 技术架构典型应用场景LLM 性能受算力、数据规模和参数驱动=>I/O 变得至关重要Scaling Law:大语言模型(LLM)训练的性能受到训练过程中不断增长的 token 数量、模型检查点(checkpoint) 大小的驱动。*来源: OpenAI: Scaling Laws for Neural Language Models: https://arxiv.org/pdf/2001.08361.pdfToken 呈指数级增长=>访问数据集需要更快的I/OLLM 训练需要大量数据(数十亿至 15 万亿 token)。随着模型扩容,需要更快、更高效的 I/O 来应对数据集的快速增长。来源: Will we run out of data? Limits of LLM scaling based on human-generated data: https://arxiv.org/pdf/2211.04325*图:人工生成公共文本的有效存量以及用于知名大语言模型训练的数据集规模的预测模型规模呈指数级增长 => 更快的Checkpointing大模型的规模从 7B 到1T不等随着大模型参数的增多,为避免训练进度丢失,训练过程中进行频繁的 checkpointing 十分关键要高效管理和存储checkpoint,确保模型更新不会成为训练速度的瓶颈,I/O 性能至关重要来源:*HuggingFace: https://huggingface.co/blog/large-language-models**Meta: https://www.youtube.com/watch?v=ELIcy6flgQI*图: LLM 模型规模逐年增长情况 *图: 训练作业故障 面向 AI 的数据编排平台Alluxio 数据平台架构高性能的数据访问全局数据访问Alluxio 数据平台云本地混合云跨云统一的全局视图AI/ML框架分布式缓存数据管理DevOps能力性能和可扩展性企业安全与合规Alluxio AI 模型训练场景2-8x 数据访问速度提升集训可扩展性高、训练任务容错性高模型迭代更高
相关推荐
相关内容
-
腾讯云中国信通院中国通信标准化协会2024年AI大模型应用发展研究报告58页
分类:
时间:2025-05-09
标签:
格式:PDF
-
利用智能视觉组件简化嵌入式视觉开发
分类:
时间:2025-05-09
标签:
格式:PDF
-
俄勒冈州交通规划在快速变化和不确定的时代利用情景规划的案例研究
分类:
时间:2025-05-09
标签:
格式:PDF
-
SiCMOSFET技术进展与发展方向
分类:
时间:2025-05-09
标签:
格式:PDF
-
康嘉种业-每一头猪都代表着康嘉人的尊严
分类:
时间:2025-05-09
标签:
格式:PDF
-
汽车行业周报小米SU7Ultra正式发布Helix带动Figure效率跃升-25030118页
分类:
时间:2025-05-09
标签:
格式:PDF
-
杨昕-AI驱动抖音用户体验中台探索与实践
分类:
时间:2025-05-10
标签:
格式:PDF
-
跨国的AI采用者的肖像公司特征资产的互补性和生产力
分类:
时间:2025-05-10
标签:
格式:PDF
-
OrChechikandDanielFrank-从侦察到毁灭揭露伊朗AgriusAPT最新TTPs
分类:
时间:2025-05-10
标签:
格式:PDF
-
爱立信混合工作模式调查结果
分类:
时间:2025-05-10
标签:
格式:PDF