百川智能-预训练数据策略的探索与实践






预训练数据策略的探索与实践演讲⼈:张宇鹏百川智能 / 预训练数据策略负责⼈0102030405⽬录数据质量数据配⽐代码数据数据合成Take away数据质量01Why data quality import? - Llama vs Phi训练数据量对⽐llama-系列对⽐ phi-系列得益于数据质量的不断探索和优化,Phi系列模型在总计算FLOPS 不到Llama系列1/10 的条件下,达到了更好的模型效果Why data quality import? - Llama vs Phi训练数据量对⽐llama-系列对⽐ phi-系列得益于数据质量的不断探索和优化,Phi系列模型在总计算FLOPS 不到Llama系列1/10 的条件下,达到了更好的模型效果Densing law of LLMsXiao, C., Cai, J., Zhao, W., Zeng, G., Lin, B., Zhou, J., Han, X., Liu, Z., & Sun, M. (2024). Densing Law of LLMs•平均每3.3个⽉就可以⽤⼀半参数的模型达到相同的效果•llama3.3 70b = llama 3.1 405b•Gemini 2.0 Flash > Gemini 1.5 proopen pretrain dataset少量⾼质量精选数据•fineweb-edu 只⽤1/10 的数据量 就能达到 C4 or dolma 训练全量的结果•DCLM baseline 训练2.6T ⼏乎和llama3 8b训练15T数据 指标相当data pipelineDedupilcation-why?•互联⽹内存在⼤量的重复内容,镜像站点、模板化⻚⾯或以不同域名和⽹⻚上重复的内容;•很多研究证明去重可以提升模型的性能,减少预训练数据记忆,有助于更好的泛化能⼒;•提⾼训练效率,删除重复内容,模型可以在更少的训练迭代中达到相同的性能⽔平。•很多⼚商往往追求激进的去重⽅案、更⾼的去重率,往往在90%以上的去重率Deduplicating Training Data Makes Language Models Better, K. Lee, D. Ippolito, A. Nystrom, C. Zhang, D. Eck, C. Callison-Burch, N. Carli
相关推荐
相关内容
-
腾讯云中国信通院中国通信标准化协会2024年AI大模型应用发展研究报告58页
分类:
时间:2025-05-09
标签:
格式:PDF
-
利用智能视觉组件简化嵌入式视觉开发
分类:
时间:2025-05-09
标签:
格式:PDF
-
俄勒冈州交通规划在快速变化和不确定的时代利用情景规划的案例研究
分类:
时间:2025-05-09
标签:
格式:PDF
-
SiCMOSFET技术进展与发展方向
分类:
时间:2025-05-09
标签:
格式:PDF
-
康嘉种业-每一头猪都代表着康嘉人的尊严
分类:
时间:2025-05-09
标签:
格式:PDF
-
汽车行业周报小米SU7Ultra正式发布Helix带动Figure效率跃升-25030118页
分类:
时间:2025-05-09
标签:
格式:PDF
-
杨昕-AI驱动抖音用户体验中台探索与实践
分类:
时间:2025-05-10
标签:
格式:PDF
-
跨国的AI采用者的肖像公司特征资产的互补性和生产力
分类:
时间:2025-05-10
标签:
格式:PDF
-
OrChechikandDanielFrank-从侦察到毁灭揭露伊朗AgriusAPT最新TTPs
分类:
时间:2025-05-10
标签:
格式:PDF
-
爱立信混合工作模式调查结果
分类:
时间:2025-05-10
标签:
格式:PDF