百川智能-预训练数据策略的探索与实践

3.0 2025-05-09 18 0 5252 KB 36 页 PDF
侵权投诉
百川智能-预训练数据策略的探索与实践
百川智能-预训练数据策略的探索与实践
百川智能-预训练数据策略的探索与实践
百川智能-预训练数据策略的探索与实践
百川智能-预训练数据策略的探索与实践
摘要:

预训练数据策略的探索与实践演讲⼈:张宇鹏百川智能 / 预训练数据策略负责⼈0102030405⽬录数据质量数据配⽐代码数据数据合成Take away数据质量01Why data quality import? - Llama vs Phi训练数据量对⽐llama-系列对⽐ phi-系列得益于数据质量的不断探索和优化,Phi系列模型在总计算FLOPS 不到Llama系列1/10 的条件下,达到了更好的模型效果Why data quality import? - Llama vs Phi训练数据量对⽐llama-系列对⽐ phi-系列得益于数据质量的不断探索和优化,Phi系列模型在总计算FLOPS 不到Llama系列1/10 的条件下,达到了更好的模型效果Densing law of LLMsXiao, C., Cai, J., Zhao, W., Zeng, G., Lin, B., Zhou, J., Han, X., Liu, Z., & Sun, M. (2024). Densing Law of LLMs•平均每3.3个⽉就可以⽤⼀半参数的模型达到相同的效果•llama3.3 70b = llama 3.1 405b•Gemini 2.0 Flash > Gemini 1.5 proopen pretrain dataset少量⾼质量精选数据•fineweb-edu 只⽤1/10 的数据量 就能达到 C4 or dolma 训练全量的结果•DCLM baseline 训练2.6T ⼏乎和llama3 8b训练15T数据 指标相当data pipelineDedupilcation-why?•互联⽹内存在⼤量的重复内容,镜像站点、模板化⻚⾯或以不同域名和⽹⻚上重复的内容;•很多研究证明去重可以提升模型的性能,减少预训练数据记忆,有助于更好的泛化能⼒;•提⾼训练效率,删除重复内容,模型可以在更少的训练迭代中达到相同的性能⽔平。•很多⼚商往往追求激进的去重⽅案、更⾼的去重率,往往在90%以上的去重率Deduplicating Training Data Makes Language Models Better, K. Lee, D. Ippolito, A. Nystrom, C. Zhang, D. Eck, C. Callison-Burch, N. Carli

展开>> 收起<<
百川智能-预训练数据策略的探索与实践

共 36 页,预览3页

还剩33页未读, 继续阅读

声明:企商查报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
作者: 分类: 属性:36 页 大小:5252 KB 格式:PDF 时间:2025-05-09

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 3
客服
关注