史晓峰-IndustryCorpus2.0-多语种多行业预训练数据与指令数据集构建

3.0 2025-05-10 25 0 11721 KB 43 页 PDF

侵权投诉

史晓峰-IndustryCorpus2.0-多语种多行业预训练数据与指令数据集构建

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

0 人已下载

立即下载

摘要：

例：支撑海量数据的大数据平台与架构例：茹炳晟例：腾讯Tech Lead，腾讯研究院特约研究员正文要求：微软雅黑：最小字号8号宋体：最小字号10号等线：最小字号12号IndustryCorpus2-多行业多语种大模型预训练与指令数据集构建史晓峰北京智源人工智能研究院算法研究专家史晓峰北京智源人工智能研究院，算法研究专家多年算法开发和研究经验，曾在头部互联网公司负责亿级产品的搜索算法的研究和应用，主要方向为搜索和多模态。近年来，专注于大模型领域，主要方向为LLM和LMM的模型行业应用和落地，涉及数据集构建，模型训练，领域适配等相关方向的研究和探索。近期主导构建了全球规模最大的多语种多行业文本预训练数据集IndustryCorpus系列和多行业指令数据集IndustryInstruction。在医疗、教育、金融，汽车等多个领域进行了模型训练和相应开源工作，相关模型和方案已经投稿AAAI，相关数据和模型在推动行业模型应用和落地方面取得了显著成果，不完全统计各数据集在huggingface平台已累计70k+下载量。CONTENTS目录1.IndustryCorpus2预训练数据透视与构建方案2.IndustryInstruction指令数据特点与构建方案3.行业大模型训练与效果分析4.《AI大模型行业数据集全景扫描》解读5.SummaryandQAIndustryCorpus2数据透视与构建方案为什么需要行业数据在当前大模型时代，大模型已经进入第二阶段（产业落地），行业模型在推动智能化转型和创新发展中发挥着至关重要的作用，高质量的行业数据是提升大模型性能和实现行业应用落地的关键。愿景现状数据量少数据质量低行业覆盖少数据量足够大质量足够高覆盖足够多行业数据带来的裨益Ø提升模型性能：行业数据中包含专业的、领域特定的知识和业务流程；Ø帮助实现应用落地：行业数据尤其是高质量的行业数据是大模型实际应用中落地的关键；Ø增强模型适应性：行业数据可以帮助模型适配行业中独有的场景问题或挑战；Ø促进行业创新：推动不同行业场景下的工作模式革新；IndustryCorpus2数据特点q数据磁盘容量：3.2T磁盘存储，其中：中文1Tq行业覆盖广：30个行业类别。通过国家统计局的国民经济行业分类体系和世界知识体系，构建了严谨可靠的行业类目体系。数据规模大，行业覆盖广01数据种类多，开源开放02q数据种类

展开>> 收起<<

史晓峰-IndustryCorpus2.0-多语种多行业预训练数据与指令数据集构建

共 43 页,预览3页

还剩40页未读，继续阅读