王全东-SUBLLM新架构文本下采样机制革新大语言模型效率

3.0 2025-05-10 56 0 5719 KB 48 页 PDF
侵权投诉
王全东-SUBLLM新架构文本下采样机制革新大语言模型效率
王全东-SUBLLM新架构文本下采样机制革新大语言模型效率
王全东-SUBLLM新架构文本下采样机制革新大语言模型效率
王全东-SUBLLM新架构文本下采样机制革新大语言模型效率
王全东-SUBLLM新架构文本下采样机制革新大语言模型效率
摘要:

SUBLLM新架构:文本下采样机制革新大语言模型效率王全东 小米大模型团队演讲嘉宾王全东小米大模型团队 大模型高级算法工程师中国科学院声学研究所博士、美国佐治亚理工访问学者、中科院认证高级工程师,长期从事大语言模型、多模态、语音识别等领域研究,曾获多项顶会竞赛冠亚军奖项,已发表顶会论文十余篇,拥有专列多项。深度参与了小米自研大模型从0到1的研发过程,荣获2024年度CCF计算机应用创新技术一等奖。近期和DanielPovey等提出SUBLLM新架构,被量子位等科技媒体报道。目 录CONTENTS1.长文本模型的技术挑战2.SUBLLM架构3.主要实验结果4.分析与讨论5.总结与展望长文本模型的技术挑战PART 01长文本模型的技术挑战长文本需求旺盛多人会议摘要行业报告新闻摘要学术论文分析长文写作长篇翻译…长文本模型的技术挑战长文本模型结构:Decoder only Transformer结构:Llama 类似结构,attention的平方复杂度, by Meta, 2023长文本模型的技术挑战8k窗长32K窗长200K窗长1M窗长2~15Ttokens5~10B tokens5~10B tokens5~10B tokens训练成本高:attention的平方复杂度主要优化点长文本模型的技术挑战模型窗长扩展方法:数据方向,训练成本不高1. Data Engineering for Scaling Language Models to 128K Context长文本模型的技术挑战模型窗长扩展方法:位置编码方向,训练成本不高2. YaRN: Efficient Context Window Extension of Large Language ModelsNTK-by-parts + 温度控制长文本模型的技术挑战模型窗长扩展方法:位置编码方向,训练成本不高3. PoSE: Efficient Context Window Extension of LLMs via Positional Skip-wise Training长文本模型的技术挑战8k窗长32K窗长200K窗长1M窗长2~15Ttokens5~10B tokens5~10B tokens5~10B tokens训练成本主要在8k预训练阶段:attention的平方复杂度主要优化点长文本模型的技术挑战Dec

展开>> 收起<<
王全东-SUBLLM新架构文本下采样机制革新大语言模型效率

共 48 页,预览3页

还剩45页未读, 继续阅读

声明:企商查报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
作者: 分类: 属性:48 页 大小:5719 KB 格式:PDF 时间:2025-05-10

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 3
客服
关注