王全东-SUBLLM新架构文本下采样机制革新大语言模型效率






SUBLLM新架构:文本下采样机制革新大语言模型效率王全东 小米大模型团队演讲嘉宾王全东小米大模型团队 大模型高级算法工程师中国科学院声学研究所博士、美国佐治亚理工访问学者、中科院认证高级工程师,长期从事大语言模型、多模态、语音识别等领域研究,曾获多项顶会竞赛冠亚军奖项,已发表顶会论文十余篇,拥有专列多项。深度参与了小米自研大模型从0到1的研发过程,荣获2024年度CCF计算机应用创新技术一等奖。近期和DanielPovey等提出SUBLLM新架构,被量子位等科技媒体报道。目 录CONTENTS1.长文本模型的技术挑战2.SUBLLM架构3.主要实验结果4.分析与讨论5.总结与展望长文本模型的技术挑战PART 01长文本模型的技术挑战长文本需求旺盛多人会议摘要行业报告新闻摘要学术论文分析长文写作长篇翻译…长文本模型的技术挑战长文本模型结构:Decoder only Transformer结构:Llama 类似结构,attention的平方复杂度, by Meta, 2023长文本模型的技术挑战8k窗长32K窗长200K窗长1M窗长2~15Ttokens5~10B tokens5~10B tokens5~10B tokens训练成本高:attention的平方复杂度主要优化点长文本模型的技术挑战模型窗长扩展方法:数据方向,训练成本不高1. Data Engineering for Scaling Language Models to 128K Context长文本模型的技术挑战模型窗长扩展方法:位置编码方向,训练成本不高2. YaRN: Efficient Context Window Extension of Large Language ModelsNTK-by-parts + 温度控制长文本模型的技术挑战模型窗长扩展方法:位置编码方向,训练成本不高3. PoSE: Efficient Context Window Extension of LLMs via Positional Skip-wise Training长文本模型的技术挑战8k窗长32K窗长200K窗长1M窗长2~15Ttokens5~10B tokens5~10B tokens5~10B tokens训练成本主要在8k预训练阶段:attention的平方复杂度主要优化点长文本模型的技术挑战Dec
相关推荐
相关内容
-
腾讯云中国信通院中国通信标准化协会2024年AI大模型应用发展研究报告58页
分类:
时间:2025-05-09
标签:
格式:PDF
-
利用智能视觉组件简化嵌入式视觉开发
分类:
时间:2025-05-09
标签:
格式:PDF
-
俄勒冈州交通规划在快速变化和不确定的时代利用情景规划的案例研究
分类:
时间:2025-05-09
标签:
格式:PDF
-
SiCMOSFET技术进展与发展方向
分类:
时间:2025-05-09
标签:
格式:PDF
-
康嘉种业-每一头猪都代表着康嘉人的尊严
分类:
时间:2025-05-09
标签:
格式:PDF
-
汽车行业周报小米SU7Ultra正式发布Helix带动Figure效率跃升-25030118页
分类:
时间:2025-05-09
标签:
格式:PDF
-
杨昕-AI驱动抖音用户体验中台探索与实践
分类:
时间:2025-05-10
标签:
格式:PDF
-
跨国的AI采用者的肖像公司特征资产的互补性和生产力
分类:
时间:2025-05-10
标签:
格式:PDF
-
OrChechikandDanielFrank-从侦察到毁灭揭露伊朗AgriusAPT最新TTPs
分类:
时间:2025-05-10
标签:
格式:PDF
-
爱立信混合工作模式调查结果
分类:
时间:2025-05-10
标签:
格式:PDF