林玥煜-RWKV引领大模型架构变更的新型RNN






RWKV,引领大模型架构变更的新型RNN林玥煜 元始智能演讲嘉宾林玥煜 元始智能算法工程VP原始智能算法工程VP,曾任大数医达科技有限公司算法总监,阿里巴巴数据事业部系统架构师,多年来深耕大数据、人工智能在工业界应用和开发管理。对大语言模型在严肃医疗场景的应用、开发拥有丰富的实战经验。目 录CONTENTS1.RWKV的历史2.RWKV的架构特点3.RWKV的基础模型4.RWKV的落地场景5.RWKV的未来发展方向6.RWKV的评测结果新一代模型架构/超越TransformerRWKV推理速度、内存恒定适合长文本处理、多轮对话等只做矩阵乘矢量,无 KV CacheApache 2.0 协议计算效率高无限上下文对芯片友好全球开源开放项目历史2023.12一个人的开源项目2020年初2022.11RWKV-4 7B模型开源2023.03RWKV-4 14B模型开源2023.05RWKV-4论文公开RWKV-5 7B模型开源种子轮奇绩创坛2024.01RWKV-5和RWKV-6论文公开2024.04RWKV-6 7B 模型开源2024.052023.06成立元始智能2023.08第一个商业客户2023.102023.07RWKV-6代码开源全球开发者超过2万2023.10高通全球合作2024.2第一个toC 端侧应用RWKV要解决的问题⚠Transformer 是死胡同算力需求巨大,Scaling-law 失效RWKV 正引领大模型的架构迁移RWKV 开始于2020 年初,正在研发RWKV-7架构名称作者和论文地址架构版本阶段算法复杂度最大模型参数最大训练TOKENRWKVBo PENGhttps://arxiv.org/abs/2305.13048RWKV-6商用O(N)14 B2.5 T(SlimPajama+pile+全球语言+代码)Mamba CMU,Princetonhttps://arxiv.org/abs/2312.00752接近 RWKV-6发展O(N)6.7 B0.627 T(SlimPajama)Gated Linear AttentionMIThttps://arxiv.org/abs/2312.06635接近 RWKV-6研究O(N)1.3 B0.1 TStriped Hyena Together, Stanfordhttps://arxiv.
相关推荐
相关内容
-
腾讯云中国信通院中国通信标准化协会2024年AI大模型应用发展研究报告58页
分类:
时间:2025-05-09
标签:
格式:PDF
-
利用智能视觉组件简化嵌入式视觉开发
分类:
时间:2025-05-09
标签:
格式:PDF
-
俄勒冈州交通规划在快速变化和不确定的时代利用情景规划的案例研究
分类:
时间:2025-05-09
标签:
格式:PDF
-
SiCMOSFET技术进展与发展方向
分类:
时间:2025-05-09
标签:
格式:PDF
-
康嘉种业-每一头猪都代表着康嘉人的尊严
分类:
时间:2025-05-09
标签:
格式:PDF
-
汽车行业周报小米SU7Ultra正式发布Helix带动Figure效率跃升-25030118页
分类:
时间:2025-05-09
标签:
格式:PDF
-
杨昕-AI驱动抖音用户体验中台探索与实践
分类:
时间:2025-05-10
标签:
格式:PDF
-
跨国的AI采用者的肖像公司特征资产的互补性和生产力
分类:
时间:2025-05-10
标签:
格式:PDF
-
OrChechikandDanielFrank-从侦察到毁灭揭露伊朗AgriusAPT最新TTPs
分类:
时间:2025-05-10
标签:
格式:PDF
-
爱立信混合工作模式调查结果
分类:
时间:2025-05-10
标签:
格式:PDF