冷延鹏-硅谷小模型技术实践及开源社区思考






硅⾕⼩模型技术实践及开源社区思考AFUTURE TOWARDS OPENSOURCE ON-DEVICE AINEXA AI 在做什么?背景与困境终端 AI - 未来已来0.050.0100.0150.020222023202420252026202720282029203020312032ManufacturingAutomotiveGovernmentIT & TelecomConsumers & GoodsHealthcareOther End-Use Industries15.219.123.531.140.249.357.272.088.2111.1143.6Size (USD Billion)Source: Market.us. Edge ai market.Year⾦融法律医疗科研移动设备移动交通⼯业机器⼈基础设施为什么是终端 AI?⾼隐私:不会向外部传输任何敏感数据,从⽽提⾼合规性成本效益:利⽤基于设备的计算能⼒来降低服务器费⽤低延迟:消除服务器通信、即时处理和反馈造成的延迟离线可⽤:⽆需互联⽹连接即可运⾏,在任何地⽅都可靠背景与困境当前挑战Nexa AI 为开发者和企业提供最佳的设备端⼈⼯智能模型、⼯具包和解决⽅案模型没有针对终端设备进⾏优化模型太⼤速度慢且耗电⽆法实现流畅的性能压缩或调整会显着降低本地部署的准确性终端推理的⽀持有限跨设备的⽀持不⼀致 —— 部署变得复杂缺乏硬件加速⽀持 (GPU/NPU) —— 影响速度和效率公司⽬标背景与困境NEXA AI PRODUCTS⾼隐私 · 低成本 · 低延迟NEXA SMALL LANGUAGE MODELS能源利⽤效率提⾼ 70 倍;⽐ RAG+Llama3-8B 快 35 倍;在函数调⽤⽅⾯:仅 0.5B 模型优于 GPT-4oNEXA ON DEVICE MODEL HUB全⾯的量化压缩&开源的设备端 AI 模型库,具有便捷的筛选机制和⼀⾏部署,可帮助开发者实现快速原型设计NEXA SDK⽀持 ONNX 和 GGML 模型的本地设备端推理框架。它⽀持⽂本、图像、⾳频和多模态模型背景与困境我们的产品业界认知在 HuggingFace 的所有模型中位列第⼆在⾕歌 Google I/O 2024 报道背景与困境NEXA SMALL LANGUAGE MODELS能源利⽤效率提⾼ 70 倍;⽐ RAG
相关推荐
相关内容
-
腾讯云中国信通院中国通信标准化协会2024年AI大模型应用发展研究报告58页
分类:
时间:2025-05-09
标签:
格式:PDF
-
利用智能视觉组件简化嵌入式视觉开发
分类:
时间:2025-05-09
标签:
格式:PDF
-
俄勒冈州交通规划在快速变化和不确定的时代利用情景规划的案例研究
分类:
时间:2025-05-09
标签:
格式:PDF
-
SiCMOSFET技术进展与发展方向
分类:
时间:2025-05-09
标签:
格式:PDF
-
康嘉种业-每一头猪都代表着康嘉人的尊严
分类:
时间:2025-05-09
标签:
格式:PDF
-
汽车行业周报小米SU7Ultra正式发布Helix带动Figure效率跃升-25030118页
分类:
时间:2025-05-09
标签:
格式:PDF
-
杨昕-AI驱动抖音用户体验中台探索与实践
分类:
时间:2025-05-10
标签:
格式:PDF
-
跨国的AI采用者的肖像公司特征资产的互补性和生产力
分类:
时间:2025-05-10
标签:
格式:PDF
-
OrChechikandDanielFrank-从侦察到毁灭揭露伊朗AgriusAPT最新TTPs
分类:
时间:2025-05-10
标签:
格式:PDF
-
爱立信混合工作模式调查结果
分类:
时间:2025-05-10
标签:
格式:PDF