邵坤_基于MLLM的智能手机代理基准测试离线微调和在线优化




Toward generalist App agent in open-ended world:benchmark, model, and optimization邵坤华为诺亚决策推理实验室Q1Q3202320242023.07•HarmonyOS 4引入全新的小艺,基于盘古大模型并结合丰富场景数据精调。•集成文本生成、知识搜索、信息概括、意图理解,调用各类APP服务,打造系统级的智能体验。2023.10•小米将大模型技术提升至集团战略层面,成为全球首个在端侧运行大模型的厂商。•初始应用场景为语音助手,旨在广泛影响小米终端用户2023.11•OriginOS4集成了自研的蓝心大模型,端云结合,包含5款自研大模型,全面覆盖核心场景。•蓝心小V基于蓝心大模型开发,提供全局智能辅助功能,成为用户的专属私人助理2024.01•强调了AI化系统功能的重要性,从日常功能着手,实现大模型能力的积累和深度融合。•该技术策略包括对话增强、个性专属服务和端云协同,致力于打造生态系统并全面赋能智慧交互体验。2024.01•新系统以平台级AI为核心,引入端侧大模型,通过深度语义理解和意图识别,转变为个人助理。•具备多模态能力,基于多模态意图识别引擎和意图分析决策平台。2024.01•重点介绍的“即圈即搜”是在多种操作场景中可便捷触发的AI功能。•新交互基于谷歌智能镜头实现,是谷歌SGE(生成式AI搜索)的进一步延展。2024.06•Apple提出与系统紧密结合的系统级AI。iOS原生应用的端侧AI以使用自研Siri能力为主,在云侧需要开放域问题理解及内容创作时接入ChatGPT。Q2Q42023Q3终端Agent布局伊始2024Q1各厂陆续推出终端Agent2024Q2Apple Intelligence 发布终端成为Agent最重要的应用场景终端Agent 技术全景图超级对齐超长/多模态上下文多模态融合(文本/图像/音频/视频)结构化指令遵从All-in-One模型(语音/图片/视频/文本)模型压缩技术(量化)架构工具调用(泛化性强)端侧多模态模型参数高效微调多样化任务微调高效轻量数据管理轨迹数据高效获取半自动化数据构建多源反馈微调对齐输入数据传感器数据感知(MLLM 融合感知)隐私端侧Agent决策/执行端侧Agent环境信息感知用户数据感知(Agent推荐)信息来源不同感知融合(软件
相关推荐
-
2025-05-13 19936
-
2025-05-15 19943
-
2025-05-13 19950
-
2025-05-15 17939
-
2025-05-13 19833
-
2025-05-14 19537
-
2025-05-14 18531
-
2025-05-15 18933
-
2025-06-05 465
-
2025-06-05 301
相关内容
-
甲子光年2025年DeepSeeK开启AI算法变革元年报告16页
分类:机构报告
时间:2025-05-13
标签:
格式:PDF
-
新战略咨询2024移动机器人AGV_AMR专用激光雷达产品发展蓝皮书31页
分类:机构报告
时间:2025-05-15
标签:
格式:PDF
-
鼎帷咨询2025年DeepSeek战略创新分析报告-围绕DeepSeek尖刀点加速打造AI产业刀锋链39页
分类:机构报告
时间:2025-05-13
标签:
格式:PDF
-
少年商学院2025年DeepSeek中小学生使用手册81页
分类:机构报告
时间:2025-05-13
标签:
格式:PDF
-
英普利集团2025企业出海白皮书中东篇精编版39页
分类:机构报告
时间:2025-05-14
标签:
格式:PDF
-
火山引擎2024火山引擎视频云实践精选集224页
分类:机构报告
时间:2025-05-15
标签:
格式:PDF
-
曼昆律所2024年Web3.0区块链项目出海法律白皮书71页
分类:机构报告
时间:2025-05-14
标签:
格式:PDF
-
CyberRobo2024全球人形机器人产品数据库报告-人形机器人洞察研究BTIResearch99页
分类:机构报告
时间:2025-05-15
标签:
格式:PDF
-
2025泡泡玛特POP MART品牌手册
分类:
时间:2025-06-21
标签:
格式:PDF
-
利用人工智能技术全面应对电子邮件威胁
分类:
时间:2025-06-21
标签:
格式:PDF