王冠中-多模态前沿技术和产业落地应用

3.0 2025-05-10 81 0 6101 KB 34 页 PDF
侵权投诉
王冠中-多模态前沿技术和产业落地应用
王冠中-多模态前沿技术和产业落地应用
王冠中-多模态前沿技术和产业落地应用
王冠中-多模态前沿技术和产业落地应用
王冠中-多模态前沿技术和产业落地应用
摘要:

演讲嘉宾:王冠中1多模态大模型能力与场景应用3多模态大模型开发套件PaddleMIX2多模态大模型架构演进及特点多模态大模型能力与场景应用1第一章节什么是多模态数据或者信息的多种表示形式多模态的价值自动驾驶模态:视觉、语音、雷达、激光融合:数据级、特征级、决策级融合智慧医疗模态:CT,MRI,X-ray,患者病历融合:辅助临床决策、融合检索系统全屋智能模态:语音命令、触碰控制、视觉交互融合:智能音箱、智能照明多模态大模型多模态大模型多模态大模型的能力多模态大模型多模态理解多模态生成[1] The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision). 2023多模态理解能力基础感知自然图片摘要、问答公众人物识别、地点识别看图创作,小说生成细粒度图像理解文字识别、文档理解情感识别等简单推理图像交互复杂视觉推理专业图像(深度图、CT影像)学科知识(工业、医疗)图表分析,代码生成文生图数字人视频特效生成创建定制AI头像和视频语音克隆及视频创作短视频娱乐可控视频创作音色克隆Suno AI音频AI和音乐生成领域的创新Descript音频编辑和制作平台AI技术与视频编辑和创作工具相结合提供智能化视频编辑解决方案ElevenLabs AI文本转语音和语音克隆软件视频生成多模态生成能力分析原则多模态大模型应用场景分析多模态大模型必要性•问题定义是否开放•小模型是否存在效果瓶颈•小模型维护成本是否过高多模态大模型可行性•大模型训练推理成本•大模型幻觉问题解决•大小模型结合方案必要性可行性1. 传统OCR小模型无法处理图表数据2. 传统pipeline方案误差严重3. 小模型方案不具备视觉推理能力1. 通用多模态大模型文档能力突出2. 有监督精调激发不同格式分析能力3. 多模态大模型和小模型协同优化生成式商业智能产品GBI商业图表数据复杂以多模态形式存在多模态大模型应用场景案例必要性可行性1.工业质检种类相对确定2. 目标检测、图像分割单模型能够较好解决1.多模态大模型推理耗时长2. 数据量少,可尝试文生图扩增数据3. 大模型幻觉严重,依赖垂类数据训练缓解工业质检瑕疵检测质检场景相对专一,存在长尾问题对召回率、时延要求较高多模态大模型应用场景案例多模态大模型架构演进与特点2第二章节[1] A Survey on Mult

展开>> 收起<<
王冠中-多模态前沿技术和产业落地应用

共 34 页,预览3页

还剩31页未读, 继续阅读

声明:企商查报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
作者: 分类: 属性:34 页 大小:6101 KB 格式:PDF 时间:2025-05-10

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 3
客服
关注