王冠中-多模态前沿技术和产业落地应用






演讲嘉宾:王冠中1多模态大模型能力与场景应用3多模态大模型开发套件PaddleMIX2多模态大模型架构演进及特点多模态大模型能力与场景应用1第一章节什么是多模态数据或者信息的多种表示形式多模态的价值自动驾驶模态:视觉、语音、雷达、激光融合:数据级、特征级、决策级融合智慧医疗模态:CT,MRI,X-ray,患者病历融合:辅助临床决策、融合检索系统全屋智能模态:语音命令、触碰控制、视觉交互融合:智能音箱、智能照明多模态大模型多模态大模型多模态大模型的能力多模态大模型多模态理解多模态生成[1] The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision). 2023多模态理解能力基础感知自然图片摘要、问答公众人物识别、地点识别看图创作,小说生成细粒度图像理解文字识别、文档理解情感识别等简单推理图像交互复杂视觉推理专业图像(深度图、CT影像)学科知识(工业、医疗)图表分析,代码生成文生图数字人视频特效生成创建定制AI头像和视频语音克隆及视频创作短视频娱乐可控视频创作音色克隆Suno AI音频AI和音乐生成领域的创新Descript音频编辑和制作平台AI技术与视频编辑和创作工具相结合提供智能化视频编辑解决方案ElevenLabs AI文本转语音和语音克隆软件视频生成多模态生成能力分析原则多模态大模型应用场景分析多模态大模型必要性•问题定义是否开放•小模型是否存在效果瓶颈•小模型维护成本是否过高多模态大模型可行性•大模型训练推理成本•大模型幻觉问题解决•大小模型结合方案必要性可行性1. 传统OCR小模型无法处理图表数据2. 传统pipeline方案误差严重3. 小模型方案不具备视觉推理能力1. 通用多模态大模型文档能力突出2. 有监督精调激发不同格式分析能力3. 多模态大模型和小模型协同优化生成式商业智能产品GBI商业图表数据复杂以多模态形式存在多模态大模型应用场景案例必要性可行性1.工业质检种类相对确定2. 目标检测、图像分割单模型能够较好解决1.多模态大模型推理耗时长2. 数据量少,可尝试文生图扩增数据3. 大模型幻觉严重,依赖垂类数据训练缓解工业质检瑕疵检测质检场景相对专一,存在长尾问题对召回率、时延要求较高多模态大模型应用场景案例多模态大模型架构演进与特点2第二章节[1] A Survey on Mult
相关推荐
相关内容
-
腾讯云中国信通院中国通信标准化协会2024年AI大模型应用发展研究报告58页
分类:
时间:2025-05-09
标签:
格式:PDF
-
利用智能视觉组件简化嵌入式视觉开发
分类:
时间:2025-05-09
标签:
格式:PDF
-
俄勒冈州交通规划在快速变化和不确定的时代利用情景规划的案例研究
分类:
时间:2025-05-09
标签:
格式:PDF
-
SiCMOSFET技术进展与发展方向
分类:
时间:2025-05-09
标签:
格式:PDF
-
康嘉种业-每一头猪都代表着康嘉人的尊严
分类:
时间:2025-05-09
标签:
格式:PDF
-
汽车行业周报小米SU7Ultra正式发布Helix带动Figure效率跃升-25030118页
分类:
时间:2025-05-09
标签:
格式:PDF
-
杨昕-AI驱动抖音用户体验中台探索与实践
分类:
时间:2025-05-10
标签:
格式:PDF
-
跨国的AI采用者的肖像公司特征资产的互补性和生产力
分类:
时间:2025-05-10
标签:
格式:PDF
-
OrChechikandDanielFrank-从侦察到毁灭揭露伊朗AgriusAPT最新TTPs
分类:
时间:2025-05-10
标签:
格式:PDF
-
爱立信混合工作模式调查结果
分类:
时间:2025-05-10
标签:
格式:PDF