谢榛-行业多模态大模型训推加速落地思考






行业多模态大模型训推加速落地思考演讲人:谢榛阿里云 / 行业多模态模型负责人,高级算法专家文字建议为保证文件兼容性,如无特殊情况,请勿使用其他艺术字体字体正文字号:12通常演示文稿业务汇报文件中的文本较多,12号的字体可以展现更多的内容;且演示文稿的使用场景为桌面端、受众年龄适中,为呈现更好的阅读体验,正文应慎重使用更大字号小标题:18字号标题字号:28使用专有的英文字体可以使版面更加美观,可以让强调的英文&数字细节显示更优美,经得起放大细看考虑到工作效率,非重要的文件无需考虑此项,而对文本中的英文数字单独设置字体。中文字体:微软雅黑英文&数字字体Arial善用格式刷,快速出效果TIPS:* 可以多使用8为尾数的字号,如:18、28、48、68,方便记忆,统一字号01020304目录行业多模态模型迭代范式多模态训推加速技术总结展望多模态模型现状概述多模态模型现状概述tt多模态大模型多模态大模型是指在一个统一架构下,集成了多种不同类型数据处理能力的大型神经网络模型,能够同时处理多种数据模态大语言模型Qwen多模态理解Qwen-VL/Audio多模态生成万相/HunmanAIGC/CosyVoice参数:1.5B、7B、72B、xxxB架构:Densy、MoE长上下文窗口、代码、数学、多语言看见且看懂:动态分辨率、OCR增强、视觉内容解析听见且听懂:多语言理解、音乐鉴赏、情感分析等能力绘声:高拟人化,具备不同音色与情绪绘色:图片和视频、人物和商品具备可控生成能力多模态内容理解支持图像、视频、语音等多种模态的内容理解多模态检索支持图搜图、文搜图等多种场景下,基于多模态知识库的检索。tt多模态知识加工支持富模态知识文档包含富文本、图片、表格、视频、音频等模态内容的解析、知识加工tt多模态内容生成文本描述生成图像,图像生成图像文本描述生成视频内容行业业务中,多模态能力典型需求场景多模态大模型MLLM/VLM多模态典型能力live chatCode InterpreterOperate a Robotic ArmOperate a Mobile Phone多模态大模型MLLM/VLM适用场景能否开放感知对象是否需要明确运算资源要求实时性能否理解概念训练成本部署成本迭代扩展成本泛化性适用场景视觉(小)模型否需要低高否低低高弱应用场景固定、感知对象明确、运算资源有限、实时性要求高多
相关推荐
相关内容
-
腾讯云中国信通院中国通信标准化协会2024年AI大模型应用发展研究报告58页
分类:
时间:2025-05-09
标签:
格式:PDF
-
利用智能视觉组件简化嵌入式视觉开发
分类:
时间:2025-05-09
标签:
格式:PDF
-
俄勒冈州交通规划在快速变化和不确定的时代利用情景规划的案例研究
分类:
时间:2025-05-09
标签:
格式:PDF
-
SiCMOSFET技术进展与发展方向
分类:
时间:2025-05-09
标签:
格式:PDF
-
康嘉种业-每一头猪都代表着康嘉人的尊严
分类:
时间:2025-05-09
标签:
格式:PDF
-
汽车行业周报小米SU7Ultra正式发布Helix带动Figure效率跃升-25030118页
分类:
时间:2025-05-09
标签:
格式:PDF
-
杨昕-AI驱动抖音用户体验中台探索与实践
分类:
时间:2025-05-10
标签:
格式:PDF
-
跨国的AI采用者的肖像公司特征资产的互补性和生产力
分类:
时间:2025-05-10
标签:
格式:PDF
-
OrChechikandDanielFrank-从侦察到毁灭揭露伊朗AgriusAPT最新TTPs
分类:
时间:2025-05-10
标签:
格式:PDF
-
爱立信混合工作模式调查结果
分类:
时间:2025-05-10
标签:
格式:PDF