谢榛-行业多模态大模型训推加速落地思考

3.0 2025-05-09 68 0 7713 KB 27 页 PDF

侵权投诉

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

0 人已下载

立即下载

摘要：

行业多模态大模型训推加速落地思考演讲人：谢榛阿里云 / 行业多模态模型负责人，高级算法专家文字建议为保证文件兼容性，如无特殊情况，请勿使用其他艺术字体字体正文字号：12通常演示文稿业务汇报文件中的文本较多，12号的字体可以展现更多的内容；且演示文稿的使用场景为桌面端、受众年龄适中，为呈现更好的阅读体验，正文应慎重使用更大字号小标题：18字号标题字号：28使用专有的英文字体可以使版面更加美观，可以让强调的英文&数字细节显示更优美，经得起放大细看考虑到工作效率，非重要的文件无需考虑此项，而对文本中的英文数字单独设置字体。中文字体：微软雅黑英文&数字字体Arial善用格式刷，快速出效果TIPS：* 可以多使用8为尾数的字号，如：18、28、48、68，方便记忆，统一字号01020304目录行业多模态模型迭代范式多模态训推加速技术总结展望多模态模型现状概述多模态模型现状概述tt多模态大模型多模态大模型是指在一个统一架构下，集成了多种不同类型数据处理能力的大型神经网络模型，能够同时处理多种数据模态大语言模型Qwen多模态理解Qwen-VL/Audio多模态生成万相/HunmanAIGC/CosyVoice参数：1.5B、7B、72B、xxxB架构：Densy、MoE长上下文窗口、代码、数学、多语言看见且看懂：动态分辨率、OCR增强、视觉内容解析听见且听懂：多语言理解、音乐鉴赏、情感分析等能力绘声：高拟人化，具备不同音色与情绪绘色：图片和视频、人物和商品具备可控生成能力多模态内容理解支持图像、视频、语音等多种模态的内容理解多模态检索支持图搜图、文搜图等多种场景下，基于多模态知识库的检索。tt多模态知识加工支持富模态知识文档包含富文本、图片、表格、视频、音频等模态内容的解析、知识加工tt多模态内容生成文本描述生成图像，图像生成图像文本描述生成视频内容行业业务中，多模态能力典型需求场景多模态大模型MLLM/VLM多模态典型能力live chatCode InterpreterOperate a Robotic ArmOperate a Mobile Phone多模态大模型MLLM/VLM适用场景能否开放感知对象是否需要明确运算资源要求实时性能否理解概念训练成本部署成本迭代扩展成本泛化性适用场景视觉（小）模型否需要低高否低低高弱应用场景固定、感知对象明确、运算资源有限、实时性要求高多

展开>> 收起<<

谢榛-行业多模态大模型训推加速落地思考

共 27 页,预览3页

还剩24页未读，继续阅读