徐海洋-多模态文档大模型mPLUG-DocOwl






多模态文档大模型mPLUG-DocOwl徐海洋 阿里巴巴通义实验室演讲嘉宾徐海洋阿里巴巴通义实验室-高级算法专家负责通义多模态大模型mPLUG系列工作,包括基础多模态模型mPLUG/mPLUG-2,多模态对话大模型mPLUG-Owl,多模态文档大模型mPLUG-DocOwl,多模态智能体Mobile-Agent等,其中 mPLUG工作在 VQA榜单首超人类的成绩。在国际顶级期刊和会议ICML/CVPR/ICCV/ACL/EMNLP/MM/TOIS/IJCAI/AAAI等发表论文40多篇,并担任多个顶级和会议AC/PC/Reviewer。主导参与开源项目mPLUG,X-PLUG,AliceMind,DELTA。目 录CONTENTS1.多模态文档大模型背景2.mPLUG-DocOwl系列工作3.mPLUG-DocOwl开源实战4.总结与展望多模态文档大模型背景PART 01多模态文档大模型背景富含文字的图片(简称“文档图片”)在生活中无处不在!多模态文档大模型背景Revolutionizing Document AI with Multimodal Document Foundation Models多模态文档大模型背景一个通用的多模态大模型应该具备文档图片理解的能力,例如 GPT4V多模态文档大模型背景多模态大模型模型(MLLM)主要关注于一般图片的对话和问答mPLUG-OwlLLaVAInstructBLIP多模态文档大模型背景由于预训练中存在富含文字的图片,他们也初显一定的图片文字理解能力MLLM具备实现通用文档图片理解的潜力多模态文档大模型挑战多模态文档大模型背景PART 01mPLUG-DocOwlmPLUG-DocOwl•模型结构形状适应的切图模块1.𝑮𝒓𝒊𝒅𝒔={𝟏×𝟏,𝟏×𝟐,…𝟏×𝟐𝟎,𝟐×𝟏,𝟐×𝟏,…,𝟐×𝟏𝟎,…𝟐𝟎×𝟏}2.同时考虑形状和⼤⼩进⾏grid选择)每个子图在原图中第几行第几列mPLUG-DocOwl•模型训练: 训练任务mPLUG-DocOwl•模型训练: 训练任务mPLUG-DocOwl•模型训练: 训练数据mPLUG-DocOwl•实验结果mPLUG-DocOwl1.5mPLUG-DocOwl1.5mPLUG-DocOwl1.5mPLUG-DocOwl1.5mPLUG-DocOw
相关推荐
相关内容
-
腾讯云中国信通院中国通信标准化协会2024年AI大模型应用发展研究报告58页
分类:
时间:2025-05-09
标签:
格式:PDF
-
利用智能视觉组件简化嵌入式视觉开发
分类:
时间:2025-05-09
标签:
格式:PDF
-
俄勒冈州交通规划在快速变化和不确定的时代利用情景规划的案例研究
分类:
时间:2025-05-09
标签:
格式:PDF
-
SiCMOSFET技术进展与发展方向
分类:
时间:2025-05-09
标签:
格式:PDF
-
康嘉种业-每一头猪都代表着康嘉人的尊严
分类:
时间:2025-05-09
标签:
格式:PDF
-
汽车行业周报小米SU7Ultra正式发布Helix带动Figure效率跃升-25030118页
分类:
时间:2025-05-09
标签:
格式:PDF
-
杨昕-AI驱动抖音用户体验中台探索与实践
分类:
时间:2025-05-10
标签:
格式:PDF
-
跨国的AI采用者的肖像公司特征资产的互补性和生产力
分类:
时间:2025-05-10
标签:
格式:PDF
-
OrChechikandDanielFrank-从侦察到毁灭揭露伊朗AgriusAPT最新TTPs
分类:
时间:2025-05-10
标签:
格式:PDF
-
爱立信混合工作模式调查结果
分类:
时间:2025-05-10
标签:
格式:PDF