费跃-构建企业级RAG系统的创新实践






构建企业级RAG系统的创新实践演讲人:费跃阿里云 / PAI 人工智能平台0102030405目录背景介绍模块化RAG架构模块设计和优化企业级RAG能力集成总结背景介绍背景介绍检索增强生成(Retrieval Augmented Generation, RAG)从数据源中检索信息来辅助大语言模型(Large Language Model, LLM)生成答案。RAG的优势:•准确性•时效性•数据安全•准确性•一致性•可解释性效果优•访问控制•合规隐私•数据管理数据安全•低延迟•可伸缩•大规模知识库构建和查询高性能•无缝集成•可观测•在线评估系统集成企业级RAG系统的挑战•客户的知识库领域、格式、内容的多样性,效果难以保证•需求具有多样性,常规RAG链路难以满足不同场景的定制化需求•RAG优化是一个系统性工程,可靠性、高性能、高质量难以取舍•数据隐私和安全问题,实现私有化部署和安全合规访问企业级RAG系统架构模块化RAG架构模块化RAG图片来源: https://arxiv.org/pdf/2407.21059模块化RAG•可扩展,适应不同场景的需求•可调优,各模块可独立配置、评估、优化•可维护,模块间松耦合高级RAG•预检索+重排序•检索优化:提高检索效率并加强检索块的利用率模块化RAG架构模块化设计•白盒化:模块可以灵活添加/修改•快速构建:可通过配置文件/UI dashboard修改模块配置•代码开源:兼容LlamaIndex开源协议•模块编排:通过编排和路由匹配不同场景需求•模块评估:自动生成数据集,系统评估端到端和各模块性能模块设计和优化文档解析文档解析的挑战格式多样性:企业级数据格式多样,需要适配不同类型文件的结构和内容内容复杂性:文档内容可能包含文本、图像、表格、公式、标题、代码块等多种复杂元素。非结构化文本:PDF或者扫描类文档解析难度高文档更新迭代:随着数据不断更新,知识库中内容会过期失效文档解析非结构化文件非结构化文件转Markdown格式•格式友好,清晰易读•保存标题、表格、图片等元素信息•复杂度降维,后续切分无需关注输入的文件类型结构化文件结构化文件JSON编码•存储表格key-value信息•自动行表列表检测•合并单元格拆分PDF解析算法难点:版面识别/表格解析闭源PDF解析API•Document Mind•Llama Parse开源PDF解
相关推荐
相关内容
-
腾讯云中国信通院中国通信标准化协会2024年AI大模型应用发展研究报告58页
分类:
时间:2025-05-09
标签:
格式:PDF
-
利用智能视觉组件简化嵌入式视觉开发
分类:
时间:2025-05-09
标签:
格式:PDF
-
俄勒冈州交通规划在快速变化和不确定的时代利用情景规划的案例研究
分类:
时间:2025-05-09
标签:
格式:PDF
-
SiCMOSFET技术进展与发展方向
分类:
时间:2025-05-09
标签:
格式:PDF
-
康嘉种业-每一头猪都代表着康嘉人的尊严
分类:
时间:2025-05-09
标签:
格式:PDF
-
汽车行业周报小米SU7Ultra正式发布Helix带动Figure效率跃升-25030118页
分类:
时间:2025-05-09
标签:
格式:PDF
-
杨昕-AI驱动抖音用户体验中台探索与实践
分类:
时间:2025-05-10
标签:
格式:PDF
-
跨国的AI采用者的肖像公司特征资产的互补性和生产力
分类:
时间:2025-05-10
标签:
格式:PDF
-
OrChechikandDanielFrank-从侦察到毁灭揭露伊朗AgriusAPT最新TTPs
分类:
时间:2025-05-10
标签:
格式:PDF
-
爱立信混合工作模式调查结果
分类:
时间:2025-05-10
标签:
格式:PDF