3阿里云-StarRocksPaimon在阿里集团LakeHouse的探索与实践






StarRocks+Paimon:阿里集团 Lakehouse 架构的探索与实践翁才智 阿里云技术专家,Apache Paimon PMC Member范振(辰繁) 阿里云计算平台开源 OLAP 负责人,StarRocks 社区 Champion阿里集团数据湖(ALake)项目背景数据生产-低效双重研发、资源浪费、数据口径核查难数据存储-冗余导出效率低、数据多份冗余、数据安全敞口数据分析-孤岛数据孤岛、很难形成合力流批统一实时&离线链路统一、一套代码统一存储无需导出、一份数据、权限对齐高性能分析不改变业务体验、更低成本愿景和目标结构化/非结构化数据统一AI、BI 开放互通Lakehouse 业界趋势AI 浪潮风起云涌开源开放成为主流当前痛点全面升级为 Lakehouse 架构一湖多引擎统一元数据和元仓BI + AI 一体化降本提效NoteBookCopilotNL AnalysisIDEPlatform For AI搜索大数据MCSparkFlinkHoloStarRocks数据集成视频搜RAG文本搜图片搜PaimonFileModelDeltaIceberg统一开发平台 IDE/Notebook训练/推理/开发DataWorksDLF统一存储 OSSOSESMilvus大数据搜索AI引擎平权访问引擎基于One Copy数据协同计算* 引用自阿里云 2024 云栖大会Why Paimon —最适合流/批/OLAP 统一的湖格式面向流处理的 Lake Store开放的生态体系典型大数据架构离线入仓ODSDWDDWS消息队列消息队列消息队列ODSDWDDWS实时入仓离线数仓实时数仓outputoutput离线数仓� 架构简单,大量场景适用� 中间结果可查� 作业夜间运行� 延迟较高:天级 / 小时级� 更新成本较高实时数仓� 延迟低:秒级� 中间结果不可查� 成本较高,场景有限流式湖仓架构离线入仓ODSDWDDWS实时入仓流式湖仓output实时更新•主键表支持大规模的更新写入•更新性能高效•更新方式灵活•完整变更日志生成•分钟级延迟海量追加•非主键表支持大规模流批处理•小文件自动合并高效查询•Z-order、索引、Deletion Vector 多种优化•高效 OLAP 查询数据管理•PB 级大规模数据管理•支持时间旅行(数据版本回溯)•支持数
相关推荐
相关内容
-
腾讯云中国信通院中国通信标准化协会2024年AI大模型应用发展研究报告58页
分类:
时间:2025-05-09
标签:
格式:PDF
-
利用智能视觉组件简化嵌入式视觉开发
分类:
时间:2025-05-09
标签:
格式:PDF
-
俄勒冈州交通规划在快速变化和不确定的时代利用情景规划的案例研究
分类:
时间:2025-05-09
标签:
格式:PDF
-
SiCMOSFET技术进展与发展方向
分类:
时间:2025-05-09
标签:
格式:PDF
-
康嘉种业-每一头猪都代表着康嘉人的尊严
分类:
时间:2025-05-09
标签:
格式:PDF
-
汽车行业周报小米SU7Ultra正式发布Helix带动Figure效率跃升-25030118页
分类:
时间:2025-05-09
标签:
格式:PDF
-
杨昕-AI驱动抖音用户体验中台探索与实践
分类:
时间:2025-05-10
标签:
格式:PDF
-
跨国的AI采用者的肖像公司特征资产的互补性和生产力
分类:
时间:2025-05-10
标签:
格式:PDF
-
OrChechikandDanielFrank-从侦察到毁灭揭露伊朗AgriusAPT最新TTPs
分类:
时间:2025-05-10
标签:
格式:PDF
-
爱立信混合工作模式调查结果
分类:
时间:2025-05-10
标签:
格式:PDF