AI时代的数据处理技术_陈文光






AI 时代的数据处理技术陈文光清华大学 / 蚂蚁技术研究院大数据:数据量,数据生成的速度和多模态•数据量(Volume) 和数据生成速度(Velocity)•图片,文档,图,时序,交易物联网、边缘设备和用户行为产生大量数据多模态数据 (Variety)(in zettabytes) •Volume of data/information created, captured, copied, and consumed worldwide from 2010 to 2025© Statista 2021 https://www.statista.com/statistics/871513/worldwide-data-created/数据处理的深度也在增加 https://medium.com/hackernoon/the-ai-hierarchy-of-needs-18f111fcc007大模型崛起引领大数据新需求高质量训练数据是进一步提升基础模型性能的关键模型发布时间参数量预训练数据量GPT-12018年6⽉1.17亿约 5 GBGPT-22019年2⽉15亿40 GBGPT-32020年5⽉1750亿45 TBGPT-3.5(ChatGPT)2022年11⽉千亿级百 TB 级?GPT-42023年3⽉万亿级(估)未披露•大模型需要大数据•如何获得更多数据?如何提升数据质量?如何高效处理海量数据?80% Data20% Model+=Better AI吴恩达(Andrew Ng.)吴恩达的“二八定律”:深度学习应当从 Model-centric 向 Data-centric 转变向量数据库是提升模型服务能力的核心技术搜索增强的内容生成:RAGVector databaseQuestion?PromptNearest neighborsAnswerUser大模型崛起引领大数据新趋势在线离线一体化向量数据库与关系数据库一体化数据处理与AI 计算一体化趋势一:在线离线一体化问 题在线模型(策略)表现与离线不一致AppsDatabase(MySQL)Queue(Kafka)RealTime ETL(Flink,SPARK)OLTP (Hbase, KV,ES)ETL(Flink,Spark+HUDI)DataLake(MPPDB,HDFS)OLAP(Presto,C
相关推荐
-
2025-04-01 1938
-
2025-04-01 713
-
2025-03-30 452
-
2025-03-30 320
-
2025-03-30 318
-
2025-03-30 413
-
2025-04-01 294
-
2025-03-30 275
-
2025-03-31 291
-
2025-03-30 727
相关内容
-
罗振宇2023“时间的朋友”跨年演讲完整PDF
分类:机构报告
时间:2025-04-01
标签:会议报告
格式:PDF
-
京东-张乐-研发效能度量的误区、体系化实践和效能提升案例
分类:会议PPT
时间:2025-03-29
标签:会议报告
格式:PDF
-
搜狗-李颖欣-搜狗 C++ Workflow@TOP100
分类:会议PPT
时间:2025-03-29
标签:会议报告
格式:PDF
-
4-字节跳动-智能化的精准测试实践-刘杰、王孟飞
分类:会议PPT
时间:2025-03-30
标签:会议报告
格式:PDF
-
深入理解 Nsight System 与 Nsight Compute 性能分析优化工具
分类:会议PPT
时间:2025-03-29
标签:会议报告
格式:PDF
-
短视频用户价值调研报告
分类:会议PPT
时间:2025-03-30
标签:会议报告
格式:PDF
-
吴晓波2023“发光吧勇敢者”跨年演讲完整PPT
分类:机构报告
时间:2025-04-01
标签:会议报告
格式:PDF
-
美团-杨彪-如何做好“选用育励汰”的技术人才管理
分类:会议PPT
时间:2025-03-29
标签:会议报告
格式:PDF
-
智能物流机器人 — 小蛮驴
分类:会议PPT
时间:2025-03-29
标签:会议报告
格式:PDF
-
《增长思维:54个思维模型帮你成为增长高手》李云龙
分类:会议PPT
时间:2025-03-30
标签:会议报告
格式:PDF