AI时代的数据处理技术_陈文光

3.0 2025-03-23 189 154 2598 KB 23 页 PDF
侵权投诉
AI时代的数据处理技术_陈文光
AI时代的数据处理技术_陈文光
AI时代的数据处理技术_陈文光
AI时代的数据处理技术_陈文光
AI时代的数据处理技术_陈文光
摘要:

AI 时代的数据处理技术陈文光清华大学 / 蚂蚁技术研究院大数据:数据量,数据生成的速度和多模态•数据量(Volume) 和数据生成速度(Velocity)•图片,文档,图,时序,交易物联网、边缘设备和用户行为产生大量数据多模态数据 (Variety)(in zettabytes) •Volume of data/information created, captured, copied, and consumed worldwide from 2010 to 2025© Statista 2021 https://www.statista.com/statistics/871513/worldwide-data-created/数据处理的深度也在增加 https://medium.com/hackernoon/the-ai-hierarchy-of-needs-18f111fcc007大模型崛起引领大数据新需求高质量训练数据是进一步提升基础模型性能的关键模型发布时间参数量预训练数据量GPT-12018年6⽉1.17亿约 5 GBGPT-22019年2⽉15亿40 GBGPT-32020年5⽉1750亿45 TBGPT-3.5(ChatGPT)2022年11⽉千亿级百 TB 级?GPT-42023年3⽉万亿级(估)未披露•大模型需要大数据•如何获得更多数据?如何提升数据质量?如何高效处理海量数据?80% Data20% Model+=Better AI吴恩达(Andrew Ng.)吴恩达的“二八定律”:深度学习应当从 Model-centric 向 Data-centric 转变向量数据库是提升模型服务能力的核心技术搜索增强的内容生成:RAGVector databaseQuestion?PromptNearest neighborsAnswerUser大模型崛起引领大数据新趋势在线离线一体化向量数据库与关系数据库一体化数据处理与AI 计算一体化趋势一:在线离线一体化问 题在线模型(策略)表现与离线不一致AppsDatabase(MySQL)Queue(Kafka)RealTime ETL(Flink,SPARK)OLTP (Hbase, KV,ES)ETL(Flink,Spark+HUDI)DataLake(MPPDB,HDFS)OLAP(Presto,C

展开>> 收起<<
AI时代的数据处理技术_陈文光

共 23 页,预览3页

还剩20页未读, 继续阅读

声明:企商查报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
作者: 分类:会议PPT 属性:23 页 大小:2598 KB 格式:PDF 时间:2025-03-23

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 3
客服
关注