5腾讯大数据基于StarRocks的向量检索探索

3.0 2025-05-10 66 0 3368 KB 36 页 PDF
侵权投诉
5腾讯大数据基于StarRocks的向量检索探索
5腾讯大数据基于StarRocks的向量检索探索
5腾讯大数据基于StarRocks的向量检索探索
5腾讯大数据基于StarRocks的向量检索探索
5腾讯大数据基于StarRocks的向量检索探索
摘要:

基于StarRocks的向量检索探索——腾讯大数据赵裕隆腾讯大数据研发工程师向量检索技术浅析StarRocks实现向量检索的原理及优化StarRocks向量检索在腾讯的实践案例挑战及未来规划01向量检索技术浅析什么是向量检索向量检索•新型应用不断涌现:听歌识曲、以图搜图、广告推荐、大模型检索增强等等;•Embedding技术的成熟:大量非结构化数据(视频、语音、图像等)可以通过深度学习技术转化成高维向量(数组);•统一数据特征表达:将非结构化数据Embedding后,对高维特征向量进行最近邻(或k近邻)查询即可查找相似内容:给定查询向量,在特征数据库中寻找距离查询向量最近(即相似度最高)的k个向量;- get_topN(distance),id - id,metrics_distance(query_vector,vector_column): distance - scan_table(id,vector_column)近似最近邻查询高维空间的向量很难进行快速而准确的近邻查询,主要原因在于:•高维度导致的计算复杂性:数据维度较高,通用的距离函数都需要成百上千次浮点运算,十分耗时;•维度灾难(Curse of Dimensionality):随着维度的增大,搜索空间将呈指数增长的现象;维度灾难•为了解决高维向量KNN查询的效率问题,近似最近邻查询(Approximate Nearest Neighbor Search, ANNS)应运而生,其通过返回近似查询结果,来显著提升查询效率(通常为数百倍以上)。•目前ANNS使用的最常见的是距离度量是欧式距离和余弦距离。•通常使用召回率(Recall)来衡量ANNS的查询精度,即近似查询结果中正确答案占实际正确答案的比例。近邻索引技术•哈希/树:用于ANNS的哈希方法主要是局部敏感哈希;树索引的基本思路是对空间进行划分,并采用树型结构维护空间划分的层次关系。•量化与倒排(主流):乘积量化(Product Quantization,PQ)先把向量分为多个子段,然后对每段进行分别聚类与编码。量化是一种压缩技术,虽然能够极大的减少存储空间占用和距离计算开销,但是仍然要对全量数据进行距离排序,没有剪枝作用,所以通常需要配合倒排索引技术(Inverted File,IVF),求取TopK个聚类中心的进行剪枝,进一步减少访问的数

展开>> 收起<<
5腾讯大数据基于StarRocks的向量检索探索

共 36 页,预览3页

还剩33页未读, 继续阅读

声明:企商查报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
作者: 分类: 属性:36 页 大小:3368 KB 格式:PDF 时间:2025-05-10

开通VIP享超值会员特权

  • 多端同步记录
  • 高速下载文档
  • 免费文档工具
  • 分享文档赚钱
  • 每日登录抽奖
  • 优质衍生服务
/ 3
客服
关注