5腾讯大数据基于StarRocks的向量检索探索






基于StarRocks的向量检索探索——腾讯大数据赵裕隆腾讯大数据研发工程师向量检索技术浅析StarRocks实现向量检索的原理及优化StarRocks向量检索在腾讯的实践案例挑战及未来规划01向量检索技术浅析什么是向量检索向量检索•新型应用不断涌现:听歌识曲、以图搜图、广告推荐、大模型检索增强等等;•Embedding技术的成熟:大量非结构化数据(视频、语音、图像等)可以通过深度学习技术转化成高维向量(数组);•统一数据特征表达:将非结构化数据Embedding后,对高维特征向量进行最近邻(或k近邻)查询即可查找相似内容:给定查询向量,在特征数据库中寻找距离查询向量最近(即相似度最高)的k个向量;- get_topN(distance),id - id,metrics_distance(query_vector,vector_column): distance - scan_table(id,vector_column)近似最近邻查询高维空间的向量很难进行快速而准确的近邻查询,主要原因在于:•高维度导致的计算复杂性:数据维度较高,通用的距离函数都需要成百上千次浮点运算,十分耗时;•维度灾难(Curse of Dimensionality):随着维度的增大,搜索空间将呈指数增长的现象;维度灾难•为了解决高维向量KNN查询的效率问题,近似最近邻查询(Approximate Nearest Neighbor Search, ANNS)应运而生,其通过返回近似查询结果,来显著提升查询效率(通常为数百倍以上)。•目前ANNS使用的最常见的是距离度量是欧式距离和余弦距离。•通常使用召回率(Recall)来衡量ANNS的查询精度,即近似查询结果中正确答案占实际正确答案的比例。近邻索引技术•哈希/树:用于ANNS的哈希方法主要是局部敏感哈希;树索引的基本思路是对空间进行划分,并采用树型结构维护空间划分的层次关系。•量化与倒排(主流):乘积量化(Product Quantization,PQ)先把向量分为多个子段,然后对每段进行分别聚类与编码。量化是一种压缩技术,虽然能够极大的减少存储空间占用和距离计算开销,但是仍然要对全量数据进行距离排序,没有剪枝作用,所以通常需要配合倒排索引技术(Inverted File,IVF),求取TopK个聚类中心的进行剪枝,进一步减少访问的数
相关推荐
相关内容
-
腾讯云中国信通院中国通信标准化协会2024年AI大模型应用发展研究报告58页
分类:
时间:2025-05-09
标签:
格式:PDF
-
利用智能视觉组件简化嵌入式视觉开发
分类:
时间:2025-05-09
标签:
格式:PDF
-
俄勒冈州交通规划在快速变化和不确定的时代利用情景规划的案例研究
分类:
时间:2025-05-09
标签:
格式:PDF
-
SiCMOSFET技术进展与发展方向
分类:
时间:2025-05-09
标签:
格式:PDF
-
康嘉种业-每一头猪都代表着康嘉人的尊严
分类:
时间:2025-05-09
标签:
格式:PDF
-
汽车行业周报小米SU7Ultra正式发布Helix带动Figure效率跃升-25030118页
分类:
时间:2025-05-09
标签:
格式:PDF
-
杨昕-AI驱动抖音用户体验中台探索与实践
分类:
时间:2025-05-10
标签:
格式:PDF
-
跨国的AI采用者的肖像公司特征资产的互补性和生产力
分类:
时间:2025-05-10
标签:
格式:PDF
-
OrChechikandDanielFrank-从侦察到毁灭揭露伊朗AgriusAPT最新TTPs
分类:
时间:2025-05-10
标签:
格式:PDF
-
爱立信混合工作模式调查结果
分类:
时间:2025-05-10
标签:
格式:PDF