JOURNAL OF SHANDONG UNIVERSITY(NATURAL SCIENCE) ›› 2024, Vol. 59 ›› Issue (7): 27-43.doi: 10.6040/j.issn.1671-9352.1.2023.062

Review

Dimensionality reduction and retrieval algorithms for high dimensional data

Wei SHAO1,2(),Gaoyu ZHU1,2,Lei YU1,*(),Jiafeng GUO1   

  1. 1. Key Laboratory of Network Data Science and Technology, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China
    2. School of Computer Science and Technology, University of Chinese Academy of Sciences, Beijing 100049, China
  • Received:2023-10-13 Online:2024-07-20 Published:2024-07-15
  • Contact: Lei YU;


At present, most studies use some dimensionality reduction methods to convert high-dimensional vectors into low-dimensional vector representations, and then apply related vector retrieval optimization technology to achieve fast similarity retrieval, thereby improving the application performance of large models. Currently, there are many and scattered dimensionality reduction methods for high-dimensional data, and the dimensionality reduction methods used in different research backgrounds are different. Similarly, there are also many different retrieval ideas and optimization methods in vector retrieval technology. By reviewing the main ideas and optimization methods of recent dimensionality reduction and retrieval algorithms, this paper helps to generate inspiring connections between the two and support the development and in-depth research of subsequent high-dimensional vector retrieval optimization algorithms.

Key words: high-dimensional data, dimensionality reduction, retrieval algorithm, approximate nearest neighbor search

CLC Number: 

  • TP391

Table 1

Analysis and comparison of dimensionality reduction algorithms"

类别 算法名称 优点 缺点
线性降维方法 PCA 简单;可解释性好 不能区分不同类别的数据;保持的主分量个数难以确定
LDA 保留不同类别数据的差异性;分类效果强 数据服从高斯分布
MDS 计算简单;保留高维数据之间的相对关系 各个维度的贡献相同
MDP 保持高维数据的流形和判别结构;避免小样本问题
LLTSA 保持数据的几何结构;对噪声鲁棒;较好局部表达
RLGS 自适应发现高维数据集中的流形结构;不涉及到近邻参数的选择问题;识别性能对于正则化参数的选择是鲁棒的
PER 适合处理分层响应面;适合控制与多共线性、高维度和预测器稀疏性相关的问题 响应和预测变量之间的链接函数是单调的
非线性降维方法 ISOMAP 数据平移旋转时,降维的结果不会发生变化 不提供显式的映射
LLE 凸函数;计算量少 近邻数的选择对结果影响较大, 不提供显式映射
LTSA 探索高维数据集的非凸流形结构 不提供高维数据到低维数据的一个映射
LE 保持好数据的局部结构 不提供显性映射
MVU 有效地处理非凸函数
LPP 能进行分类;对局部信息的保存很好
LLA 解决了LLE的源数据稀疏时算法失效的问题
ONPP 具有LLE优势的前提下,能给出高维数据到低维数据的显式映射
GPP 具有判别能力;能学习模型内部的几何结构
DONPP 有较高的识别率和判别能力
Reg-SS-ISOMAP 能够提供显示映射;可利用大量无标签数据
MMC 更强的分类能力
DOEPP 分类性能强;稳定
IRobust KPCA 鲁棒;对离群样本不敏感
SDMA 具有良好判别能力;保留局部几何结构 假设每一类数据独立构成一个子流行
MLapRLS 兼具LDA与LPP的优点,更好地刻画样本空间
CRBM 提供双向映射
SLPC 分类,保留数据的局部结构
t-SNE 学习数据局部结构;可视化
E-t-SNE 分类效果强;良好的可视化
SVD 增强数据能力;减少冗余数据
DM 能够进行时间数据可视化
DFT 将数据的有效信息保留;无效数据丢弃
DWT 可以提供数据时间特征与频率特征
RMTSLA-SPDDR 保留原始数据的形式与属性
EW-PCA 速度较快;效果较好
OTDLDD-TDR 保留数据的局部结构与标签信息
FBRFE 保护数据间的距离与角度
FEM 适用面广;效果较好;速度较快

Table 2

Analysis and comparison of retrieval algorithms"

类别 算法名称 优点 缺点
基于空间划分 VP Tree 较为精确地检索近邻; 结构简单 高维空间运行效率较低
Ball Tree 一定程度提高检索效率,降低重复检索概率
Annoy 多次划分子空间提高了查全率
Randomized KD-trees 从多个维度上划分子空间,检索效率较高
基于希哈散列 稳态分布的投影 通过稳态分布提高了相似数据的碰撞概率 散列结果需要二次映射
随机超平面的投影 优化稳态分布的方法,进一步提高检索效率
Multi-Probe LSH 检索时查找多个哈希桶,提高查全率与精度 近似检索点的选取易造成重复检索
QALSH 检索点与数据点一同构造索引,实现动态索引
PQ 子空间内向量量化,构造码本实现高效聚类与检索 有损压缩的方式使召回率较低
OPQ 优化原始数据的分布,提高PQ算法的效率
基于图 NSW 图结构实现近邻检索,提高了检索精度 图的度数较高,降低了检索效率
HNSW 由粗粒度到细粒度的检索方式,检索精度与效率均较高 多层图的构建易导致内存占用较高




