Tag: 向量搜索
All the articles with the tag "向量搜索".
-
TurboQuant:Google 的极致压缩算法如何让大模型跑得更快
Published: at 07:40 PMGoogle Research 发布 TurboQuant,联合 QJL 与 PolarQuant 两项算法,将 KV 缓存压缩到 3 比特仍保持模型精度,4 比特模式在 H100 上最高实现 8 倍加速,且无需训练或微调。本文解读三者的核心原理与实验结果。
All the articles with the tag "向量搜索".
Google Research 发布 TurboQuant,联合 QJL 与 PolarQuant 两项算法,将 KV 缓存压缩到 3 比特仍保持模型精度,4 比特模式在 H100 上最高实现 8 倍加速,且无需训练或微调。本文解读三者的核心原理与实验结果。