本人观点,仅供参考。

Offline Stage: Pruned graph + PQ-compressed embedding table
Online Stage: Two-level search strategy.

Lightweight approx distances using PQ
Recompute exact embeddings on demand
Dynamic Batching (sec. 4.2) ..略 提高GPU利用率而做batching。引入staleness,但是大幅提高利用率。
这是用来解决仅仅用PQ搜索带来的劣势的。用精确距离(exact distances) 去选择需要访问点节点。然后近似距离(approximate distances) 来剪枝。
算法里面AQ是approximate distance的queue,EQ是exact distance的queue.