Scalability in Memory-Augmented LLMs

Quantization Compression

Error: only 0.005

8.6x

Clustering Compression

Best storage reduction

0.005

Quantization Error

Near-lossless

128 KB

LRU Bounded Memory

vs 1.28 MB full storage

Storage Scaling by Strategy

Strategy	Storage (KB)	Compression	Recon. Error	Throughput (docs/s)
Full Storage	256.0	1.0x	0.000	201,205
PCA Compression	256.0	1.0x	0.000	265,103
Random Eviction	128.0	2.0x	0.513	3,385
LRU Eviction	128.0	2.0x	0.500	196,032
Quantization	64.0	4.0x	0.005	59,518
Clustering	29.6	8.6x	1.000	202,873