While merging quantized vector fields, how can we minimize information loss?

### Description

Disclosure + Credit: I work at Amazon, and this idea was suggested by a colleague familiar with vector search (thanks Karthik!)

For quantized vector fields, HNSW graphs are initially built (during indexing) with [original (unquantized) vectors](https://github.com/apache/lucene/blob/98e1c075f709c13d501f91091e1b05f032279e48/lucene/core/src/java/org/apache/lucene/codecs/lucene99/Lucene99HnswVectorsWriter.java#L694-L699), but later (during merging) with [quantized vectors](https://github.com/apache/lucene/blob/98e1c075f709c13d501f91091e1b05f032279e48/lucene/core/src/java/org/apache/lucene/codecs/lucene99/Lucene99HnswVectorsWriter.java#L405-L406) (see [ref](https://github.com/apache/lucene/blob/98e1c075f709c13d501f91091e1b05f032279e48/lucene/core/src/java/org/apache/lucene/codecs/lucene104/Lucene104ScalarQuantizedVectorsWriter.java#L568-L585)).

Would a graph built using original (unquantized) vectors every time (both indexing + merge) be higher quality, and better to search?

This is a tradeoff b/w increased indexing time (quantized computations are cheaper) v/s better recall + latency at search time.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

While merging quantized vector fields, how can we minimize information loss? #15773

Description

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

While merging quantized vector fields, how can we minimize information loss? #15773

Description

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions