在Milvus Dashboard中基于输出字段选择的不一致查询结果

我在使用Milvus仪表板时遇到了一个问题，搜索结果会根据所选的输出字段而变化。

我正在进行一个使用文本数据转换为嵌入向量的RAG项目，这些数据存储在一个包含大约8000个元素的Milvus集合中。上周，我的检索结果符合我的预期（“好”结果），然而，本周结果变差了（“坏”结果）。

我发现当我在Milvus仪表板的输出字段中排除embeddings_vector字段时，我得到了“好的”结果；在输出中包括embeddings_vector字段会将结果变为“坏”的。

我附上了两张截图，展示了基于所选输出字段的结果差异。

关于是什么原因导致这种情况或如何解决这个问题，有什么想法吗？

环境：

Python 3.11 pymilvus 2.3.2 llama_index 0.8.64

提前感谢！

from llama_index.vector_stores import MilvusVectorStorefrom llama_index import ServiceContext, VectorStoreIndex# 一些其他代码行...# 设置MilvusVectorStore和查询执行vector_store = MilvusVectorStore(uri=MILVUS_URI,                                 token=MILVUS_API_KEY,                                 collection_name=collection_name,                                 embedding_field='embeddings_vector',                                 doc_id_field='chunk_id',                                 similarity_metric='IP',                                 text_key='chunk_text')embed_model = get_embeddings()service_context = ServiceContext.from_defaults(embed_model=embed_model, llm=llm)index = VectorStoreIndex.from_vector_store(vector_store=vector_store, service_context=service_context)query_engine = index.as_query_engine(similarity_top_k=5, streaming=True)rag_result = query_engine.query(prompt)

这是“好的”结果：“好的”结果而这是“坏的”结果：“坏的”结果

回答：

我建议您考虑以下几点。

确保您的Milvus集合已正确索引。索引在搜索结果的检索和排序中起着关键作用。如果索引配置已更改或未优化，可能会影响检索质量。
在您的截图中，一致性级别设置为“有界”（Bounded）。尝试使用不同的 consistency 级别（例如，“强”（Strong）或“最终”（Eventually））进行实验，看看是否会影响结果。一致性设置可能会影响索引数据的实时可用性。
检查查询参数，特别是 similarity_metric。由于您使用的是 IP（内积）作为相似性度量，确保您的嵌入向量已正确归一化。内积搜索在使用归一化向量时效果最佳。
验证嵌入向量的质量和规模是否一致。如果嵌入模型或预处理步骤有变化，可能会导致搜索结果的变化。
在输出中包含 embeddings_vector 字段可能会影响 Milvus 评分和排名的方式。返回原始嵌入可能会影响内部排名逻辑。确保包含此字段不会无意中改变搜索行为。
检查 Milvus 服务器日志和性能指标，以识别搜索行为的任何异常或变化。这可能提供有关包含 embeddings_vector 字段时结果为何不同的见解。
确保客户端（pymilvus）和 Milvus 服务器之间没有版本不匹配。有时，版本之间的差异可能会导致意外行为。
作为最后手段，尝试修改您的代码以在检索期间以编程方式排除 embeddings_vector 字段，并比较结果。这可以帮助隔离问题是否确实是由在输出中包含嵌入引起的。

请尝试此代码，看看是否有帮助。

vector_store = MilvusVectorStore(uri=MILVUS_URI,                                 token=MILVUS_API_KEY,                                 collection_name=collection_name,                                 embedding_field='embeddings_vector',                                 doc_id_field='chunk_id',                                 similarity_metric='IP',                                 text_key='chunk_text',                                 output_fields=['chunk_id', 'chunk_text'])  # 排除 embeddings_vectorindex = VectorStoreIndex.from_vector_store(vector_store=vector_store, service_context=service_context)query_engine = index.as_query_engine(similarity_top_k=5, streaming=True)rag_result = query_engine.query(prompt)

学技术

在Milvus Dashboard中基于输出字段选择的不一致查询结果

发表回复取消回复

相关文章：

当走到迷宫死胡同时，如何以编程方式遍历迷宫

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复