在Solr索引中对文档进行聚类（使用自定义距离）

我想使用k-means聚类（机器学习）来对Solr Lucene中的文档进行聚类。文档通常有很多字段，其中一些是文本字段，还有一些是用于地理空间距离计算的位置（纬度和经度）。Solr提供了一种方法，可以根据索引中的特定字段（包括地理空间字段，使用Solr查询表达）来计算两个文档之间的得分（距离）。有没有办法利用这种“自定义距离”来执行k-means算法？

我想进一步解释一下“自定义距离”，通常对于“维度1”给定一个值X，另一个文档中对于相同的“维度1”也有一个类似的数值，我们计算欧几里得距离。

但是，在这个Solr的使用案例中，文档之间的距离是通过使用给定文档集的Solr相关性得分即时获得的。这相当于自定义距离。有没有工具或方法可以在这里提供帮助？

我可以使用R、Mahout或Octave来做这件事吗？

我知道我们可以从Solr中导出词向量并使用Mahout来做同样的事情，但这似乎需要导出，并且在Mahout中再次做Solr已经做过的事情来评分。此外，使用Solr查询计算距离的地理空间和优雅性也丢失了。

编辑：Solr的Carrot2似乎不适合，因为它更适合优化搜索结果（少于1K的结果）

回答：

您可以使用任何库或自实现的k-means来基于给定的相似性得分进行聚类。

学技术

在Solr索引中对文档进行聚类（使用自定义距离）

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复