Solr/Carrot2 集成
我为每个文本文件创建了 XML,用于在 Solr 中索引文档,如下所示:
<add> <doc> <person>data </person> <organization>data here </organization> <content>Some spanish text here</content > </doc><add>
索引时使用的 Schema
<field name="id" type="string" indexed="true" stored="true" required="true" multiValued="false" /> <field name="person" type="string" indexed="true" stored="true" required="true" multiValued="true" /><field name="orgnization" type="string" indexed="true" stored="true" required="true" multiValued="true" /><field name="content" type="text_es" indexed="true" stored="true" multiValued="true"/> <field name="location" type="string" indexed="true" stored="true" required="true" multiValued="true" />
现在我正在尝试集成 Carrot2 聚类,为此我参考了这个链接 http://carrot2.github.io/solr-integration-strategies/carrot2-3.8.0/index.html
我的问题是,聚类查询的结果只得到一个聚类,如下所示:
<arr name="clusters"> <lst><arr name="labels"> <str>Other Topics</str> </arr> <double name="score">0.0</double> <bool name="other-topics">true</bool> <arr name="docs"> <str>#.txt</str> <str>abci-britanicos-pizzerias-201312120250.txt</str> <str>abci-arqueologos-israelis-descubren-primer-201312111303.txt</str> <str>abci-autoridad-fiscal-pensiones-201312111956.txt</str> <str>abci-buenas-razones-para-cambiar-201312110933.txt</str> <str>abci-audio-asamblea-aserpinto-201312112139.txt</str> < </arr> </lst> </arr>
我的语料库包含 60 个文本文档,应该得到更多的聚类
回答:
为了使 Solr 中的搜索结果聚类功能正常工作,您传递给聚类的标题和内容字段必须是存储的。Solr 中的 Schema 声明可以如下所示:
<field name="content" type="text" indexed="true" stored="true" />