用于Rank SVM训练数据的更好选择是：更多查询但每个查询的文档较少，还是较少查询但每个查询的文档较多？

我正在使用基于成对方法的Rank SVM [https://en.wikipedia.org/wiki/Ranking_SVM , http://research.microsoft.com/en-us/people/hangli/l2r.pdf ]，即模型通过比较同一查询内不同等级的样本来学习。因此，在准备训练数据集时，哪种方法更好？——是200个查询，每个查询有10个评分文档，还是100个查询，每个查询有20个评分文档？在这两种方法中，评分的数量是相同的。

回答：

对于这样的问题没有确定的答案，因为这是一个高度依赖数据的因素。换句话说，唯一的一般答案是“你必须同时尝试两种方法，并选择最佳的”。例如，你可以收集一个较小的样本并在其中测试你的假设。

唯一可能指导你的理论方面是，排名SVM实际上是将你的问题转化为二元分类问题的二次（就关系数量而言）大小。因此，如果“10”或“20个评分文档”意味着每个查询得到10或20个有序结果，那么100个查询和20个文档中包含更多的信息，因为它为你提供了100 * (20^2) = 40,000个训练样本，而第二种方法只有200 * (10^2) = 20,000个。然而，在实践中，这40,000个样本可能不如20,000个样本有用（因为它们只覆盖了一半的文档空间，此外，20个文档的排序可能根本没有用，因为其中大多数可能是“同样差”）。

学技术

用于Rank SVM训练数据的更好选择是：更多查询但每个查询的文档较少，还是较少查询但每个查询的文档较多？

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复