假设我选择了一个随机的来源,比如CNN。基于关键词自动将抓取的文章分类到不同类别中,还是针对不同类别抓取网站的不同部分,例如cnn.com/tech或/entertainment,哪种方式更有优势?第二种选项不容易扩展,我不希望手动配置不同来源的URL。谷歌新闻是如何解决这个问题的?
回答:
这里有一份2005年的谷歌专利
以及2012年的更新:
如果你想自己构建一个简单的系统,我会这样做:
收集一批已经分类为体育/科技/其他类别的新闻故事。
将它们分词成单个词和短语(短词序列)。
创建一个非常大的表格,列为独特的词和短语,行是各个故事:
StoryId Class word1 word2 gram1 gram2 ...1 sports 0 0.2 0.01 02 tech 0.5 0.01 0 0.33 sports 0 0.1 0.3 0.01
单元格中的值代表文档中词的频率、二进制出现或TF-IDF得分。
使用分类算法,如朴素贝叶斯或支持向量机,学习列相对于类别标签的权重。这就是你的模型。
当你得到一个新的未分类文档时,以相同的方式对其进行分词,应用你之前创建的模型,它将为你提供文档最可能的类别标签。
这是我的视频系列,其中包括一个关于自动文档分类的视频:
http://vancouverdata.blogspot.ca/2010/11/text-analytics-with-rapidminer-loading.html