我听说Google举办(或将举办)了一个网页分类比赛,并且他们提供了一个大型(超过17万份文档)的网站数据集,这些网站被分类成多个类别(体育、计算机、科学等)。我尝试在他们2009年至2011年的编程之夏网站上搜索,但没有找到任何信息。 有人知道我可以在哪里获得该数据集吗?
回答:
我想我找到了(虽然我不确定数据是否由Google提供):ECML/PKDD 2010 Discovery Challenge 数据集包含22个训练标签(即关于内容的标签)、URL和超链接、基于内容和基于链接的网络垃圾信息特征、词频和自然语言处理特征。