根据这个网站:http://ir.dcs.gla.ac.uk/test_collections/access_to_data.html,格拉斯哥大学以一定费用分发wt2g集合。这个集合基本上由多个解析后的网页组成。我很好奇wt2g集合中有多少个标签。这将帮助我估算集合中的文档数量,从而决定是否购买这个集合。谢谢
回答:
WT2G语料库中的文档数量为247491。
根据这个网站:http://ir.dcs.gla.ac.uk/test_collections/access_to_data.html,格拉斯哥大学以一定费用分发wt2g集合。这个集合基本上由多个解析后的网页组成。我很好奇wt2g集合中有多少个标签。这将帮助我估算集合中的文档数量,从而决定是否购买这个集合。谢谢
回答:
WT2G语料库中的文档数量为247491。