如何通过解析网页来确定一个游戏是“街机”还是“体育”或“策略”类型的?我指的是那些托管在网页上的小型Flash游戏。
例如,请查看这些网页:http://www.miniclip.com/games/ski-safari/en/ 或 http://www.2dplay.com/the-last-dino/the-last-dino-play.htm
是否存在可以进行某种“分类”的服务?是否有现成的NLP算法可以帮助分类?
回答:
你可以从网页中提取相关文本,并使用词袋模型进行分类。最简单的情况下,你只需定义游戏类别并为每个类别列出关键词。页面上某个类别的关键词越多,游戏属于该类别的可能性就越大。
对于更复杂的方法,可以查看分类算法(例如,朴素贝叶斯)和文本特定特征(例如,tf-idf)。
另外要注意,从页面中提取相关文本在这里很重要。例如,如果页面只包含关于这个特定游戏的几个词和一系列相关新闻(描述其他游戏),那么相关新闻的片段可能会大大降低你的准确性。