我计划在最后一年做一个关于自然语言处理(使用NLTK)的项目,我的兴趣领域是从社交媒体网站(如Facebook)提取评论摘要。例如,我试图做类似这样的事情:
图片中的随机Facebook评论:
- 哇!美丽。
- 看起来真美。
- 非常漂亮,好照片。
现在,所有这些评论将通过基于模板的评论摘要技术映射成如下内容:
3个人认为这张图片“美丽”。
输出将包含“美丽”这个词,因为它在评论中比“漂亮”这个词更常用(而且美丽和漂亮是同义词)。为了完成这个任务,我将使用像跟踪关键词频率和关键词得分这样的方法(在这种情况下,“美丽”和“漂亮”的得分非常接近)。这是最好的方法吗?
到目前为止,通过我的研究,我找到了以下论文,但这些论文都没有涉及这种类型的评论摘要:
在这个领域还有哪些其他论文讨论了类似的问题?
除此之外,我还希望我的摘要工具在每次摘要任务中都能有所改进。我该如何在这方面应用机器学习?
回答:
你需要的是主题模型聚类。
在Google Scholar上搜索“主题模型聚类”会给你提供很多关于主题模型聚类的参考文献。
为了理解这些,你需要熟悉以下任务的方法,除了机器学习的基本知识外。
- 聚类:余弦距离聚类,k-means聚类
- 排名:PageRank,TF-IDF,互信息增益,最大边缘相关性