我正在处理一个评论数据集。问题是要从评论中提取特定产品的重要(同一特征被评论的次数)正面和负面特征。
例如:some xyz car
正面: 里程好,漂亮,宽敞等
负面: 动力差,性能不好,软件问题等
关键是要提取产品的最佳和最差之处!
到目前为止,我使用了gensim的doc2vec来查找最佳的正面和负面句子。结果不太理想,因为它获取的是结构相似的句子,而不是所包含的相似特征。
回答:
一些关于“词语移动距离”计算的文章,用于识别相似句子/短语,它们使用评论作为数据集,并且似乎能够很好地提取常见主题和代表性短语。
例如请看:
“使用词语移动距离导航餐厅评论中的主题”http://tech.opentable.com/2015/08/11/navigating-themes-in-restaurant-reviews-with-word-movers-distance/
“使用Word2Vec和WMD查找相似文档”https://markroxor.github.io/gensim/static/notebooks/WMD_tutorial.html