我正在开发一款软件,用于提取用户在Twitter个人资料上对某化妆品“XYZ”发表的评论和帖子的纯文本。我已经解析了从Twitter API接收到的JSON对象,并将原始数据存储在MySql数据库中。
现在,我需要分析这些纯文本,以提取关于化妆品“XYZ”的评论模式,判断是好评还是差评等,并将这些信息输入到一个单独的API中,用于在HTML中创建动态可视化图表。
我在数据挖掘和基于文本的模式识别领域完全是新手。如果有人能建议如何从数据库中的这些纯文本开始进行模式识别算法,并为我的单独可视化图表API提供数据,我将非常感激。
回答:
我强烈建议你观看以下斯坦福大学的NLP讲座,特别是:
我认为你会发现这些资源非常有价值。