我拥有的输入
我有一个包含以下2000个句子的csv文件:
我想做什么
我想:
A) 对每个句子进行分类
我考虑的一种方法是创建一个字典,将每个类别的相关词汇放入其中,但我并不喜欢这种创建字典的想法,而是希望机器能够自己决定/预测。
有没有更好的实现方法?我如何在这里使用机器学习?
你能建议一个逐步的过程/代码/机器学习算法来进行训练吗?我有Python语言的经验。
回答:
这不一定是机器学习的一个好应用。基本上,你是在分析推文中的每个词,看看这个词是否属于预定义的类别。机器学习可能用于情感分析之类的事情,它可以“学习”单个词或词组传达某种感觉,但对单个词进行分类实际上并不合理。你将试图“训练”一个模型来学习词的定义。
我认为你使用字典的方法是可行的,而且更容易实现。对于你关心的每个类别,添加几个词,然后你可以使用同义词库API以编程方式查找每个类别中每个词的同义词,以扩展你的字典的词汇量。