我是NLTK和Scikit-learn的新手。我希望能够将给定的句子(甚至是一段文字)分类到一组类别中。这里的类别不仅仅是像垃圾邮件和非垃圾邮件,或好情感和坏情感这样仅有的两个类别,而是有多个(超过两个)的类别可供选择。请帮助我选择解决这个问题的 simplest 算法。提前感谢。
回答:
从你帖子的标签来看,我知道你了解machine learning
… 这是一个完成这个项目的好方法。
你需要的是足够多的样本数据,也就是说,一张包含文本的表格(样本句子、段落,任何形式…),然后有一个列标明其所属的类别。
你要做的就是train
程序,让它在样本文本中寻找模式,如果你有足够的样本数据,你就可以analyze
文本,让程序输出其所属的类别。
你可以使用TensorFlow作为你的机器学习框架。
我建议你从一些更简单的项目开始,以了解机器学习的工作原理以及什么方法最有效。