Weka无法使用字符串作为属性来分类文本

我有一个分类任务，输入是一个字符串，并将其分类到一些标签。训练数据如下：

Text1: label_1Text2: label_2Text3: label_1

当我使用Weka时，很多分类器会抛出异常：

weka.core.UnsupportedAttributeTypeException: weka.classifiers.functions.MultilayerPerceptron: Cannot handle string attributes!    at weka.core.Capabilities.test(Capabilities.java:979)    at weka.core.Capabilities.test(Capabilities.java:868)    at weka.core.Capabilities.test(Capabilities.java:1084)    at weka.core.Capabilities.test(Capabilities.java:1022)    at weka.core.Capabilities.testWithFail(Capabilities.java:1301)

回答：

很难理解您到底想要实现什么，但在机器学习中，大多数分类器寻找的是数值/二进制属性，而不是字符串属性。

您可以做的一件事是使用某种模型将您的特征空间转换为数值/二进制属性。词袋模型是一个常见的解决方案。

根据这个模型，您需要做的是：

遍历数据库中所有“特征”（字符串），为每个字符串/单词分配一个数字/特征
对于每个分类示例，创建一个具有修改后的特征空间的新实例 – 对于每个单词/字符串，您现在有一个数字（来自步骤1），因此将匹配此数字的属性设置为该单词在文本中的出现次数。标签保持不变
在修改后的示例上运行学习算法，使用新的（数值）特征空间
在分类过程中，如果遇到一个未识别的单词（您之前没有它，也没有为其分配属性编号） – 您可以选择静默忽略它，或者使用某种启发式方法来预测它是否与您见过的单词有某种联系。作为起点，我建议先忽略它，稍后再回来进行后续优化。

学技术

Weka无法使用字符串作为属性来分类文本

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复