我想使用mulan来对一些数据进行分类。但是我遇到了一个异常:
mulan.data.DataLoadException: Error creating Instances data from supplied Reader data sourceat mulan.data.MultiLabelInstances.loadInstances(MultiLabelInstances.java:469)at mulan.data.MultiLabelInstances.loadInstances(MultiLabelInstances.java:458)at mulan.data.MultiLabelInstances.<init>(MultiLabelInstances.java:168)
主函数来自于mulan.examples.TrainTestExperiment
public class TrainTestExperiment { public static void main(String[] args) { try { String path = Utils.getOption("path", args); // 例如 -path dataset/ String filestem = Utils.getOption("filestem", args); // 例如 -filestem emotions String percentage = Utils.getOption("percentage", args); // 例如 -percentage 50 (表示50%) System.out.println("正在加载数据集"); MultiLabelInstances mlDataSet = new MultiLabelInstances(path + filestem + ".arff", path + filestem + ".xml"); // 将数据集分割成训练集和测试集 Instances dataSet = mlDataSet.getDataSet(); RemovePercentage rmvp = new RemovePercentage(); rmvp.setInvertSelection(true); rmvp.setPercentage(Double.parseDouble(percentage)); rmvp.setInputFormat(dataSet); Instances trainDataSet = Filter.useFilter(dataSet, rmvp); rmvp = new RemovePercentage(); rmvp.setPercentage(Double.parseDouble(percentage)); rmvp.setInputFormat(dataSet); Instances testDataSet = Filter.useFilter(dataSet, rmvp); MultiLabelInstances train = new MultiLabelInstances(trainDataSet, path + filestem + ".xml"); MultiLabelInstances test = new MultiLabelInstances(testDataSet, path + filestem + ".xml"); Evaluator eval = new Evaluator(); Evaluation results; Classifier brClassifier = new NaiveBayes(); BinaryRelevance br = new BinaryRelevance(brClassifier); br.setDebug(true); br.build(train); results = eval.evaluate(br, test); System.out.println(results); } catch (Exception e) { e.printStackTrace(); } }}
关于数据格式,我有一个名为title的维度,包含160个类别。
数据文件是按照arff格式进行格式化的。
其中一些文本是中文的。
任何帮助都将不胜感激。
此致
回答:
这看起来像是Mulan中的一个错误。
在这里查看有关此错误的更多详细信息。