我找到一个关于使用pyxll插件在Excel中实现决策树算法的教程,并尝试执行。我遇到了一个错误:KeyError:”[‘class’]” 在轴中未找到。
from pyxll import xl_funcfrom sklearn.tree import DecisionTreeClassifierfrom sklearn.model_selection import train_test_splitimport pandas as pdimport os@xl_func("float, int, int: object")def ml_get_zoo_tree_2(train_size=0.75, max_depth=5, random_state=245245): # 加载动物园数据 dataset = pd.read_csv(os.path.join(os.path.dirname(__file__), "zoo.csv")) # 删除动物名称,因为这不是一个好的特征来分割数据 dataset = dataset.drop("animal_name", axis=1) # 将数据分割成训练集和测试集 features = dataset.drop("class", axis=1) targets = dataset["class"] train_features, test_features, train_targets, test_targets = \ train_test_split(features, targets, train_size=train_size, random_state=random_state) # 训练模型 tree = DecisionTreeClassifier(criterion="entropy", max_depth=max_depth) tree = tree.fit(train_features, train_targets) # 将特征名称添加到树中,以便在预测函数中使用 tree._feature_names = features.columns return tree
如果我删除了第17和18行关于class的代码,我会得到一个错误:NameError: 名称 ‘features’ 未定义,然后当我删除特征时,我会得到一个错误,因为目标必须被定义。
回答:
你需要与该教程匹配的正确数据集。你可以从这里下载它(以及代码)https://github.com/pyxll/pyxll-examples/tree/master/machine-learning。