我编写了一个基本程序来理解MLP分类器中发生了什么?
from sklearn.neural_network import MLPClassifier
数据:一组包含身体指标(身高、宽度和鞋码)的数据集,标记为男性或女性:
X = [[181, 80, 44], [177, 70, 43], [160, 60, 38], [154, 54, 37], [166, 65, 40], [190, 90, 47], [175, 64, 39], [177, 70, 40], [159, 55, 37], [171, 75, 42], [181, 85, 43]]y = ['male', 'male', 'female', 'female', 'male', 'male', 'female', 'female', 'female', 'male', 'male']
准备模型:
clf= MLPClassifier(hidden_layer_sizes=(3,), activation='logistic', solver='adam', alpha=0.0001,learning_rate='constant', learning_rate_init=0.001)
训练
clf= clf.fit(X, y)
学习到的分类器的属性:
print('当前使用损失函数计算的损失: ',clf.loss_)print('coefs: ', clf.coefs_)print('intercepts: ',clf.intercepts_)print('求解器的迭代次数: ', clf.n_iter_)print('层数: ', clf.n_layers_)print('输出数量: ', clf.n_outputs_)
测试
print('预测: ', clf.predict([ [179, 69, 40],[175, 72, 45] ]))
计算准确率
print( '准确率: ',clf.score( [ [179, 69, 40],[175, 72, 45] ], ['female','male'], sample_weight=None ))
运行1
当前使用损失函数计算的损失: 0.617580287851coefs: [array([[ 0.17222046, -0.02541928, 0.02743722], [-0.19425909, 0.14586716, 0.17447281], [-0.4063903 , 0.148889 , 0.02523247]]), array([[-0.66332919], [ 0.04249613], [-0.10474769]])]intercepts: [array([-0.05611057, 0.32634023, 0.51251098]), array([ 0.17996649])] 求解器的迭代次数: 200层数: 3输出数量: 1预测: ['female' 'male']准确率: 1.0/home/anubhav/anaconda3/envs/mytf/lib/python3.6/site-packages/sklearn/neural_network/multilayer_perceptron.py:563: ConvergenceWarning: Stochastic Optimizer: Maximum iterations reached and the optimization hasn't converged yet. % (), ConvergenceWarning)
运行2
当前使用损失函数计算的损失: 0.639478303643coefs: [array([[ 0.02300866, 0.21547873, -0.1272455 ], [-0.2859666 , 0.40159542, 0.55881399], [ 0.39902066, -0.02792529, -0.04498812]]), array([[-0.64446013], [ 0.60580985], [-0.22001532]])]intercepts: [array([-0.10482234, 0.0281211 , -0.16791644]), array([-0.19614561])] 求解器的迭代次数: 39层数: 3输出数量: 1预测: ['female' 'female']准确率: 0.5
运行3
当前使用损失函数计算的损失: 0.691966937074coefs: [array([[ 0.21882191, -0.48037975, -0.11774392], [-0.15890357, 0.06887471, -0.03684797], [-0.28321762, 0.48392007, 0.34104955]]), array([[ 0.08672174], [ 0.1071615 ], [-0.46085333]])]intercepts: [array([-0.36606747, 0.21969636, 0.10138625]), array([-0.05670653])] 求解器的迭代次数: 4层数: 3输出数量: 1预测: ['male' 'male']准确率: 0.5
运行4:
当前使用损失函数计算的损失: 0.697102567593coefs: [array([[ 0.32489731, -0.18529689, -0.08712877], [-0.35425908, 0.04214241, 0.41249622], [-0.19993622, -0.38873908, -0.33057999]]), array([[ 0.43304555], [ 0.37959392], [ 0.55998979]])]intercepts: [array([ 0.11555407, -0.3473817 , -0.16852093]), array([ 0.31326347])] 求解器的迭代次数: 158层数: 3输出数量: 1预测: ['male' 'male']准确率: 0.5
—————————————————————–
我有以下问题:
1.为什么在运行1中优化器没有收敛?2.为什么在运行3中迭代次数突然变得如此低,而在运行4中又如此高?3.为了提高我在运行1中获得的准确率,还可以做些什么?
回答:
1: 你的MLP没有收敛:算法通过逐步收敛到最小值进行优化,而在运行1中,你的最小值没有找到。
2 运行的差异:你的MLP有一些随机的起始值,所以你不会得到相同的结果,正如你在数据中看到的。看起来你在第四次运行时开始的位置非常接近一个最小值。你可以将MLP的random_state
参数设置为一个常数,例如random_state=0
,以便每次都得到相同的结果。
3 是最困难的点。你可以使用参数优化
from sklearn.model_selection import GridSearchCV
网格搜索将你的测试集分成大小相等的部分,使用其中一部分作为测试数据,其余部分作为训练数据。因此,它会优化你分割数据的部分数量的分类器。
你需要指定(你的数据较小,所以我建议使用2或3)你分割的部分数量,一个分类器(你的MLP),以及你想要优化的参数网格,如下所示:
param_grid = [ { 'activation' : ['identity', 'logistic', 'tanh', 'relu'], 'solver' : ['lbfgs', 'sgd', 'adam'], 'hidden_layer_sizes': [ (1,),(2,),(3,),(4,),(5,),(6,),(7,),(8,),(9,),(10,),(11,), (12,),(13,),(14,),(15,),(16,),(17,),(18,),(19,),(20,),(21,) ] } ]
因为你曾经在一个包含三个神经元的隐藏层中获得了100%的准确率,你可以尝试优化学习率和动量等参数,而不是隐藏层。
像这样使用网格搜索:
clf = GridSearchCV(MLPClassifier(), param_grid, cv=3, scoring='accuracy')clf.fit(X,y)print("在开发集上找到的最佳参数集:")print(clf.best_params_)