PyTorch 二元分类 – 相同网络结构，’更简单’的数据，但性能更差？

为了掌握PyTorch（以及一般的深度学习），我开始通过一些基本的分类示例进行学习。其中一个示例是使用sklearn创建的非线性数据集进行分类（完整代码可作为笔记本在此处获取）

n_pts = 500X, y = datasets.make_circles(n_samples=n_pts, random_state=123, noise=0.1, factor=0.2)x_data = torch.FloatTensor(X)y_data = torch.FloatTensor(y.reshape(500, 1))

然后使用一个相当基本的神经网络准确地对其进行分类

class Model(nn.Module):    def __init__(self, input_size, H1, output_size):        super().__init__()        self.linear = nn.Linear(input_size, H1)        self.linear2 = nn.Linear(H1, output_size)    def forward(self, x):        x = torch.sigmoid(self.linear(x))        x = torch.sigmoid(self.linear2(x))        return x    def predict(self, x):        pred = self.forward(x)        if pred >= 0.5:            return 1        else:            return 0

由于我对健康数据感兴趣，我决定尝试使用相同的网络结构来对一些基本的现实世界数据集进行分类。我从这里获取了一位患者的心率数据，并对其进行了修改，使所有大于91的值被标记为异常（例如，标记为1，而所有小于或等于91的值标记为0）。这完全是任意的，但我只是想看看分类效果如何。这个示例的完整笔记本在这里。

让我感到不直观的是，为什么第一个示例在1,000个epoch后达到0.0016的损失，而第二个示例在10,000个epoch后仅达到0.4296的损失

或许我天真地认为心率示例会更容易分类。任何能帮助我理解为什么我没有看到这种情况的见解都将非常有帮助！

回答：

TL;DR

你的输入数据未经归一化处理。

使用 x_data = (x_data - x_data.mean()) / x_data.std()
增加学习率 optimizer = torch.optim.Adam(model.parameters(), lr=0.01)

你将得到

仅需1000次迭代即可收敛。

如果我无法归一化数据怎么办？

如果由于某些原因，你无法提前计算均值和标准差数据，你仍然可以使用nn.BatchNorm1d来估计并在训练过程中归一化数据。例如

class Model(nn.Module):    def __init__(self, input_size, H1, output_size):        super().__init__()        self.bn = nn.BatchNorm1d(input_size)  # 添加批归一化        self.linear = nn.Linear(input_size, H1)        self.linear2 = nn.Linear(H1, output_size)        def forward(self, x):        x = torch.sigmoid(self.linear(self.bn(x)))  # 对输入x进行批归一化        x = torch.sigmoid(self.linear2(x))        return x

这种修改在不改变输入数据的情况下，仅在1000个epoch后就达到了类似的收敛：

一个小评论

为了数值稳定性，最好使用nn.BCEWithLogitsLoss而不是nn.BCELoss。为此，你需要从forward()输出中移除torch.sigmoid，sigmoid将在损失内部计算。
例如，关于二元预测的相关sigmoid + 交叉熵损失，请参见这个线程。

学技术

PyTorch 二元分类 – 相同网络结构，’更简单’的数据，但性能更差？

TL;DR

更多细节

如果我无法归一化数据怎么办？

一个小评论

发表回复取消回复

TL;DR

更多细节

如果我无法归一化数据怎么办？

一个小评论

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复