我正在处理乳腺癌数据集,原始的(分类)数据集。在许多网站上,我发现他们是这样进行可视化的:
X轴为属性1,Y轴为属性2
他们仅使用两个属性作为输入,类别属性为(0,1),并且他们还在该可视化上绘制了假设图。在我的情况下,我有9个属性
我该怎么做?我应该选择任意两个属性还是怎样?
这更像是对数据的展示。
回答:
人类的思维无法处理超过三个维度的信息。所以即使你设法可视化了9个维度,你也无法从中得出任何结论。我建议你一次选取2到3个特征,并进行多图可视化。尽管如此,有些图表也允许你容纳超过3个特征。试试这个链接。
这个kaggle内核使用了相同的乳腺癌数据集,并且在可视化方面有一些有趣的见解。