这是一个复杂的问题,也是我第一次进行真正的机器学习实验,所以请容忍我这些简单的问题。
我有USPTO的大量数据,存储在一个CSV文件中,数据格式如下:
Name Class Subclass Category SubcategoryLightpack circuitboard E 1 4 9Lego blocks F 2 56 12D/C connector E 3 4 1Colorful dog hat D 6 10 1Grandma's shoes D 2 11 1Low temp resistor O 2 4 10
我想建立一个监督学习环境来对这些常见物品进行分组(实际数据中还有更多物品,但这里只是一个简单的例子)。我希望能够识别出所有电子产品中共同的类别、子类别、分类和子分类,并将它们归类到一个电子产品“箱”中(例如:Lightpack电路板、D/C连接器和低温电阻),但我不知道该如何进行。
目前,我使用Python和sklearn进行更简单的建模,但我不确定如何在给定的4个参数下进行测试和训练,并且我没有标记的数据集可供比较(没有验证)。
创建一个伪标记的数据集以进行监督学习是否更可取,还是有无监督的方法可供选择?正如我之前所说,这是我在机器学习领域的第一次真正测试。
回答:
你需要使用无监督算法。(为什么这样做?)
你需要理解的关键概念是多变量距离是什么以及如何计算它们。然后你可以应用K-means聚类方法。
你还可以阅读关于主成分分析(PCA)的内容并使用它。你可能需要对变量进行缩放,以便PCA能够正确工作。