我正在尝试实现K-最近邻算法。我的数据集包含如下值:
164 5.60 3.17 30.98 Present 44 25.99 43.20 53 1178 0.95 4.75 21.06 Absent 49 23.74 24.69 61 0
我计划使用欧几里得距离来计算两个向量之间的距离。我有一个问题是如何计算两个字符串之间的欧几里得距离,例如上例中的”Present”和”Absent”?
回答:
你应该根据具体的问题领域来确定可能的值列表,例如”Absent”、”Present”、”Unknown”等。然后,你应该为每个字符串值映射一个数值,根据问题领域来对应。例如,我认为”Absent”和”Present”之间的距离比”Absent”和”Unknown”之间的距离更大。因此,我会将值映射为”Absent”:1, “Unknown”:0, “Present”:-1。这在很大程度上取决于具体问题的领域。
然后你可以使用这些数值来计算欧几里得距离。
希望我帮到了你!