训练数据集:
-------------------- 患者年龄: 25患者体重: 60诊断一: 发热诊断二: 头痛 > 药物: **克罗欣**---------------------------------患者年龄: 25患者体重: 60诊断一: 发热诊断二: 无头痛 > 药物: 扑热息痛----------------------------------
提供带有处方药的患者样本数据集。
如何根据患者的信息(年龄/体重)和诊断(发热/头痛/等)找到合适的药物?
回答:
你要完成的任务是分类,因为目标值是名义尺度。
正确使用术语非常重要,因为其余的工作已经由其他人完成,比如Python的sklearn库,其中包含了最相关的算法和大量用于测试和学习这些算法的数据。
看起来你有四个输入变量:
- 年龄 – 度量变量
- 体重 – 度量变量
- 诊断一 – 名义变量
- 诊断二 – 名义变量
你需要编码你的名义变量,我建议使用一个包含所有可能诊断的数组,例如:
发热, 头痛, 胃痛, x – [0, 0, 0, 0]
现在,如果诊断正确,每个数组元素将被设置为1,否则为0。因此,你总共有2 + n个输入变量,其中n是可能症状的数量。
然后你可以直接使用sklearn库,并开始使用最简单的分类算法:最近邻分类
如果结果不理想(可能结果不会很好),你可以开始使用更复杂的模型(SVM,随机森林)。但首先你应该学习术语,并使用简单模型来了解方法和处理流程。