我们目前正在为我们的医疗公司整合ICD10-CM,用于患者诊断。ICD10-CM是一种用于诊断的编码系统。
我尝试导入ICD10-CM数据,采用描述-代码对的形式,但显然行不通,因为AutoML需要更多的文本来对应每个代码(标签)。我在Kaggle上找到了一份数据集,但它只包含指向ICD10网站的超链接。我发现该网站包含了多个与代码相关的文本和描述,这些可以用来训练我们所需的模型。
Kaggle数据集:https://www.kaggle.com/shamssam/icd10datacom
来自ICD10data.com的页面样本:https://www.icd10data.com/ICD10CM/Codes/A00-B99/A15-A19/A17-/A17.0
最重要的字段包括:- 大约同义词- 临床信息- 诊断索引
如果我从这些页面中提取句子并将其分配给相应的代码(标签),这是否足以用于AutoML数据集训练?因为每个标签最终会有两个或更多的文本,而不是仅有一个,但显然每个代码的文本量仍然远少于演示/教程中提到的100个。
回答:
从这里可以看出,疾病代码具有树状结构,例如,所有L00-L99代码都指“皮肤和皮下组织疾病”。与此同时,L00-L08代码指“皮肤和皮下组织感染”,依此类推。
我的意思是,问题不在于90000个例子对应90000个不同的独立标签,而是一个决策树(你根据之前的决策做出几个决策:第一步是选择大约15个最通用的类别中最适合的一个,然后选择子类别等等)。
从这个意义上说,AutoML可能不是最佳产品,因为你无法实现一个专门设计的决策树模型来考虑所有这些因素。
使用AutoML的另一种方法是为每个决策分别训练,然后组合不同的模型。这对于第一层的决策很容易实现,但随着准确度的提高(我指的是能够肯定它是L00-L08而不是L00-L99),所需训练的模型数量会呈指数增长,这将非常耗时。
希望这能帮助你更好地理解问题以及你可以采取的不同方法!