AutoML NL – 基于ICD10-CM的模型训练 – 所需文本量

我们目前正在为我们的医疗公司整合ICD10-CM，用于患者诊断。ICD10-CM是一种用于诊断的编码系统。

我尝试导入ICD10-CM数据，采用描述-代码对的形式，但显然行不通，因为AutoML需要更多的文本来对应每个代码（标签）。我在Kaggle上找到了一份数据集，但它只包含指向ICD10网站的超链接。我发现该网站包含了多个与代码相关的文本和描述，这些可以用来训练我们所需的模型。

最重要的字段包括：- 大约同义词- 临床信息- 诊断索引

如果我从这些页面中提取句子并将其分配给相应的代码（标签），这是否足以用于AutoML数据集训练？因为每个标签最终会有两个或更多的文本，而不是仅有一个，但显然每个代码的文本量仍然远少于演示/教程中提到的100个。

回答：

从这里可以看出，疾病代码具有树状结构，例如，所有L00-L99代码都指“皮肤和皮下组织疾病”。与此同时，L00-L08代码指“皮肤和皮下组织感染”，依此类推。

我的意思是，问题不在于90000个例子对应90000个不同的独立标签，而是一个决策树（你根据之前的决策做出几个决策：第一步是选择大约15个最通用的类别中最适合的一个，然后选择子类别等等）。

从这个意义上说，AutoML可能不是最佳产品，因为你无法实现一个专门设计的决策树模型来考虑所有这些因素。

使用AutoML的另一种方法是为每个决策分别训练，然后组合不同的模型。这对于第一层的决策很容易实现，但随着准确度的提高（我指的是能够肯定它是L00-L08而不是L00-L99），所需训练的模型数量会呈指数增长，这将非常耗时。

希望这能帮助你更好地理解问题以及你可以采取的不同方法！

学技术