AutoML NL – 基于ICD10-CM的模型训练 – 所需文本量

我们目前正在为我们的医疗公司整合ICD10-CM,用于患者诊断。ICD10-CM是一种用于诊断的编码系统。

我尝试导入ICD10-CM数据,采用描述-代码对的形式,但显然行不通,因为AutoML需要更多的文本来对应每个代码(标签)。我在Kaggle上找到了一份数据集,但它只包含指向ICD10网站的超链接。我发现该网站包含了多个与代码相关的文本和描述,这些可以用来训练我们所需的模型。

Kaggle数据集:https://www.kaggle.com/shamssam/icd10datacom

来自ICD10data.com的页面样本:https://www.icd10data.com/ICD10CM/Codes/A00-B99/A15-A19/A17-/A17.0

最重要的字段包括:- 大约同义词- 临床信息- 诊断索引

如果我从这些页面中提取句子并将其分配给相应的代码(标签),这是否足以用于AutoML数据集训练?因为每个标签最终会有两个或更多的文本,而不是仅有一个,但显然每个代码的文本量仍然远少于演示/教程中提到的100个。


回答:

这里可以看出,疾病代码具有树状结构,例如,所有L00-L99代码都指“皮肤和皮下组织疾病”。与此同时,L00-L08代码指“皮肤和皮下组织感染”,依此类推。

我的意思是,问题不在于90000个例子对应90000个不同的独立标签,而是一个决策树(你根据之前的决策做出几个决策:第一步是选择大约15个最通用的类别中最适合的一个,然后选择子类别等等)。

从这个意义上说,AutoML可能不是最佳产品,因为你无法实现一个专门设计的决策树模型来考虑所有这些因素。

使用AutoML的另一种方法是为每个决策分别训练,然后组合不同的模型。这对于第一层的决策很容易实现,但随着准确度的提高(我指的是能够肯定它是L00-L08而不是L00-L99),所需训练的模型数量会呈指数增长,这将非常耗时。

希望这能帮助你更好地理解问题以及你可以采取的不同方法!

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注