AI – 字符串/文本分类/归类(例如,字符串/文本被分类为公司名称)

我的问题是要从表格中筛选出所有人的名字,即公司的名称、学校、机构的名称将保留在数据库中。

我尝试了一个简单的解决方案,我得到了一份公司、学校等名称的列表。我在其中搜索了最常见的术语。(注意:我没有搜索名称中的常见字符串,因为那会花费很多)。我给这些术语分配了权重,也给最常见的子字符串分配了权重。这样,如果字符串中包含corp、inc、school、univ,那么它极有可能不是人的名字。

现在,我的挑战是如何将其转化为AI。此外,我还需要使其能够更容易地仅对公司、仅对学校等进行分类。

例如

XYZ Brewery Corporation -> 公司Harvard University -> 学校Department of Health -> 政府机构

我所知道的AI技术只有Naive-Bayes、K-Means、层次聚类、FCM、ANN。这些技术通常处理数值数据,所以我不知道如何将其转化为AI。我所知道的唯一广泛处理字符串的AI技术是Levenshtein、词干提取、Needleman-Wunch和Jaro-Winkler。

我的第一种方法是否不正确?我如何将我所知道的技术结合起来?我是否需要学习新的技术?我对AI基本上还是新手,因为我还是学生。然而,这不是作业,而是公司项目(实际上我是我们小组中唯一的计算机科学专业学生,所以对我来说负担很重)。顺便说一下,如果你对我在使用什么语言感到好奇,我使用的是C#,因为我计划将其制作成一个独立应用程序,用户使用的是Windows操作系统。


回答:

不要急于尝试复杂的机器学习算法。你的常识和直觉可以帮你走得很远。
你拥有大量实体列表的想法非常好,如果你能找到世界上所有高等教育机构的列表,这对于学校来说可能会非常有效。如果你能编制这样一个列表,它不太可能包含世界上每一个大学,但对于所有实际目的来说,它可能会足够好。
从你已经编制的列表中,你可以计算每个类别实体中每个单字(即单词)和双字(即连续的两个词)出现的次数,并观察某些短语是否强烈倾向于某个类别(例如,’department of’可能主要出现在政府机构中,’inc’、’ltd’、’& co.’可能只出现在公司中,’university’、’school’、’college’可能主要出现在学校中)。你可以将这些想法形式化为一个Naive Bayes模型,但有一个更简单的规则,只需在一个大的if-then语句中检查某些短语,就可能达到90%的效果。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注