AI – 字符串/文本分类/归类(例如,字符串/文本被分类为公司名称)

我的问题是要从表格中筛选出所有人的名字,即公司的名称、学校、机构的名称将保留在数据库中。

我尝试了一个简单的解决方案,我得到了一份公司、学校等名称的列表。我在其中搜索了最常见的术语。(注意:我没有搜索名称中的常见字符串,因为那会花费很多)。我给这些术语分配了权重,也给最常见的子字符串分配了权重。这样,如果字符串中包含corp、inc、school、univ,那么它极有可能不是人的名字。

现在,我的挑战是如何将其转化为AI。此外,我还需要使其能够更容易地仅对公司、仅对学校等进行分类。

例如

XYZ Brewery Corporation -> 公司Harvard University -> 学校Department of Health -> 政府机构

我所知道的AI技术只有Naive-Bayes、K-Means、层次聚类、FCM、ANN。这些技术通常处理数值数据,所以我不知道如何将其转化为AI。我所知道的唯一广泛处理字符串的AI技术是Levenshtein、词干提取、Needleman-Wunch和Jaro-Winkler。

我的第一种方法是否不正确?我如何将我所知道的技术结合起来?我是否需要学习新的技术?我对AI基本上还是新手,因为我还是学生。然而,这不是作业,而是公司项目(实际上我是我们小组中唯一的计算机科学专业学生,所以对我来说负担很重)。顺便说一下,如果你对我在使用什么语言感到好奇,我使用的是C#,因为我计划将其制作成一个独立应用程序,用户使用的是Windows操作系统。


回答:

不要急于尝试复杂的机器学习算法。你的常识和直觉可以帮你走得很远。
你拥有大量实体列表的想法非常好,如果你能找到世界上所有高等教育机构的列表,这对于学校来说可能会非常有效。如果你能编制这样一个列表,它不太可能包含世界上每一个大学,但对于所有实际目的来说,它可能会足够好。
从你已经编制的列表中,你可以计算每个类别实体中每个单字(即单词)和双字(即连续的两个词)出现的次数,并观察某些短语是否强烈倾向于某个类别(例如,’department of’可能主要出现在政府机构中,’inc’、’ltd’、’& co.’可能只出现在公司中,’university’、’school’、’college’可能主要出现在学校中)。你可以将这些想法形式化为一个Naive Bayes模型,但有一个更简单的规则,只需在一个大的if-then语句中检查某些短语,就可能达到90%的效果。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注