如何开始学习基本的机器算法,例如用于文档识别和组织?

如果这个问题不合适,请原谅。我的问题比较具体,我并不是在请求实际的代码,而是在寻求指导,了解是否值得进行这项任务。如果这里不合适,请关闭这个问题,并友好地指引我正确的方向。

简短背景:我一直对捣鼓技术感兴趣。年轻时,我曾玩弄分区和OS X脚本,最终达到了基本级别的“通用编程”能力,但后来父亲禁止我使用电脑。现在我正在读法学院,并在一家律师事务所工作,但我热爱开发,想在法律领域实施更多的技术创新。

主要观点:在我们事务所,每年从三月中旬到四月第一周(移民+H1B截止日期)是忙季。我们会收到许多需要验证、组织和检查的文件和扫描文件。

我在我们的在线平台上添加了(非常)简单的代码行来帮助组织;基本上,我为所有传入的文件添加了标签,一旦它们被验证,代码就会按标签(如“身份证明文件”、“工作经历文件”等)组织它们。这会让我每年的生活变得轻松许多,因为在这个季节我每周要工作100多个小时。

我想通过一个算法将这项工作推进很多步骤,该算法可以检查签名和文件之间的数据不匹配,并最终组织文件,以便它们可以打印。最终,我甚至可能想实施机器学习和一个非常基础的神经网络来自动化整个枯燥而痛苦的过程…

实际问题:我只是想知道我应该如何继续或开始。我对Python和Java有一定的了解,我们已经有一个带有文档的在线平台。您推荐的其他资源有哪些,书籍、视频、甚至是课程?这种基本分类有名称吗?我可以通过自己的努力构建这样的东西吗,不需要高级学位?

愚蠢而夸张的结语:说实话,我的一部分感觉我到目前为止浪费了我的生活,因为我没有追求我在12岁时就知道自己喜欢的东西。这是我弥补的一种方式,我想,如果我能做到这一点,那么我可能可以在法律领域和更广泛的领域继续这样做…


回答:

你没有提供关于任务的很多具体细节,但如果你有有限数量的数字形式的表格作为图像,那么这似乎是非常可能的。

我个人经常使用OpenCV和Python,更复杂的机器学习任务在过去十年中变得越来越简单。

以对象检测为例(例如12),来检查签名字段中是否有任何东西,或者尝试从图像中提取日期(例如12)。

我建议你从最简单的能改善你工作的事情开始。一个小而简单的任务将让你积累如何做事的知识。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注