机器学习、人工智能和计算语言学

我很想与在机器学习、计算语言学或广义的人工智能方面有经验的人交流,具体可以围绕以下例子:

• 如果要尝试构建类似谷歌翻译的东西(通过统计语言学、机器学习),你会应用哪些现有的软件?(请不要误解,我不是只想做这件事,而是试图为这个领域中最复杂的事情构建一个概念框架,如果你有机会领导一个团队来实现它,你会怎么想?)

• 会使用哪些现有的数据库?存储TB级别的数据时,使用哪种数据库技术?

• 除了 C++ 之外,还会使用哪些编程语言?

• Apache Mahout 如何?

• 并且,这些软件组件如何协同工作来驱动整体工作?


回答:

用于自动翻译的最佳技术是基于统计方法。在计算机科学中,这被称为“机器翻译”或 MT。其思想是将信号(要翻译的文本)视为噪声信号,并使用纠错来“修复”该信号。 例如,假设您要将英语翻译成法语。 假设英文陈述最初是法文,但以英文形式出现。 您必须对其进行修复才能恢复它。 可以为目标语言(法语)和错误构建统计语言模型。 错误可能包括遗漏的单词、移动的单词、拼写错误的单词和添加的单词。

更多信息请访问:http://www.statmt.org/

关于数据库,MT解决方案不需要典型的数据库。一切都应该在内存中完成。

对于这项特定任务,最好使用最快的语言。 C对于这个问题来说是理想的,因为它速度快且易于控制内存访问。 但是可以使用任何高级语言,例如Perl,C#,Java,Python等。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注