我计划在印度参加一个以项目为导向的自然语言处理高级暑期研讨会。在研讨会开始之前,我必须从以下四个领域中选择一个项目,我对这些领域的知识有限。
机器翻译 开发一个英语-印度语翻译系统。
句法分析 构建一个印度语言(IL)的句法分析器。
词法分析 开发和测试印度语言的词法分析器。
语音 口语对话系统,情感/韵律检测,合成和转换
我上过一门人工智能课程,其中介绍了自然语言处理,并涵盖了诸如词性标注(基于转换的学习)、使用N-grams的单词预测、隐马尔可夫模型、维特比算法、自然语言句法分析、上下文无关文法、CKY算法等基本子主题。
我知道这是一个有点模糊的问题,选择主要取决于我的兴趣,但希望得到一些指导,了解哪个领域在研究范围、实际应用、行业机会等方面会更好。
编辑:在NLP之外,在项目工作期间获得的技能/经验的应用也将是决策的一个因素。
回答:
让我们首先将这四个选项分组,前三个分为一类-NL-文本,另一个第四个分为另一类-NL-语音,因为追求这些选项所需的技能和倾向略有不同。所以首先使用你是否喜欢在第一组或第二组中工作的标准。一旦你完成了这一点,并且你选择了语音,你就完成了。但如果你在另一边,现在有两个类别:机器翻译,以及剩下的词法分析和印度语言句法分析。构建一个机器翻译系统将侧重于使用现成的组件并将它们适配到你的语言对。如果计划以统计方式进行,那么更多的是数据方面,你不会获得太多东西,我的意思是学习/工作不如其他两个。如果是基于规则的,那么很少有能做大的,但你会学到很多东西。构建一个印度语言解析器是一个不错的选择,并且可能对未来的任务有用,在未来你将拥有大量的印度语言数据,然后文本处理行业将会蓬勃发展。因此,考虑到行业未来的发展前景,我投一票赞成。词法分析的情况也是如此。