如何在自然文本中查找日期引用？

我想做的就是解析原始的自然文本，并找出所有描述日期的短语。

我有一个相当大的语料库，其中所有日期引用都被标记出来了：

I met him <date>yesterday</date>.Roger Zelazny was born <date>in 1937</date>He'll have a hell of a hangover <date>tomorrow morning</date>

我并不想解释这些日期短语，只是想定位它们。它们是日期这一事实并不重要（在现实生活中它们甚至不是日期，但我不想用细节来烦你），基本上这只是一组可能的值。值本身的语法可以近似为上下文无关的，但是手动构建它相当复杂，随着复杂性的增加，避免误报变得越来越困难。

我知道这有点冒险，所以我并不指望那里存在现成的解决方案，但有什么技术或研究是我可以潜在使用的吗？

回答：

学术界和工业界使用的一种通用方法是基于条件随机场的。基本上，这是一种特殊的概率模型，你首先用标记好的数据训练它，然后它就可以标记给定文本中的某些类型的实体。

你甚至可以尝试斯坦福自然语言处理小组的系统之一：Stanford Named Entity Recognizer

当你下载该工具时，请注意有几个模型，你需要最后一个：

斯坦福NER包括一个为CoNLL训练的4类模型，一个为MUC训练的7类模型，以及一个在两个数据集上训练的3类模型，用于这些类集的交集。

3类地点，人，组织

4类地点，人，组织，其他

7类时间，地点，组织，人，金钱，百分比，日期

更新。 你实际上可以在这里在线尝试该工具。选择muc.7class.distsim.crf.ser.gz分类器，并尝试一些包含日期的文本。它似乎无法识别“yesterday”，但可以识别“20th century”，例如。最终，这是一个CRF训练的问题。

Stanford NER截图

学技术