当我们都在无所事事的时候,一位17岁的加拿大男孩似乎已经找到了一个信息检索算法,该算法:
a) 其精度是当前广泛使用的向量空间模型的两倍
b) 在识别相似词汇方面“相当准确”
c) 使微搜索更加精确
这里有一篇很好的采访。
遗憾的是,我还没有找到已发表的论文,但从几年前我参加的图形模型和机器学习课程中记得的一些片段来看,我认为我们应该能够从他的提交摘要和他对其在采访中的描述中重构它。
来自采访:
一些搜索会找到在相似上下文中出现的词。这很好,但这只是遵循了一度关系。我的算法试图进一步跟踪连接。较近的连接被认为更有价值。理论上,它可以跟踪到无限度的连接。
摘要将其置于上下文中:
介绍了一种名为“Apodora”的新型信息检索算法,使用类似马尔可夫链的矩阵的限制能力来确定文档模型,并对词汇的语义进行上下文统计推断。该系统已实施并与向量空间模型进行了比较。特别是当查询较短时,新算法的精度大约是原来的两倍,并且在微搜索中有有趣的应用。
我觉得了解类似马尔可夫链矩阵或信息检索的人会立即意识到他在做什么。
那么,他在做什么呢?
回答:
从他使用“上下文”这样的词汇以及他引入了第二阶统计依赖性的事实来看,我怀疑他正在做一些与Griffiths, T., Steyvers, M., Blei, D., & Tenenbaum, J. (2005)的论文中概述的LDA-HMM方法相关的事情:Integrating topics and syntax. Advances in Neural Information Processing Systems。由于模型平均,搜索的分辨率存在一些固有的限制。然而,我很羡慕他在17岁时就能做这样的事情,我非常希望他做了一些独立的,至少是增量改进的工作。即使是在同一主题上的不同方向也将是非常酷的。