重构如今著名的17岁少年基于马尔可夫链的信息检索算法“Apodora”

当我们都在无所事事的时候,一位17岁的加拿大男孩似乎已经找到了一个信息检索算法,该算法:

a) 其精度是当前广泛使用的向量空间模型的两倍

b) 在识别相似词汇方面“相当准确”

c) 使微搜索更加精确

这里有一篇很好的采访

遗憾的是,我还没有找到已发表的论文,但从几年前我参加的图形模型和机器学习课程中记得的一些片段来看,我认为我们应该能够从他的提交摘要和他对其在采访中的描述中重构它。

来自采访:

一些搜索会找到在相似上下文中出现的词。这很好,但这只是遵循了一度关系。我的算法试图进一步跟踪连接。较近的连接被认为更有价值。理论上,它可以跟踪到无限度的连接。

摘要将其置于上下文中:

介绍了一种名为“Apodora”的新型信息检索算法,使用类似马尔可夫链的矩阵的限制能力来确定文档模型,并对词汇的语义进行上下文统计推断。该系统已实施并与向量空间模型进行了比较。特别是当查询较短时,新算法的精度大约是原来的两倍,并且在微搜索中有有趣的应用。

我觉得了解类似马尔可夫链矩阵或信息检索的人会立即意识到他在做什么。

那么,他在做什么呢?


回答:

从他使用“上下文”这样的词汇以及他引入了第二阶统计依赖性的事实来看,我怀疑他正在做一些与Griffiths, T., Steyvers, M., Blei, D., & Tenenbaum, J. (2005)的论文中概述的LDA-HMM方法相关的事情:Integrating topics and syntax. Advances in Neural Information Processing Systems。由于模型平均,搜索的分辨率存在一些固有的限制。然而,我很羡慕他在17岁时就能做这样的事情,我非常希望他做了一些独立的,至少是增量改进的工作。即使是在同一主题上的不同方向也将是非常酷的。

Related Posts

L1-L2正则化的不同系数

我想对网络的权重同时应用L1和L2正则化。然而,我找不…

使用scikit-learn的无监督方法将列表分类成不同组别,有没有办法?

我有一系列实例,每个实例都有一份列表,代表它所遵循的不…

f1_score metric in lightgbm

我想使用自定义指标f1_score来训练一个lgb模型…

通过相关系数矩阵进行特征选择

我在测试不同的算法时,如逻辑回归、高斯朴素贝叶斯、随机…

可以将机器学习库用于流式输入和输出吗?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

在TensorFlow中,queue.dequeue_up_to()方法的用途是什么?

我对这个方法感到非常困惑,特别是当我发现这个令人费解的…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注