重构如今著名的17岁少年基于马尔可夫链的信息检索算法“Apodora”

当我们都在无所事事的时候,一位17岁的加拿大男孩似乎已经找到了一个信息检索算法,该算法:

a) 其精度是当前广泛使用的向量空间模型的两倍

b) 在识别相似词汇方面“相当准确”

c) 使微搜索更加精确

这里有一篇很好的采访

遗憾的是,我还没有找到已发表的论文,但从几年前我参加的图形模型和机器学习课程中记得的一些片段来看,我认为我们应该能够从他的提交摘要和他对其在采访中的描述中重构它。

来自采访:

一些搜索会找到在相似上下文中出现的词。这很好,但这只是遵循了一度关系。我的算法试图进一步跟踪连接。较近的连接被认为更有价值。理论上,它可以跟踪到无限度的连接。

摘要将其置于上下文中:

介绍了一种名为“Apodora”的新型信息检索算法,使用类似马尔可夫链的矩阵的限制能力来确定文档模型,并对词汇的语义进行上下文统计推断。该系统已实施并与向量空间模型进行了比较。特别是当查询较短时,新算法的精度大约是原来的两倍,并且在微搜索中有有趣的应用。

我觉得了解类似马尔可夫链矩阵或信息检索的人会立即意识到他在做什么。

那么,他在做什么呢?


回答:

从他使用“上下文”这样的词汇以及他引入了第二阶统计依赖性的事实来看,我怀疑他正在做一些与Griffiths, T., Steyvers, M., Blei, D., & Tenenbaum, J. (2005)的论文中概述的LDA-HMM方法相关的事情:Integrating topics and syntax. Advances in Neural Information Processing Systems。由于模型平均,搜索的分辨率存在一些固有的限制。然而,我很羡慕他在17岁时就能做这样的事情,我非常希望他做了一些独立的,至少是增量改进的工作。即使是在同一主题上的不同方向也将是非常酷的。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注