如何在不使用Google的情况下实现“大意是？”功能？

我知道这个问题有重复的提问：

这些问题关注的是算法的实际工作原理。我的问题更像是：假设Google不存在，或者这个功能不存在，我们也没有用户输入。如何实现这个算法的一个近似版本？

为什么这很有趣？

好的。试着在Google中输入”qualfy“，它会告诉你：

大意是： qualify

这还算合理。它使用从数十亿用户收集的数据进行统计机器学习来实现这一点。但现在试着输入这个：”Trytoreconnectyou“，Google会告诉你：

大意是： Try To Reconnect You

这才是更有趣的部分。Google是如何确定这一点的？是手边有一本字典，然后再次使用用户输入来猜测最可能的词吗？它又是如何区分一个拼写错误的词和一个句子的？

现在考虑到大多数程序员无法访问数十亿用户的输入，我正在寻找实现这个算法的最佳近似方法，以及可用的资源（数据集、库等）。有什么建议吗？

回答：

假设你有一个词典（在最坏的情况下，词典中出现的所有词；在最好的情况下，你系统数据中出现的所有短语），并且你知道各个词的相对频率，你应该能够通过某种组合来合理地猜测用户的意思，包括词的相似度和相似词的点击次数。权重显然需要一些试错，但通常用户更感兴趣的是一个稍微在语言上更远离他们输入的字符串的流行结果，而不是一个在语言上更接近但在你的系统中只有一两个点击的有效词。

第二种情况应该更直接。你找到所有以该字符串开头的有效词（“T”无效，“Tr”无效，“Try”是词，“Tryt”不是词，等等），然后对于每个有效词，你对剩余的字符串重复该算法。假设你的词典是索引的，这应该会很快。如果你找到一个结果，你能够将长字符串分解成一组有效词且没有剩余字符，这就是你推荐的。当然，如果你是Google，你可能会修改算法以寻找与实际词相当接近的拼写错误的子字符串，并且你有一些逻辑来处理字符串可以以足够宽松的拼写检查多种方式读取的情况（可能使用结果数量来打破平局）。

学技术

如何在不使用Google的情况下实现“大意是？”功能？

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复