通用句子编码器,降低向量维度

我成功地使用TensorFlow hub上这个模块转换文档。

每个文档的输出是一个512维的向量,但是对于我的应用来说,这太大了,我希望降低维度,而模块本身并不提供这种功能。

我看到了几个选项:

  • 使用另一个输出维度较低的包。
  • 使用诸如PCA或tSNE之类的方法来降低维度。

使用PCA或tSNE的问题在于,需要根据许多示例向量的数据进行拟合——这意味着当新文档到达并被转换为512维向量时,我需要不断地拟合另一个模型,然后更新旧的文档向量——这在我的应用中将是一个巨大的问题。

有没有其他可以在单个数据点上操作的降维技术?


回答:

“UMAP支持通过标准的sklearn变换方法将新点添加到现有嵌入中。” UMAP在速度、准确性和理论基础方面是降维的赢家。

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注