降维技术（TSNE/PCA）在稀疏矩阵上的应用

我想使用降维（DR）技术来可视化我的数据，并了解它们之间的相关性。我计划使用Barnes-hut tsne，但我不知道如何向TSNE提供输入，因为根据用户指南，示例应用程序中的数据是以常规矩阵形式存在的。我有大约1200万条记录，包含5000个不同的值，无法将它们存储在主内存中。我希望通过降维（DR）技术，将这些不同的值可视化为二维散点图。我的数据是以邻接列表形式存在的（因为它非常稀疏）。

假设我有以下记录：

2 3 104 677 9 1025 6

这些应该是我的前6条记录。在这种情况下，我只有10个不同的值。上述矩阵（表格）表明，第1条记录的第2、3和10列为1，而其他列为0（邻接列表）。

这些不同的值映射到文档（记录）中存在的单词（标签）。

我如何使用这种数据进行快速TSNE？或者如何将其转换为TSNE所需的兼容格式？我应该使用哪种编程语言？

我更倾向于使用Python或Matlab，但其他任何语言也可以。请告诉我你的建议。

P.S. 我有一台高性能计算机来完成这项任务。

回答：

Barnes-Hut t-SNE代码本身并不支持这种情况，但对代码进行一些相对简单的修改应该可以使其支持。特别是，请查看以下代码行：https://github.com/lvdmaaten/bhtsne/blob/master/tsne.cpp#L123

这一行代码用行压缩稀疏矩阵格式填充row_P、col_P和val_P，以NxN的相似性矩阵形式。也就是说，row_P有N+1个元素，这些元素包含指向col_P和val_P的索引，后两者都有nnz个元素（N是稀疏矩阵的行数，nnz是非零元素的数量）。val_P中的元素假定为非负值（例如，高斯核值）。

我认为你可以做的最简单的事情是用一个新的函数调用替换这个函数调用，该函数根据你自己的输入数据计算相似性矩阵（操作你认为最方便的任何稀疏格式）。你甚至可以在Matlab中实现相似性矩阵计算，然后编写一些Mex代码，从中获取结果稀疏矩阵并将其复制到row_P、col_P和val_P中。这应该很容易，因为Matlab也使用行压缩稀疏矩阵格式；请查看mxGetIr和mxGetJc Mex函数。

Barnes-Hut t-SNE代码的其余部分对输入相似性是如何计算的并不关心，因此你不需要进行其他任何更改。

学技术

降维技术（TSNE/PCA）在稀疏矩阵上的应用

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复