将文本解析为数据模型

我正在尝试将文本解析为我创建的数据模型,特别是来自RP…

如何将数据库中的员工职称匹配以简化名称

已关闭。此问题需要更加集中。目前不接受回答。 想要改进…

使用word2vec估计句子相似度

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

从文本中提取关键词/关键短语

已关闭。 此问题正在寻求关于软件库、教程、工具、书籍或…

MiniBatchSparsePCA在文本数据上的应用

目标 我试图复制一篇论文(第4.1节)中描述的应用,该…

文本挖掘中的特征数量

我正在尝试基于文本挖掘建立一个预测模型。我对模型中应该…

如何将欧几里得距离转换到0到1的范围内,类似于余弦相似度?

希望将欧几里得距离映射到[0, 1]的范围内,有点像向…

余弦相似度,两个不同的向量但结果接近1? [duplicate]

这个问题已经有了答案: 为什么两个向量不相似但结果是1…

将文本语料库转换为带有词汇ID和相应TF-IDF分数的文本文档

我有一个包含5个文档的文本语料库,每个文档之间用/n分…

文本挖掘和机器学习

已关闭。 此问题正在寻求关于软件库、教程、工具、书籍或…

如何在文本中单词不经常重复的情况下准备用于文本分类的特征向量?

我需要对一组电子邮件进行文本分类。但是,我的文本中的所…

词频特征归一化

我正在提取文档的特征。其中一个特征是文档中单词的频率。…

在小数据集上使用GridSearch并将结果应用于大数据集是否是个好主意?

我有一个包含TfidVectorizer和OneVsR…

如何在未标记数据集中找到最有希望提供信息的实例以构建分类器?

我的问题是,我有一个大型的未标记数据集,但随着时间的推…

文本分析:词-文档矩阵之后的步骤?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

使用机器学习进行作者归属分析

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

情感分析 Java 库

已关闭。 此问题正在寻求关于软件库、教程、工具、书籍或…

如何为LaTeX字符串创建词袋?

我有一组以LaTeX格式输入的段落。我想从中创建一个词…

为什么我们可以用熵来衡量语言模型的质量?

已关闭。此问题属于基于意见的。目前不接受回答。 想要改…

如何计算单个新文档的TF*IDF以进行分类?

我使用文档-词向量来表示一组文档。我使用TF*IDF来…

奇异值分解(SVD)在潜在语义分析(LSA)中生成的矩阵的含义/暗示

SVD在LSA中被用来获取潜在的语义信息。我对SVD矩…

基于文本检测特征的最佳方法

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

使用词矩阵和3+类别进行朴素贝叶斯预测

我很难理解A) 朴素贝叶斯的输出和B) 朴素贝叶斯的p…

对于给定文档,寻找最合适的标签是否有数据挖掘/文本挖掘/机器学习技术?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

朴素贝叶斯分类器仅基于先验概率做出决策

我正在尝试根据推文的情感将其分类为三个类别(买入、持有…