text-mining – 学技术

IT技术

是否有方法将数据集按相同比例的分类值进行划分？

xiaolong · 2025年5月30日 · 0 Comment

我对R语言还不太熟练，但我有一个问题。我有一个数据集（…

IT技术

如何在为机器学习标注文本数据后继续进行？

xiaolong · 2025年5月28日 · 0 Comment

我目前正在进行一个项目，目的是对一些文本进行分类。为此…

IT技术

将文本解析为数据模型

xiaolong · 2025年4月15日 · 0 Comment

我正在尝试将文本解析为我创建的数据模型，特别是来自RP…

IT技术

如何将数据库中的员工职称匹配以简化名称

xiaolong · 2025年4月15日 · 0 Comment

已关闭。此问题需要更加集中。目前不接受回答。想要改进…

IT技术

使用word2vec估计句子相似度

xiaolong · 2025年4月15日 · 0 Comment

已关闭。此问题需要更加聚焦。目前不接受回答。想要改进…

IT技术

从文本中提取关键词/关键短语

xiaolong · 2025年4月15日 · 0 Comment

已关闭。此问题正在寻求关于软件库、教程、工具、书籍或…

IT技术

MiniBatchSparsePCA在文本数据上的应用

xiaolong · 2025年4月14日 · 0 Comment

目标我试图复制一篇论文（第4.1节）中描述的应用，该…

IT技术

文本挖掘中的特征数量

xiaolong · 2025年4月13日 · 0 Comment

我正在尝试基于文本挖掘建立一个预测模型。我对模型中应该…

IT技术

如何将欧几里得距离转换到0到1的范围内，类似于余弦相似度？

xiaolong · 2025年4月12日 · 0 Comment

希望将欧几里得距离映射到[0, 1]的范围内，有点像向…

IT技术

余弦相似度，两个不同的向量但结果接近1？ [duplicate]

xiaolong · 2025年4月12日 · 0 Comment

这个问题已经有了答案: 为什么两个向量不相似但结果是1…

IT技术

将文本语料库转换为带有词汇ID和相应TF-IDF分数的文本文档

xiaolong · 2025年4月12日 · 0 Comment

我有一个包含5个文档的文本语料库，每个文档之间用/n分…

IT技术

文本挖掘和机器学习

xiaolong · 2025年4月12日 · 0 Comment

已关闭。此问题正在寻求关于软件库、教程、工具、书籍或…

IT技术

如何在文本中单词不经常重复的情况下准备用于文本分类的特征向量？

xiaolong · 2025年4月9日 · 0 Comment

我需要对一组电子邮件进行文本分类。但是，我的文本中的所…

IT技术

词频特征归一化

xiaolong · 2025年4月8日 · 0 Comment

我正在提取文档的特征。其中一个特征是文档中单词的频率。…

IT技术

在小数据集上使用GridSearch并将结果应用于大数据集是否是个好主意？

xiaolong · 2025年4月8日 · 0 Comment

我有一个包含TfidVectorizer和OneVsR…

IT技术

如何在未标记数据集中找到最有希望提供信息的实例以构建分类器？

xiaolong · 2025年4月7日 · 0 Comment

我的问题是，我有一个大型的未标记数据集，但随着时间的推…

IT技术

文本分析：词-文档矩阵之后的步骤？

xiaolong · 2025年4月7日 · 0 Comment

已关闭。此问题需要更加聚焦。目前不接受回答。想要改进…

IT技术

使用机器学习进行作者归属分析

xiaolong · 2025年4月7日 · 0 Comment

已关闭。此问题需要更加聚焦。目前不接受回答。想要改进…

IT技术

情感分析 Java 库

xiaolong · 2025年4月7日 · 0 Comment

已关闭。此问题正在寻求关于软件库、教程、工具、书籍或…

IT技术

如何为LaTeX字符串创建词袋？

xiaolong · 2025年4月7日 · 0 Comment

我有一组以LaTeX格式输入的段落。我想从中创建一个词…

IT技术

为什么我们可以用熵来衡量语言模型的质量？

xiaolong · 2025年4月7日 · 0 Comment

已关闭。此问题属于基于意见的。目前不接受回答。想要改…

IT技术

如何计算单个新文档的TF*IDF以进行分类？

xiaolong · 2025年4月7日 · 0 Comment

我使用文档-词向量来表示一组文档。我使用TF*IDF来…

IT技术

奇异值分解（SVD）在潜在语义分析（LSA）中生成的矩阵的含义/暗示

xiaolong · 2025年4月7日 · 0 Comment

SVD在LSA中被用来获取潜在的语义信息。我对SVD矩…

IT技术

基于文本检测特征的最佳方法

xiaolong · 2025年4月7日 · 0 Comment

已关闭。此问题需要更加聚焦。目前不接受回答。想要改进…

IT技术

使用词矩阵和3+类别进行朴素贝叶斯预测

xiaolong · 2025年4月7日 · 0 Comment

我很难理解A) 朴素贝叶斯的输出和B) 朴素贝叶斯的p…