机器学习还是基于规则的方法

已关闭。此问题属于基于意见的问题。目前不接受回答。 想…

CountVectorizer 适应时间过长

def tokenize(text): text = …

忽略训练数据中不存在的测试特征

我有一个任务,需要使用sklearn创建三个分类器(两…

词汇和整数(独热编码)表示是如何存储的?torchtext.vocab()中的(‘string’, int)元组是什么意思?

我正在尝试训练一个用于二元分类的RNN。我已经从100…

crfsuite中文本特征的数值转换

我在查看crfsuite-python文档中提供的示例…

如何在Tensorflow Transform中计算TF-IDF(使用tft.tfidf函数)

在浏览Tensorflow Transform的文档时…

python函数的作用是什么,它基本上是为了找出何时以及如何使用该函数

def tokenize_corpus(corpus,…

用于NLP文本分类的聊天数据

我有一组聊天对话(每组对话包含100个句子)及其对应的…

你能从头开始训练一个带有特定任务架构的BERT模型吗?

BERT的基模型预训练是通过语言模型方法完成的,我们会…

如何为keras Tokenizer选择num_words参数?

tokenizer = Tokenizer(num_w…

如何在机器学习中打印分类特征?

假设我有一个训练数据集 r1: 便宜, 昂贵 -&gt…

数据注释用于机器学习

我打算开发一个机器学习模型。我有大量的数据集(文本)。…

如何在命名实体识别后使用k-means算法进行属性聚类?

我正在阅读这篇论文,在3.2.1小节的第一段最后三行,…

AttributeError: ‘list’ 对象没有 ‘lower’ 属性,使用 CountVectorizer

我在尝试对 Python 中的 pandas 数据框进…

结合单字和双字在TF-IDF中的应用

我正在进行一个项目,我们试图在一个由多个群集划分的文章…

Tensorflow 2.0 Hugging Face Transformers, TFBertForSequenceClassification, 推理时意外输出维度

摘要: 我想在自定义数据集上对BERT进行微调以进行句…

sklearn中的countvectorizer仅用于英语吗?

我正在尝试将计数向量化器应用于印度语中的泰卢固语和印地…

可以微调BERT来预测转发吗?

我想构建一个分类器来预测用户i是否会转发推文j。 数据…

使用NLP和Python进行文本多分类 – 两个类别的召回率相对较低

我有一个几乎平衡的数据集,包含9个独特类别,每个类别大…

加载 pickle 文件时出现 NotFittedError: CountVectorizer – 词汇表未被拟合

我正在尝试使用 scikit 机器学习来分类垃圾邮件。…

无法对多标签分类器进行堆叠

我正在处理一个多标签文本分类问题(总目标标签90个)。…

如何在一个句子中显示多个下一个词的预测?

我正在使用预训练的GPT-2模型。我的代码会接收一个句…

TypeError: lemmatize() 缺少一个必需的位置参数: ‘word

我有一个数组,包含CSV文件中每一行的数据,如下所示:…

用于NLP实践的有效数据集

已关闭。 此问题是在寻求软件库、教程、工具、书籍或其他…

即使训练和测试数据始终相同,测试准确率仍会波动

已关闭。此问题需要更加集中。目前不接受回答。 想要改进…