如何处理文本生成中的标记

在我的文本生成数据集中,我已经将所有不常见的词转换成了…

TfidfVectorizer对大型数据集的拟合输出是否隐式设定了阈值?

我正在尝试使用sklearn中的TfidfVector…

Sklearn中CountVectorizer在管道中的NotFittedError

我正在尝试通过sklearn学习如何处理文本数据,但遇…

在英语语法中,是否有API可以获取与特定主题相关的所有单词

我正在使用Python进行自然语言处理,我的下一步是收…

使用斯坦福依赖解析器进行依赖解析

我试图从句子中提取主要动词,并参考了这个问题,我期望的…

如何在LSTM中每个输入生成多个输出?

假设这是我的模型: _________________…

Tensorflow.js 分词器

我对机器学习和Tensorflow还不太熟悉,由于我不…

词向量在word2vec中是彼此的标量倍数时,预期的语义关系是什么?

假设你有一个词queen的词向量。它的某些标量倍数可能…

使用TFIDF向量化分词文档时遇到的问题?

我正在对具有以下样式的标记进行文本块向量化: hi__…

如何使用卡方检验从文档中计算关键术语?

我想使用卡方检验从文档中提取关键术语,因此我尝试了以下…

基于主题建模的文档相关性评分

我目前有一个使用MALLET训练好的主题模型(http…

训练模型识别句子中出现的名字

我有一个包含大约238583个人的名字的数据集。这些名…

在Keras中嵌入层后添加词性特征

我想在Keras中嵌入层后将词性特征添加到词向量中。我…

Keras: 输入层和正确传递输入数据

我正在学习使用Keras的函数式API,并且已经成功构…

Keras functional API: 拟合和测试接受多个输入的模型

我构建了一个Keras模型,它有两个分支,每个分支接受…

如何在Python中提高不平衡数据集的精确度和召回率

我构建了一个监督模型来分类医学文本数据(我的输出预测疾…

结合文本和数值列用于机器学习算法

我正在处理一个情感分类问题,需要预测推文的情感是积极的…

在word2vec算法中,两个超点之间的最大欧几里得距离是多少?

我一直在考虑使用Word2vec来解决一个问题。我知道…

Python – NLTK 训练/测试集分割

我一直在关注SentDex关于NLTK和Python的…

NLP, 忽略无关词汇

我开发了一个从文本中提取护照号码的简单工具(例如,输入…

将文本文件包拆分为多个子集,根据文件内容进行分类

我有很多PDF、DOC[X]、TIFF和其他文件(来自…

关于跳字模型批量数据生成的困惑

当我在使用电影数据集在TensorFlow中检查跳字模…

微调Glove嵌入

有没有人尝试过在特定领域的语料库上微调Glove嵌入?…

修复seq2seq模型的错误输出

我想问一下,我们如何有效地重新训练一个已经训练好的se…

使用Python检测无意义名称的难题

我正在尝试构建一个Python模型,用于将账户名称分类…