如何将一段中文文本拆分成单个字符?

我正在进行一个机器学习项目,构建一个针对中文文本的朴素…

如何证明EM算法的收敛性?

已关闭。 此问题不符合主题。目前不接受回答。 想要改进…

在 scikit-learn 中使用带多项式核的支持向量分类器

我正在尝试使用 scikit-learn 包中的不同分…

unigrams & bigrams (tf-idf) 的准确性不如单纯的 unigrams (ff-idf)?

这是一个关于使用 ngrams 进行线性回归的问题,我…

如何结合不同的自然语言处理特征进行机器学习?

我正在尝试使用不同的自然语言处理特征进行KNN学习。例…

从给定字符串中提取任意位置的可行性?

这个问题不太可能帮助到未来的访问者;它仅适用于一个小地…

模糊分组,聚类相似词

这个问题之前在这里被问过 将相似词进行分组的有效策略是…

如何在文档聚类后对特定聚类进行查询搜索?

很难判断这里问的是什么。这个问题含糊不清、模糊、不完整…

metaphone versus soundex versus NYSIIS

我正在尝试开发一个隐式拼写检查器,它将使用输入单词到某…

为什么我们要对SVM特征向量进行余弦归一化?

我最近在玩一个用于二元情感分析的知名电影评论数据集。这…

通过机器翻译系统生成英语查询

我正在进行一个项目,旨在从句子中生成问题。目前,我已经…

如何进行元素的随机嵌入括号

我正在编写一个自动成分括号化的学习算法。由于算法是从零…

最大熵分类器用于大数据集

我一直在寻找一种最大熵分类实现,能够处理500个类别和…

使用nltk进行一般同义词和词性处理

我正在尝试为句子中的重要词语(即非“a”或“the”)…

有效解决未知词汇到已知词汇的方法?

我正在设计一个文本处理程序,该程序将从一个长篇条目式文…

向词袋模型添加新术语

我正在使用k-means聚类来对一组新闻项目进行分组。…

如何从混淆矩阵中计算概率?需要分母,字符矩阵

这篇论文包含了噪声通道中拼写错误的混淆矩阵。它描述了如…

从标记数据集中提取正则表达式的技术

假设我有一个包含几十万个字符串的数据集(如果有意义的话…

如何在sklearn的集成分类器中使用自定义分类器?

我了解到sklearn中内置的集成方法使用决策树作为基…

Stanford parser- 使用金融工具进行标记

我有一组金融文件(定期存款文件、信用卡文件)。我想自动…

什么是Oracle实验?

我读了一篇关于机器学习的论文,里面包含了一个Oracl…

### Porter和Lancaster词干提取算法的主要区别和优势是什么?

已关闭。此问题需要更加聚焦。目前不接受回答。 想要改进…

如何理解并在示例中添加音节分隔?

我在机器学习和计算概率方面是新手。这是一个来自Ling…

训练基于ngram的朴素贝叶斯分类器

我一直在使用Ruby分类器库来对隐私政策进行分类。我得…

在NLTK中实现词袋模型的朴素贝叶斯分类器

我的问题与这个人的问题基本相同。NLTK书中关于朴素贝…