在MATLAB中对单元数组进行分类

我想对一组新闻数据集进行文本分类。我有很多特征，比如subject（主题）、keyword（关键词）、summary（摘要）等…所有这些特征都被存储在一个结构体的单元数组中，每个结构体看起来像这样：

       label: 'misc.forsale'        subj: ' Motorcycle wanted.'     keyword: [1x190 char]   reference: []organization: ' Worcester Polytechnic Institute'        from: ' [email protected] (John Kedziora)'     summary: []       lines: ' 11'       vocab: [4x2 double]

我想使用class = classify(test, train, target, 'diaglinear');来对它们进行分类，
但是这些函数只能接收数组作为输入，不接受单元或结构体。

我无法将这个单元数组转换为一个多维数组，因为特征的数量是变化的（例如，一个主题有两个词，另一个有三个词）。

我该怎么办？

回答：

首先进行一些特征提取。例如，对字符串进行分词，然后使用TF-IDF方法。

你可以将关键词与分词结合在一起。这在信息检索中是一种常见的做法。请参阅Xapian手册中的示例。

通常，你会进行一些词干提取，例如Examples -> exampl。现在，只需添加前缀以区分单词的出现位置。例如，当主题包含example时使用Sexampl，当它是关键词时使用Kexampl。

然后你就得到了一个“词袋”表示法，这种表示法在各个地方都很常用。他们甚至将这种方法用于图像挖掘，称为“视觉词”。这些也不是英语单词。

学技术

在MATLAB中对单元数组进行分类

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复