使用word2vec进行文本分类:Stack Overflow标签预测

我正在开发一个Stack Overflow标签预测器。

我有一个数据框df,其中包含一个特征’post’和标签’Tags’,标签可以是多标签的。

我的df如下:

Tags    post0   [php]   检查上传文件图像而不使用MIME类型会...1   [firefox]   防止Firefox关闭按Ctrl-W收藏夹编辑...2   [r] R错误无效类型列表变量导入Matlab...3   [c#]    替换URL中的特殊字符可能很简单...4   [php, api]  修改Whois联系人详细信息函数修改MC... ... ...179995  [delphi]    IntraWeb ISAPI模块抛出未识别的逗号...179996  [c] OpenCV argc argv混淆检查OpenCV教程...179997  [android]   列出SD卡上的数据想要显示文件名驻留...179998  [java, email]   添加排序扩展IMAP服务器邮件服务器支持...179999  [linux, php]    创建CardDAV LDAP服务器共享主机通过PHP... 

所以我想使用word2vec进行分类并预测标签。

我想使用所有机器学习分类器,如SVM、随机森林等。

我还想要标签的分类报告。

所以请帮助我。


回答:

word2vec不是分类器,它是一个词到向量的转换器,我的建议步骤是:1)预处理文本(如停用词和归一化)2)使用TF-IDF或word2vec将词转换为向量3)然后应用机器学习模型(对于多分类你可以使用SVM、朴素贝叶斯和逻辑回归)4)验证结果

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注