我正在开发一个Stack Overflow标签预测器。
我有一个数据框df,其中包含一个特征’post’和标签’Tags’,标签可以是多标签的。
我的df如下:
Tags post0 [php] 检查上传文件图像而不使用MIME类型会...1 [firefox] 防止Firefox关闭按Ctrl-W收藏夹编辑...2 [r] R错误无效类型列表变量导入Matlab...3 [c#] 替换URL中的特殊字符可能很简单...4 [php, api] 修改Whois联系人详细信息函数修改MC... ... ...179995 [delphi] IntraWeb ISAPI模块抛出未识别的逗号...179996 [c] OpenCV argc argv混淆检查OpenCV教程...179997 [android] 列出SD卡上的数据想要显示文件名驻留...179998 [java, email] 添加排序扩展IMAP服务器邮件服务器支持...179999 [linux, php] 创建CardDAV LDAP服务器共享主机通过PHP...
所以我想使用word2vec进行分类并预测标签。
我想使用所有机器学习分类器,如SVM、随机森林等。
我还想要标签的分类报告。
所以请帮助我。
回答:
word2vec不是分类器,它是一个词到向量的转换器,我的建议步骤是:1)预处理文本(如停用词和归一化)2)使用TF-IDF或word2vec将词转换为向量3)然后应用机器学习模型(对于多分类你可以使用SVM、朴素贝叶斯和逻辑回归)4)验证结果