我有两个不同的文件夹,一个用于正类,另一个用于负类。每个文件夹都包含一组文档。有没有可以将这个训练数据集转换为LibSVM格式的工具?
回答:
您可以使用scikit-learn编写一个Python脚本来完成这个任务。您可以使用以下工具:
-
load_files来加载文本文档,
-
TfIdfVectorizer来提取文本特征为
scipy.sparse
内存矩阵, -
dump_svmlight来将生成的稀疏矩阵以svmlight格式保存到磁盘上。
我有两个不同的文件夹,一个用于正类,另一个用于负类。每个文件夹都包含一组文档。有没有可以将这个训练数据集转换为LibSVM格式的工具?
回答:
您可以使用scikit-learn编写一个Python脚本来完成这个任务。您可以使用以下工具:
load_files来加载文本文档,
TfIdfVectorizer来提取文本特征为scipy.sparse
内存矩阵,
dump_svmlight来将生成的稀疏矩阵以svmlight格式保存到磁盘上。