如何在Python中从CSV文件创建词袋？

我是Python新手。我有一个包含已清理推文的CSV文件。我想创建这些推文的词袋。我有以下代码，但它无法正确运行。

import pandas as pdfrom sklearn import svmfrom sklearn.feature_extraction.text import CountVectorizerdata = pd.read_csv(open("Twidb11.csv"), sep=' ')count_vect = CountVectorizer()X_train_counts = count_vect.fit_transform(data.Text)count_vect.vocabulary_

错误：

.ParserError: 解析数据时出错。C错误：第5行预期有19个字段，但看到了22个

回答：

我认为这是重复的。你可以在这里看到答案这里。有很多答案和评论。

所以，解决方案可以是：

data = pd.read_csv('Twidb11.csv', error_bad_lines=False)

或者：

df = pandas.read_csv(fileName, sep='delimiter', header=None)

“在上面的代码中，sep定义了你的分隔符，header=None告诉pandas你的源数据没有用于标题/列标题的行。正如文档所说：“如果文件不包含标题行，则应明确传递header=None”。在这种情况下，pandas会自动为每个字段创建整数索引{0,1,2,…}。”

学技术

如何在Python中从CSV文件创建词袋？

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复