在pandas数据框上应用机器学习库是个好主意吗？

我正在开发一个认知挖掘AI机器人。这个机器人有两个任务，一个是训练，另一个是预测。我使用了一些机器学习功能。我有大量的文档（约200,000份）用于训练。然后在预测查询时，我会遵循一些步骤来找到训练集中最匹配的文档（通过查看每个文档的得分和置信度）。我使用了一些已知功能，如TF-IDF、n-gram和查询中每个标记的余弦相似度。为此，我使用了核心Python、Python第三方库，以及用于存储训练数据的NoSQL数据库。

注意：我尽可能使用核心Python来提升性能。（请不要建议使用Elastic Search或Python Whoosh，因为我只想继续使用我的简单代码再十年。:））

我遇到了性能问题。例如，计算得分需要2-3秒，这不太理想。我希望结果能在几毫秒内返回。

所以我的问题是，如果我使用pandas，并尝试将上述所有功能应用于它，性能会更好吗？还是使用numpy矩阵计算会更好？

我认为这里不需要粘贴代码。我只是需要有经验的人对我的问题发表看法。当然，解决方案应该具有可扩展性。

回答：

无论哪种方式，性能上可能都不会有太大差异。

Pandas在加载数据和处理数据方面（如以不同方式分组、透视、从现有列创建新列等）非常高效。

一旦你的数据准备好传递给机器学习算法（例如，在sklearn中），那么，基本上，pd.DataFrame.as_matrix()可以将其转换为numpy数组，而不会从根本上影响整体性能。很难想象任何sklearn预测/分类阶段的成本不会超过这个转换过程。

sklearn-pandas包进一步简化了这一过程。

如果此时你的性能仍不满意，解决方案应该在其他地方寻找。

学技术

在pandas数据框上应用机器学习库是个好主意吗？

发表回复取消回复

相关文章：

Related Posts

使用LSTM在Python中预测未来值

如何在gensim的word2vec模型中查找双词组的相似性

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

ML Tuning – Cross Validation in Spark

如何在React JS中使用fetch从REST API获取预测

如何分析ML.NET中多类分类预测得分数组？

发表回复 取消回复

发表回复取消回复