优化循环以查找两个数组之间的差异,并为热图绘制进行十分位分桶

代码在计划用于多个数据文件之前就已编写,缺乏可扩展性

问题:我有两个数组,填充了0到1之间的预测分数。我想比较两个不同模型输出的差异,并在一个10×10的热图中展示。我从NNC模型获取一个分数,然后查看相应实例在FLC中的偏差,统计这些差异的数量和分布,然后绘制图表。

我正在考虑/其他人建议的事情包括:

1) 将数组转换为pandas数据框,可能对批量操作更快。也许可以为每个十分位子集使用逐步分支的列数据框

2) 在循环前动态创建10个独立数组,将值分成十分位桶

3) 将所有文件合并到一个数组中,这样虽然仍然需要很长时间,但不会耗费一整晚

4) 用定义函数替换一些内联数学运算

处理一个文件需要大约80秒,这对于一个数据集来说还可以,但如果是600个,除非我想运行一整晚。这里是最耗时的单元格:(代码已稍作修改,以便独立运行)

...

输出看起来像:热图

编辑:尝试过压缩数组,但速度几乎没有提高

...

这里的专家们有什么建议吗?


回答:

[已解决],感谢/u/two_bob 在/r/learnpython 的帮助

为要比较的两个数组创建了桶,然后使用groupby来统计交集 – 然后使用dropin方法将数据放入热图网格中,而不是循环/搜索所有100个单元格来匹配。

...

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注