优化循环以查找两个数组之间的差异，并为热图绘制进行十分位分桶

代码在计划用于多个数据文件之前就已编写，缺乏可扩展性

问题：我有两个数组，填充了0到1之间的预测分数。我想比较两个不同模型输出的差异，并在一个10×10的热图中展示。我从NNC模型获取一个分数，然后查看相应实例在FLC中的偏差，统计这些差异的数量和分布，然后绘制图表。

我正在考虑/其他人建议的事情包括：

1) 将数组转换为pandas数据框，可能对批量操作更快。也许可以为每个十分位子集使用逐步分支的列数据框

2) 在循环前动态创建10个独立数组，将值分成十分位桶

3) 将所有文件合并到一个数组中，这样虽然仍然需要很长时间，但不会耗费一整晚

4) 用定义函数替换一些内联数学运算

处理一个文件需要大约80秒，这对于一个数据集来说还可以，但如果是600个，除非我想运行一整晚。这里是最耗时的单元格：（代码已稍作修改，以便独立运行）

...

输出看起来像：热图

编辑：尝试过压缩数组，但速度几乎没有提高

...

这里的专家们有什么建议吗？

回答：

[已解决]，感谢/u/two_bob 在/r/learnpython 的帮助

为要比较的两个数组创建了桶，然后使用groupby来统计交集 – 然后使用dropin方法将数据放入热图网格中，而不是循环/搜索所有100个单元格来匹配。

...

学技术