代码在计划用于多个数据文件之前就已编写,缺乏可扩展性
问题:我有两个数组,填充了0到1之间的预测分数。我想比较两个不同模型输出的差异,并在一个10×10的热图中展示。我从NNC模型获取一个分数,然后查看相应实例在FLC中的偏差,统计这些差异的数量和分布,然后绘制图表。
我正在考虑/其他人建议的事情包括:
1) 将数组转换为pandas数据框,可能对批量操作更快。也许可以为每个十分位子集使用逐步分支的列数据框
2) 在循环前动态创建10个独立数组,将值分成十分位桶
3) 将所有文件合并到一个数组中,这样虽然仍然需要很长时间,但不会耗费一整晚
4) 用定义函数替换一些内联数学运算
处理一个文件需要大约80秒,这对于一个数据集来说还可以,但如果是600个,除非我想运行一整晚。这里是最耗时的单元格:(代码已稍作修改,以便独立运行)
...
输出看起来像:热图
编辑:尝试过压缩数组,但速度几乎没有提高
...
这里的专家们有什么建议吗?
回答:
[已解决],感谢/u/two_bob 在/r/learnpython 的帮助
为要比较的两个数组创建了桶,然后使用groupby来统计交集 – 然后使用dropin方法将数据放入热图网格中,而不是循环/搜索所有100个单元格来匹配。
...