TensorFlowJS可以利用WebGL进行GPU计算和训练深度学习模型。为什么这种方法没有使用CUDA和nVIDIA GPU那样流行?大多数想要原型化机器学习模型的人都希望在个人电脑上进行操作,但如果我们没有配备nVIDIA GPU的电脑,许多人不得不求助于使用昂贵的云服务,如AWS(尽管最近Google Colab有所帮助)来进行机器学习训练。我相信nVIDIA的GPU比我Macbook中的GPU要快得多,但任何GPU都可能比即使是最快的CPU提供至少一个数量级的加速,并允许进行模型原型化,那么为什么我们不更多地使用WebGL GPGPU呢?这里肯定有一些我不知道的陷阱。
回答:
WebGL后端使用GLSL语言来定义函数并将数据作为着色器上传——它“有效”,但你需要付出巨大的代价来编译GLSL和上传着色器:对于半复杂模型的预热时间是巨大的(我们说的是启动就需要几分钟)。而且内存开销是模型通常所需的100-200%——对于较大的模型,你的GPU内存是有限的,你不希望浪费这些资源。
顺便说一下,一旦模型预热完毕并能适应内存,使用WebGL进行实际推理的时间是可以接受的
另一方面,nVIDIA的CUDA库提供了直接访问GPU的途径,因此使用它们编译的TensorFlow总是会更加高效。
不幸的是,并非所有GPU厂商都提供像CUDA这样的库,所以大多数机器学习都在nVIDIA GPU上进行
然后,当你使用TPU而不是GPU时,就根本没有WebGL可用了