Dask与Rapids的比较。Rapids提供了哪些Dask所没有的功能?

我想了解Dask与Rapids之间的区别,Rapids提供了哪些Dask所不具备的优势。

Rapids是否在内部使用了Dask的代码?如果是的话,那么为什么我们还需要Dask,因为Dask也可以与GPU交互。


回答:

Dask 是一个Python库,它能够实现核心外的并行处理,并分布一些流行的Python库以及自定义函数。

Pandas 为例。Pandas是Python中处理数据框的流行库。然而,它是单线程的,并且你处理的数据框必须能在内存中容纳。

Dask有一个名为dask.dataframe的子包,它遵循了与Pandas大部分相同的API,但它将你的数据框分成多个分区,这些分区可以并行操作,并且可以进出内存。Dask在底层使用了Pandas,因此每个分区都是一个有效的Pandas数据框。

整个Dask数据框可以横向扩展,使用多个核心或多台机器。


RAPIDS是一组GPU加速的Python库,它们遵循其他流行Python包的API。

继续我们的Pandas主题,RAPIDS有一个名为cuDF的包,它具有与Pandas大部分相同的API。然而,cuDF将数据框存储在GPU内存中,并使用GPU进行计算。

由于GPU可以加速计算,这可以为你的数据框操作带来性能优势,并使你能够纵向扩展你的工作流程。


RAPIDS和Dask也可以协同工作,Dask因此被视为RAPIDS的一个组成部分。这样,你就不再是用单个Pandas数据框组成Dask数据框,而是可以用cuDF数据框来组成。这是因为它们遵循相同的API。

这样,你既可以利用GPU来纵向扩展,也可以通过使用多台机器上的多个GPU来横向扩展

Related Posts

使用LSTM在Python中预测未来值

这段代码可以预测指定股票的当前日期之前的值,但不能预测…

如何在gensim的word2vec模型中查找双词组的相似性

我有一个word2vec模型,假设我使用的是googl…

dask_xgboost.predict 可以工作但无法显示 – 数据必须是一维的

我试图使用 XGBoost 创建模型。 看起来我成功地…

ML Tuning – Cross Validation in Spark

我在https://spark.apache.org/…

如何在React JS中使用fetch从REST API获取预测

我正在开发一个应用程序,其中Flask REST AP…

如何分析ML.NET中多类分类预测得分数组?

我在ML.NET中创建了一个多类分类项目。该项目可以对…

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注