Modin - 更改一行代码扩展 pandas 工作流


Apache
跨平台
Python

软件简介

Modin使用Ray提供了一种轻松的方式来加速您的Pandas笔记本,脚本和库。
与其他分布式DataFrame库不同,Modin提供与现有pandas代码的无缝集成和兼容性。 即使使用DataFrame构造函数也是如此。

import modin.pandas as pd
import numpy as np

frame_data = np.random.randint(0, 100, size=(2**10, 2**8))
df = pd.DataFrame(frame_data)

要使用Modin,您不需要知道系统有多少核心,也不需要指定如何分配数据。
实际上,即使在一台机器上,您也可以继续使用以前的pandas笔记本电脑,同时体验Modin的相当大的加速。
一旦你更改了import语句,你就可以像使用pandas一样使用Modin了。

modin.pandas DataFrame是一个非常轻量级的并行DataFrame。
Modin透明地分发数据和计算,因此您需要做的就是继续使用pandas API,就像安装Modin之前一样。
与其他并行DataFrame系统不同,Modin是一个非常轻量级,强大的DataFrame。
由于它的重量很轻,因此Modin可在具有4个物理内核的笔记本电脑上提供高达4倍的加速。

在pandas中,当你进行任何类型的计算时,你只能使用一个核心。 使用Modin,您可以使用计算机上的所有CPU核心。
即使在read_csv中,我们也可以通过在整个计算机上有效地分配工作来获得巨大收益。

import modin.pandas as pd

df = pd.read_csv("my_dataset.csv")