深入大型数据集:并行与分布化Python代码
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2 加速大型数据集处理任务:map函数和并行计算

本章要点

■ 如何使用map函数转换大量数据

■ 如何使用并行编程转换大量数据

■ 如何通过map函数并行地从Web上抓取数据

在本章中,我们将研究map函数以及如何将它用于并行编程,并且应用这些概念来完成两个Web抓取练习。通过map函数,我们将重点关注3个主要功能:

1. 我们可以用它来代替for循环。

2. 我们可以用它来转换数据。

3. map函数只在必要时进行计算,而不是在调用的时候。

这些关于map函数的核心思想也是它在并行编程中如此有用的原因。在并行编程中,我们使用多个处理单元来完成一个任务的部分工作,然后将这些工作组合起来。将大量数据从一种类型转换成另一种类型是一项容易分解的任务,而且这样的指令通常很容易传输。通过map函数让代码并行执行,就像在程序中添加4行代码一样简单。