深入大型数据集:并行与分布化Python代码
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

总结

■ 我们可以使用map和reduce风格的编程来解决本地机器或者分布式云环境中的问题。

■ 并行编程通过在不同的处理器或者不同的机器上同时运行许多程序,以帮助我们提高程序的运行速度。

■ map函数执行一对一的转换,更适合用来转换数据。

■ reduce函数执行一对多的转换,更适合用来将数据组装成最终结果。

■ 如果我们有足够的计算机,分布式计算允许我们快速解决问题。

■ 我们可以通过多种方式进行分布式计算,包括使用Apache Hadoop和Apache Spark。

■ AWS是一种云计算环境,它使大规模并行工作变得简单而经济。