pyspark 使用介绍

标签：无 2020-04-19 23:22 1455人阅读评论(0)

分类：

基础算法（9）

在单机范围内的数据量下，使用python的pandas包就可以非常方便地完成数据批处理工作。但当数据量达到1G以上时，pandas处理起来就有些力不从心了，到数据量达到1T以上，只能以分块的方式存储在分布式系统上时，pandas就无能为力了。Hadoop生态下，原生的工具是MapReduce计算模型，通常用Java编写，比较复杂，每次计算的中间结果也需要进行磁盘存取，非常费时。Spark是一个MPP架构的计算引擎，相比MapReduce，Spark 有DataFrame（又名 Schema RDD）, 以表的形式来储存数据，无论是理解还是操作，都更为简单，还支持Python。

附件：

pyspark使用介绍.pdf

查看评论

暂无评论