pyspark 使用介绍
分类:
在单机范围内的数据量下,使用python的pandas包就可以非常方便地完成数据批处理工作。但当数据量达到1G以上时,pandas处理起来就有些力不从心了,到数据量达到1T以上,只能以分块的方式存储在分布式系统上时,pandas就无能为力了。Hadoop生态下,原生的工具是MapReduce计算模型,通常用Java编写,比较复杂,每次计算的中间结果也需要进行磁盘存取,非常费时。Spark是一个MPP架构的计算引擎,相比MapReduce,Spark 有DataFrame(又名 Schema RDD), 以表的形式来储存数据,无论是理解还是操作,都更为简单,还支持Python。
查看评论
暂无评论