pyspark 使用介绍

标签:无 1455人阅读 评论(0)
在单机范围内的数据量下,使用python的pandas包就可以非常方便地完成数据批处理工作。但当数据量达到1G以上时,pandas处理起来就有些力不从心了,到数据量达到1T以上,只能以分块的方式存储在分布式系统上时,pandas就无能为力了。Hadoop生态下,原生的工具是MapReduce计算模型,通常用Java编写,比较复杂,每次计算的中间结果也需要进行磁盘存取,非常费时。Spark是一个MPP架构的计算引擎,相比MapReduce,Spark 有DataFrame(又名 Schema RDD), 以表的形式来储存数据,无论是理解还是操作,都更为简单,还支持Python。
查看评论

暂无评论

发表评论
  • 评论内容:
      
首页
团队介绍
发展历史
组织结构
MESA大事记
新闻中心
通知
组内动态
科研成果
专利
论文
项目
获奖
软著
人才培养
MESA毕业生
MESA在读生
MESA员工
招贤纳士
走进MESA
学长分享
招聘通知
招生宣传
知识库
文章
地址:北京市朝阳区华严北里甲22号楼五层 | 邮编:100029
邮箱:nelist@iie.ac.cn
京ICP备15019404号-1