首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >无法将收集到的RDD保存到驱动程序的本地文件系统。

无法将收集到的RDD保存到驱动程序的本地文件系统。
EN

Stack Overflow用户
提问于 2015-08-28 21:02:06
回答 1查看 743关注 0票数 2

在调用collect()之后,我正在尝试保存一个RDD。我调用星星之火-提交主机-1(我假设驱动程序是我调用火花提交脚本的主机,所以在本例中主机-1是驱动程序),从HBase获取一些数据,运行一些操作,然后在RDD上调用get (),然后遍历收集的列表并将其保存到本地文件系统文件中。实质上:

代码语言:javascript
复制
if __name__ == "__main__":
    sc = SparkContext(appName="HBaseInputFormat")
    # read the data from hbase
    # ...
    # ...
    output = new_rdd.collect()

    with open("/var/tmp/tmpfile.csv", 'w') as tmpf:
        for o in output:
            print (o)
            tmpf.write("%s\n"%str(o))
    tmpf.close()

这实际上对保存在/var/tmp/tmpfile.csv中的数据很好,除非数据保存在与驱动程序不同的主机上,比如Host-3。我的印象是,collect总是收集驱动程序主机上的分布式数据集,因此也应该在驱动程序上创建文件。我哪里错了?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-08-28 21:44:39

我假设驱动程序是我调用星火提交脚本的主机,所以在本例中,主机-1是驱动程序。

它不正确!请参阅关于在纱线上运行火花的文档。

In yarn-cluster mode, the Spark driver runs inside an application master process which is managed by YARN on the cluster, and the client can go away after initiating the application. In yarn-client mode, the driver runs in the client process, and the application master is only used for requesting resources from YARN.

您可能是在纱线集群模式下运行spark,并且选择驱动程序在集群中的一个节点上。

将其更改为纱线-客户端,驱动程序将在提交作业的节点上运行。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/32279715

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档