首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏数据中台

    Giraph源码分析(一)— 启动ZooKeeper服务

    Giraph介绍: Apache Giraph is an iterative graph processing system built for high scalability. 运行命令:Hadoop jar giraph-examples-1.0.0-for-hadoop-0.20.203.0-jar-with-dependencies.jar org.apache.giraph.GiraphRunner -vip /user/giraph/SSSP -of org.apache.giraph.io.formats.IdWithValueTextOutputFormat -op /user/giraph org.apache.giraph.graph.GraphMapper类 Giraph中自定义org.apache.giraph.graph.GraphMapper类来继承Hadoop中的 org.apache.hadoop.mapreduce.Mapper org.apache.giraph.graph.GraphMapper类 功能:The Giraph-specific business logic for a single BSP compute node

    74030发布于 2019-10-08
  • 来自专栏NebulaGraph 技术文章

    主流开源分布式图计算框架 Benchmark

    Giraph:整体性能和内存开销与 GraphX 相当。Giraph 基于 map 容器来存储图数据,带来了很高的内存占用。 jar /opt/meituan/appdatas/nlp-giraph/giraph-examples/target/giraph-examples-1.3.0-SNAPSHOT-for-hadoop /nlp-giraph/giraph-examples/target/giraph-examples-1.3.0-SNAPSHOT-for-hadoop-2.7.6-jar-with-dependencies.jar \ # 编译的jar包org.apache.giraph.GiraphRunner \ # Giraph启动类org.apache.giraph.examples.ConnectedComponentsComputation jar /opt/meituan/appdatas/nlp-giraph/giraph-examples/target/giraph-examples-1.3.0-SNAPSHOT-for-hadoop

    2.2K20编辑于 2022-05-09
  • 来自专栏machine_learning

    Recommending items to more than a billion people(面向十亿级用户的推荐系统)

    我们以前已经介绍过Apache Giraph,这是一个用于分布式迭代和图形处理的强大平台,以及我们为使其符合我们的需求所做的工作。我们还写了关于图分区的应用程序。 Giraph在海量数据集上工作得非常好,易于扩展,而且我们在开发高性能应用程序方面有很多经验。因此,Giraph是我们解决这一问题的首选。 2. 我们最终提出了一种方法,它要求我们使用 worker-to-worker 的消息传递来扩展Giraph框架。 注意,我们在Giraph之上也有k-means集群实现,将这一步合并到计算中非常容易。 7. 在运行矩阵分解算法之后,我们还有一个Giraph工作,即为所有user计算TOP推荐。

    83410发布于 2020-09-09
  • 来自专栏foochane

    Hadoop及其生态系统的基本介绍【转载】

    Giraph(图计算模型) Apache Giraph是一个可伸缩的分布式迭代图处理系统, 基于Hadoop平台,灵感来自 BSP (bulk synchronous parallel) 和 Google 雅虎在开发Giraph时采用了Google工程师2010年发表的论文《Pregel:大规模图表处理系统》中的原理。后来,雅虎将Giraph捐赠给Apache软件基金会。 目前所有人都可以下载Giraph,它已经成为Apache软件基金会的开源项目,并得到Facebook的支持,获得多方面的改进。 18.

    78520发布于 2019-05-23
  • 来自专栏云计算D1net

    基于大数据分析系统Hadoop的13个开源工具

    而本节我们将分享的是实验室基于性能、兼容性、数据类型研究的开源解决方案,其中包括Shark、Phoenix、Apache Accumulo、Apache Drill、Apache Giraph、Apache Apache Giraph 代码托管地址: GitHub Apache Giraph是一个可伸缩的分布式迭代图处理系统,灵感来自BSP(bulk synchronous parallel)和Google Giraph处理平台适用于运行大规模的逻辑计算,比如页面排行、共享链接、基于个性化排行等。 Giraph专注于社交图计算,被Facebook作为其Open Graph工具的核心,几分钟内处理数万亿次用户及其行为之间的连接。 11.

    2.2K60发布于 2018-03-15
  • 来自专栏用户画像

    Facebook 推荐算法

    我们已经写过Apache Giraph,一个用于分布式迭代和图形处理的强大平台,以及我们为满足我们的需求所做的工作。我们还编写了一个用于图形分区的开发应用程序。 Giraph在大量数据集上运行良好,易于扩展,我们在开发高性能应用程序方面拥有丰富的经验。因此,Giraph是我们解决这个问题的明智选择。 标准方法和问题 为了以分布式方式有效地解决上述公式,我们首先研究了与Giraph设计相似的系统如何做到(使用消息传递而不是map / reduce)。 在下图中,我们将我们的旋转混合方法(我们在Giraph中实现)与标准方法(在Spark MLlib中实现,包括一些额外的优化,例如最多向机器发送一次特征向量),相同的数据进行了比较组。 运行矩阵分解算法后,我们有另一个Giraph工作,实际计算所有用户的最佳建议。

    1.6K30发布于 2018-08-24
  • 来自专栏全栈程序员必看

    HADOOP生态圈简介

    Giraph(图计算模型) Apache Giraph是一个可伸缩的分布式迭代图处理系统, 基于Hadoop平台,灵感来自 BSP (bulk synchronous parallel) 和 Google 雅虎在开发Giraph时采用了Google工程师2010年发表的论文《Pregel:大规模图表处理系统》中的原理。后来,雅虎将Giraph捐赠给Apache软件基金会。 目前所有人都可以下载Giraph,它已经成为Apache软件基金会的开源项目,并得到Facebook的支持,获得多方面的改进。 18. article/details/41810849 Apache Tez:一个运行在YARN之上支持DAG作业的计算框架 http://segmentfault.com/a/1190000000458726 Giraph

    1K10编辑于 2022-08-31
  • 来自专栏Albert陈凯

    2018-11-23 graph图数据库概览,经过一个星期的Demo终于看懂了这篇文章20180818图数据库概览

    CosmosDB/DatastaxStardog/Sqrrl等商业数据库就不做分析了, 本文只对Neo4j、OrientDB、JanusGraph、Giraph、HugeGraph做下分析,其中HugeGraph Tikerpop的Gremlin图查询语言, 有单独的后端存储,支持Cassandra/HBase/BerkeleyDB等做存储,支持Solr/ES/Lucence等做图索引 支持Spark GraphX/Giraph 基于图的并行计算框架,有google的Pregel,基于Spark的GraphX,Apache下的Giraph/HAMA以及GraphLab,其中Giraph是Pregel的开源实现。

    4.1K30发布于 2018-12-17
  • 来自专栏数据科学与人工智能

    【Hadoop研究】YARN:下一代 Hadoop计算平台

    随着替代性的编程模型(比如 Apache Giraph 所提供的图形处理)的到来,除 MapReduce 外,越来越需要为可通过高效的、公平的方式在同一个集群上运行并共享资源的其他编程模型提供支持。 例如,MapReduce ApplicationMaster 请求一个容器来启动 map 或 reduce 任务,而 Giraph ApplicationMaster 请求一个容器来运行 Giraph 想像一下:您数据中心中的一个 Hadoop 集群可运行 MapReduce、Giraph、Storm、Spark、Tez/Impala、MPI 等。 此任务可以是在任何框架中编写的任何进程(比如一个 MapReduce 任务或一个 Giraph 任务)。

    1.4K60发布于 2018-02-27
  • 来自专栏绿盟科技研究通讯

    Graph Mining:审视世界的眼睛

    OLAP应用框架基本上都是基于Google三驾马车之一Pregel[18]的实现,就主要Giraph[19],PowerGraph[20],GraphX[21]这几个选择。 Apache Giraph是2012年开始的,该项目由于底层并行框架是基于Apache Hadoop的MapReduce框架来实现的,在Spark流行之后也不如GraphX有活力了。 Facebook一直是Giraph的拥趸,其研究团队在2016年发布了一份报告[22],比较了Giraph和GraphX在他们的应用场景下的性能,总的来说,GraphX 不足以支持他们图处理负载的扩展性和性能需要 PowerGraph之前还存活的时候用过,得益于底层实现机制,比Giraph和GraphX快得不是一星半点。 ? 图 3.3 GraphLab和Spark的分布式性能比较[23] ? id=1807184 [19].https://github.com/apache/giraph [20].https://www.usenix.org/node/170825 [21].https:/

    2.2K10发布于 2019-12-11
  • 来自专栏about云

    Hadoop 2.x与3.x 22点比较:3.x将节省大量存储空间

    2.10工具 Hadoop 2.x - 使用Hive,pig,Tez,Hama,Giraph和其他Hadoop工具。 Hadoop 3.x - 可以使用Hive,pig,Tez,Hama,Giraph和其他Hadoop工具。

    2.7K20发布于 2018-10-08
  • 来自专栏数据派THU

    独家 | 使用Spark进行大规模图形挖掘(附链接)

    Apache Giraph(https://giraph.apache.org/)是Pregel(https://kowshik.github.io/JPregel/pregel_paper.pdf)的开源实现 与以前的解决方案相比,Giraph的进入壁垒更高。 尽管Giraph对于大规模图形分析部署非常强大,但我选择了同时具有Scala和Python API的轻量级产品。 Neo4j是一个图形数据库系统。

    2.5K20发布于 2020-11-19
  • 来自专栏高并发

    同步图计算框架GraphLite编程之图着色

    github.com/schencoding/GraphLite   图很适合进行分布式并行计算,比如最短路径,PageRank等问题,比较著名的图计算框架有Prege,cmu的GraphLab,apache的Giraph BSP模型如下图:   也就是超步计算,apache giraph也属于此模式。 图着色在单机环境下的算法,最快一般是贪心算法,也就是每次去找不相邻的节点去着色,直到全部完成。

    96020编辑于 2022-06-23
  • 来自专栏技术成长

    处理大规模图数据的存储和计算需求的技术和策略

    分布式计算: 基于图计算框架(如Apache Spark、GraphX、Apache Giraph等),将图数据划分成小的图分片,并在分布式计算集群上进行并行化计算。这样可以提高计算的速度和吞吐量。

    67471编辑于 2023-10-27
  • 来自专栏北京马哥教育

    Hadoop家族学习路线图

    Apache Giraph: 是一个可伸缩的分布式迭代图处理系统, 基于Hadoop平台,灵感来自 BSP (bulk synchronous parallel) 和 Google 的 Pregel。 Cassandra单集群实验2个节点 R利剑NoSQL系列文章 之 Cassandra 跟上创新的脚步,不断坚持:(TODO列表,不定期更新) Avro, Ambari, Chukwa, Hama, Flume, Giraph

    1.6K80发布于 2018-05-03
  • 来自专栏数据饕餮

    Hadoop专业解决方案-第13章 Hadoop的发展趋势

    图形化处理系统,如Pregel和Giraph基于并行处理模型称作BulkSynchronous Parallel散装同步并行 (BSP),能够同步图形处理节点之间的通信。 在Giraph上,您提交一个MapReduce任务,但其在内部处理迭代步骤使用Vertex的环境,保存状态图在内存中并不联动MapReduce任务。 Giraph利用了Hadoop和MapReduce的数据存储的基础资源管理,但与在MapReduce中使用BSP不同的是,Giraph还引入了ZooKeeper进行容错以及集中的调度服务          Hama也是Apache的一个项目,类似于Giraph,是一个BSP的计算框架,该框架应用于HDFS的顶层。 因为Apache 的Giraph(本章前面讨论过)是Google的高性能图形化分析平台(Pregel)的开源实现,并且Facebook应用Griaph的图形分析于其社交网络上,毫无疑问这将是Hadoop

    89930发布于 2019-01-14
  • 深入解析GraphX:Spark图计算库的核心原理与实战应用

    与Apache Giraph的对比 Apache Giraph是建立在Hadoop MapReduce之上的图处理系统,专门用于大规模图计算。 与GraphX相比,Giraph采用BSP(Bulk Synchronous Parallel)计算模型,通过超步(superstep)的方式进行迭代计算。 在性能方面,Giraph在处理超大规模图数据时表现出色,特别是在Facebook等社交网络场景中得到了充分验证。但其缺点是需要依赖Hadoop生态系统,部署和运维成本较高。 Giraph虽然API相对简单,但在特定算法实现上可能更加高效。值得注意的是,Giraph社区活跃度近年来有所下降,而GraphX凭借Spark生态的持续发展保持着强劲的演进势头。 框架选择的关键考量因素 在选择图计算框架时,需要考虑多个维度:首先是数据规模,超大规模图处理更适合GraphX或Giraph;其次是实时性要求,需要实时查询的场景可能更适合Neo4j或TigerGraph

    46410编辑于 2025-11-28
  • 来自专栏IT派

    关于大数据分析系统 Hadoop,这里有13个开源工具送给你

    Giraph处理平台适用于运行大规模的逻辑计算,比如页面排行、共享链接、基于个性化排行等。 Giraph专注于社交图计算,被Facebook作为其OpenGraph工具的核心,几分钟内处理数万亿次用户及其行为之间的连接。

    1K20发布于 2018-08-10
  • 来自专栏AI科技评论

    学界 | 大规模分布式存储如何优化?Facebook说自己的方法能把CPU负载降一半

    Facebook 在 Apache Giraph 构建了他们的解决方案,而且为图的大小和理想的分组数目做了精心的设计:顶点运动的评价可以用分布式的方式完成,而且发生在当前顶点与其它顶点沟通过任务分配之后 SHP 也已经作为一个 Giraph 应用开源,可以用在优化任务和教育中。

    1.3K50发布于 2018-03-13
  • 来自专栏超级架构师

    「数据分析」精选数据挖掘和机器学习软件列表

    Feature Selection Toolbox FICO Fluentd Folding@home G General Architecture for Text Engineering Apache Giraph

    1.1K30发布于 2020-09-01
领券