GeoSpark GeoSpark是基于Spark分布式的地理信息计算引擎,相比于传统的ArcGIS,GeoSpark可以提供更好性能的空间分析、查询服务。 功能:并行计算,空间查询,查询服务 GeoSpark 继承自Apache Apark,并拥有创造性的 空间弹性分布式数据集(SRDD), GeoSpark 将JTS集成到项目中,支持拓扑运算 GeoSpark GeoSpark 实现了三种分区策略,分别为 0.3 并行计算 1. GeoSpark计算框架及逻辑 6.1 GeoSpark如何利用分布式实现高效查询 要想利用Spark,需要将自己的类型转换为RDD, SpatialRDD 是泛型,泛型要求类型是Geometry的子类 GeoSpark提供有PointRDD,PolygonRDD 7.
GeoSpark计算某个区域的面积: 测试数据如下: 10.5,32.11,30.50,60.21,33.50,60.21,10.5,32.11,china1 9.51,30.11,32.50,62.21,34.50,62.21,9.51,30.11 10.5,31.16,32.51,63.21,35.51,63.21,10.5,31.16,china4 11.5,32.11,30.50,59.21,33.50,59.21,11.5,32.11,china5 测试代码如下: package txt_demo import GeoSpark.geoRangeQueryForPolygon.createPolygonRDD org.apache.spark.serializer.KryoSerializer import org.apache.spark.sql.SparkSession import org.datasyslab.geospark.enums.FileDataSplitter import org.datasyslab.geospark.serde.GeoSparkKryoRegistrator import org.datasyslab.geospark.spatialRDD.PolygonRDD run in cluster mode .appName("readTestScala") // Change this to a proper name // Enable GeoSpark
1、GeoSpark简介 GeoSpark是一个用于处理大规模空间数据的开源内存集群计算系统。是传统GIS与Spark的结合。 GeoSpark由三层组成:Apache Spark层、Spatial RDD层和空间查询处理层。 2、Geospark的特点 GeoSpark是一个成熟的集群计算框架,可以在Apache Spark中加载、处理和分析大型空间数据。 与用户花时间自己解析输入格式不同,GeoSpark用户只需要指定格式名称和空间数据的开始列,GeoSpark将自动进行数据转换并将处理后的数据存储在SpatialRDDs中。 相关网址 源码Github地址:https://github.com/DataSystemsLab/GeoSpark 文档地址: http://datasystemslab.github.io/GeoSpark
进行 GeoSpark 、 PostGIS 测试案例向 Arctern 移植,已整理完成 400 多案例 搭建云端 (Azure) 性能测试环境,性能对比系统 GeoSpark、GeoMesa 构建 Arctern
空间属性(位置)时间属性(变化)多源异构(卫星、传感器、IoT设备、遥感等)这就非常适合大数据平台来干活了,比如:Apache Hadoop / Spark:批处理、实时处理空间数据GeoMesa / GeoSpark ✅ 技术选型:数据来源:地铁站点、建筑物点位(含属性)引擎:Apache Spark + Apache Sedona(原名GeoSpark)语言:Python(PySpark)✅ 安装依赖(示例)pip
与TerraLib、Hadoop、GeoSpark和GeoMesa等大规模地理空间数据处理工具不同的是,GEE不需要研究人员花费大量的时间去学习IT技能,通过给研究人员提供google强大的运算能力,使得遥感数据的分析处理变得更加的高效
官网:Placekey[18] GitHub:Placekey GitHub[19] Apache Sedona:大规模地理空间数据处理 Apache Sedona(以前称为GeoSpark): Apache