这是个惊人的增长 3.Spark组成部分 spark.png.png Spark可以一站式解决大数据的各种场景的 Batch本质上是Spark-Core Spark SQL: 提供了类 SQL 的查询,返回 Spark-DataFrame
) | |-- data: binary (nullable = false) |-- label: integer (nullable = false) 还可以使用.toPandas()将Spark-DataFrame
Spark SQL: 提供了类 SQL 的查询,返回 Spark-DataFrame 的数据结构(类似 Hive) Spark Streaming: 流式计算,主要用于处理线上实时时序数据(类似 storm