首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏Albert陈凯

    Hive迁移Saprk SQL的坑和改进办法

    的“正确打开方式”: 1、编译Spark加上-Phive -Phive-thriftserver参数 2、部署Spark(Yarn)集群 3、配置SparkSQL共用Hive的元数据库 4、用spark-hivespark-hive –e “select * fromuser where name = \”张三””;在yarn-cluster模式中会触发两次command执行从而导致“\”被转义两次。

    3.3K80发布于 2018-04-04
  • 来自专栏技术学习

    springboot开发spark-submit的java代码

    -- https://mvnrepository.com/artifact/org.apache.spark/spark-hive --> <dependency> <groupId>org.apache.spark </groupId> <artifactId>spark-hive\_${scale.version}</artifactId> <version>${spark.version}< <exclude> <groupId>org.apache.spark</groupId> <artifactId>spark-hive

    3.1K00发布于 2020-08-02
  • 来自专栏华章科技

    干货:Spark在360商业数据部的应用实践

    由于之前大部分数据分析工作都是通过使用hive命令行完成的,为了将迁移至SparkSQL的代价最小,360系统部的同事开发了SparkSQL的命令行版本spark-hive。 原有的以hive 命令运行的脚本,简单的改成spark-hive便可以运行。360系统部的同事也做了大量兼容性的工作。spark-hive目前已经比较稳定,成为数据分析的首选。

    1K40发布于 2018-08-16
  • 来自专栏容器计算

    Delta Lake 学习笔记(二)

    test classifier seems to break transitive resolution of the core dependencies "org.apache.spark" %% "spark-hive

    99920发布于 2020-08-05
  • 来自专栏大数据杂货铺

    CDP PVC基础版的新功能

    提供更好的ETL性能 支持原子性、一致性、隔离性和持久性(ACID)事务 全面的ANSI 2016 SQL覆盖 支持重大性能改进 查询结果缓存 代理键 物化视图 预定查询,使用SQL自动重建物化视图 自动翻译Spark-Hive

    1.2K20发布于 2021-01-08
  • 来自专栏扎心了老铁

    spark三种连接join

    在下面给出的例子中,我们通过spark-hive读取了Hive中orders表和drivers表中的数据,这时候数据的表现形式是DataFrame,如果要使用Join操作: 1)首先需要先将DataFrame

    1.6K80发布于 2018-03-05
  • 来自专栏扎心了老铁

    使用spark对hive表中的多列数据判重

    1、先解决依赖,spark相关的所有包,pom.xml spark-hive是我们进行hive表spark处理的关键。

    8.8K30发布于 2018-03-05
  • 来自专栏SpringCloud专栏

    1 Spark入门各种map的操作,java语言

    spark.version}</version> </dependency> </dependencies> </project> 这里有spark-sql、spark机器学习、spark-hive

    95330发布于 2019-01-17
  • 来自专栏大数据成神之路

    「Hudi系列」Apache Hudi入门指南 | SparkSQL+Hive+Presto集成

    spark pom 依赖问题 不要引入spark-hive 的依赖里面包含了hive 1.2.1的相关jar包,而hudi 要求的版本是2.x版本。如果一定要使用请排除相关依赖。

    3K20编辑于 2022-03-11
  • 来自专栏华章科技

    Spark知识体系完整解读

    如果是spark-hive项目,那么读取metadata信息作为Schema、读取hdfs上数据的过程交给Hive完成,然后根据这俩部分生成SchemaRDD,在HiveContext下进行hql()查询

    1.3K20发布于 2018-08-14
  • 来自专栏ApacheHudi

    Apache Hudi入门指南(含代码示例)

    2. spark pom依赖问题 不要引入spark-hive 的依赖里面包含了hive 1.2.1的相关jar包,而hudi 要求的版本是2.x版本。如果一定要使用请排除相关依赖。

    3.9K41发布于 2021-04-13
  • 来自专栏个人分享

    Spark on Yarn年度知识整理

    如果是spark-hive项目,那么读取metadata信息作为Schema、读取hdfs上数据的过程交给Hive完成,然后根据这俩部分生成SchemaRDD,在HiveContext下进行hql()查询

    1.5K20发布于 2018-09-06
  • 来自专栏全栈程序员必看

    数仓数据分层(ODS DWD DWS ADS)换个角度看

    ) .config("spark.sql.shuffle.partitions","2") .enableHiveSupport() // 开启hive整合支持(同时,需要引入spark-hive

    2.4K31编辑于 2022-09-13
  • 来自专栏CSDNToQQCode

    Spark高效数据分析01、idea开发环境搭建

    -- https://mvnrepository.com/artifact/org.apache.spark/spark-hive --> <dependency>

    91020编辑于 2022-11-30
  • 来自专栏Java探索之路

    Spark——底层操作RDD,基于内存处理数据的计算引擎

    如何提交Spark-hive任务 将下面代码所在的项目打包, 将含有依赖的jar上传至虚拟机 /** * 读取Hive中的数据 * 要开启 :enableHiveSupport */ object

    2.9K20发布于 2020-07-27
  • 来自专栏CSDNToQQCode

    Spark高效数据分析03、Spack SQL

    -- https://mvnrepository.com/artifact/org.apache.spark/spark-hive --> <dependency>

    65520编辑于 2022-11-30
领券