首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏大数据平台TBDS

    TBDS-Elasticsearch安全认证配置方法

    Elasticsearch未授权访问漏洞 ES高版本已经支持x-pack认证,TBDS的ES版本是6.4.2,默认已经安装了x-pack,下面是配置方法。 /tmp/elasticsearch.yml.bak 3.修改配置文件开启认证 提供两种方法修改配置文件 (1)在ES节点直接修改配置文件,但是这种方法在TBDS集群不建议,若通过8088页面重启ES 节点修改ambari-server服务集成代码,该方法适用于TBDS集群 登录portal节点,修改/var/lib/tbds-server/resources/common-services/ES/7.6.2 服务 Tbds-server restart 4.配置证书及密钥 生成CA证书 [root@tbds-172-27-0-174 bin]# cd /usr/share/elasticsearch/ [root @tbds-172-27-0-174 elasticsearch]# bin/elasticsearch-certutil ca ##生成证书,直接全部回车到最后 生成P12密钥 [root@tbds

    3.3K80发布于 2020-12-18
  • 来自专栏大数据平台TBDS

    datax工具在TBDS上同步数据方法

    因为datax工具本身无法传入认证参数,所以若想在TBDS上使用datax同步数据则需要关闭相应的服务认证。 此文以mysql同步至hive举例 1.首先关闭hdfs认证,在8088界面修改HDFS配置 hadoop.security.authentication tbds 改成simple 2.关闭hive认证 .对于HDFS和HIVE的配置更改后,有些服务也是需要重启的,对关联的服务进行重启 image.png 6.服务重启后,使用hadoop命令测试是否不需要认证即可访问 7.下载datax工具,并解压到TBDS mysqlreader", "parameter": { "column": ["id","username"], "connection": [ { "jdbcUrl": ["jdbc:mysql://tbds-x-x-x-x type":"string"} {"name":"username","type":"string"} ], "compress": "",##为空则不压缩 "defaultFS": "hdfs://tbds-x-x-x-x

    1.9K30发布于 2020-12-07
  • 来自专栏大数据平台TBDS

    TBDS大数据集群迁移实践总结

    背景 xx公司属于最早一批使用TBDS(腾讯大数据处理平台)产品的老客户,从2016年开始将业务运行在TBDS。 1.TBDS简介 1.1架构简介 TBDS 是基于腾讯多年海量数据处理经验,对政企客户提供的可靠、安全、易用的大数据处理平台。 更为详细的产品介绍参考官网链接:https://cloud.tencent.com/product/tbds 1.2平台数据类型 TBDS平台的数据我们可以划分为三类:平台元数据,用户业务数据,平台日志及监控数据 (2)TBDS平台与COS有打通,通过在TBDS上进行配置后,可直接使用distcp工具将COS的数据迁移到TBDS平台的HDFS上。 ,填补了TBDS的迁移文档库。

    4.6K70发布于 2018-12-13
  • 来自专栏大数据套件TBDS

    tbds flink支持的数据源

    tbds flink支持的数据源和它们的用途如下表所示 用途类型支持的输入和输出支持的数据格式说明TableSource/Sink console可撤回输出- oracle维表输入,可撤回输出- hippo

    92460编辑于 2021-12-28
  • 来自专栏QQ大数据团队的专栏

    腾讯云TBDS在海量Iceberg的治理之路

    TBDS Lakehouse 作为 TBDS 产品的重要组成部分,目前已服务国内众多头部券商、大型能源国企、头部银行等大中小型客户。 TBDS Lakehouse平台 TBDS Lakehouse基本架构 TBDS Lakehouse 采用“统一存储基底+多模态格式与计算+统一服务治理”的模式,构建了一套覆盖多场景的数据湖体系,其核心架构组件包括 基于此,TBDS也将 Iceberg作为了TBDS数据湖组件主要的表格式。 TBDS LakeKeeper:TBDS Lakehouse治理平台 LakeKeeper 是TBDS 针对TBDS-Lakehouse治理推出的自研平台,目前在海量Iceberg表治理场景,通过 “主从架构 因此,TBDS产品中TI(TBDS Insight)提供了一套实现方案,来主动检测和发现客户在TBDS中使用不合理或者存在使用优化空间的问题,针对这些现象给出优化建议。

    88810编辑于 2025-11-17
  • 来自专栏大数据平台TBDS

    TBDS大数据集群使用虚拟机的风险

    TBDS产品在同等配置物理机与虚拟机实际的性能测试对比表明,虚拟机整体性能较物理机下降约40%左右; 2、虚拟机集群计算能力极大地降低。 TBDS采用分布式计算框架,需要通过大数据集群的多个主机分担执行同一个计算任务,主机的CPU、内存和磁盘I/O能力越强则处理性能就越快。 TBDS提升性能的关键是尽量利用各自主机的本地计算资源和本地硬盘资源进行分布式计算,避免各主机之间进行大量的数据重分布,采用物理机数据分布可控,SQL执行、优化可控,如果采用虚拟机,数据分布无法保障和物理机一致的分布 TBDS在物理机部署的情况下,主副本分布在不同的物理机上,从而保障一台物理机宕机的情况下,在其它物理机上有可用副本,而使用虚拟机方式部署副本,可能部分数据的主、副本会在同一个物理机上,这样就失去主副本高可用的作用 结束语 大数据对计算能力、存储资源、可扩展性都要求很高,单台物理服务器的CPU、内存和存储资源不足以支撑TBDS对数据存储容量和计算效率的要求,要求把多台服务器构建统一的集群进行分布式存储和计算,即N:

    1.9K40发布于 2021-01-13
  • 来自专栏QQ大数据团队的专栏

    TBDS Metaservice 引领新时代的元数据管理创新

    更强大的元数据: TBDS Metaservice 腾讯云 TBDS团队与 Apache Gravitino 社区深度合作,共同打造了TBDS Metaservice。 TBDS MetaService 架构概述 TBDS Metaservice 提供了统一的元数据模型、开放 API 和 Engine Connector Frameworks,能够支持不同的表格式、计算引擎 不同的 Hive Metastore 服务可以注册为不同的 Catalog,TBDS Metaservice 通过这些 Catalog 进行统一管理和访问,一旦注册完成,用户和应用程序可以通过 TBDS 基于腾讯云 TBDS 先进的“存算分离,湖仓一体,统一云数据湖”的理念,TBDS 和客户共同重构了全行的技术底座,在兼容老业务的基础上,彻底升级了客户的大数据体系。 同时利用 TBDS Metaservice 的多引擎支持,TBDS 的湖仓一体架构可以使得一套数据在多种场景下被不同的引擎进行不同的处理,这即降低了数据传输复制的开销,同时也增强了数据的安全性。

    96610编辑于 2025-01-11
  • 来自专栏大数据平台TBDS

    TBDS工作流调度python脚本示例及排错方法

    TBDS中的Shell任务工作流可通过shell脚本调用python,也可以直接调用python脚本,以下为两种方法介绍。 一、在shell脚本中调用python脚本编写方法 1.

    2.6K100发布于 2019-07-02
  • 来自专栏QQ大数据团队的专栏

    深入腾讯云TBDS:大规模HDFS集群优化实战

    腾讯云TBDS是腾讯大数据能力的私有云产品化,结合内部实践和典型客户的具体情况,对HDFS做了系统的优化。 为了进一步优化Router本身性能,在腾讯云TBDS产品中将Router的响应请求异步化,解耦同步等待时间以提升Router的吞吐量。 而我们在腾讯云TBDS产品中采用了树型锁,不仅针对写、也对读操作进行了更细粒度的锁拆分,可以更有效地提升读写性能。 自研拆锁的设计原则 锁用来保护数据,而非保护流程。 图十一 某国有大行采用我们NameNode拆锁优化版本HDFS搭建了多套租户TBDS集群,并基于多NameService独立集群联邦方案代理不同存储计算集群。 未来更多的考虑存储成本和海量存储计算速度,全新一代数据湖仓一体化智能引擎TBDS可通过存算分离架构,将存储和计算独立分开部署,各自以分片的方式保证其自身的可扩展性。

    1.8K32编辑于 2024-06-03
  • 来自专栏QQ大数据团队的专栏

    TBDS面向AI时代构建多模态数据湖解决方案

    TBDS多模数据湖引擎 的能力演进,正是围绕这一方向展开。 TBDS多模数据湖引擎 正是针对上述问题进行体系化设计。 围绕四层能力形成闭环架构: 存储层:TBDS-FS统一纳管TBDS-Iceberg与Lance,统一承载结构化、半结构化与多模态数据; 计算层:同时承载数据引擎与AI引擎,支持CPU/GPU异构算力统一调度 TBDS多模数据湖引擎并非把多模态数据格式作为独立格式简单接入,而是对其访问链路与向量检索链路做了存储层面的协同加速,并兼容 S3、HDFS 等多类底层存储体系(底层基于 Lance 与 TBDS-FS ,在TBDS生态中称为MetaService); TBDS MetaService构建了覆盖全生命周期的多模态数据资产一站式管理能力,分为四个阶段: 第一阶段:资产注册。

    33810编辑于 2026-04-27
  • TBDS 新一代数据湖仓架构产品概要

    数据来源: 腾讯全球数字生态大会 (TENCENT GLOBAL DIGITAL ECOSYSTEM SUMMIT) 主讲人: 莫亦寒 一、 产品定位与核心亮点 TBDS (Tencent Big Data 二、 产品应用场景 TBDS 针对不同业务角色和场景提供差异化支持: 数据分析师与业务人员: 痛点: 传统 Hive 跑批 T+1 时效低,找数、用数困难,无法进行 Ad-hoc 探索。 功能框架 TBDS 提供从数据集成到数据服务的全栈能力,架构包含以下核心层次: 基础设施层: 云底座 TCE,支持 TIX+IDC 基础设施。 行业标杆: 保险行业首个国产化数据湖仓一体落地实践,在 TBDS+SR 湖仓融合领域积累了首例宝贵案例。 四、 典型案例 1.

    15510编辑于 2026-05-30
  • 腾讯云TBDS:实现大数据平台自主创新与CDH平滑替换

    构建全栈自主创新的大数据平台能力 腾讯云TBDS(Tencent Big Data Suite)提供一站式大数据存储、计算、分析平台,核心方案包括: 湖仓统一存算底座引擎:融合TBDS与TCHouse, 量化提升平台运维效率与业务连续性 运维效率提升:通过TBDS-Manager实现全场景管控,问题工单数量下降超过50%(来源:腾讯云内部运维数据)。 采用腾讯云TBDS后: 平台规模:部署1200个节点,承载四大平台数据实时入湖(来源:项目部署记录)。 TBDS入选工信部“2020年度信息技术融合创新解决方案”典型案例,并收录于《信息技术融合创新技术图谱》。

    13000编辑于 2026-05-30
  • 来自专栏大数据平台TBDS

    使用mirrormaker工具同步CDH-kafka数据到TBDS-kafka

    把CDH集群的kafka数据同步到TBDS的kafka集群做测试,可以使用自带的mirrormaker工具同步 mirrormaker的原理可以网上查看,详细的命令参考https://my.oschina.net /guol/blog/828487,使用方式相当于先消费CDH的数据,然后再生产到TBDS集群中。 mirrormake到配置及命令启动都在目标集群上,所以下面的操作都在TBDS集群上 1.因为TBDS kafka有开启认证,所以mirromaker指定的生产者配置文件--producer.config   target.producer.configure需要加入认证,同时连接的端口使用6668(TBDS kafka认证方式有两种,社区的开源认证方式为6668端口,TBDS自研认证使用6667端口), 我们使用社区的开源认证方式访问 bootstrap.servers=172.0.x.x:6668,172.0.x.x:6668,172.0.x.x:6668 ##TBDS的kafka broker地址

    1.2K30发布于 2020-12-07
  • 来自专栏王亮的专栏

    基于腾讯云大数据套件 TBDS 的 flume 异常问题排查过程

    flumeagent逻辑分析 以上sink里调用了一个com.tencent.tbds.flume.sink.MysqlSinkForMetadata的类,这是一个自定义类,我们在引用路径里找到这个类所在

    2.6K30发布于 2016-11-09
  • 来自专栏QQ大数据团队的专栏

    腾讯云TBDS斩获两大奖项!

    腾讯云大数据处理套件TBDS凭借其卓越的创新能力和实践案例,荣获两大奖项: 新一代信息技术创新产品:TBDS以其湖仓一体、存算分离的新一代云原生大数据架构,以及强大的性能、国产化生态和安全体系,获得了业界的高度认可 图一 腾讯云TBDS: 新一代信息技术创新产品 腾讯云TBDS是面向数据全生命周期的、一站式的大数据统一存储、计算、分析平台,融合了数据仓库的高性能及管理能力与数据湖的灵活性,支持多种数据类型并存,实现数据间的相互共享 TBDS在以下方面拥有显著优势: 湖仓一体架构:TBDS支持湖仓一体与存算分离,既拥有数据湖数据格式的开放灵活性,又继承了数据仓库的高性能、易用性和规范性,让数据在湖仓之间自由流转,满足数据分析的多样化需求 强大性能:TBDS自研国产化数仓MPP引擎,实现企业级数仓能力和万亿级关联查询秒级分析,同时升级海量数据汇聚能力,全面提升数仓构建和大数据湖仓一体方案,助力企业高效挖掘数据价值。 腾讯云TBDS的获奖,充分彰显了其在创新能力和实践案例方面的领先优势。

    65610编辑于 2024-04-24
  • 来自专栏QQ大数据团队的专栏

    从数据湖到元数据湖——TBDS新一代元数据湖管理

    所以在Data+AI 时代,面对AI非结构化数据和大数据的融合,以及更复杂跨源数据治理能力的诉求,TBDS开发了第三阶段的全新一代统一元数据湖系统。 我们引入了Gravitino并且基于它在数据治理、数据权限等能力上做了大量的TBDS已有能力的合入优化,形成一个闭环、完整的系统。 最终在TBDS上在数据权限、数据脱敏、数据过滤等能力上达到统一,都共用这一个Ranger Service,下面是TBDS里的使用入口和实现页面。 除此之外我们在Ranger上还做了一些其他性能的优化,让TBDS的Ranger性能达到极致。 其他主要优化有: 04、总结 TBDS新一代元数据系统通过新的元数据系统打破数据孤岛,实现多种计算引擎的联邦计算,企业成本大幅下降。

    2.3K10编辑于 2024-09-26
  • 来自专栏大数据平台TBDS

    TBDS部署sqoop组件及抽取数据至hive的使用方法

    导语:本身TBDS平台不提供sqoop组件,若用户想在TBDS平台上使用sqoop抽取外部数据导入至TBDS平台,需要单独部署sqoop组件。 一、TBDS安装sqoop组件 1.首先下载sqoop安装包 链接:https://share.weiyun.com/5zgpbZi 密码:danme3 2.从TBDS集群中选择一台机器安装sqoop工具 rpm -ivh sqoop-xxx.rpm 3.把/etc/sqoop/conf/下的sqoop-env-templete.sh复制一个sqoop-env.sh,将脚本里面的hadoop及mr路径改为TBDS 2041/hadoop/,按照截图配置参数 image.png 4.配置完毕以后即可使用sqoop命令 注:若其他节点也想使用sqoop命令,则按照相同步骤操作配置即可 二、sqoop抽取外部数据导入TBDS 的hive表 因为访问TBDS的hive表必须要认证才能访问,所以与开源导入的方法稍有不同,需要先做认证配置才能使用。

    2.4K60发布于 2019-07-02
  • TBDS新一代数据湖仓架构:核心特性与行业实践

    一、产品定位与核心亮点 腾讯云大数据处理套件(TBDS)是基于云原生、大数据与AI技术生态构建的新一代大数据平台。 解决方案:采用TBDS+Iceberg湖仓架构,通过Flink实现实时数据入湖,Spark进行离线计算。 成效: 核心业务时效从T+1/小时级提升至分钟级。 解决方案:通过TBDS实现多芯混合部署、跨集群联邦计算、小文件治理及国密算法支持。 成效: 实现全栈国产化升级,满足监管合规要求。 突破大规模集群性能瓶颈,支持湖上仓实时/近线/离线全场景覆盖。 数据来源:腾讯全球数字生态大会TBDS产品发布会(主讲人:莫亦寒,2024) 关键技术指标:秒级弹性、查询3倍提速、40+互认证资质、4000+节点集群实践

    11500编辑于 2026-05-30
  • 来自专栏深度学习与python

    腾讯云大数据 TBDS 在私有化场景万节点集群的实践

    在 腾讯云基础软件创新实践专场,来自腾讯云的 TBDS 大数据引擎研发负责人杨鹏程带来了主题为《腾讯云⼤数据 TBDS 在私有化场景万节点集群的实践》的演讲,以下为主要内容。 本次分享主要分为三个部分展开:第一部分是 Hadoop 体系下存算⼀体存在的问题;第二部分是 TBDS 存算分离架构和三层优化;第三部分是云原⽣环境下计算引擎优化和最佳实践,最后是对本次分享内容的总结。 TBDS 是基于 Router 的联邦方式,解决了 HDFS 的多集群数据孤岛问题,让集群之间的存储能够互通,当然我们也在 Router 上做了很多新的功能以及性能上的优化。 TBDS 存算分离架构和三层优化 通过前面存算一体提出的问题以及存算分离的简单的介绍,我们从三个核心点设计和考虑我们的存算分离架构,主要是核心扩展性、海量存储计算速度和云原生。 上图是 TBDS 存算分离的大致架构图,主要是存算分离底座部分去掉了应用层,像数据管理、一站式数据开发、数据治理、数据报表分析及上层工具等。

    1.9K20编辑于 2023-03-29
  • 来自专栏TBDS

    TBDS大数据套件对接cos对象存储系统配置化实现

    腾讯大数据处理套件(Tencent Big Data Suite,TBDS)是一个可靠、安全、易用的大数据处理平台。 TBDS 提供了多种高性能分析引擎方便您应对实时流数据处理、离线批数据分析、实时多维分析等场景的海量数据分析挑战。 腾讯TBDS大数据处理套件除了可以对原生HDFS分布式文件系统中的数据文件做大批量离线数据分析外,还可以支持对腾讯cos对象系统中的数据文件进行直接访问并进行大批量离线数据分析。 本文将重点讲述腾讯TBDS套件如何与cos对象系统相结合,让cos对象存储系统充当TBDS中的sprak、hive等数据分析组件的底层文件系统,实现spark、hive访问cos对象系统像访问本地的HDFS /436/6884 1.png 第二步:登录TBDS部署Portal Web的机器,/data/tools/目录下有一个tbds-bootstrap.sh的脚本工具,该工具可以用来向整个TBDS集群进行文件同步

    2.5K20发布于 2019-02-20
领券