首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 基于安全湖的PB安全数据智能分析与成本优化

    应对长周期数据回溯与存储成本的双重压力 企业安全运营面临核心矛盾:数据规模从TBPB增长,但传统架构无法支撑长周期分析。 构建云原生、全栈国产化的一体化安全湖 腾讯安全湖(Security Data Lake)提供集数据采集、治理、存储、分析于一体的解决方案,旨在解决PB数据下的性能与成本问题。 实测案例: 某大型企业200TB数据使用安全湖仅需3台硬件,而使用开源软件需近20台硬件,硬件开销降低至15%。 查询效率提升: 针对百亿级数据实现秒响应。 PB处理能力: 唯一实测支持百亿级数据<5秒检索的云原生平台,解决传统组件“越用越慢”的难题。 数据来源: 腾讯云 CSIG云与智慧产业事业群《基于安全湖的PB安全数据智能分析》产品文档。

    5110编辑于 2026-05-31
  • 腾讯安全湖:云原生PB安全数据分析平台概要

    一、 产品定位与核心亮点 腾讯安全湖是一款云原生、低成本、高性能、全栈国产化的安全数据分析产品。 解决其海量数据存储成本高、查询效率低、历史数据回溯能力不足的痛点。 Splunk国产化替换:面向有信创要求的客户。解决其需全栈国产化替代、兼容现有SPL语法与仪表盘、并满足PB数据智能分析的痛点。 硬核指标 数据规模:支持PB安全数据智能分析。 数据留存:支持180天以上原始安全数据的威胁调查。 查询性能:支持PB数据检索。 压缩比率:日志压缩比达到16:1。 解决方案:构建云原生安全数据湖解决方案,利用腾讯安全湖提供数据采集汇聚能力,并基于云原生和存算分离技术实现弹性伸缩。 成效: 单日写入峰值超7.21TB。 实现了PB数据分析能力,支持未知威胁发现和快速威胁狩猎。 通过与ELK/ES方案对比,在成本、压缩比和查询性能上取得显著优势(具体指标见“产品优势”部分)。

    9310编辑于 2026-05-31
  • 腾讯安全湖:实现PB安全数据智能分析与主动防御

    网络安全运营面临海量数据挑战 随着企业信息系统和安全设备激增,安全数据呈爆发式增长。中等规模企业年数据量已达TB至PB,涉及设备、系统、流量、命令、进程、文件等上百种数据源。 实现秒查询与90%弱密码问题整改 平台具备PB海量数据处理能力,实测百亿级数据查询性能如下: 单字段等值匹配查询<5秒(来源:XX大型企业性能测试) 单字段前缀匹配查询<10秒 单字段聚合统计<30 部署腾讯安全湖后: 日均处理非压缩数据>18TB,峰值QPS>80万(来源:性能测试报告) 200TB数据仅需3台硬件,较开源方案减少17台,硬件开销降低85% 实现百亿历史数据与百万威胁情报的秒碰撞回溯 技术优势获权威测试验证 腾讯安全湖采用自研原子能力实现处理、查询、存储、分析一体化,具备以下技术特性: 云原生弹性伸缩,支持秒扩缩容与无限量存储 列存储压缩算法,针对重复数据实现10-20倍压缩比 插件化 APP架构,内置腾讯安全场景应用并支持自定义扩展 平台已通过多家大型企业PB数据压力测试,在数据接入规模、查询效率、成本控制方面均达到行业领先水平,为能源、金融等关基领域提供主动防御能力支撑。

    6010编辑于 2026-05-31
  • 来自专栏腾讯技术工程官方号的专栏

    腾讯 PB 数据计算如何做到秒

    在开放融合的 Data Cloud 上,业务方可以消费完整的数据生命周期,从采集-存储-计算-分析-洞察。还能够满足位于不同数据中心、不同类型数据源的数据联合分析/即时查询的需求。 Presto 在腾讯天穹 SuperSQL 大数据生态中,定位为实现秒数据计算的核心服务。主要面向即席查询、交互式分析等用户场景。 日均处理数据PB ,P90 查询耗时为 50s,全面提升各业务数据实时分析性能,有效助力业务增长。 获得秒的查询体验。 4.4 Optimized Repartitioning 天穹 Presto 每天的业务查询 Exchange 的数据量达到了上百 PB 级别,为了提升 Repartitioning 阶段的性能,我们在生产环境中启用了社区的

    2.1K21编辑于 2022-01-21
  • 来自专栏憧憬博客分享

    PB数据毫秒搜索之Elasticsearch(二)基础了解

    ,每个分片是一个lucene索引 备份: 拷贝一份分片就完成了分片的备份,主分片如果损坏,备份的分片还可以提供搜索 类型 索引可以定义一个或多个类型,文档必须属于一个类型 文档 文档是可以被索引的基本数据单位 索引可以看成数据库的库   类型可以看成数据表 文档可以看成表中的某条数据 比如说: 我们存储一个数据有几个大类: 动物 书籍,可以把动物和书籍设置为索引,但是书籍或者动物都有小类别,把这些小类别设置为类型 ":"test" 搜索该索引 类型为title 文档带有test字符的数据 } }, "sort":[ 默认是_score进行排序 语法查询 { "query":{ "query_string":{ "query":"三 OR JAVA", 可以设置正常查询条件 OR AND 还可以使用()设置优先 "fields":["author","title"] } } } 字段级别查询 针对结构化数据 如 数字,日期等 { "query":{ "term":{

    98810发布于 2020-07-20
  • 腾讯安全湖全流量方案:实现PB安全数据的长期低成本存储与智能回溯分析

    安全数据价值难以发挥:海量、高速、多样带来的运维困境 企业在常态化网络攻防对抗中面临核心矛盾:安全数据规模快速增长与其存储成本高昂、分析效率低下并存。 随着攻击手段高频化、自动化,企业需处理每日10万安全事件,但关键信息常被海量数据淹没。 具体表现为:全流量原始数据日均增长1.3TB,大量存储资源被占用;且分散的数据导致安全状况不可见,难以快速响应Oday漏洞、供应链攻击等威胁(来源:腾讯安全运营中心总监齐恒)。 查询效率提升:通过极简搜索操作(仅需3步),实现30天内流量日志的秒查询,快速定位网络攻击特征(来源:方案效果说明)。 客户实证:大型企业的低成本高效益运营 某大型物流企业:针对日均1.3TB全流量数据,通过安全湖实现低成本存储,并满足灵活检索需求,解决了PB数据下的存储资源与检索效率矛盾(来源:案例拓扑图及效果数据

    6110编辑于 2026-05-30
  • 来自专栏腾讯大数据的专栏

    天穹SuperSQL如何把腾讯 PB 数据计算做到秒

    在开放融合的Data Cloud上,业务方可以消费完整的数据生命周期,从采集-存储-计算-分析-洞察。还能够满足位于不同数据中心、不同类型数据源的数据联合分析/即时查询的需求。 Presto在腾讯天穹SuperSQL大数据生态中,定位为实现秒数据计算的核心服务。主要面向即席查询、交互式分析等用户场景。 日均处理数据PB,P90查询耗时为50s,全面提升各业务数据实时分析性能,有效助力业务增长。 获得秒的查询体验。 4.4  Optimized Repartitioning  天穹Presto每天的业务查询Exchange的数据量达到了上百PB级别,为了提升Repartitioning阶段的性能,我们在生产环境中启用了社区的

    2.1K51编辑于 2022-01-23
  • 来自专栏数据科学和人工智能

    100PB数据分钟延迟:Uber大数据平台(下)

    阅读本文前请先阅读上一篇文章:100+PB数据分钟延迟:Uber大数据平台介绍(上)。 第3代:为长期计划重建我们的大数据平台 到2017年初,我们的大数据平台被整个公司的工程和运营团队使用,使他们能够在同一个地方访问新数据和历史数据。 用户可以通过同一个UI门户轻松访问不同大数据平台的数据。我们的计算集群中有超过100PB数据和100000个vcores。 为了确保对任意数据源的统一提取, Uber大数据团队和数据存储团队合作启动了一个项目,以统一所有上游数据源更新日志的内容、格式和元数据,而不管其具体技术架构。 未来展望 Uber的数据组织依赖于跨部门职能协作,包括的数据平台团队、数据基础团队、数据流和实时平台团队以及大数据团队。我们旨在构建支持Uber分析数据基础架构的所需库和分布式服务。

    1.6K20编辑于 2022-03-30
  • 来自专栏upuptop的专栏

    PB数据实现秒查询ES的安装

    Elasticsearch是用Java语言开发的,并作为Apache许可条款下的开放源码发布,是一种流行的企业搜索引擎。

    80920发布于 2019-09-18
  • 应对PB安全数据治理:基于云原生架构的降本增效与主动防御实践

    突破海量安全数据留存与查询困境 随着网络安全防御进入深水区,企业安全运营面临从被动防御向主动防御转型的战略要求。 然而,随着EDR、NDR、XDR等新兴技术的广泛应用,企业安全数据量正由TB迈向PB,导致严重的业务瓶颈: 存储成本失控: 传统ES组件索引大小是原始数据的2-5倍,导致海量存储资源被占用。 检索与调查效率实现秒响应(ROI指标二): 在百亿级数据(实测数据)场景下,单字段等值匹配查询耗时<5秒,前缀匹配<10秒,聚合统计<30秒。海量日志与千万威胁情报的匹配查询实现秒回溯。 最近24小时告警日志压缩比达21.8:1,实现在180天+、百TB海量历史数据中进行自动化威胁秒回扫,在重保HW期间成功发现原始数据中潜伏的攻击行为及明文弱密码风险。 构筑全栈自主可控的底层技术壁垒 作为下一代安全数据分析平台,腾讯安全湖的技术确定性主要体现在以下三个维度: 架构领先性: 摒弃传统安全厂商由多种开源组件拼装的落后模式,自研云原生底座,实现秒扩缩容与近乎无限量的存储扩展

    3710编辑于 2026-05-31
  • 来自专栏FreeBuf

    移动APP上的广告劫持每天造成PB数据浪费

    然而这一行为造成了严重的资源浪费,据估计移动平台广告劫持导致每天有PB(1PB=100万GB)的数据被浪费。 这些应用程序平均每分钟建立1100个连接,并每个小时与约320个广告网络、广告服务器、数据提供商通信。 根据分析的结果,他们总结出13.3%的移动应用库和14.6%的手机应用程序中都存在高级别的安全风险。

    821100发布于 2018-02-06
  • 来自专栏IT技术精选文摘

    PB海量数据服务平台架构设计实践

    基于PB海量数据实现数据服务平台,需要从各个不同的角度去权衡,主要包括实践背景、技术选型、架构设计,我们基于这三个方面进行了架构实践,下面分别从这三个方面进行详细分析讨论: 实践背景 该数据服务平台架构设计之初 由于时间范围条件跨度需要支持几年(如1~3年),计算依赖的数据量级在TB甚至PB级别,所以一定要通过预计算的方式压缩数据,并能提供支持快速计算的方式。 技术选型 技术选型,主要从如下几个方面进行考虑: 数据存储 原始数据存储 数据量级达到PB,所以,作为整个数据服务平台的最初输入数据,我们称为数据服务平台的原始数据,后续简称原始数据,这些原始数据是直接存储在 分布式关系数据存储 对于PB数据,想要在数据服务平台中快速为用户提供数据服务,根据业务特点,存储在适合快速加载、快速计算的分布式数据存储系统中。 地域信息,如国家、省份、城市、区县 POI名称、地址 POI分类,包括一分类、二分类 这些元数据,有些来自于基础数据部门提供的标准库,比如品牌、价格范围等,可以从对应的数据表中同步或直接读取;而有些具有时间含义的元数据

    2.6K60发布于 2018-01-30
  • 来自专栏腾讯云开发者社区推荐

    QQ音乐PBClickHouse实时数据平台架构演进之路

    优质服务的背后,是每天万亿新增音乐内容和行为数据PB数据量级的数据计算服务。 海量的数据意味着更高标准的数据分析业务,对于离线分析的时效、实时与近实时的即席实时交互分析,提出了更高的要求。 二、大数据分析的挑战 早些年在传统离线数仓阶段,QQ音乐使用Hive作为大数据分析的主要工具,对TB至PB数据进行分析,但存在着以下的可提升点: 1.jpg 1. 集群日均新增万亿数据,规模达到上万核CPU,PB数据量。整体实现秒的实时数据分析、提取、下钻、监控数据基础服务,大大提高了大数据分析与处理的工作效率。 ClickHouse架构系统技术攻克点 面对上万核集群规模、PB数据量,经过QQ音乐大数据团队和腾讯云EMR双方技术团队无数次技术架构升级优化,性能优化,逐步形成高可用、高性能、高安全的OLAP计算分析平台 基于Superset的自助数据分析可视化平台 Apache Superset(孵化)是一个现代的、企业的商业智能Web应用程序,为业务提供处理PB数据的高性能的OLAP在线数据分析服务,提供丰富的数据可视化集

    14.7K6717发布于 2020-06-03
  • 来自专栏Apache Doris

    PB 自动驾驶数据检索:Apache Doris 统一多模态数据平台实践

    导读:多模态数据正成为企业核心资产,但规模化管理仍具挑战。自动驾驶在 PB 图像、点云、视频等数据治理中积累了可复用经验。 过去,这类能力往往依赖数仓、Elasticsearch、向量数据库等多套系统拼接完成。但当数据规模进入 PB 、查询进入高并发交互式阶段后,多系统架构的性能、同步和运维成本都会迅速放大。 其产品深度整合算法、软件与专用计算平台,覆盖从传感器感知、决策规划到车辆控制的完整链路,全面提升行驶安全性与驾乘体验。 目前,该公司的解决方案已在多家 OEM 合作伙伴的量产车型上落地部署。 依托大规模的量产运营,公司积累了海量真实道路数据,并围绕这些数据构建起数据驱动的研发体系。 该公司每天生成数百 TB 的新数据,总存储量以 PB 计。 上述工作对实时性要求极高:每秒处理百万帧数据的可见性,以及高并发下秒甚至亚秒响应。

    15210编辑于 2026-05-19
  • 【重磅发布】PB数据“拿捏”,数仓建模平台直开挂!

    通过Kylin的预计算技术,实现PB数据的亚秒查询响应,支持高并发多维分析场景。 AllData商业版将其集成至数据服务层,支持对PB数据集的亚秒响应。 混合存储引擎  Kylin采用列式存储与预计算结合的混合架构,兼顾查询性能与存储效率。 在物流轨迹分析场景中,系统可实时捕获GPS数据变化,动态刷新运输时效预测模型,决策延迟从小时降至秒。 9、数据资产-快照-新建快照   支持在数据资产快照模块新建快照,可定时刻录数据状态,保障数据安全与历史版本回溯。 17、项目管理-新建项目   18、用户   提供用户管理功能,支持角色分配、权限细控,保障不同用户安全访问Kylin相关数据资源。

    38921编辑于 2025-10-13
  • 来自专栏公有云大数据平台弹性 MapReduce

    QQ音乐PBClickHouse实时数据平台架构演进之路

    优质服务的背后,是每天万亿新增音乐内容和行为数据PB数据量级的数据计算服务。 海量的数据意味着更高标准的数据分析业务,对于离线分析的时效、实时与近实时的即席实时交互分析,提出了更高的要求。 二、大数据分析的挑战 早些年在传统离线数仓阶段,QQ音乐使用Hive作为大数据分析的主要工具,对TB至PB数据进行分析,但存在着以下的可提升点: 1. 集群日均新增万亿数据,规模达到上万核CPU,PB数据量。整体实现秒的实时数据分析、提取、下钻、监控数据基础服务,大大提高了大数据分析与处理的工作效率。 ClickHouse架构系统技术攻克点 面对上万核集群规模、PB数据量,经过QQ音乐大数据团队和腾讯云EMR双方技术团队无数次技术架构升级优化,性能优化,逐步形成高可用、高性能、高安全的OLAP计算分析平台 基于Superset的自助数据分析可视化平台 Apache Superset(孵化)是一个现代的、企业的商业智能Web应用程序,为业务提供处理PB数据的高性能的OLAP在线数据分析服务,提供丰富的数据可视化集

    2.9K20发布于 2021-01-07
  • 来自专栏萝卜要加油

    Netflix 如何使用 ClickHouse 处理PB 日志系统

    工程师Daniel Muino的这句话,背后是一组震撼的数据: 单日日志 ingestion 量达 5PB,平均每秒处理 1060万条事件(峰值1250万条); 每条日志约5KB,支撑4万+微服务,服务全球 要让这么大规模的日志“秒可查”,光靠ClickHouse还不够。Netflix团队靠3个关键优化,才实现了“日志生成20秒内可搜、部分场景最低2秒延迟”的体验(远优于5分钟SLA)。 Amazon S3,同时触发Amazon Kinesis消息; 核心存储分层 热数据层(ClickHouse) 存储近期日志,主打“快”——支撑秒查询、交互式调试; 冷数据层(Apache Iceberg ) 长期存储历史数据,兼顾成本与大规模时间范围查询; 统一查询层 通过Query API自动匹配目标命名空间,工程师无需关心“数据存在哪”,直接获取统一结果。 对Netflix而言,这套系统不仅是“日志存储”——更是支撑3亿用户流畅观影的“故障排查生命线”:从“等查询”到“秒响应”,背后是每一个优化细节的积累。

    33110编辑于 2025-11-14
  • 来自专栏腾讯云数据库(TencentDB)

    亿客户和PB数据规模的金融级数据库实战历程

    当时,腾讯有一款金融的分布式数据库产品TDSQL,其业务场景和对数据库的可靠性要求,和银行场景非常类似。 在内核层面,TDSQL针对MySQL 社区版本和Mariadb 社区版本的内核,在复制模块做了系统优化,使得其具备主备副本数据强一致同步的特性,极大提升了数据安全性,同时相对原生的半同步复制机制,TDSQL 微众银行当时在做系统架构的时候充分考虑了是采用shard版本的纯分布式数据库还是从应用层的角度来做分布式,通过大量的调研分析,最终觉得采用应用做分布式是最可控,最安全,最灵活,最可扩展的模式,从而设计了基于 GNS使用了redis缓存,以保证较高的查询QPS性能,同时采用TDSQL做持久化存储,以保证数据安全性。 当前微众银行的TDSQL SET个数已达350+(生产+容灾),数据库实例个数已达到1700+,整体数据规模已达到PB,承载了微众银行数百个核心系统。

    2.7K20发布于 2019-08-17
  • 来自专栏新智元

    斯坦福医疗ImageNet发布,如何评价PB医疗影像数据集?

    【新智元导读】斯坦福大学医学院与 Langlotzlab 合作创建的一个 PB 的大型医疗影像数据集 Medical ImageNet 最近发布,从官方网页的介绍中可以看到,该数据集包含近万张临床X光片 如此大规模的医疗数据集有望解决医疗影像数据不足问题,助推利用机器学习分析医学图像方面的进步。 Medical ImageNet 这是一个PB规模的,基于云,多机构,可搜索,开放的诊断影像研究库,目的是开发智能影像分析系统。 该数据集包含0.5 PB的临床放射学数据,包括450万项研究,超过10亿张影像。 这一资源的长期目标是通过以下方式大幅度减少影像诊断的误差:(1)通过医学影像机器学医研究的数据和算法的标准化,促进可重复的科学实验;(2)让患者能够通过为这些实验自愿贡献数据的方式参与科学事业;(3)通过举办利用临床验证的图像数据集的比赛来激发创新

    1.7K70发布于 2018-03-28
  • 来自专栏【腾讯云开发者】

    PB数据分析:腾讯云原生湖仓DLC 架构揭秘

    导读|过去几年,数据湖能力已经在腾讯内部包括微信视频号、小程序等多个业务大规模落地,数据规模达到 PB至 EB 级别。在此基础上,腾讯自研业务也启动了云原生湖仓能力建设。云原生湖仓架构最大的挑战什么? LC 实现 PB数据分析 回到最开始的问题“高性能”,PB数据分析该怎么去做,从三个大维度展开。 当然也会有需要优化的地方,比如文件 /Split 级别、跨租户 Cache 缓存数据安全、缓存一致性、弹性影响、监控、黑名单等,这些优化空间 DLC 都会帮客户完成。 当然,还会涉及到一些问题需要大家注意,例如缓存一致性、跨租户的安全等。性能方面,从来自 Presto 社区的数据看,Raptorx 有接近 10X 的提升。 但是在 PB数据分析的能力下,这些几乎都是不必要的。 层层建模的问题:第一是模式是固定的,不够敏捷。

    1.7K20编辑于 2023-01-04
领券