搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

基于安全湖的PB级安全数据智能分析与成本优化
应对长周期数据回溯与存储成本的双重压力企业安全运营面临核心矛盾：数据规模从TB级向PB级增长，但传统架构无法支撑长周期分析。构建云原生、全栈国产化的一体化安全湖腾讯安全湖（Security Data Lake）提供集数据采集、治理、存储、分析于一体的解决方案，旨在解决PB级数据下的性能与成本问题。实测案例：某大型企业200TB数据使用安全湖仅需3台硬件，而使用开源软件需近20台硬件，硬件开销降低至15%。查询效率提升：针对百亿级数据实现秒级响应。 PB级处理能力：唯一实测支持百亿级数据<5秒检索的云原生平台，解决传统组件“越用越慢”的难题。数据来源：腾讯云 CSIG云与智慧产业事业群《基于安全湖的PB级安全数据智能分析》产品文档。
5110编辑于 2026-05-31
腾讯安全湖：云原生PB级安全数据分析平台概要
一、产品定位与核心亮点腾讯安全湖是一款云原生、低成本、高性能、全栈国产化的安全大数据分析产品。解决其海量数据存储成本高、查询效率低、历史数据回溯能力不足的痛点。 Splunk国产化替换：面向有信创要求的客户。解决其需全栈国产化替代、兼容现有SPL语法与仪表盘、并满足PB级数据智能分析的痛点。硬核指标数据规模：支持PB级安全数据智能分析。数据留存：支持180天以上原始安全数据的威胁调查。查询性能：支持PB级数据秒级检索。压缩比率：日志压缩比达到16:1。解决方案：构建云原生安全数据湖解决方案，利用腾讯安全湖提供数据采集汇聚能力，并基于云原生和存算分离技术实现弹性伸缩。成效：单日写入峰值超7.21TB。实现了PB级数据分析能力，支持未知威胁发现和快速威胁狩猎。通过与ELK/ES方案对比，在成本、压缩比和查询性能上取得显著优势（具体指标见“产品优势”部分）。
9310编辑于 2026-05-31
腾讯安全湖：实现PB级安全数据智能分析与主动防御
网络安全运营面临海量数据挑战随着企业信息系统和安全设备激增，安全数据呈爆发式增长。中等规模企业年数据量已达TB至PB级，涉及设备、系统、流量、命令、进程、文件等上百种数据源。实现秒级查询与90%弱密码问题整改平台具备PB级海量数据处理能力，实测百亿级数据查询性能如下：单字段等值匹配查询<5秒（来源：XX大型企业性能测试）单字段前缀匹配查询<10秒单字段聚合统计<30 部署腾讯安全湖后：日均处理非压缩数据>18TB，峰值QPS>80万（来源：性能测试报告） 200TB数据仅需3台硬件，较开源方案减少17台，硬件开销降低85% 实现百亿级历史数据与百万级威胁情报的秒级碰撞回溯技术优势获权威测试验证腾讯安全湖采用自研原子能力实现处理、查询、存储、分析一体化，具备以下技术特性：云原生弹性伸缩，支持秒级扩缩容与无限量存储列存储压缩算法，针对重复数据实现10-20倍压缩比插件化 APP架构，内置腾讯安全场景应用并支持自定义扩展平台已通过多家大型企业PB级数据压力测试，在数据接入规模、查询效率、成本控制方面均达到行业领先水平，为能源、金融等关基领域提供主动防御能力支撑。
6010编辑于 2026-05-31
来自专栏腾讯技术工程官方号的专栏
腾讯 PB 级大数据计算如何做到秒级？
在开放融合的 Data Cloud 上，业务方可以消费完整的数据生命周期，从采集-存储-计算-分析-洞察。还能够满足位于不同数据中心、不同类型数据源的数据联合分析/即时查询的需求。 Presto 在腾讯天穹 SuperSQL 大数据生态中，定位为实现秒级大数据计算的核心服务。主要面向即席查询、交互式分析等用户场景。日均处理数据量 PB 级，P90 查询耗时为 50s，全面提升各业务数据实时分析性能，有效助力业务增长。获得秒级的查询体验。 4.4 Optimized Repartitioning 天穹 Presto 每天的业务查询 Exchange 的数据量达到了上百 PB 级别，为了提升 Repartitioning 阶段的性能，我们在生产环境中启用了社区的
2.1K21编辑于 2022-01-21
来自专栏憧憬博客分享
PB数据毫秒级搜索之Elasticsearch(二)基础了解
,每个分片是一个lucene索引备份: 拷贝一份分片就完成了分片的备份,主分片如果损坏,备份的分片还可以提供搜索类型索引可以定义一个或多个类型,文档必须属于一个类型文档文档是可以被索引的基本数据单位索引可以看成数据库的库类型可以看成数据表文档可以看成表中的某条数据比如说: 我们存储一个数据有几个大类: 动物书籍,可以把动物和书籍设置为索引,但是书籍或者动物都有小类别,把这些小类别设置为类型 ":"test" 搜索该索引类型为title 文档带有test字符的数据 } }, "sort":[ 默认是_score进行排序语法查询 { "query":{ "query_string":{ "query":"三 OR JAVA", 可以设置正常查询条件 OR AND 还可以使用()设置优先级 "fields":["author","title"] } } } 字段级别查询针对结构化数据如数字,日期等 { "query":{ "term":{
98810发布于 2020-07-20
腾讯安全湖全流量方案：实现PB级安全数据的长期低成本存储与智能回溯分析
安全数据价值难以发挥：海量、高速、多样带来的运维困境企业在常态化网络攻防对抗中面临核心矛盾：安全数据规模快速增长与其存储成本高昂、分析效率低下并存。随着攻击手段高频化、自动化，企业需处理每日10万级安全事件，但关键信息常被海量数据淹没。具体表现为：全流量原始数据日均增长1.3TB，大量存储资源被占用；且分散的数据导致安全状况不可见，难以快速响应Oday漏洞、供应链攻击等威胁（来源：腾讯安全运营中心总监齐恒）。查询效率提升：通过极简搜索操作（仅需3步），实现30天内流量日志的秒级查询，快速定位网络攻击特征（来源：方案效果说明）。客户实证：大型企业的低成本高效益运营某大型物流企业：针对日均1.3TB全流量数据，通过安全湖实现低成本存储，并满足灵活检索需求，解决了PB级数据下的存储资源与检索效率矛盾（来源：案例拓扑图及效果数据）
6110编辑于 2026-05-30
来自专栏腾讯大数据的专栏
天穹SuperSQL如何把腾讯 PB 级大数据计算做到秒级？
在开放融合的Data Cloud上，业务方可以消费完整的数据生命周期，从采集-存储-计算-分析-洞察。还能够满足位于不同数据中心、不同类型数据源的数据联合分析/即时查询的需求。 Presto在腾讯天穹SuperSQL大数据生态中，定位为实现秒级大数据计算的核心服务。主要面向即席查询、交互式分析等用户场景。日均处理数据量PB级，P90查询耗时为50s，全面提升各业务数据实时分析性能，有效助力业务增长。获得秒级的查询体验。 4.4 Optimized Repartitioning 天穹Presto每天的业务查询Exchange的数据量达到了上百PB级别，为了提升Repartitioning阶段的性能，我们在生产环境中启用了社区的
2.1K51编辑于 2022-01-23
来自专栏数据科学和人工智能
100PB级数据分钟级延迟：Uber大数据平台（下）
阅读本文前请先阅读上一篇文章：100+PB数据分钟级延迟：Uber大数据平台介绍（上）。第3代：为长期计划重建我们的大数据平台到2017年初，我们的大数据平台被整个公司的工程和运营团队使用，使他们能够在同一个地方访问新数据和历史数据。用户可以通过同一个UI门户轻松访问不同大数据平台的数据。我们的计算集群中有超过100PB的数据和100000个vcores。为了确保对任意数据源的统一提取， Uber大数据团队和数据存储团队合作启动了一个项目，以统一所有上游数据源更新日志的内容、格式和元数据，而不管其具体技术架构。未来展望 Uber的数据组织依赖于跨部门职能协作，包括的数据平台团队、数据基础团队、数据流和实时平台团队以及大数据团队。我们旨在构建支持Uber分析数据基础架构的所需库和分布式服务。
1.6K20编辑于 2022-03-30
来自专栏upuptop的专栏
PB级数据实现秒级查询ES的安装
Elasticsearch是用Java语言开发的，并作为Apache许可条款下的开放源码发布，是一种流行的企业级搜索引擎。
80920发布于 2019-09-18
应对PB级安全数据治理：基于云原生架构的降本增效与主动防御实践
突破海量安全数据留存与查询困境随着网络安全防御进入深水区，企业安全运营面临从被动防御向主动防御转型的战略要求。然而，随着EDR、NDR、XDR等新兴技术的广泛应用，企业安全数据量正由TB级迈向PB级，导致严重的业务瓶颈：存储成本失控：传统ES组件索引大小是原始数据的2-5倍，导致海量存储资源被占用。检索与调查效率实现秒级响应（ROI指标二）：在百亿级数据（实测数据）场景下，单字段等值匹配查询耗时<5秒，前缀匹配<10秒，聚合统计<30秒。海量日志与千万级威胁情报的匹配查询实现秒级回溯。最近24小时告警日志压缩比达21.8:1，实现在180天+、百TB级海量历史数据中进行自动化威胁秒级回扫，在重保HW期间成功发现原始数据中潜伏的攻击行为及明文弱密码风险。构筑全栈自主可控的底层技术壁垒作为下一代安全大数据分析平台，腾讯安全湖的技术确定性主要体现在以下三个维度：架构领先性：摒弃传统安全厂商由多种开源组件拼装的落后模式，自研云原生底座，实现秒级扩缩容与近乎无限量的存储扩展
3710编辑于 2026-05-31
来自专栏FreeBuf
移动APP上的广告劫持每天造成PB级的数据浪费
然而这一行为造成了严重的资源浪费，据估计移动平台广告劫持导致每天有PB级（1PB=100万GB）的数据被浪费。这些应用程序平均每分钟建立1100个连接，并每个小时与约320个广告网络、广告服务器、数据提供商通信。根据分析的结果，他们总结出13.3%的移动应用库和14.6%的手机应用程序中都存在高级别的安全风险。
821100发布于 2018-02-06
来自专栏IT技术精选文摘
PB级海量数据服务平台架构设计实践
基于PB级海量数据实现数据服务平台，需要从各个不同的角度去权衡，主要包括实践背景、技术选型、架构设计，我们基于这三个方面进行了架构实践，下面分别从这三个方面进行详细分析讨论：实践背景该数据服务平台架构设计之初由于时间范围条件跨度需要支持几年（如1~3年），计算依赖的数据量级在TB甚至PB级别，所以一定要通过预计算的方式压缩数据，并能提供支持快速计算的方式。技术选型技术选型，主要从如下几个方面进行考虑：数据存储原始数据存储数据量级达到PB级，所以，作为整个数据服务平台的最初输入数据，我们称为数据服务平台的原始数据，后续简称原始数据，这些原始数据是直接存储在分布式关系数据存储对于PB级的数据，想要在数据服务平台中快速为用户提供数据服务，根据业务特点，存储在适合快速加载、快速计算的分布式数据存储系统中。地域信息，如国家、省份、城市、区县 POI名称、地址 POI分类，包括一级分类、二级分类这些元数据，有些来自于基础数据部门提供的标准库，比如品牌、价格范围等，可以从对应的数据表中同步或直接读取；而有些具有时间含义的元数据
2.6K60发布于 2018-01-30
来自专栏腾讯云开发者社区推荐
QQ音乐PB级ClickHouse实时数据平台架构演进之路
优质服务的背后，是每天万亿级新增音乐内容和行为数据，PB数据量级的数据计算服务。海量的数据意味着更高标准的数据分析业务，对于离线分析的时效、实时与近实时的即席实时交互分析，提出了更高的要求。二、大数据分析的挑战早些年在传统离线数仓阶段，QQ音乐使用Hive作为大数据分析的主要工具，对TB至PB级的数据进行分析，但存在着以下的可提升点： 1.jpg 1. 集群日均新增万亿数据，规模达到上万核CPU，PB级数据量。整体实现秒级的实时数据分析、提取、下钻、监控数据基础服务，大大提高了大数据分析与处理的工作效率。 ClickHouse架构系统技术攻克点面对上万核集群规模、PB级的数据量，经过QQ音乐大数据团队和腾讯云EMR双方技术团队无数次技术架构升级优化，性能优化，逐步形成高可用、高性能、高安全的OLAP计算分析平台基于Superset的自助数据分析可视化平台 Apache Superset(孵化)是一个现代的、企业级的商业智能Web应用程序，为业务提供处理PB级数据的高性能的OLAP在线数据分析服务，提供丰富的数据可视化集
14.7K6717发布于 2020-06-03
来自专栏Apache Doris
PB 级自动驾驶数据秒级检索：Apache Doris 统一多模态数据平台实践
导读：多模态数据正成为企业核心资产，但规模化管理仍具挑战。自动驾驶在 PB 级图像、点云、视频等数据治理中积累了可复用经验。过去，这类能力往往依赖数仓、Elasticsearch、向量数据库等多套系统拼接完成。但当数据规模进入 PB 级、查询进入高并发交互式阶段后，多系统架构的性能、同步和运维成本都会迅速放大。其产品深度整合算法、软件与专用计算平台，覆盖从传感器感知、决策规划到车辆控制的完整链路，全面提升行驶安全性与驾乘体验。目前，该公司的解决方案已在多家 OEM 合作伙伴的量产车型上落地部署。依托大规模的量产运营，公司积累了海量真实道路数据，并围绕这些数据构建起数据驱动的研发体系。该公司每天生成数百 TB 的新数据，总存储量以 PB 计。上述工作对实时性要求极高：每秒处理百万帧数据的可见性，以及高并发下秒级甚至亚秒级响应。
15210编辑于 2026-05-19
【重磅发布】PB级数据秒级“拿捏”，数仓建模平台直开挂！
通过Kylin的预计算技术，实现PB级数据的亚秒级查询响应，支持高并发多维分析场景。 AllData商业版将其集成至数据服务层，支持对PB级数据集的亚秒级响应。混合存储引擎 Kylin采用列式存储与预计算结合的混合架构，兼顾查询性能与存储效率。在物流轨迹分析场景中，系统可实时捕获GPS数据变化，动态刷新运输时效预测模型，决策延迟从小时级降至秒级。 9、数据资产-快照-新建快照支持在数据资产快照模块新建快照，可定时刻录数据状态，保障数据安全与历史版本回溯。 17、项目管理-新建项目 18、用户提供用户管理功能，支持角色分配、权限细控，保障不同用户安全访问Kylin相关数据资源。
38921编辑于 2025-10-13
来自专栏公有云大数据平台弹性 MapReduce
QQ音乐PB级ClickHouse实时数据平台架构演进之路
优质服务的背后，是每天万亿级新增音乐内容和行为数据，PB数据量级的数据计算服务。海量的数据意味着更高标准的数据分析业务，对于离线分析的时效、实时与近实时的即席实时交互分析，提出了更高的要求。二、大数据分析的挑战早些年在传统离线数仓阶段，QQ音乐使用Hive作为大数据分析的主要工具，对TB至PB级的数据进行分析，但存在着以下的可提升点： 1. 集群日均新增万亿数据，规模达到上万核CPU，PB级数据量。整体实现秒级的实时数据分析、提取、下钻、监控数据基础服务，大大提高了大数据分析与处理的工作效率。 ClickHouse架构系统技术攻克点面对上万核集群规模、PB级的数据量，经过QQ音乐大数据团队和腾讯云EMR双方技术团队无数次技术架构升级优化，性能优化，逐步形成高可用、高性能、高安全的OLAP计算分析平台基于Superset的自助数据分析可视化平台 Apache Superset(孵化)是一个现代的、企业级的商业智能Web应用程序，为业务提供处理PB级数据的高性能的OLAP在线数据分析服务，提供丰富的数据可视化集
2.9K20发布于 2021-01-07
来自专栏萝卜要加油
Netflix 如何使用 ClickHouse 处理PB 级日志系统
工程师Daniel Muino的这句话，背后是一组震撼的数据：单日日志 ingestion 量达 5PB，平均每秒处理 1060万条事件（峰值1250万条）；每条日志约5KB，支撑4万+微服务，服务全球要让这么大规模的日志“秒级可查”，光靠ClickHouse还不够。Netflix团队靠3个关键优化，才实现了“日志生成20秒内可搜、部分场景最低2秒延迟”的体验（远优于5分钟SLA）。 Amazon S3，同时触发Amazon Kinesis消息；核心存储分层热数据层（ClickHouse）存储近期日志，主打“快”——支撑秒级查询、交互式调试；冷数据层（Apache Iceberg ）长期存储历史数据，兼顾成本与大规模时间范围查询；统一查询层通过Query API自动匹配目标命名空间，工程师无需关心“数据存在哪”，直接获取统一结果。对Netflix而言，这套系统不仅是“日志存储”——更是支撑3亿用户流畅观影的“故障排查生命线”：从“等查询”到“秒级响应”，背后是每一个优化细节的积累。
33110编辑于 2025-11-14
来自专栏腾讯云数据库(TencentDB)
亿级客户和PB级数据规模的金融级数据库实战历程
当时，腾讯有一款金融级的分布式数据库产品TDSQL，其业务场景和对数据库的可靠性要求，和银行场景非常类似。在内核层面，TDSQL针对MySQL 社区版本和Mariadb 社区版本的内核，在复制模块做了系统级优化，使得其具备主备副本数据强一致同步的特性，极大提升了数据安全性，同时相对原生的半同步复制机制，TDSQL 微众银行当时在做系统架构的时候充分考虑了是采用shard版本的纯分布式数据库还是从应用层的角度来做分布式，通过大量的调研分析，最终觉得采用应用做分布式是最可控，最安全，最灵活，最可扩展的模式，从而设计了基于 GNS使用了redis缓存，以保证较高的查询QPS性能，同时采用TDSQL做持久化存储，以保证数据的安全性。当前微众银行的TDSQL SET个数已达350+（生产+容灾），数据库实例个数已达到1700+，整体数据规模已达到PB级，承载了微众银行数百个核心系统。
2.7K20发布于 2019-08-17
来自专栏新智元
斯坦福医疗ImageNet发布，如何评价PB级医疗影像数据集？
【新智元导读】斯坦福大学医学院与 Langlotzlab 合作创建的一个 PB 级的大型医疗影像数据集 Medical ImageNet 最近发布，从官方网页的介绍中可以看到，该数据集包含近万张临床X光片如此大规模的医疗数据集有望解决医疗影像数据不足问题，助推利用机器学习分析医学图像方面的进步。 Medical ImageNet 这是一个PB级规模的，基于云，多机构，可搜索，开放的诊断影像研究库，目的是开发智能影像分析系统。该数据集包含0.5 PB的临床放射学数据，包括450万项研究，超过10亿张影像。这一资源的长期目标是通过以下方式大幅度减少影像诊断的误差：（1）通过医学影像机器学医研究的数据和算法的标准化，促进可重复的科学实验；（2）让患者能够通过为这些实验自愿贡献数据的方式参与科学事业；（3）通过举办利用临床验证的图像数据集的比赛来激发创新
1.7K70发布于 2018-03-28
来自专栏【腾讯云开发者】
PB 级数据秒级分析：腾讯云原生湖仓DLC 架构揭秘
导读｜过去几年，数据湖能力已经在腾讯内部包括微信视频号、小程序等多个业务大规模落地，数据规模达到 PB至 EB 级别。在此基础上，腾讯自研业务也启动了云原生湖仓能力建设。云原生湖仓架构最大的挑战什么？ LC 实现 PB 级数据秒级分析回到最开始的问题“高性能”，PB 级数据秒级分析该怎么去做，从三个大维度展开。当然也会有需要优化的地方，比如文件 /Split 级别、跨租户 Cache 缓存数据安全、缓存一致性、弹性影响、监控、黑名单等，这些优化空间 DLC 都会帮客户完成。当然，还会涉及到一些问题需要大家注意，例如缓存一致性、跨租户的安全等。性能方面，从来自 Presto 社区的数据看，Raptorx 有接近 10X 的提升。但是在 PB 级数据秒级分析的能力下，这些几乎都是不必要的。层层建模的问题：第一是模式是固定的，不够敏捷。
1.7K20编辑于 2023-01-04

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

基于安全湖的PB级安全数据智能分析与成本优化

腾讯安全湖：云原生PB级安全数据分析平台概要

腾讯安全湖：实现PB级安全数据智能分析与主动防御

腾讯 PB 级大数据计算如何做到秒级？

PB数据毫秒级搜索之Elasticsearch(二)基础了解

腾讯安全湖全流量方案：实现PB级安全数据的长期低成本存储与智能回溯分析

天穹SuperSQL如何把腾讯 PB 级大数据计算做到秒级？

100PB级数据分钟级延迟：Uber大数据平台（下）

PB级数据实现秒级查询ES的安装

应对PB级安全数据治理：基于云原生架构的降本增效与主动防御实践

移动APP上的广告劫持每天造成PB级的数据浪费

PB级海量数据服务平台架构设计实践

QQ音乐PB级ClickHouse实时数据平台架构演进之路

PB 级自动驾驶数据秒级检索：Apache Doris 统一多模态数据平台实践

【重磅发布】PB级数据秒级“拿捏”，数仓建模平台直开挂！

QQ音乐PB级ClickHouse实时数据平台架构演进之路

Netflix 如何使用 ClickHouse 处理PB 级日志系统

亿级客户和PB级数据规模的金融级数据库实战历程

斯坦福医疗ImageNet发布，如何评价PB级医疗影像数据集？

PB 级数据秒级分析：腾讯云原生湖仓DLC 架构揭秘

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐