随着工业物联网、车联网和实时风控等场景爆发,企业对低延迟、高并发的流处理需求日益迫切。5G、容器云与高性能存储的普及,使流处理能在数据产生后毫秒级内产出价值,例如车载反馈、故障告警和欺诈检测,10ms级延迟往往决定商业成败。
然而,流处理虽看似简单——持续、无限地处理数据——但多数企业缺乏支持PB级数据、兼具高吞吐和容错的实时存储引擎。伴随各类定制引擎涌现,系统日益复杂,资源浪费与运维困难并存。当前大数据系统普遍困境在于:计算已是原生流式,存储却非原生流式。
早期以MapReduce为代表的批处理延迟高(分钟至小时级)。为降低延迟,微批处理(如Spark Streaming)缓冲秒级数据计算,但延迟仍不理想。随后原生流处理框架(Storm、Heron、Samza、Kafka Streams)兴起。为兼顾批与流,Lambda架构整合离线与实时双轨,但系统臃肿。后来Kappa架构与Dataflow模型主张“流批一体”,Flink、Spark Structured Streaming等实现统一计算,然而存储层面仍割裂:批处理依赖HDFS,流处理依赖消息队列,历史数据回溯困难。
Pravega应运而生,它是专为流设计的原生存储系统,支持无限、持久、仅追加的字节流,提供尾读与追赶读能力,满足批流统一访问。其特性包括:基于路由键的动态分段机制,实现读写独立弹性伸缩;通过分层存储确保持久性;保证顺序、一致性与事务性写入,支持仅一次处理,并与Flink深度集成,实现端到端事务。
Pravega补齐了Kappa架构的存储拼图,构建统一存储与计算的闭环。它使流处理系统具备弹性、微服务化能力,可无缝从原型扩展到生产。未来,Pravega将持续演进,推动流式存储成为新一代大数据基础设施。