首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >数智平台技术研究报告-中国航信&大数据技术标准推进委员会

数智平台技术研究报告-中国航信&大数据技术标准推进委员会

作者头像
独角兽老头
发布2026-06-17 19:29:08
发布2026-06-17 19:29:08
650
举报

在当今数智化浪潮席卷全球的时代,数据已成为推动社会进步和经济发展的关键生产要素,而智能化技术则成为释放数据要素价值、推动业务创新的核心驱动力,数智化已经成为企业形成新质生产力的重要途径。数智平台,作为融合数据与智能技术的创新平台,正成为各行业转型升级、提升竞争力的关键底座。它不仅承载着海量数据的存储、管理和分析,更能为用户提供数据和智能一体化服务,是实现智能决策、流程自动化和业务模式创新的重要支撑。随着数据智能技术的飞速发展,数智平台的技术架构和应用场景也在不断演进。然而,面对复杂多变的业务需求以及日益严峻的技术挑战,如何构建高效、灵活、安全且可扩展的数智平台,成为企业面临的首要问题。

发展历程

数智技术是数字化和智能化的有机融合,可以理解为“数字化+智能化”,是在数字化基础上融合应用机器学习、人工智能等智能技术的过程。数智化是新型工业化的鲜明特征,是形成新质生产力的重要途径。当今,数智化已然成为企业不可或缺的基本能力。借助数智化,企业可以打破传统业务模式的局限,构建起更加智能、高效、灵活的运营体系。从生产制造到市场营销,从客户服务到供应链管理,数智化贯穿于企业运营的每一个环节,推动着企业从粗放式管理向精细化管理转变,从经验驱动向数据驱动转型。它不仅提升了企业的生产效率和运营效益,还增强了企业的创新能力与市场竞争力,让企业在复杂多变的市场环境中能够快速响应、灵活调整,把握住每一个发展机遇。数智化的发展更是促使企业重新审视自身的战略定位与发展路径,积极拥抱变革,以开放的心态探索新的商业模式与合作机会。可以说,数智化已成为企业立足当下、决胜未来的核心竞争力,是企业迈向高质量发展新征程的关键驱动力。数智平台技术历史最早可以追溯到计算机的诞生,随后至今的近80 年大致可分为三个阶段:

第一个阶段是技术准备时期(2000 年以前),这一阶段主要是由技术驱动的发展阶段。在计算机诞生后的20 年内,通过计算能力形成人造智能的人工智能(AI)概念,和对数据进行管理和处理的数据库理论均已提出。随后,人工智能经历了从基于规则的推理方法到基于统计的机器学习方法的转变,经典机器学习和早期人工智能理论逐渐形成体系。数据领域,此阶段用于联机事务处理OLTP 场景的关系型数据库得到广泛应用,同时诞生了用于联机分析处理OLAP场景的数据仓库理论,指导企业使用数据库等相关工具实现基本的经营管理数据分析。这一阶段中,新兴信息技术不断涌现,为企业、产业、社会带来新的生产力,信息技术的重要性为人所熟知。

第二个阶段是大数据时期(2000 年—2020 年),这一阶段主要是由数据驱动的发展阶段。随着互联网时代的全面到来,数据量的爆发式增长、数据类型的多样复杂化、时效性需求的愈发强烈,为数据的处理能力、智能算法的计算效率与效果均带来了新的要求,也使传统机器学习和数据库技术出现瓶颈,数据平台技术方面催生出以分布式处理为代表的提升数据处理规模和效率的大数据技术,而智能平台技术方面则是通过多层神经网络学习加深模型效果的深度学习技术,数据和智能技术发展进入快速迭代阶段。这一阶段中,数据湖概念被提出,并随着 Hudi、Delta Lake 和 Iceberg 三大开源数据湖技术的成熟,加速了数据湖产品化落地。同时云计算进入快速发展期,以AWS为代表的各大云厂商纷纷提供云托管,典型代表为云数据仓库产品。

第三个阶段是融合应用时期(2020 年—现在),这一阶段是由应用驱动的发展阶段,也是当前所处的发展阶段。近年来,移动互联网的普及和应用推动数智技术的发展更加极致,更多样化和复杂的需求催使技术的发展和应用趋向融合,流批一体、湖仓一体、多模态数据处理、多模态深度学习等已成为前沿发展方向,数据与智能技术进入相互融合深度应用以促进共同发展的道路。这一阶段中,单一技术的发展速度逐渐放缓,如何深化对已有技术的应用,充分发挥数据的内蕴价值,将数据和智能更为有机地结合成为更受关注的问题。当下,以大语言模型为代表的生成式人工智能技术实践效果突出,其结合大量场景的应用正在加速落地,如知识管理、会话类应用、代码生成类应用、大模型数据治理等。

数智化转型不仅是技术变革,更是央国企适应新时代、履行新使命的关键路径。通过引入大数据、人工智能、物联网等前沿技术,央国企能够实现生产流程的智能化、决策的科学化以及服务的精准化。企业层面,央国企能够实现生产流程的智能化、决策的科学化以及服务的精准化,提升企业的运营效率和创新能力;产业层面,借助数智化手段突破瓶颈,实现自主创新,提升在全球产业链中的地位,同时,通过产业链传导,优化资源配置,带动上下游企业共同发展,促进经济的良性循环;社会层面,为国家科技创新提供坚实支撑,助力国家在关键核心技术上实现突破,减少对外部技术的依赖,增强国家的科技自主创新能力。因此,数智化转型不仅是央国企自身发展的需要,更是实现国家经济高质量发展的必然选择。

平台概括

数智平台是基于大数据、云计算、人工智能技术驱动,为用户提供数据和智能一体化服务的底层基础设施。通过数智技术,底层支持多模态数据统一存储管理,实现数据在大数据平台和AI 智能平台之间无缝调度和管理,上层支持多模态数据智能检索。数智平台为数智应用层提供技术支持,主要有四方面能力:

一是底层资源平台,为数据引擎、智算引擎、流通共享以及上层应用提供坚实的资源支撑,主要包含容器化、虚拟化、边缘计算和分布式协同计算等技术。其中容器化和虚拟化能够高效利用硬件资源,提升资源利用率;边缘计算技术可将计算能力下沉至网络边缘,有效降低数据传输延迟;分布式协同计算则可实现多节点之间的高效协同工作,确保系统整体性能的优化。

二是数据引擎模块,支撑各类应用的多模态数据存储、处理和分析,包含数据计算和数据存储两部分。数据存储满足结构化数据存储、非结构化数据存储以及多级存储机制等能力要求,常用工具包含但不限于数据库、数据湖、文件存储、对象存储等。数据计算满足批处理、流处理、交互式查询分析、全文检索、多模态数据加工与预处理、数据标注等能力要求,常用工具包含 Spark、Flink、Elasticsearch等。

三是智能引擎模块,在对接数据引擎的基础上,提供全面的AI全生命周期的开发和管理服务,涵盖数据计算处理、模型设计、模型训练、模型评估和模型推理等各个环节。智能引擎通过集成多种先进技术,确保 AI 模型的高效开发和优化。用于模型训练和开发的常用计算框架包括 PyTorch 和 TensorFlow,这些框架以其灵活性和强大的功能支持广泛应用。在模型部署和推理阶段,常用的推理框架如TensorFlow 和 Triton,能够提供高效的模型推理能力,确保模型在实际应用中的快速响应和稳定运行。通过这些技术的结合,智能引擎为企业和开发者提供了强大的工具,助力AI 技术在各个领域的创新应用。

四是流通共享模块,主要解决数智平台中数据流通过程中的隐私保护、使用控制和信任保障等核心问题,从而确保数据能安全、可信、高效地流通。目前主要技术包含区块链、隐私计算、智能合约和访问控制等。其中区块链技术以其去中心化、不可篡改的特性,为数据流通提供了可信的底层架构;隐私计算则在保护数据隐私的前提下,实现数据的可用性,确保数据在流通中不被泄露;智能合约通过自动化执行条款,提升数据交易的效率和透明度;访问控制则严格限制数据的使用权限,防止未经授权的访问。

数智应用层为最贴近用户的一层,数智平台通过整合底层数据和智能技术,为数智应用提供数据及 AI 能力支撑。这一层是释放数据价值的关键环节,直接决定了数据智能实践的最终成效。数智应用层将数据转化为可操作的洞察和建议,助力用户在复杂环境中做出更明智的决策,优化业务流程,提升运营效率,典型的数智应用包括ChatBI、智能客服、智能检索、智能营销等。

数智平台是企业数智化能力构建的关键基础,为上层应用、决策提供数据、算力支撑,其建设具有重要的价值与深远的意义:

首先,数智平台能够整合企业内外部的海量数据资源,打破部门之间的信息孤岛,实现数据的高效流通与共享。一方面,人工智能技术被用于将复杂的数据分析过程自动化,快速识别数据中的模式和趋势;另一方面,数智平台为上层模型提供更强的算力及更高质量的数据,推动模型开发范式向以数据为中心的模式转变,为大模型开发和上层智能化应用落地奠定坚实基础。

其次,数智平台能提升企业从数据中提取有效信息、精炼转化为知识、最终指导决策这一过程的总体效率。决策效率的提升和决策方式的转变,能够显著提高企业经营的响应速度和市场适应能力,促进业务流程优化和创新。例如,在金融业,帮助企业实现精准营销、风险控制和欺诈检测;在制造业,优化生产流程、预测设备故障、降低运营成本;在外卖、出行等行业,系统自动形成最佳调度方式并直接完成决策,显著提高效率和响应速度。通过对这些数据的深度分析与挖掘,支撑上层智能化应用和大模型开发,精准洞察市场需求、客户偏好以及行业趋势,从而为决策提供科学依据,提升决策的准确性和时效性。

最后,数智平台的建设有助于企业构建数智化生态系统,与供应商、合作伙伴、客户等建立更紧密的连接与互动,实现产业链上下游的协同发展。它不仅提升了企业的核心竞争力,还为企业在数智化转型浪潮中抢占先机,实现可持续发展奠定了坚实基础。总之,数智平台是企业迈向智能化、数字化时代的关键抓手,是推动企业转型升级、创新发展的重要引擎。

未来的趋势

在当今数字化浪潮中,数智平台已成为企业发展的核心驱动力。企业若想在激烈的市场竞争中脱颖而出,必须积极拥抱数智化转型,加快数智平台的建设与应用。通过数智平台的建设和使用,企业能够实现数据的高效整合与深度挖掘,精准洞察市场趋势、优化业务流程、提升运营效率。它不仅能帮助企业降低运营成本、提高决策科学性,还能为企业创造新的业务模式和增长机会。因此,推动数智平台建设不仅是企业应对市场变化的必然选择,更是实现可持续发展的关键路径。随着数字经济时代数据价值的进一步凸显,各行业对数智平台的需求持续增长,其发展空间极为广阔。同时,随着大数据、人工智能与云计算技术的边界逐渐模糊,三者深度融合,推动数智平台技术呈现以下四大趋势:

一是多模态数据识别与提取。多模态数据识别与提取技术是近年来人工智能领域的一项重大突破,传统模型往往局限于单一数据类型,很大程度上限制了其应用场景和理解深度。然而,多模态技术通过整合文本、图像、语音、视频等多种数据形式,同时处理和理解这些不同类型的数据,并将它们融合分析,从而实现更全面、更深入的理解能力、更精准、更深入的洞察能力。未来,数智平台将进一步提升多模态数据识别与提取能力,随着这一能力的不断增强,数智平台将能够更高效地处理复杂多样的数据场景,为各行业提供更具价值的解决方案,助力企业在数智化转型的浪潮中抢占先机。

二是 AI 驱动的智能自治与易用性提升。智能化技术不仅让数智平台的运维与部署变得更加智能化,还通过自动化和智能化手段,实现了资源的高效调度与优化配置,打破数据与业务智能化之间的壁垒,使数据流动更加顺畅,从而实现从数据到业务价值的闭环转化。未来,数智平台能够利用混沌工程、智能化技术实现自我管理和自我优化,减少对人工干预的依赖,不仅可以提升系统的稳定性和可靠性,为上层服务提供坚实的基础,还能让企业能够将更多精力投入到业务创新和价值创造中,为企业在数智化转型的道路上提供强大的动力支持。

三是利用云化、智能化、多集群等技术实现平台算力与成本的平衡。在数智化时代,企业面临着海量数据处理和复杂计算任务的挑战,如何在有限的资源下实现高效算力与成本控制成为关键问题。利用云化、智能化、多集群等技术,企业能够有效平衡平台的算力与成本,一方面,通过智能化技术,系统可以自动调度任务并智能分配资源,根据实时需求动态调整计算资源的分配,从而提高资源利用率和系统性能,避免资源浪费,另一方面,随着多云和多地部署的增多,分布式调度系统将更加关注跨集群的任务和资源管理,实现集群间资源协作和任务调度,提升系统的整体性能和可靠性,同时降低运营成本。

四是智能化技术赋能数智平台数据安全高效防护。在数智化转型的浪潮中,数智平台作为数据汇聚的核心枢纽,承载着海量的敏感信息与关键数据,数据安全防护成为保障平台稳定运行的关键。智能化技术的引入为数智平台数据安全防护能力提供了强大助力,对数据进行实时监测与分析,自动识别数据访问模式中的异常行为,如频繁的高权限访问、数据批量导出等,及时发现潜在的数据泄露风险,并迅速采取措施加以阻止。同时,智能化技术还可以对数据进行自动分类与分级,根据不同数据的重要性和敏感性,实施差异化的安全策略,确保关键数据得到更高级别的保护。未来,智能化技术将不断优化安全策略,实时应对新型安全威胁,为数字经济的健康发展提供更加坚实的保障,助力企业在数智化转型的道路上稳健前行。

图片
图片

最佳实践

企业需求和技术融合驱动下,数据平台和智能平台在原本能力之上进行数智融合,逐渐形成了“数上生智”和“智外接数”两种实践路径。调研结果显示,“数上生智”已成为当前主流实践方式。虽然两种实践路径的出发点不同,但最终数智平台的目标是一致的。

“数上生智(Data+AI)”是指以数据平台为核心,通过湖仓一体架构实现海量多模态数据的统一存储,为大模型的训练与推理提供数据本地性支持,并提供智能检索服务。数上生智路径本质是通过AI 赋能,提升平台智能能力。为实现这一目标,需重点解决以下六大技术难点:一是多模态海量数据统一存储与管理。支持结构化、半结构化和非结构化等多种数据类型的统一存储与管理,兼容NFS、POSIX、HDFS、S3 等多种块存储、对象存储及文件存储协议。存储容量需扩展至 PB 级甚至更高,以满足大规模数据存储需求。二是高质量数据集的构建。通过数据标注技术提升数据质量,确保数据的高精度与可用性。同时基于向量数据库对RAG知识库进行升级,增强知识库的检索效率与智能化水平。三是数据开发过程注智。在数据开发环节引入智能化能力,包括智能建模、智能 SQL 生成、智能纠错、智能编排、智能代码优化、智能代码注释、智能任务配置等功能,全面提升开发效率与代码质量。四是统一生态支持。解决 AI 处理依赖Python 生态与大数据处理依赖 Java 生态的兼容性问题,在数据预处理阶段提供更高效的计算支持,为后续 AI 训练提供高质量、完备的数据基础。五是云原生能力支持。通过存算分离、弹性扩缩容、容器化等云原生技术,构建灵活、高效的基础设施,实现资源的动态调度与高效利用,满足业务快速变化的需求。六是智能检索能力。支持向量检索、图检索以及文搜图、文搜视频等跨模态检索功能,提升多模态数据的检索效率与精准度,满足复杂场景下的智能化检索需求。

“智外接数(AI+Data)”是以 AI 智能平台为核心,通过开放接口对接外部存储系统,实现低成本、海量多模态数据的统一存储,在训练与推理过程中为 GPU 提供数据本地性支持,并提供智能检索服务。智外接数路径本质是增加数据能力,以高质量数据支撑AI 应用,为实现这一目标,需重点解决以下五大技术难点:一是多模态海量数据统一存储与管理。通过外接统一存储系统,支持快速访问、多协议互通以及 PB 级甚至EB 级的大规模存储能力,比如外接数据湖,满足海量多模态数据的高效存储与管理需求。二是高质量数据集构建。对网页、代码、论文期刊等多类型数据,以及文本、图像、音视频等多模态原始数据进行深度加工与处理,结合数据标注与数据合成技术,提供高质量的数据支持。同时对知识库进行 RAG 升级,从知识录入、知识维护、知识智能化拓展三方面提升知识库准确性、时效性与智能化水平。三是资源利用率优化提升。通过存算分离、容器化、弹性伸缩等云原生技术,构建灵活高效的基础设施。同时实现CPU、GPU计算资源池化与统一调度,最大化资源利用率,满足动态业务需求。四是多模态检索能力。借助向量数据库将文本、图像、音视频、知识图谱、结构化等多模态数据进行数据向量化处理,支持文搜图、图搜图等多模态智能检索功能,提升数据检索的效率与精准度。五是实时性支持。实现数据的快速加载与高效预处理,支持模型的实时动态优化与迭代。通过离线与在线处理的一体化架构,满足低延时、高并发的业务需求,确保系统在高负载下仍能稳定运行。

AI 智能对数智平台在支撑数据方面的具体需求,可以将AI 大模型的训练和推理过程可分为四个阶段:数据获取、数据预处理、模型训练和模型推理。数据获取阶段,需支持多协议存储与计算。将从三方收集、网络爬取等不同数据源获取的数据导入存储系统,并利用Spark 等计算引擎进行数据收集、过滤、聚类和索引等处理,为后续分析与应用提供多模态原始数据存储基础。数据预处理阶段,要求高带宽、高 IOPS。依托高带宽、高IOPS的存储与计算能力,对数据获取阶段的原始数据进行清洗、加工与转换,最终输出高质量、可直接用于训练的数据集。模型训练阶段,需支持跨协议高速数据访问。通过AI 训练集群进行多轮 Epoch 训练,并在每个 Epoch 期间调整权重和偏置以优化模型质量,最终输出能够解决某类特定问题的“模型数据库”。该阶段主要涉及两个关键过程:小文件读取和 CheckPoint 写入,即每次训练前需将海量的训练数据集加载到 GPU 内存中,同时在训练过程中周期性地将 TB 级 CheckPoint 文件保存至存储系统,以便在故障发生时快速加载 CheckPoint 文件恢复训练。模型推理阶段,需支持向量语义检索与推理增强。例如,用户输入查询问题后,模型能够反馈精准地推理内容。该阶段需要多种检索能力的支持,包括对音频、视频、图片等多模态数据的存取与调用,以满足不同场景的应用需求。为了提升大模型推理的准确性并避免“幻觉”现象,企业通常会利用私域知识对大模型进行微调,并通过检索增强生成 RAG 技术,结合外部知识库提升回答问题的准确性与可靠性。

数智平台在支撑 AI 赋能、实现智能化升级方面的核心需求。采集环节,确保高质量数据供给。通过对海量数据进行高效采集、深度清洗、精准标注等数据预处理操作,全面提升数据质量,为后续分析与应用提供可靠的数据基础。存储环节,支持多模态海量数据存储。存储系统须具备处理文本、视频、音频等多模态数据的能力,同时满足大模型参数指数级增长的需求,存储容量需扩展至 PB 级甚至更高,以应对大规模数据存储的挑战。计算环节,支持多模态智能检索与高实时性计算。通过向量数据库的能力,实现海量数据的高效搜索,并支持文搜图、图搜图等多模态智能检索场景。在实时性方面,具备 PB 级数据的快速加载与处理能力,同时支持流批一体计算,满足实时与离线分析的双重需求。管理治理环节,实现多模态数据治理。通过构建统一的元数据管理体系,重点强化对非结构化数据的管理能力,确保数据的一致性、可追溯性和高效利用。开发环节,注重开发过程注重与统一生态支持。数据开发过程引入智能化功能,比如智能建模、智能化代码优化、智能代码注释、智能 SQL 生成等,以提升开发效率与代码质量。同时构建统一的计算生态,既支持 AI 处理的 Python 生态,也兼容大数据处理Java 生态,实现大数据与 AI 任务的统一调度与管理。运维运营环节,提高资源利用率。通过优化资源管理,全面提升资源利用率。采用 GPU、CPU 计算资源池化技术,实现资源弹性分配与高效利用。同时,结合存算分离、弹性扩缩容、容器化等云原生能力,构建灵活、可扩展的基础设施,满足动态业务需求,降低运维成本。综合来看数据平台在采集环节,通过高效采集、清洗与标注确保高质量数据供给;在存储环节,支持多模态海量数据存储,容量扩展至 PB 级甚至更高;在计算环节,实现多模态智能检索与高实时性计算,支持向量检索与流批一体处理;在管理治理环节,构建统一元数据管理体系,强化非结构化数据管理;在开发环节,引入智能化功能并支持 Python 与 Java 生态统一调度;在运维运维环节,通过资源池化与云原生技术优化资源利用率,进而为AI 应用提供全方位支撑。

中国电信多模态PaaS底座

中国移动数据智能解决方案

中国航信数智平台

阿里云数智平台

------------------------ END ------------------------

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-06-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 独角兽老头说 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档