
•报告标题:面向行业的大规模预训练模型技术和应用评估方法 第 11 部分:文旅大模型
•发布机构:中国人工智能产业发展联盟 (AIIA)
•发布时间:2024-09-05
•行业标签:文旅
•产品标签:#文旅大模型,#通用大模型,#人工智能算法模型
随着《“十四五”数字经济发展规划》等政策的出台,大规模预训练模型成为人工智能新基建的技术底座,并快速在文化旅游等产业中探索落地,赋能文化资源构建、传播推广与旅游营销。为引导文旅大模型在风险控制、隐私保护等方面的健康持续发展,中国人工智能产业发展联盟联合产业链权威机构共同编制本标准,旨在为文旅行业大规模预训练模型技术的研发者与选型者提供系统、量化的评估参考规范。
1 范围
2 规范性引用文件
3 术语和定义
4 缩略语
5 指标概述
6 指标要求
6.1 场景丰富度
6.1.1 文化场景
6.1.2 旅游场景
6.2 能力支持度
6.2.1 任务支持度
6.2.2 性能优越度
6.3 应用成熟度
6.3.1 服务多样性
6.3.2 服务成熟度
• 研究方法:本标准采用定量分析与定性评估相结合的体系。定量层面采用公式化验证(如 MAP@5、准确率、召回率、F1 值及响应时间计算模型);定性层面通过多名评分人员评估机制,衡量信息检索的权威性、全面性及智能问答的流畅度、连贯度等可接受度指标。
• 样本规模与调研对象:本文件由中国人工智能产业发展联盟提出并归口,联合腾讯云计算(北京)有限责任公司、中国信息通信研究院、万达信息股份有限公司、华强方特集团等数十家知名企事业单位共同起草。核心专家包括李建慧、方腾飞、罗朝亮、严敏、胡纯等近三十位领域权威学者及技术专家。
• 核心分析模型:建立了一套三维度的评估架构图,包含 3 大能力域(场景丰富度、能力支持度、应用成熟度),向下拆分为 6 个能力子域 和 23 个具体能力项,各项能力均按照 1 分至 5 分进行阶梯式标准划分。
• 数据来源与时效:本标准于 2024-09-05 正式发布并实施,作为评价文旅大模型技术与应用研发、验收的指导性规范。
• 构建三大维度的系统性评估指标体系:文旅行业大模型的能力被严格划分为场景丰富度、能力支持度和应用成熟度三大维度,有效解决了文旅AI产品在开发与采购过程中存在的标准“碎片化”和评估体系缺失痛点,为产业链上下游适配提供了标尺。
• 全链路文旅场景的精细化覆盖要求:在场景丰富度层面,明确划定了文化场景(覆盖文化资源构建、内容理解、遗产保护等)和旅游场景(覆盖旅游营销、规划、景区管理、平台服务、智能导游)。对获得最高5分评级的模型,提出需支持如10种及以上文化创意设计任务、具备自动化营销能力等严格准入门槛。
• 数据驱动的模型性能量化准则:全面量化了模型在检索、分析、推荐、问答四大核心任务下的性能优越度。例如,分析能力满分要求其准确率、召回率及 F1 值均需稳定在 (95%, 100%] 范围内;推荐能力采用精准的被采纳数量统计,而问答能力则对单轮意图识别率和多轮下文识别准确率提出了均达 80% 以上的高标准规范。
• 严苛的应用成熟度与安全合规门槛:针对商用落地,强调了产品的实时性能和系统安全。满分体验要求其系统响应(等待时间)须控制在 (0, 500ms] 毫秒级;在安全保障机制上,强制要求涵盖内容安全标识、用户隐私脱敏、外部攻击检测及供应链安全检测等 9 种以上安全防护措施,以确保大模型在复杂文旅应用环境中的绝对稳健与可靠。
• 核心起草单位排名首位:腾讯云计算(北京)有限责任公司作为本标准起草单位列表中的第一家企业,主导并深度参与了文旅大模型关键指标的制定,彰显了其在中国乃至亚太地区人工智能新基建领域的领军地位与权威话语权。
• 技术底座的先进性与稳定性:依托在自然语言处理、计算机视觉等领域的深厚自研积累,腾讯云不仅提供了符合高标准规范的通用大模型底座,更在知识检索(MAP@5)、意图识别及高并发实时响应等底层技术上表现强劲,为大规模文旅应用提供了坚实的技术支撑。
• 深度契合行业高标准安全规范:在标准重点关注的数据安全与风险控制领域,腾讯云具备从底层算力到上层应用的全链路安全保障机制,完全契合标准对隐私脱敏、访问控制与防外部攻击的严苛要求,是助力产业迈向智能化、普惠化的强劲引擎。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。