本体+AI大模型驱动的电商数据分析报告自动生成方案构想和设计验证

人月聊IT

发布于 2026-05-19 18:43:32

1810

大家好，我是人月聊IT。

今天分享下本体驱动的数据分析设计和方案验证poc。

具体参考提示词如下：

我现在有一个新的构想。就是基于我本体建模的思路来通过AI大模型辅助自动输出分析报告。这里面有几个关键点，首先还是要提出具体的数据分析需求，比如电商平台经营数据分析；接着是AI辅助细化这个需求，分析如果要进行完整的经营数据分析需要涉及到哪些指标定义，哪些数据对象，包括数据对象和指标间关系，行为，规则等。接着是参考我本体建模规范对这套详细需求定义进行本体建模，输出完整的本体模型。

接着是将里面涉及到的数据对象映射到我当前电商平台的数据库表，构建自动关联和映射规则。接着是构建一套数据分析模板，包括具体分析的指标内容，展示的要求，分析的维度等。最后一个步骤是AI基于我前面的模型构建，数据集成映射构建，自动采集数据库里面的数据，然后基于本体模型进行分析和推理，最终再参考数据分析模板输出完整的数据分析报告。这种思路模式参考了palantir的思路，但是不会对当前已有IT系统造成大的修改和变更。请进一步分析和评估我前面这个思路和构想。

整体架构图如下：

一、方案整体架构

1.1 六步闭环流程

步骤一  提出分析需求          电商经营数据分析目标定义
   ↓
步骤二  AI 细化需求           指标体系 · 数据对象 · 关系 · 规则
   ↓
步骤三  本体建模              M1–M5 + M_Metric 六模型体系
   ↓
步骤四  数据库映射            本体实体 → 现有数据库表字段映射
   ↓
步骤五  分析模板构建          报告结构 · 指标配置 · 展示规范
   ↓
步骤六  AI 驱动报告生成       数据采集 → 推理分析 → 报告输出

1.2 核心设计原则

语义优先：本体模型是数据库和 AI 之间的语义中间层，AI 通过本体理解数据含义
不动现有系统：映射层架在现有数据库之外，零侵入，零改造
推理分级：确定性指标用 SQL 计算，模式识别用统计算法，因果推理用 LLM
结果可溯源：报告中每个数字都能追溯到原始 SQL、映射规则和指标口径
置信度标注：映射关系和 AI 推理结论均标注置信度，低置信度强制人工确认

二、电商经营数据分析完整需求细化

本节为步骤二的完整产出，可直接作为本体建模的输入。

2.1 分析目标定义

核心业务问题：

平台整体经营健康度如何？趋势是改善还是恶化？
哪些商品、类目、店铺贡献了主要 GMV？贡献是否在提升？
用户增长和留存状况如何？哪类用户流失风险最高？
营销活动的真实 ROI 是多少？哪类活动效率最高？
供应链和物流环节存在哪些瓶颈？对用户体验的影响如何？
当前经营数据的异常点是什么？未来 30 天趋势预测。

分析时间粒度：日 / 周 / 月 / 季度 / 年

分析对比维度：同比（YoY）/ 环比（QoQ/MoM）/ 目标达成率

2.2 核心指标体系（M_Metric 建模输入）

2.2.1 交易规模指标

指标ID	指标名称	计算口径	统计粒度	可拆分维度
MTR-TXN-001	GMV（成交总额）	SUM(订单实付金额) WHERE 订单状态 NOT IN [已取消, 仅退款]	日/周/月	店铺/类目/地区/渠道
MTR-TXN-002	有效订单数	COUNT(订单) WHERE 订单状态 NOT IN [已取消, 仅退款]	日/周/月	店铺/类目/渠道
MTR-TXN-003	客单价（ATV）	GMV / 有效订单数	日/周/月	用户等级/渠道
MTR-TXN-004	件单价	GMV / 有效销售件数	日/周/月	类目/店铺
MTR-TXN-005	订单取消率	取消订单数 / 总下单数	日/周/月	店铺/类目
MTR-TXN-006	退款率	退款金额 / GMV	日/周/月	店铺/类目/商品
MTR-TXN-007	实收金额	SUM(实际到账金额) 扣除退款后	日/周/月	店铺

2.2.2 流量与转化指标

指标ID	指标名称	计算口径	统计粒度	可拆分维度
MTR-TFC-001	平台UV（独立访客数）	COUNT(DISTINCT 用户ID) WHERE 存在访问记录	日/周/月	渠道/设备/地区
MTR-TFC-002	平台PV（页面浏览量）	COUNT(页面访问记录)	日/周/月	页面类型/渠道
MTR-TFC-003	访问转化率	下单用户数 / UV	日/周/月	渠道/设备
MTR-TFC-004	加购转化率	加购用户数 / 商品详情页UV	日/周/月	类目/商品
MTR-TFC-005	加购→下单转化率	下单用户数 / 加购用户数	日/周/月	渠道
MTR-TFC-006	商品详情页转化率	下单量 / 商品详情页PV	商品/日	类目/价格区间
MTR-TFC-007	搜索→点击率	搜索结果点击次数 / 搜索次数	日/周	关键词
MTR-TFC-008	跳出率	仅访问1页即离开的会话数 / 总会话数	日/周	落地页/渠道

2.2.3 用户质量指标

指标ID	指标名称	计算口径	统计粒度	可拆分维度
MTR-USR-001	新用户数	COUNT(用户) WHERE 首次下单时间 IN 统计周期	日/周/月	渠道/地区
MTR-USR-002	老用户数	COUNT(用户) WHERE 首次下单时间 NOT IN 统计周期 AND 统计周期内有订单	日/周/月	用户等级
MTR-USR-003	活跃用户数（MAU/DAU）	COUNT(DISTINCT 用户ID) WHERE 统计周期内有访问或下单	日/月	渠道/地区
MTR-USR-004	复购率	统计周期内购买2次及以上的用户数 / 购买用户总数	月/季度	类目/用户等级
MTR-USR-005	用户留存率	N日/月后仍活跃的用户数 / 新增用户数	7日/30日/90日	渠道/注册来源
MTR-USR-006	用户流失率	上期活跃本期未活跃的用户数 / 上期活跃用户数	月/季度	用户等级/地区
MTR-USR-007	用户LTV（生命周期价值）	用户历史累计GMV	用户维度	注册渠道/用户等级
MTR-USR-008	拉新成本（CAC）	营销费用 / 新增用户数	月/活动	渠道/活动类型
MTR-USR-009	RFM得分	基于最近购买时间(R)/购买频次(F)/消费金额(M)综合评分	月	用户分群

2.2.4 商品运营指标

指标ID	指标名称	计算口径	统计粒度	可拆分维度
MTR-PRD-001	商品销售额	SUM(有效订单中该商品的实付金额)	日/周/月	类目/店铺/价格区间
MTR-PRD-002	商品销量	SUM(有效订单中该商品的数量)	日/周/月	类目/店铺
MTR-PRD-003	商品曝光量	COUNT(商品被展示的次数)	日/周/月	展示位/渠道
MTR-PRD-004	商品点击率（CTR）	商品点击次数 / 商品曝光量	日/周	展示位/类目
MTR-PRD-005	库存周转天数	平均库存 / (日均销量)	月/季度	类目/仓库
MTR-PRD-006	商品好评率	好评数 / 总评价数	月/商品	类目/店铺
MTR-PRD-007	缺货率	库存为0的商品数 / 在售商品总数	日/周	类目/仓库
MTR-PRD-008	滞销率	30天内无销量的商品数 / 在售商品总数	月	类目/店铺

2.2.5 营销效果指标

指标ID	指标名称	计算口径	统计粒度	可拆分维度
MTR-MKT-001	营销GMV贡献	使用优惠券/参与活动的订单GMV	活动/月	活动类型/渠道
MTR-MKT-002	优惠券使用率	已使用优惠券数 / 已发放优惠券数	活动/月	优惠券类型
MTR-MKT-003	广告ROI	广告带来的GMV / 广告花费	日/活动	广告渠道/广告类型
MTR-MKT-004	活动拉新效果	活动期间新用户数 vs 非活动期日均新用户数	活动	活动类型
MTR-MKT-005	促销活动GMV提升率	(活动期GMV - 基准GMV) / 基准GMV	活动	活动类型/类目
MTR-MKT-006	优惠补贴成本	SUM(优惠金额) 平台承担部分	月/活动	活动类型

2.2.6 供应链与履约指标

指标ID	指标名称	计算口径	统计粒度	可拆分维度
MTR-SCM-001	订单发货及时率	按时发货订单数 / 应发货订单数	日/周/月	店铺/仓库/物流商
MTR-SCM-002	平均发货时长	AVG(发货时间 - 下单时间) 单位:小时	日/周	店铺/仓库
MTR-SCM-003	物流妥投率	成功签收订单数 / 已发货订单数	月	物流商/地区
MTR-SCM-004	平均配送时长	AVG(签收时间 - 发货时间) 单位:天	月	物流商/地区
MTR-SCM-005	售后问题率	发起售后的订单数 / 有效订单数	月	店铺/类目/物流商
MTR-SCM-006	库存准确率	系统库存与实物库存吻合的SKU数 / 总SKU数	月	仓库

2.3 核心数据对象定义（M1 对象模型建模输入）

2.3.1 实体清单

核心交易域（5个实体）：

实体ID	实体名称	英文名	说明
ENT-ORD-001	订单	Order	用户在平台的一次购买记录，是 GMV 计算的核心对象
ENT-ORD-002	订单明细	OrderItem	订单中每个商品的购买记录，含数量、单价、优惠信息
ENT-ORD-003	支付记录	Payment	订单的支付流水记录，含支付方式、金额、时间
ENT-ORD-004	退款记录	Refund	订单退款流水，含退款原因、金额、状态
ENT-ORD-005	物流记录	Logistics	订单的发货和配送过程记录

商品域（3个实体）：

实体ID	实体名称	英文名	说明
ENT-PRD-001	商品（SPU）	Product	商品的基本信息，如商品名称、类目、品牌
ENT-PRD-002	商品规格（SKU）	ProductSKU	商品的具体规格，含颜色、尺码、库存、价格
ENT-PRD-003	商品类目	Category	商品的多级分类体系（1-3级）

用户域（2个实体）：

实体ID	实体名称	英文名	说明
ENT-USR-001	用户	User	平台注册用户，含基本信息、注册渠道、用户等级
ENT-USR-002	用户行为记录	UserBehavior	用户的浏览、搜索、加购、收藏等行为记录

店铺域（2个实体）：

实体ID	实体名称	英文名	说明
ENT-SHP-001	店铺	Shop	平台商家的店铺信息，含评级、类目授权、保证金
ENT-SHP-002	库存记录	Inventory	各仓库各 SKU 的库存数量记录

营销域（3个实体）：

实体ID	实体名称	英文名	说明
ENT-MKT-001	营销活动	Campaign	平台促销活动，含活动类型、时间、预算、目标
ENT-MKT-002	优惠券	Coupon	用户领取和使用的优惠券记录
ENT-MKT-003	广告投放记录	Advertisement	各渠道广告投放的曝光、点击、花费记录

流量域（2个实体）：

实体ID	实体名称	英文名	说明
ENT-TFC-001	访问会话	Session	用户一次完整的访问记录，含来源渠道、设备、时长
ENT-TFC-002	页面访问记录	PageView	单次页面浏览记录，含页面类型、停留时长

2.3.2 实体关系定义

用户(1) ──── 下单 ──── 订单(N)
订单(1) ──── 包含 ──── 订单明细(N)
订单明细(N) ── 关联 ── 商品SKU(1)
商品SKU(N) ── 属于 ── 商品SPU(1)
商品SPU(N) ── 归属 ── 商品类目(1)
商品SPU(N) ── 上架于 ── 店铺(1)
订单(1) ──── 对应 ──── 支付记录(1)
订单(1) ──── 可能有 ── 退款记录(N)
订单(1) ──── 产生 ──── 物流记录(1)
订单(N) ──── 使用 ──── 优惠券(1)
营销活动(1) ─ 包含 ──── 优惠券(N)
用户(1) ──── 产生 ──── 用户行为记录(N)
用户(1) ──── 参与 ──── 营销活动(N)（多对多）
店铺(1) ──── 管理 ──── 库存记录(N)
商品SKU(1) ── 对应 ──── 库存记录(N)（跨仓库）
访问会话(1) ─ 包含 ──── 页面访问记录(N)
用户(1) ──── 发起 ──── 访问会话(N)

2.4 核心业务规则定义（M3 规则模型建模输入）

2.4.1 指标口径规则

规则ID	规则名称	规则类型	规则内容
RULE-MTR-001	GMV口径定义	VALIDATION	有效订单 = 订单状态 NOT IN ['待付款超时取消', '买家主动取消', '仅退款完成']；退货完成的订单从 GMV 中扣减退款金额
RULE-MTR-002	新用户定义	DERIVATION	用户首次成功支付订单（非取消）的日期为新用户日期；同一自然月内首次购买即为当月新用户
RULE-MTR-003	活跃用户定义	VALIDATION	统计周期内有过登录、浏览、搜索、加购、下单任一行为的用户
RULE-MTR-004	复购用户定义	DERIVATION	统计周期内有≥2次有效订单的用户；跨订单同一用户多次购买均计入
RULE-MTR-005	客单价口径	CALCULATION	ATV = GMV / 有效订单数；分子分母口径必须一致，均使用 RULE-MTR-001 的有效订单定义
RULE-MTR-006	ROI计算口径	CALCULATION	ROI = 营销期间带来的增量GMV / 营销费用；增量GMV = 营销期GMV - 基准期日均GMV × 营销天数
RULE-MTR-007	用户等级划分	DERIVATION	VIP3: 年累计GMV≥50000; VIP2: ≥10000; VIP1: ≥3000; 普通: <3000
RULE-MTR-008	库存周转天数	CALCULATION	库存周转天数 = (期初库存+期末库存)/2 / 日均销量；日均销量 = 统计期销量/统计天数
RULE-MTR-009	退款率口径	CALCULATION	退款率 = 统计期退款金额 / 统计期GMV；分母使用含退款的原始GMV，非净GMV
RULE-MTR-010	RFM评分规则	CALCULATION	R(最近购买天数): 0-30天=5分, 31-60天=4分, 61-90天=3分, 91-180天=2分, >180天=1分；F(购买频次): ≥10次=5分, 6-9次=4分, 3-5次=3分, 2次=2分, 1次=1分；M(消费金额): ≥10000=5分, 5000-9999=4分, 2000-4999=3分, 500-1999=2分, <500=1分

2.4.2 数据质量规则

规则ID	规则名称	规则内容
RULE-DQ-001	订单金额异常检测	单笔订单金额 > 100000 元时标记为疑似异常，需人工核实后纳入统计
RULE-DQ-002	用户行为去重	同一用户同一商品同一分钟内的多次点击记录合并为1次
RULE-DQ-003	测试订单排除	排除用户ID在测试账号名单中的订单；排除订单金额为0.01元的测试订单
RULE-DQ-004	时区统一	所有时间字段统一转换为北京时间（UTC+8）后再进行统计

2.5 分析行为定义（M2 行为模型建模输入）

行为ID	行为名称	行为类型	触发方式	输入参数	产出
BHV-ANA-001	生成经营概览	ANALYSIS	USER_ACTION	时间范围、对比周期	核心指标摘要卡片
BHV-ANA-002	趋势分析	ANALYSIS	USER_ACTION	指标ID、时间范围、粒度	趋势折线图 + 同环比数据
BHV-ANA-003	维度拆解分析	ANALYSIS	USER_ACTION	指标ID、拆解维度、时间范围	维度分布图 + Top N 排名
BHV-ANA-004	用户分层分析	ANALYSIS	USER_ACTION	时间范围、分层方式	RFM 矩阵 + 各层用户画像
BHV-ANA-005	漏斗转化分析	ANALYSIS	USER_ACTION	漏斗类型、时间范围、渠道	转化漏斗图 + 流失分析
BHV-ANA-006	商品 ABC 分析	ANALYSIS	USER_ACTION	时间范围、类目筛选	ABC 分类结果 + 库存建议
BHV-ANA-007	异常检测	SYSTEM	定时触发	指标ID、阈值规则	异常告警列表
BHV-ANA-008	归因分析	AI_REASONING	USER_ACTION	指标ID、异常时间点	原因推理报告
BHV-ANA-009	预测分析	AI_REASONING	USER_ACTION	指标ID、预测周期	趋势预测图 + 置信区间
BHV-ANA-010	生成完整分析报告	AI_REASONING	USER_ACTION	报告模板ID、时间范围	完整 Markdown 分析报告

2.6 主体模型定义（M5 主体模型建模输入）

角色	说明	可访问的分析能力	数据范围
平台运营总监	总体经营决策者	全部分析能力	全平台数据
类目运营	负责某几个类目	类目相关分析、商品分析、营销分析	负责类目的数据
店铺运营	负责某几个店铺	店铺经营分析、商品分析	负责店铺的数据
数据分析师	数据专业人员	全部分析能力 + 自定义 SQL 查询	脱敏后全量数据
营销经理	负责营销活动	营销效果分析、用户分析	全平台营销数据

三、数据库映射配置规范

3.1 映射文件格式（YAML）

# data-mapping.yaml
# 本体实体 → 电商平台数据库表 映射配置
# 版本：1.0 | 置信度：由 AI 辅助生成，人工审查确认

version:"1.0"
source_db:
type:MySQL          # 支持 MySQL / PostgreSQL / ClickHouse / Hive
schema:"ecommerce"
timezone:"Asia/Shanghai"

entity_mappings:

-ontology_entity:ENT-ORD-001# 订单实体
    confidence:0.95
    db_tables:
      -table:"t_order"
        alias:"ord"
        primary:true
      -table:"t_order_extra"     # 扩展信息表
        alias:"ord_ext"
        join_on:"ord.order_id = ord_ext.order_id"
        join_type:LEFT
    field_mappings:
      -ontology_field:orderId
        db_expression:"ord.order_id"
        confidence:1.0
      -ontology_field:userId
        db_expression:"ord.buyer_id"
        confidence:0.95
      -ontology_field:shopId
        db_expression:"ord.seller_id"
        confidence:0.95
      -ontology_field:payAmount
        db_expression:"ord.payment_amount"
        confidence:0.90
        note:"需确认是否含运费，部分平台运费单独结算"
      -ontology_field:orderStatus
        db_expression:"ord.status"
        value_mapping:            # 枚举值映射
          "1":"待付款"
          "2":"已付款"
          "3":"已发货"
          "4":"已签收"
          "5":"已取消"
          "6":"已退款"
        confidence:0.85
        note:"⚠️ 需与业务方确认状态码含义，低置信度"
      -ontology_field:createdAt
        db_expression:"ord.gmt_create"
        transform:"CONVERT_TZ(ord.gmt_create, '+00:00', '+08:00')"
        confidence:0.98
    # 有效订单过滤条件（对应 RULE-MTR-001）
    default_filter:"ord.status NOT IN ('5', '6') OR (ord.status = '6' AND ord.refund_status = 'PARTIAL')"

3.2 指标-SQL 映射规范

# metric-sql-mapping.yaml
# 指标 → 可执行 SQL 映射配置

metric_sql_mappings:

-metric_id:MTR-TXN-001   # GMV
    sql_template:|
      SELECT
        DATE_FORMAT(CONVERT_TZ(ord.gmt_create, '+00:00', '+08:00'), '{date_format}') AS stat_date,
        {dimension_select}
        SUM(ord.payment_amount) AS gmv
      FROM t_order ord
      {dimension_join}
      WHERE {date_filter}
        AND ord.status NOT IN ('5', '6')
      GROUP BY stat_date {dimension_group}
      ORDER BY stat_date
    parameters:
      date_format:
        daily:"%Y-%m-%d"
        weekly:"%Y-%u"
        monthly:"%Y-%m"
    supported_dimensions:
      -name:店铺
        select:", ord.seller_id AS shop_id"
        join:""
        group:", ord.seller_id"
      -name:类目
        select:", cat.category_name AS category"
        join:"LEFT JOIN t_product p ON ord.product_id = p.product_id LEFT JOIN t_category cat ON p.category_id = cat.id"
        group:", cat.category_name"
    # 可追溯信息
    traceability:
      ontology_refs:[ENT-ORD-001,RULE-MTR-001]
      mapping_refs:[ENT-ORD-001.payAmount,ENT-ORD-001.orderStatus]

四、电商经营数据分析报告模板

4.1 模板一：月度经营分析报告（全面版）

# template-monthly-report.yaml
template_id:TPL-MONTHLY-001
template_name:月度电商经营分析报告
applicable_roles:[平台运营总监,数据分析师]
time_dimension:月度
comparison_periods:[MoM,YoY]

sections:

-section_id:SEC-001
    title:"一、本月经营总览"
    type:overview_dashboard
    content:
      -block:core_metrics_cards
        metrics:
          -MTR-TXN-001   # GMV
          -MTR-TXN-002   # 有效订单数
          -MTR-TXN-003   # 客单价
          -MTR-TFC-001   # UV
          -MTR-TFC-003   # 访问转化率
          -MTR-USR-004   # 复购率
        display:"6宫格数字卡片，每格显示：指标名、当期值、环比变化（↑↓箭头+百分比）"
        insight_prompt:|
          基于以上6个核心指标的当期值和环比变化，用3句话概括本月经营整体状况：
          1. 规模层面：GMV和订单量的变化表明...
          2. 效率层面：转化率和客单价的变化表明...
          3. 用户层面：复购率的变化表明...
          如有指标出现超过10%的异常波动，重点说明。

-section_id:SEC-002
    title:"二、GMV 趋势与结构分析"
    type:trend_and_structure
    content:
      -block:gmv_trend_chart
        metric:MTR-TXN-001
        chart_type:line_with_bar     # 折线（本期）+ 柱状（上期对比）
        time_range:"近12个月"
        display:"折线图展示月度GMV趋势，灰色柱状表示去年同期，标注同比增速"
      -block:gmv_by_category
        metric:MTR-TXN-001
        dimension:类目
        chart_type:stacked_bar
        top_n:8
        display:"堆叠柱状图，展示各类目GMV贡献及占比变化"
      -block:gmv_by_channel
        metric:MTR-TXN-001
        dimension:渠道
        chart_type:pie_with_trend
        display:"饼图展示本月各渠道GMV占比，附各渠道环比变化"
      -block:gmv_top_shops
        metric:MTR-TXN-001
        dimension:店铺
        chart_type:horizontal_bar
        top_n:10
        display:"前10店铺GMV排名，标注各店铺环比变化率"
      insight_prompt:|
        基于GMV趋势数据和结构分析：
        1. 指出GMV同比/环比的主要驱动因素（是订单量增长还是客单价提升？）
        2. 指出贡献增量最大的类目/渠道，及其背后可能的原因
        3. 如有GMV下滑，分析主要拖累项
        4. 给出1-2条 actionable 建议

-section_id:SEC-003
    title:"三、流量与转化漏斗分析"
    type:funnel_analysis
    content:
      -block:conversion_funnel
        steps:
          -name:平台UV
            metric:MTR-TFC-001
          -name:商品详情页UV
            metric:MTR-TFC-001
            filter:"page_type='product_detail'"
          -name:加购用户数
            metric:MTR-TFC-004
          -name:下单用户数
            metric:MTR-TFC-003
          -name:付款用户数
            metric:MTR-TXN-002
        chart_type:funnel
        display:"标准漏斗图，每层显示绝对值和转化率"
      -block:channel_conversion_compare
        metrics:[MTR-TFC-001,MTR-TFC-003]
        dimension:渠道
        chart_type:scatter
        display:"散点图，X轴=UV量，Y轴=转化率，气泡大小=GMV，识别高流量低转化和低流量高转化渠道"
      insight_prompt:|
        基于漏斗数据：
        1. 指出转化率最低的环节（流量损失最大处）
        2. 对比各渠道的流量质量（UV → 转化率的关系）
        3. 给出提升整体转化率的重点优化方向

-section_id:SEC-004
    title:"四、用户质量分析"
    type:user_analysis
    content:
      -block:user_growth_chart
        metrics:[MTR-USR-001,MTR-USR-002,MTR-USR-003]
        chart_type:multi_line
        time_range:"近12个月"
        display:"多折线图，展示新用户、老用户、MAU的趋势变化"
      -block:user_retention_heatmap
        metric:MTR-USR-005
        chart_type:heatmap
        display:"用户留存热力图：行=注册月份，列=留存天数（1/7/14/30/60/90天），颜色深浅表示留存率"
      -block:rfm_segmentation
        metric:MTR-USR-009
        chart_type:bubble_matrix
        display:"RFM气泡矩阵：X轴=频次分，Y轴=消费金额分，气泡大小=用户数，颜色=最近购买分；标注各象限用户群名称（高价值、潜力、流失风险等）"
      -block:user_ltv_distribution
        metric:MTR-USR-007
        chart_type:histogram
        display:"用户LTV分布直方图，标注各区间用户数和GMV贡献"
      insight_prompt:|
        基于用户数据：
        1. 分析新老用户的比例变化，判断平台是处于拉新驱动还是留存驱动增长阶段
        2. 指出留存率的关键拐点（哪个时间节点流失最严重）
        3. 识别RFM矩阵中最需要运营关注的用户群，给出具体运营建议

-section_id:SEC-005
    title:"五、商品运营分析"
    type:product_analysis
    content:
      -block:category_performance_matrix
        metrics:[MTR-PRD-001,MTR-PRD-004,MTR-PRD-006]
        chart_type:quadrant
        display:"四象限矩阵：X轴=销售额，Y轴=转化率，识别明星类目/问题类目/潜力类目/待淘汰类目"
      -block:product_abc_analysis
        metric:MTR-PRD-001
        chart_type:pareto
        display:"帕累托图：按商品销售额排序，标注A类（贡献80% GMV）/B类/C类商品比例"
      -block:inventory_health
        metrics:[MTR-PRD-005,MTR-PRD-007,MTR-PRD-008]
        chart_type:kpi_cards_with_alert
        display:"库存健康度卡片：库存周转天数（行业基准对比）、缺货率（红色预警）、滞销率（橙色预警）"
      insight_prompt:|
        基于商品数据：
        1. 指出表现最好和最差的3个类目，分析差异原因
        2. 针对库存问题给出优化建议（哪些品要补货，哪些品要清库存）
        3. 识别转化率低但流量大的商品，给出优化页面/定价的建议

-section_id:SEC-006
    title:"六、营销效果评估"
    type:marketing_analysis
    content:
      -block:campaign_roi_ranking
        metrics:[MTR-MKT-003,MTR-MKT-001,MTR-MKT-006]
        chart_type:table_with_bar
        display:"活动列表：活动名、GMV贡献、营销费用、ROI、拉新数、复购带动，按ROI排序"
      -block:coupon_efficiency
        metrics:[MTR-MKT-002,MTR-MKT-006]
        chart_type:scatter
        display:"优惠券效率散点图：X轴=使用率，Y轴=ROI，识别高效/低效优惠券类型"
      insight_prompt:|
        基于营销数据：
        1. 评估本月营销投入整体效率，ROI是否达到预期
        2. 指出ROI最高和最低的活动类型，分析原因
        3. 给出下月营销资源分配建议（增加哪类活动预算，削减哪类）

-section_id:SEC-007
    title:"七、供应链与履约质量"
    type:supply_chain_analysis
    content:
      -block:fulfillment_kpi
        metrics:[MTR-SCM-001,MTR-SCM-002,MTR-SCM-003,MTR-SCM-004]
        chart_type:gauge_cards
        display:"仪表盘卡片：发货及时率（目标≥95%）、平均发货时长（目标≤24h）、物流妥投率（目标≥98%）、平均配送时长"
      -block:after_sale_analysis
        metric:MTR-SCM-005
        dimension:店铺
        chart_type:heatmap
        display:"店铺售后问题率热力图，标注超过平均值的店铺"
      insight_prompt:|
        基于履约数据：
        1. 指出发货和配送环节的主要短板
        2. 识别售后问题率偏高的店铺，分析是物流原因还是商品质量原因
        3. 给出改善履约质量的建议

-section_id:SEC-008
    title:"八、关键问题与行动建议"
    type:ai_conclusion
    content:
      insight_prompt:|
        综合以上所有分析数据，以高管视角输出：

        **本月经营三大亮点**（最多3条，每条包含数据支撑）：
        1....
        2....
        3....

        **本月三大风险预警**（最多3条，每条包含严重程度评级和量化影响）：
        1.[高/中/低]...
        2....
        3....

        **下月重点行动建议**（最多5条，每条包含：行动项、预期效果、负责团队、优先级）：
        1.[P0]...
        2.[P1]...
        3....

        输出风格：数据说话，避免空话；每条结论必须有具体数字支撑；建议必须具体可执行。

4.2 模板二：专题快报（日度/周度轻量版）

template_id: TPL-DAILY-001
template_name:日/周度经营快报
applicable_roles:[平台运营总监,类目运营,店铺运营]
time_dimension:日/周
sections:
-section_id:QRP-001
    title:"核心指标速览"
    metrics:[MTR-TXN-001,MTR-TXN-002,MTR-TFC-001,MTR-TFC-003]
    display:"4格数字卡片 + 环比箭头"
-section_id:QRP-002
    title:"今日/本周 GMV 走势"
    metric:MTR-TXN-001
    chart_type:area_chart
    display:"面积图，对比上期同时段走势"
-section_id:QRP-003
    title:"异常预警"
    type:auto_alert
    rules:"指标波动超过阈值自动触发，列出异常指标、异常值、阈值、可能原因"
-section_id:QRP-004
    title:"AI 简析"
    type:ai_brief
    insight_prompt: |
      用3句话说明今天/本周最重要的3件事，语言简洁直接，适合移动端阅读。

4.3 模板三：专题分析报告（用户流失专题）

template_id: TPL-CHURN-001
template_name:用户流失专题分析报告
sections:
-流失规模定量分析（MTR-USR-006，各维度拆解）
-流失用户画像（RFM分层中的流失用户特征）
-流失时间节点分析（首购后多少天流失最集中）
-流失原因推断（结合行为数据和售后数据）
-挽回成本评估（挽回1个流失用户的成本vs拉1个新用户的成本）
-预测模型（哪些用户在未来30天流失风险最高）
-挽回策略建议

五、完整 AI 提示词

【提示词】本体驱动电商数据智能分析系统

你是一个专业的数据分析架构师和 AI 分析引擎，正在构建一套
「本体模型驱动的电商经营数据智能分析系统」。

你需要严格遵循以下本体建模规范来完成建模工作：
> 【本体建模规范文档引用地址：用户将在此处提供】

---

## 一、背景与目标

当前任务是为一个电商平台构建完整的智能数据分析能力，
实现从原始数据库 → 本体语义层 → AI 推理 → 分析报告的全链路。

核心约束：
- 不修改现有数据库任何表结构
- 不迁移任何数据到新平台
- 通过外部语义映射层实现数据接入
- AI 推理与确定性 SQL 计算严格分层，不混用

---

## 二、系统构建任务（按顺序执行）

### 任务 A：本体建模

基于以下完整的电商数据分析需求，严格按照本体建模规范，
输出完整的本体模型元文件（YAML 格式）：

**需要建模的数据对象（17个实体）**：
交易域：订单(Order)、订单明细(OrderItem)、支付记录(Payment)、
        退款记录(Refund)、物流记录(Logistics)
商品域：商品SPU(Product)、商品SKU(ProductSKU)、商品类目(Category)
用户域：用户(User)、用户行为记录(UserBehavior)
店铺域：店铺(Shop)、库存记录(Inventory)
营销域：营销活动(Campaign)、优惠券(Coupon)、广告投放(Advertisement)
流量域：访问会话(Session)、页面访问记录(PageView)

**需要建模的行为（10个分析行为）**：
生成经营概览、趋势分析、维度拆解分析、用户分层分析、
漏斗转化分析、商品ABC分析、异常检测、归因分析、
预测分析、生成完整分析报告

**需要建模的规则（14条）**：
GMV口径、新用户定义、活跃用户定义、复购用户定义、
客单价口径、ROI计算口径、用户等级划分、库存周转计算、
退款率口径、RFM评分规则，以及4条数据质量规则

**需要建模的指标（扩展 M_Metric 模型，30+个指标）**：
交易规模类7个、流量转化类8个、用户质量类9个、
商品运营类8个、营销效果类6个、供应链履约类6个

**需要建模的场景（5个分析场景）**：
月度经营分析、周度快报生成、用户流失分析、
商品健康度分析、营销效果复盘

**需要建模的分析角色（5个）**：
平台运营总监、类目运营、店铺运营、数据分析师、营销经理

**各角色数据权限**：
- 平台运营总监：全平台全指标
- 类目运营：所负责类目的相关指标（商品、流量、转化）
- 店铺运营：所负责店铺的相关指标
- 数据分析师：全量脱敏数据 + 自定义查询权限
- 营销经理：营销和用户相关指标

**本体模型特殊要求**：
1. M_Metric 指标模型是本次建模的核心扩展维度，每个指标必须包含：
   指标ID、名称、英文名、计算口径描述、依赖实体引用、
   规则引用、支持的统计粒度、可拆分维度、默认展示类型
2. M2 行为模型中的分析类行为需标注推理类型：
   SQL_COMPUTE（确定性计算）/ STAT_ALGO（统计算法）/ LLM_REASONING（AI推理）
3. 所有跨实体的关联关系必须在 M1 中完整定义（双向）

---

### 任务 B：数据库映射配置生成

给定以下电商平台数据库表信息（用户将提供实际表结构），
生成完整的数据库映射配置文件（data-mapping.yaml）。

**映射配置要求**：
1. 每个本体实体对应一个映射配置块
2. 每个字段映射必须标注置信度（0.0-1.0）
3. 置信度 < 0.8 的映射必须附加 note 说明不确定原因
4. 需要多表 JOIN 的实体，明确 JOIN 条件和 JOIN 类型
5. 枚举类字段必须提供 value_mapping（数据库值 → 本体语义值）
6. 需要转换或计算的字段，提供 db_expression 或 derivation 公式
7. 每个实体的映射块末尾附加 default_filter（对应业务规则过滤条件）
8. 整个映射文件末尾附加置信度汇总和待人工确认条目清单

**指标 SQL 模板要求**：
1. 每个 M_Metric 指标生成对应的 SQL 模板
2. SQL 模板支持参数化：{date_format} {date_filter} {dimension_select} 等
3. 每个 SQL 模板附加 traceability 溯源信息（引用的本体实体和规则）
4. SQL 模板必须包含防注入处理说明

---

### 任务 C：分析报告生成执行

当用户触发分析报告生成时，按以下严格流程执行：

**步骤 C1：指标数据采集（确定性计算，不使用 LLM）**

对报告模板中的每个指标：
1. 从 data-mapping.yaml 获取对应 SQL 模板
2. 替换时间参数（用户指定的时间范围和粒度）
3. 根据用户角色的数据权限追加过滤条件
4. 执行 SQL，获取结构化数据
5. 记录每条数据的溯源信息：执行的 SQL + 返回行数 + 执行时间
6. 数据质量检查：空值率、异常值检测

**步骤 C2：统计分析（统计算法，不使用 LLM）**

1. 计算同比/环比变化率
2. 趋势判断（线性回归斜率）
3. 异常检测（3σ法则 或 IQR法则）
4. RFM评分计算
5. ABC分类计算

**步骤 C3：AI 推理分析（LLM，仅用于语义推理）**

输入：步骤 C1 和 C2 的结构化数据结果
任务：
1. 识别数据中的显著模式（同比/环比异常变化）
2. 推断可能的业务原因（结合本体语义理解数据含义）
3. 识别指标间的关联关系（A指标下降是否与B指标相关）
4. 生成每个分析模块的 insight 文字结论
5. 生成最终的行动建议

**LLM 推理约束**：
- 所有数字必须来自步骤 C1/C2 的计算结果，禁止 LLM 自行编造数字
- 每条推理结论必须引用具体数据来源
- 不确定的推断必须使用"可能"/"初步判断"等限定语
- 无法从数据中推断的问题，明确说明"数据不足以支撑此结论"

**步骤 C4：报告组装**

按报告模板结构，将数据、图表配置和文字结论组装为完整报告：
1. 按 section 顺序组装
2. 图表输出为可渲染的配置对象（ECharts 格式）
3. 文字结论使用 Markdown 格式
4. 报告末尾附加数据溯源表：指标名 → SQL → 执行时间 → 数据质量状态

---

## 三、输出格式规范

### 本体模型输出格式
严格遵循本体建模规范的 YAML 格式，文件组织：
- m1-object-model.yaml（含所有实体和关系）
- m2-behavior-model.yaml（含10个分析行为）
- m3-rule-model.yaml（含14条业务规则）
- m4-scenario-model.yaml（含5个分析场景）
- m5-actor-model.yaml（含5个角色和权限）
- m_metric-model.yaml（指标模型扩展，30+指标）

### 分析报告输出格式
```json
{
"report_meta": {
    "template_id": "TPL-MONTHLY-001",
    "generated_at": "2026-03-xx",
    "time_range": {"start": "2026-02-01", "end": "2026-02-28"},
    "generated_by_model": "模型名称",
    "data_quality_score": 0.95
  },
"sections": [
    {
      "section_id": "SEC-001",
      "title": "一、本月经营总览",
      "data": { /* 原始数据 */ },
      "charts": [ /* ECharts 配置对象 */ ],
      "insight": "AI 生成的分析文字",
      "data_sources": [ /* 溯源信息 */ ]
    }
  ],
"action_recommendations": [ /* 行动建议列表 */ ],
"data_lineage": { /* 完整溯源表 */ }
}

四、质量保障要求

数字准确性：所有报告中的数字必须来自 SQL 计算，附溯源 SQL
推理可解释：每条 AI 结论必须说明推理依据
置信度透明：数据库映射置信度、AI 推理置信度均对用户可见
异常处理：SQL 执行失败、数据缺失、指标异常时明确报告，不静默失败
权限合规：严格按 M5 角色权限过滤数据，不返回越权数据
报告一致性：同一报告中同一指标的数值在不同章节必须保持一致

五、交互模式

用户可以通过自然语言触发以下操作：

"生成上个月的月度经营分析报告" → 执行完整 C1-C4 流程，输出 TPL-MONTHLY-001
"分析为什么上周GMV下降了15%" → 执行归因分析（BHV-ANA-008）
"哪些用户在未来30天流失风险最高" → 执行预测分析（BHV-ANA-009）
"帮我更新一下商品类目的数据库映射" → 更新 data-mapping.yaml 中对应块
"我们的GMV口径是否包含退货订单" → 查询并解释 RULE-MTR-001 的定义
"按类目拆解本月转化率" → 执行维度拆解分析（BHV-ANA-003）

收到分析请求时，先回复： "收到。我将按以下步骤处理：

[SQL计算] 采集 {指标列表} 数据
[统计计算] 计算同比/环比/排名
[AI推理] 识别模式，生成洞察
[报告组装] 按模板输出完整报告预计耗时：约 {时间} 秒"

然后逐步执行并显示进度。


---

## 六、关键设计决策说明

### 6.1 推理引擎分级（最重要的架构决策）

| 计算类型 | 使用引擎 | 适用场景 | 原因 |
|---------|---------|---------|------|
| 指标聚合 | SQL | GMV、订单量、UV等 | 确定性强，必须精确，LLM 会产生幻觉 |
| 统计分析 | 统计算法 | 趋势判断、异常检测 | 有成熟算法，无需LLM |
| 因果推理 | LLM | 为什么GMV下降 | 需要语义理解，无法用SQL做 |
| 报告撰写 | LLM | 文字结论生成 | 需要自然语言能力 |
| 预测分析 | LLM + 统计 | 趋势预测 | 结合历史数据规律和业务理解 |

### 6.2 溯源链路设计

报告中每个数字 → 指标ID（M_Metric） → 映射规则（data-mapping.yaml） → 执行 SQL（带参数） → 原始数据库表和字段 → 业务规则（M3）


### 6.3 M_Metric 指标模型扩展设计

在现有 M1-M5 规范基础上，新增第六个本体模型维度：

```yaml
# M_Metric 指标模型 — 字段规范
metric:
  id: String                    # 指标唯一标识 MTR-{Domain}-{Seq}
  name: String                  # 指标中文名
alias: String                 # 英文标识
  description: String           # 业务含义说明
  formula: String               # 计算公式（自然语言描述）
  sql_template_ref: String      # 对应 SQL 模板引用
  depends_on: EntityRef[]       # 依赖的本体实体
  rule_refs: RuleRef[]          # 依赖的计算规则
  grains: Enum[]                # 支持粒度：[日, 周, 月, 季度, 年]
  dimensions: String[]          # 可拆分维度
  default_visualization: Enum   # 默认图表类型
  computation_type: Enum        # SQL_COMPUTE / STAT_ALGO / LLM_REASONING
  tags: String[]                # 业务分类标签

方案版本 v1.0 | 本体驱动电商数据智能分析 | 2026年3月

参考完整实现数据分析报告截图：