标题:TimeOmni-VL: Unified Models for Time Series Understanding and Generation
作者: Tong Guan1,2, Sheng Pan1, Johan Barthelemy3, Zhao Li4, Yujun Cai5, Cesare Alippi6,7, Ming Jin1,*, Shirui Pan1,*
单位:1 格里菲斯大学(Griffith University) 2 浙江大学 3 英伟达(NVIDIA) 4 之江实验室(Zhejiang Lab) 5 昆士兰大学(The University of Queensland) 6 瑞士意大利语区大学(Università della Svizzera italiana) 7 米兰理工(Politecnico di Milano) (* 通讯作者)

点击文末阅读原文跳转本文arXiv链接
来自 格里菲斯大学(Griffith)、浙江大学、英伟达(NVIDIA)、之江实验室、昆士兰大学(UQ)、瑞士意大利语区大学(USI)、米兰理工(Politecnico di Milano) 的研究团队联合推出了 TimeOmni-VL。这项工作提出以“视觉”为中心的统一多模态时间序列模型,将时间序列的理解、预测、插补和推理放进同一套模型框架中。
TimeOmni-1 是 TimeOmni 系列的首个工作,它首次系统性地让大模型具备了面向时间序列问题的复杂推理能力。目前,TimeOmni-1 的模型权重在 Hugging Face 上累计下载量已超过 8000 次。基于这一基础,TimeOmni-VL 进一步将能力从“理解与推理”拓展到“预测与插补”,使模型能够在同一套权重中同时完成时序理解和时序生成。两项工作都属于 TimeOmni 系列,目标都是让大模型具备时序智能能力。
ICLR 2026 | 打破时间序列“黑盒”:TimeOmni-1开启深度时间序列推理新篇章
TimeOmni 系列的第一项工作 TimeOmni-1 (https://arxiv.org/abs/2509.24803)发表于 ICLR 2026,目标是让大模型像领域专家一样,对时间序列进行多步推理。为此,我们将复杂时间序列推理拆解为三类核心能力:
进一步地,这些能力被组织成四个原子任务:场景理解、因果发现、事件感知预测和决策,并构成了时间序列推理套件 TSR-Suite(Time Series Reasoning Suite)。

TimeOmni-1 的四个时序推理任务
TimeOmni-1 证明了大语言模型不仅可以处理自然语言,也可以通过合适的数据和任务设计,学习时间序列中的复杂推理能力。目前,TimeOmni-1 在 Hugging Face 上的模型权重累计下载量已经超过 8000 次,也被后续工作用于金融推理(https://arxiv.org/abs/2605.03460)等场景。
但将时间序列转成离散文本 token 送给大模型做理解,依然存在以下潜在困难:第一,连续数值会被拆成离散 token,数值的整体结构容易被破坏。例如,一个多位数字可能被 tokenizer 拆成多个片段,模型看到的是 token,而不是连续数值。第二,长序列会受到 context length 的限制。时间序列往往很长,变量也可能很多,直接以文本形式输入会迅速占满上下文窗口。第三,语言模型本身并不擅长精确生成连续数值。它可以生成文字解释,但要稳定地产生高精度、多变量、长跨度的数值序列并不容易。以上困难限制了 TimeOmni-1 在复杂场景的可用性,为此团队思考:能否以更原生的方式理解、生成和推理时间序列数据?

时间序列无处不在:交通流量、电力负荷、金融价格、医疗监测、工业传感器,都可以被表示成随时间变化的数值序列。长期以来,时间序列建模大致沿着两条路线发展。
一条线更关心生成,如上图(b)所示:给定历史序列,预测未来;或者在序列中有缺失时,补全缺失片段。典型任务包括 forecasting 和 imputation。这类模型通常擅长输出连续数值,但很难像人一样解释“为什么会这样变化”。
另一条线更关心理解,如上图(a)所示,比如 TimeOmni-1:模型不仅要看到曲线,还要判断趋势、识别异常、理解变量关系,甚至结合外部事件进行因果推断和决策。这类模型可以输出文字解释和判断,但要直接生成精确、连续的数值序列并不容易。
能否让同一个模型既能理解时序数据,又能生成时序,如上图(c)所示?
TimeOmni-VL 给出的答案是:把时间序列先转成图像(TS-image),让对时序的“理解”和“生成”都发生在视觉空间里。这样一来,时序理解任务可以转化为图像理解任务,输出文本答案;预测和插补任务则可以被转化成图像编辑任务,生成的图像再转化回时序模态。
目前以 Bagel 为代表的统一多模态模型 UMMs(Unified Multimodal Models)已经具备较强的图像理解和图像生成能力。如果我们能把时间序列可靠地表示成图像,那么很多原本属于时序建模的问题,就可以自然地转化为视觉任务。
具体来说,TimeOmni-VL 把一条或多条时间序列渲染成一张结构化的时序图像 TS-image。
在这张图中,变量、时间、周期和数值变化都会以视觉结构呈现出来。这样一来:
TimeOmni-VL 以统一多模态模型为骨干模型,整体流程可以分成三步:
第一步,输入时间序列 (X) 经过 TS2I Converter,被转换成 TS-image (I)。
第二步,统一多模态模型根据不同任务执行不同操作:
第三步,生成后的目标图像 Itgt 通过 I2TS Converter 被还原成时间序列。

TimeOmni-VL 整体框架
TimeOmni-VL 建立了一条完整的闭环:时间序列 → 图像 → 理解/生成 → 图像 → 时间序列。
这条闭环要真正有效,至少需要解决两个关键问题。第一,时间序列转图像时不能丢失太多信息。否则,后续模型再强,也只能基于失真的图像进行理解和生成。第二,生成不能只是像素级补全。时间序列预测和插补往往依赖趋势、周期、异常和变量间关系,因此模型最好先理解图像中的结构,再进行生成。TimeOmni-VL 分别用 Bi-TSI 和 Understanding-guided Generation 来解决这两个问题。
如果在时序到图像的转换过程中丢掉了尖峰、局部波动、长序列细节或多变量结构,那么模型看到的就不再是原始时间序列,而是一个被压缩甚至失真的视觉近似。现有方法(VisionTS 类)会遇到以下两个典型问题:
一是尖峰容易被压平。标准方差归一化对离群值比较敏感,一个极端值可能会拉大整体尺度,让大部分正常波动被挤压到很窄的像素区间里。
二是长序列容易被降采样。当序列很长、变量很多时,如果固定画布容量不足,就会不可避免地压缩时间轴或变量维度,导致细节损失。
为了解决这个问题,TimeOmni-VL 提出了 Bi-TSI(Bidirectional Time Series ⇄ Image),即一组高保真的双向时间序列-图像转换器:TS2I Converter 负责将时间序列转换为结构化时序图像;I2TS Converter 负责将生成后的图像还原为数值时间序列。其中有两项关键设计:

Bi-TSI 相比基线的两点改进
第一是鲁棒保真归一化(Robust Fidelity Normalization, RFN)。RFN 结合基于 MAD 的稳健尺度估计和有界压缩,减少异常值对整体归一化的影响,同时保证数值能映射到合法像素范围内。这样,即使序列中存在尖峰,图像也能尽量保留其形状和相对变化。
第二是编码容量控制(Encoding Capacity Control),即使用高分辨率画布,并通过容量约束减少隐式降采样,使更多变量和更长时间跨度可以被编码到同一张图像中。
简单说,Bi-TSI 解决的是一个基础问题:当我们把时间序列交给视觉模型之前,必须先确保“时序信息还在”。只有这一步足够可靠,后面的视觉理解和图像补全才有意义。
TimeOmni-VL 的第二个重要设计是:生成之前,先让模型理解当前时序图。TimeOmni-VL 将这个过程显式建模为 Generation CoT,即面向生成任务的分析过程,并利用这段分析来引导生成。在训练时,我们将样本组织成如下交错序列:
seq = Psys ⊕ Isrc ⊕ Cgen ⊕ Rgen ⊕ Itgt
其中,Psys 表示系统提示词,Isrc 是待编辑的时序图像,Cgen 表示生成指令,Rgen 表示模型在生成前需要学习的理解过程,Itgt 则是目标时序图像的真值。通过这样的构造,Rgen 成为连接“理解任务”和“生成任务”的条件上下文,使模型在预测或插补之前,先显式理解当前时序图中的结构信息,并由理解来引导生成。
消融结果显示,如果去掉这层理解上下文,预测和插补的 nMASE 平均恶化8.2%。这说明,在 TimeOmni-VL 中,理解能够引导生成过程,提升生成质量。

为了训练和评估 TimeOmni-VL,我们构建了 TSUMM-Suite(Time Series Unified Multimodal Model Suite),覆盖三类任务。
第一类是理解任务,共 6 个,包括变量计数、Y 值域判断、周期定位、均值比较、异常检测和趋势分析。模型需要观察时序图像,并输出文本答案。
第二类是生成任务,共 2 个,包括多变量预测和多变量插补。预测任务要求模型补全未来区域,插补任务要求模型补全中间缺失区域。生成完成后,图像会被解码回数值时间序列。
第三类是文本推理任务,沿用 TimeOmni-1 中的场景理解、因果发现、事件感知预测和决策任务,用于观察模型是否仍然保留时间序列推理能力。

TSUMM-Suite 任务总览
以下结果均基于 Bagel-7B 骨干模型,并在零样本、分布外(OOD)设置下进行评估。
未经 TSUMM-Suite 训练的 Bagel 骨干,几乎无法完成时序图理解任务。经过 TimeOmni-VL 数据的后训练,模型在多个理解任务上显著提升,其中 QA1 到 QA4 的准确率接近 1.0,其余任务也有大幅提升。这说明统一多模态模型可以通过后训练,学会从结构化时序图像中读取变量数量、周期位置、数值范围、异常模式和趋势变化。

理解任务上的表现
使用 nMASE 作为指标,数值越低越好。TimeOmni-VL 在短期预测中取得 0.878,为表中最佳结果;在长期预测中取得 0.784,位列第二。这表明,TimeOmni-VL 在数值生成任务上可取得有竞争力的表现。

预测性能(nMASE)
使用 nMASE 作为指标,数值越低越好。TimeOmni-VL 在 10%、20%、30%、50% 四档缺失率设置下,nMASE 分别为 0.713、0.757、0.842、0.927,在本文对比方法中均为最低。这也符合图像补全的直觉:插补任务可以同时利用缺失区域前后的上下文,而视觉生成模型天然擅长根据周围结构补全缺失部分。

插补性能(nMASE)
论文还测试了纯文本时间序列推理任务。在这些任务中,TimeOmni-VL 没有像 TimeOmni-1 那样专门使用 RL 强化推理能力,而主要经过 SFT。在这种情况下,TimeOmni-VL 仍然在 Task1、Task2 上接近 TimeOmni-1,并在 Task4 上取得更高数值。这表明,将理解和生成统一到同一模型中,并没有明显破坏模型原有的文本推理能力。

文本推理任务上的表现
为了方便大家直观体验 TimeOmni-VL,我们提供了在线 Demo、模型权重和代码。
在线 Demo 中可以体验三类能力。
第一类是理解。上传一张时序图后,模型会围绕变量计数、Y 值域判断、周期定位、均值比较、异常检测和趋势分析等任务逐一作答。

理解 Demo
第二类是预测。模型会将未来区域视为待补全区域,先对当前输入图像进行分析,再生成补全后的图像,并最终解码成预测曲线。

预测 Demo
第三类是插补。与预测不同,插补任务的缺口位于序列中间。模型需要结合缺口前后的上下文,补全缺失片段。

插补 Demo
相关资源如下:
TimeOmni-1 让我们看到,大语言模型可以通过合适的任务设计,学习时间序列中的复杂推理能力。TimeOmni-VL 则进一步尝试回答:能否将时间序列的理解、预测、插补和推理放进同一套模型框架中。从 TimeOmni-1 到 TimeOmni-VL,我们希望推动时间序列大模型从“能读懂、能推理”,进一步走向“能理解、能生成、能统一建模”。这也是 TimeOmni 系列持续探索的方向:让大模型真正具备时间序列智能。