基于高阶超图的动态主题模型
Dynamic Topic Modeling with a Higher-Order Hypergraphical
Representation
https://arxiv.org/pdf/2605.28269


摘要
动态主题建模被广泛用于分析科学文献、医疗记录和社交媒体中的演变趋势。传统的主题模型通过多项单纯形(multinomial simplex)上的单一概率向量来表示每个主题,并在单一概率机制内隐式地将词语的出现与重复耦合在一起。然而,这种表述限制了词语之间的依赖结构,并忽略了信息丰富的高阶交互,特别是在语义重叠的动态语料库中。为了解决这些局限性,我们引入了一种文本的超图表示,其中每个文档被建模为连接所有共现词语的超边,并将重复强度编码为节点权重。这种表示自然地将词语的出现与重复分离开来,并诱导了一种新颖的基于超图的多项分布(multinomial distribution),该分布具有依赖于每个文档所观测到的词语集合的非线性归一化。基于该似然函数,我们通过结构化低秩分解开发了一个动态主题建模框架,并在主题-词特征(topic-word profiles)上施加了显式的时间正则化。此外,在理论上,尽管双线性分解和特定于文档的非线性归一化具有内在的非凸性,我们仍建立了局部收敛保证并推导了非渐近误差界。在合成数据上的数值实验以及对国际学习表征会议(ICLR)语料库的应用表明,与现有的基于多项分布的主题模型相比,该方法表现出了一致的改进。
关键词:超图;低秩分解;非凸优化;投影梯度下降;局部收敛。
1 引言
主题建模旨在揭示大型文档语料库中的潜在语义结构,并量化主题的普遍性(或流行度)。它已成为统计文本分析的核心工具,应用于科学文献追踪、医疗记录分析(Sarioglu 等,2012;Ye 等,2024)、社交媒体监控(Curiskis 等,2020)以及电子商务档案(Palese & Usai,2018;Yuan 等,2018)。在许多当代场景中,语料库是在较长的时间跨度内收集的,并且主题-词特征(topic-word profiles)和文档-主题关联都在动态演变。这种时间异质性促使了动态主题模型的发展,这些模型能够追踪潜在主题随时间发生的结构变化。
经典的主题建模方法将多项似然应用于文档的词袋(BOW)表示(Harris,1954),通过边缘词频对文档进行编码。该概率范式内的两个主导框架是潜在狄利克雷分配(LDA)(Blei 等,2003)和概率潜在语义索引(pLSI)(Hofmann 等,1999)。基于LDA的方法(Blei & Lafferty,2006a;Roberts 等,2014;Chen 等,2020;Sobhani 等,2024;Mcauliffe & Blei,2007;Chong 等,2009)采用贝叶斯公式,并在动态扩展中通常通过具有状态空间链式连接和时不变先验的变分推断进行拟合(Blei & Lafferty,2006b)。同时,基于pLSI的方法(Arora 等,2012,2013;Klopp 等,2023;Ke & Wang,2024)主要关注静态设置,将主题建模表述为低秩矩阵分解,并在可分离性假设下利用词分布的几何或谱性质。
然而,尽管它们应用广泛,这两个框架都将多项似然应用于BOW计数。在给定文档长度的条件下,词元是从单一的单纯形约束概率向量中独立抽取的,并且所有共现结构均由边缘构成决定。这种建模选择具有三个重要含义。首先,每个文档内的依赖结构完全由特定主题的概率向量决定,无法适应特定于文档的词语交互模式。其次,词语的出现和重复可能表现出不同的行为,但通过相同的参数耦合在一起。第三,主题可识别性仅依赖于边缘词分布,当主题在边缘上重叠但在联合出现-重复模式上存在差异时,这会削弱可分离性。
为了捕获特定于文档的高阶依赖关系并将词语的出现与重复解耦,我们考虑了一种新颖的文档超图表示。具体而言,我们将每个词汇项视为一个节点,并将每个文档视为一个由文档中出现的词语支撑的加权超边。每个超边的支撑集捕获了文档的词语共现模式,而节点权重则编码了词语的重复强度。例如,在数据科学文章的语料库中,以数据集为中心的论文通常专注于单个基准数据集,形成一个在单一数据集节点上权重较高的超边(即诸如“ImageNet32”和“MNIST”等术语),而方法论论文则引用多个数据集进行数据说明,从而导致连接到许多节点但每个节点权重较低的超边。因此,与BOW不同,这种表示通过超边支撑集和节点权重将词语的出现与重复解耦,允许交互模式在特定于文档的词语子集上变化,而不是由单一的多项参数控制。通过利用超越边缘比例的联合激活和重复模式,它提供了额外的判别信息,并在主题在语义内容上重叠时提高了主题可识别性。
基于这种表示,我们开发了一个动态主题建模框架,该框架分别对词语的出现和重复进行建模,同时允许主题结构随时间演变。具体而言,我们通过伯努利(Bernoulli)分量对每个超边的支撑集进行建模,并在给定该支撑集的条件下,通过具有特定于文档的归一化的多项分布对节点权重进行建模。利用混合隶属度公式,我们对这两个分量施加结构化低秩分解,以表征文档-主题关联和主题-词特征。在标准的非负性和单纯形约束下,低秩因子可以自然地解释为主题-文档关联和主题-词行为(即出现和重复),从而直接洞察主题普遍性和语义用法如何随时间演变。在动态语料库中,预期主题在保持连贯主题的同时逐渐演变。例如,随着“语言模型”研究的发展,论文的用词模式可能会发生变化,但整体主题焦点仍保持在“语言模型”上。为了适应这种设置,我们直接对主题-词特征施加时间正则化,在保持可识别性的同时允许平滑的语义漂移。
我们的贡献有三方面。首先,我们引入了一种基于超图的文本语料库概率表示,该表示捕获了超越多项模型的高阶依赖结构,并明确地将词语出现与重复强度分离开来。其次,我们开发了一个动态建模框架,该框架通过具有直接时间正则化的结构化低秩分解来适应随时间演变的语料库,为动态主题建模提供了一种基于似然的替代方案。第三,尽管双线性分解和特定于文档的归一化引起了内在的非凸性,我们通过开发新颖的扰动和集中论证(perturbation and concentration arguments),建立了局部收敛保证,并推导了明确的非渐近Frobenius范数误差界。
本文的其余部分组织如下。第2节介绍了超图表示及其诱导的分布。第3节介绍了动态建模框架和估计算法。第4节建立了理论性质。第5节报告了数值实验。第6节以讨论和未来工作方向作为结论。
2 通过超图进行文本表示

为了编码超越边缘构成的文档特定交互结构,我们将每个文档表示为超图中的加权超边。虽然图已被用于建模成对词语共现(Rousseau & Vazirgiannis 2013, Rousseau et al. 2015, Yao et al. 2019),但它们局限于成对交互,因为图的每条边仅连接两个节点。超图通过允许每条超边连接任意节点子集来推广图,因此直接编码了文档级别的共现结构。最近的研究将超图纳入用于文本分析的神经架构中(Ding et al. 2020, Pradeepa et al. 2024, Bazaga et al. 2024),主要作为架构增强。相比之下,我们将超图用作词语交互的显式概率表示。
给定一个词汇量大小为 pp 的语料库,我们构建一个具有 pp 个节点的超图,每个节点对应一个词汇词。每个文档由一个支撑(supported)在出现在其中的词集上的超边表示,节点权重记录该文档内的重复强度。超边支撑捕获了词语激活和共现模式,而节点权重量化了异质重复行为。图 2.1 提供了一个说明性示例,其中每个彩色区域代表一个超边。为了视觉清晰,重复强度未显示。我们观察到,特定于超边的词语揭示了每个超边的语义主题,而重叠词语则反映了跨文档的共享激活模式。









3 动态主题建模
在本节中,我们基于提出的 H-多项分布开发了一个动态主题建模框架。第 3.1 节介绍了建模目标和设计原则。基于这些原则,第 3.2 节形式化了动态模型的低秩结构和可识别性条件。第 3.3 节随后构建了惩罚似然问题,第 3.4 节展示了一种高效的估计算法。
3.1 一般原则
我们的动态主题模型由三个原则指导。
首先,H-多项分布将词语出现概率 qq 和重复强度 λλ 分离开来。这些成分编码了不同的语言信号,而在 BOW-多项表示中,这些信号被单一的组合参数所混淆,我们通过独立的机制对它们进行建模。
其次,出现概率和重复强度共享低秩主题结构。正如在经典混合隶属模型(Hofmann 等,1999;Blei 等,2003)中一样,每个文档被表示为潜在主题的混合。文档级主题权重共同决定了出现和重复行为。这两个信号为区分主题提供了互补信息,同时通过共享的混合成分在语义上保持关联。
第三,在进行时间对齐后,允许主题语义随时间平滑演变。虽然文档-主题比例可以在不同时间窗口内自由变化,但假设主题-词特征围绕其时间平均值适度波动。









假设 3.2 形式化了正确的模型设定,并确保了时间内和跨时间的可识别性。在每个时间窗口内,锚文档和可分离性条件保证了双线性分解在置换意义下的唯一性。锚类型条件在混合隶属模型中是标准的;参见 Klopp et al. (2023), Jung & Donnat (2024)。pLSI 方法中使用的锚词假设 (Arora et al. 2012, 2013, Ke & Wang 2024) 是充分的,并且通常比我们的可分离性条件更强。跨时间地,覆盖率和连通性条件允许主题出现或消失,同时保持全局可识别性,而唯一对齐条件排除了多个对齐序列产生相同时间偏差的退化情况。


命题 3.1 为第 4 节中的非渐近误差分析提供了一个良定义的目标(在置换意义下)。
3.3 估计




与对潜变量施加状态空间演变的动态 LDA 类模型不同,我们的表述直接对特定主题的词语分布进行正则化,允许局部语义漂移,同时保持全局一致性。与依赖特定时间的锚点几何且缺乏显式时间关联的谱 pLSI 方法(Arora et al. 2012, 2013, Klopp et al. 2023, Ke & Wang 2024)相比,我们基于似然的表述能够适应时变语料库几何,并且在主题出现或消失时保持稳定。

与对潜变量施加状态空间演变的动态 LDA 类模型不同,我们的表述直接对特定主题的词语分布进行正则化,允许局部语义漂移,同时保持全局一致性。与依赖特定时间的锚点几何且缺乏显式时间关联的谱 pLSI 方法(Arora et al. 2012, 2013, Klopp et al. 2023, Ke & Wang 2024)相比,我们基于似然的表述能够适应时变语料库几何,并且在主题出现或消失时保持稳定。
3.4 投影梯度下降算法
目标函数

是非凸的,这是由于双线性分解以及多项分量中依赖支撑集的归一化造成的。闭式解不可用,且全局最小化器不一定是唯一的。因此我们采用投影梯度下降(PGD),总结在算法 1 中。


4 理论性质
在本节中,我们为提出的估计算法建立局部收敛保证和有限样本误差界。第 4.1 节介绍了误差度量和基本正则性条件。第 4.2 节陈述了主要理论结果,包括确定性和概率形式。第 4.3 节提供了主题数量 KK 的一致估计。
4.1 正则性假设
为了确保主题可分离性,我们施加了一个标准的非退化条件,要求真实的低秩因子是良态的(well-conditioned)。



通过这一选择,公式 (4.1) 中的每个分块均在平衡的尺度下进行度量,且所得度量适应了目标函数的局部曲率。鉴于目标函数的非凸性以及全局最优解的非唯一性,我们的分析聚焦于真值邻域内投影梯度下降(PGD)迭代点的局部行为。因此,我们将局部吸引域定义如下。

定义 4.1 将几何收缩转化为 oracle 对齐的误差控制。建立有限样本界需要刻画经验目标函数的局部曲率,由于依赖支撑集的归一化、重复层中的逐分量依赖、伯努利掩码以及由采样噪声引起的随机扰动,这一过程是非标准的。因此,我们在 PGD 轨迹上施加以下局部正则性条件。














5 数值研究
我们将提出的方法与基于 LDA(Blei et al. 2003, Blei & Lafferty 2006b)和基于 pLSI(Klopp et al. 2023, Ke & Wang 2024)的基线方法在合成和真实动态语料库上进行了比较。第 5.1 节在受控的真实情况(ground truth)下评估有限样本准确性,第 5.2 节报告了在带有移动时间窗口的修剪后 ICLR 语料库上的实证表现。
5.1 模拟数据分析
我们进行合成实验,这些实验基于修剪后的 ICLR 摘要语料库(González-Márquez & Kobak 2024)进行校准,以模拟真实的主题-词行为。数据集中的每个文档都是一篇关联了元数据和手动分配主题标签的摘要。













随着时间跨度的增加,主题内的语义演变不断累积,使得准确的主题隶属度估计更具挑战性。我们的方法旨在通过对主题-词特征进行直接的时间正则化来适应这种动态变化。因此,词语出现和重复强度都被允许随时间灵活演变,同时受到相对于时间平均值的惩罚偏差的约束。随着 TT的增长,这种机制产生了越来越稳定和准确的主题隶属度估计。
相比之下,诸如 SPOC 和 LDA 之类的静态方法并未显式地对时间动态进行建模,导致随着 TT 的增加,准确性逐渐下降。正如第 5.1 节所讨论的,DTM 通过时不变先验参数捕捉时间演变,但仍然对初始化敏感,并且并未始终从更长的窗口中受益。Topic-SCORE 依赖于源自代表性词语的几何性质,在 TT 适度增加时表现出相对稳健的性能。这表明,在足够长的时间跨度内,某些代表性词语保留了可区分的边缘比例。尽管如此,优越的性能表明,超越边缘词频的信息结构——即通过我们框架中的高阶共现模式所捕获的结构——对于准确的主题恢复仍然至关重要。恢复主题的定性可视化展示在附录 C.2 中。
6 结论
在本文中,我们提出了一种基于超图的文本语料库表示方法,该方法偏离了经典的BOW-多项范式。其核心创新在于通过文档级支撑和特定节点权重,明确地将词语出现与重复强度分离开来。这种表述诱导了一种具有依赖支撑集归一化的伯努利-多项分解,允许保留高阶词语交互,同时保持一个适合统计分析的基于似然的框架。
基于这种表示,我们开发了一个动态主题建模框架,该框架基于出现和重复分量的结构化低秩分解。所提出的估计量通过投影梯度下降进行计算,并得到严格理论保证的支持,包括局部线性收敛和非渐近误差界。这些结果通过新颖的扰动分析论证,将基于似然的主题建模理论扩展到了标准多项设置之外。实证研究表明,分别对出现和重复进行建模改善了主题区分度,特别是在语义主题重叠时。这支持了一个更广泛的观点,即更丰富的依赖结构可以增强动态文本分析中的可识别性和估计精度。
更广泛地说,所提出的超图似然框架为建模具有异质支撑和强度模式的结构化离散数据提供了一种原则性方法,并且可能在动态主题建模之外也有用。例如,在移动应用程序日志中,用户活动数据记录了用户是否参与特定功能(激活支撑)以及该功能被使用的频率或时长(强度)。类似地,投资交易记录包含投资者是否参与给定资产(激活支撑)以及投资金额或频率(强度)。在这两种设置中,支撑和强度机制在概念上是截然不同的,并且可能在个体或项目之间表现出不同的依赖结构。超图表示,连同激活和强度分量的明确分离,为建模此类异质行为模式提供了一个自然的框架,并且是未来研究的一个有前景的方向。
原文链接:https://arxiv.org/pdf/2605.28269