论文精读：基于时间趋势预测的假新闻检测泛化框架

2025-05-06

Word count: 1.3k | Reading time≈ 4 min

论文精读：基于时间趋势预测的假新闻检测泛化框架

论文标题：Learn over Past, Evolve for Future: Forecasting Temporal Trends for Fake News Detection
会议：ACL 2023
代码开源：https://github.com/ICTMCG/FTT-ACL23

一、引言：时间偏移问题的本质

假新闻检测模型在实际部署中面临严峻挑战：当使用历史数据训练模型并应用于未来数据时，由于新闻话题热度、语言表达模式的动态演变，模型性能往往显著下降。这种被称为"时间偏移"（Temporal Shift）的现象源于新闻数据分布随时间变化的特性。现有研究证实，在时间划分的数据集上，模型F1值平均下降8%-12%。本文提出的FTT框架通过建模新闻主题的时间分布规律，预测未来时段的话题热度，并据此调整训练策略，从而提升模型的时间泛化能力。

二、方法论框架的核心设计

FTT框架包含紧密衔接的五个处理阶段。首先通过SentenceBERT将新闻文本编码为768维语义向量，并采用增量聚类算法动态构建主题簇。该算法依据余弦相似度阈值（0.5-0.65）自动判定样本归属，避免预设簇数量的限制，有效适应新闻话题的涌现与消亡特性。

在主题划分基础上，框架对每个主题的季度频率序列进行双趋势建模。总体趋势通过分段线性函数：

g_i(f_{i,q}) = (k + \mathbf{a}(q)^T\delta) f_{i,q} + (m + \mathbf{a}(q)^T\gamma)

刻画长期演化规律，其数学形式中的突变标识向量可捕捉社会事件的爆发性影响；季度趋势则引入四个二元回归变量：

s_i(f_{i,q}) = \sum_{j=1}^{4} \beta_j \cdot \mathbb{I}[q \in Q_j]

量化周期性波动，如年度考试新闻的季节性爆发。通过Facebook Prophet工具融合这两类趋势，生成未来季度各主题的频率预测值。

基于预测结果，框架计算每个主题的权重系数：

w_{i,Q} = \text{Clip}\left( \frac{p_i(f_{i,Q})}{\sum_k p_k(f_{k,Q})}, 0.3, 2.0 \right)

该权重由预测频率的归一化值决定，并通过截断函数约束在合理范围，避免极端值影响训练稳定性。权重机制使上升趋势主题获得更高关注度，而衰退主题的影响被抑制。最后在模型训练阶段，框架在标准交叉熵损失函数中引入动态权重：

\mathcal{L} = -\frac{1}{N} \sum w_{i,Q} \left[ y_i \log\hat{y}_i + (1-y_i) \log(1-\hat{y}_i) \right]

使梯度更新过程更聚焦于未来高热度主题。这种设计可无缝集成至BERT等主流架构，仅需修改损失函数即可实现工业部署。

三、实验验证与效果分析

在2016-2020年中文微博数据集上的测试表明，FTT框架显著提升了时间泛化性能。在2020年四个季度的滚动测试中，模型综合指标macF1达到87.54%，较基线提升1.24个百分点。值得注意的是，假新闻检测（F1ᶠᵃᵏᵉ）提升幅度达1.36%，这印证了虚假信息对话题时效性更为敏感的特性。深入分析主题分布发现，框架对现有主题的检测macF1提升2.33%，同时新主题的识别能力也增强1.18%。归因实验显示，权重机制成功降低了衰退主题（如2020年Q1儿童拐卖话题权重降至0.4）的干扰，同时强化上升主题（如Q4科技话题权重升至1.8）的学习效率。

四、贡献意义与未来方向

FTT框架的核心创新在于首次将主题级时间分布预测引入假新闻检测领域，建立了时间趋势预测与模型泛化的直接关联。其提出的动态加权机制具有良好可扩展性，可兼容各类神经网络架构。开源实现为工业场景应用提供实用方案。当前框架仍存在三方面局限：无法预测全新主题的涌现、建模维度限于频率序列而未融合语义演化特征、实验验证仅覆盖中文单模态数据。未来研究需探索跨语言多模态数据的时序泛化机制，并尝试结合事件语义演化等深层特征。该框架的范式可延伸至推荐系统、舆情监测等动态数据场景，为时间敏感型AI任务提供新思路。

Donate