LLM作为临床图结构精炼器：增强脑电图癫痫诊断中的表征学习

论文信息

标题: LLM as Clinical Graph Structure Refiner: Enhancing Representation Learning in EEG Seizure Diagnosis

作者: Lincan Li, Zheng Chen, Yushun Dong

发布日期: 2026-04-30

PDF链接: 下载PDF

研究背景与动机

癫痫是一种常见的神经系统疾病，全球有数千万患者。脑电图（EEG）作为记录大脑电活动的无创手段，是癫痫诊断和发作检测的核心工具。然而，EEG信号天然受到眼动、肌电、环境干扰等噪声的影响，使得从中自动、鲁棒地识别发作状态成为一项极具挑战的任务。近年来，图神经网络（GNN）在 EEG 分析中展现出巨大潜力，它将电极看作图的节点，电极之间的连接关系定义为边，从而捕捉大脑不同区域的功能耦合。但图构建的质量直接决定了后续表示学习的上限。

现有图构建方法主要分为两大类：基于相关性的方法和基于学习的方法。基于相关系数（如皮尔逊系数）、相位锁定值等统计量虽然直观，却容易因信号噪声产生大量虚假的或冗余的边。基于学习的图结构生成器（如使用 Transformer 预测边），虽然能够拟合更复杂的连接模式，却依然受限于数据中的噪声，导致图结构不够纯粹。过多无意义的边会稀释节点特征，引入无关信息，严重损害癫痫检测的准确性，也让模型的可解释性大打折扣。

与此同时，大语言模型（LLM）在理解和推理上下文语义方面取得了突破性进展。研究者开始尝试将 LLM 的推理能力引入生物医学信号分析，但大多局限于对文本描述的直接理解。一个自然而深刻的问题是：能否利用 LLM 的推理能力来“修整”由噪声干扰形成的图结构？毕竟，从某种角度看，图中的每一条边都蕴含着“两个电极之间是否存在功能连接”这一可陈述的事实，而 LLM 正擅长根据多维度证据进行事实核查。

正是基于这样的观察，本文作者提出了一种全新的框架：将 LLM 作为临床图结构的精炼器。其核心思想并非让 LLM 完全代构图，而是在初始图生成后，由 LLM 根据节点对的文本特征（如电极名称、脑区标签）和统计特征（如互信息、相关系数）进行二次筛选，剔除不可靠的连接，从而获得更干净、更可解释的图表示，并最终提升癫痫检测性能。

核心方法详解

该研究设计了一个两阶段框架，如图所示的流程为：初始图构建 → LLM 边精炼 → 下游 GNN 分类。下面逐一剖析其技术细节。

初始图构建：Transformer 边预测器与概率阈值

为降低盲目依赖相关性可能带来的噪声，作者首先使用一个基于 Transformer 的边预测网络。对于每一对电极节点，将它们的 EEG 信号切片分别输入位置编码后的 Transformer 编码器，提取高层次的时序表征。随后，通过多层感知机（MLP）将两个表征融合，输出一个标量分数 $s_{ij}$ ，表示节点 $i$ 与 $j$ 之间存在边的概率。施加一个阈值 $\tau$ ，保留分数大于 $\tau$ 的边，形成一张初始图 $\mathcal{G}_0$ 。

这一步的目的在于用数据驱动的方式捕捉复杂的连接模式，而不仅仅依赖于线性统计量。然而该网络仍然会从噪声中学习到一些伪关联，从而保留许多“可疑”的边。这就为下一步 LLM 精炼创造了前提。

LLM 作为边集精炼器

精炼器的输入是初始图中的每一条候选边，以及与边相关的文本特征和统计特征。文本特征包括电极的国际化 10-20 系统的名称（如“Fp1”“C3”）和其对应的脑区功能描述（如“左额极区”“中央区”）。统计特征则包括该边两端信号之间的皮尔逊相关系数、互信息、频谱相干性等多域度量。这些特征被组织成自然语言提示，例如：

“电极 Fp1（左额极）与 C3（左中央）之间的皮尔逊相关系数为 0.32，互信息为 0.18，delta 频带相干性为 0.45。请判断这条连接是否可能来自神经生理学上有意义的功能耦合，或是噪声伪影。请仅回答‘保留’或‘删除’。”

LLM 在接收到大量类似提示后，利用其预训练中蕴含的生物医学知识和上下文推理能力，为每条边做出二元决策：保留或删除。被 LLM 判定为“删除”的边将从图中移除，最终形成精炼图 $\mathcal{G}_r$ 。值得注意的是，LLM 在此不需要额外的微调，仅依赖提示工程即可执行精炼任务，这大幅降低了部署成本。

下游癫痫检测

精炼后的图输入一个 GNN 分类器进行发作/非发作二分类。实验采用了图注意力网络（GAT）作为 backbone，充分利用自动学习的注意力权重来聚合邻居节点特征。由于图结构已经被 LLM“清洗”过，GNN 更容易聚焦于真正的功能连接，从而提高分类性能。

创新点与贡献

这项工作在方法论和交叉应用层面上做出了三点主要贡献。

第一，首次将 LLM 引入图结构精炼。 以往 LLM 在 EEG 分析中扮演的角色多是信号描述、报告生成或直接分类，而本文则让它充当一个“结构编辑员”，利用其常识推理来修正数据驱动图构建存在的缺陷。这是一个新颖且高效的范式转换，等同于为图学习添加了一层语义层次的验证。

第二，融合多模态节点特征进行边决策。 LLM 的提示不仅包含数值统计量，还富含电极的解剖与功能上下文。这种“文本 + 数字”的双通道信息让 LLM 能够像一位神经科医生那样综合判断：例如，中央区与颞区之间的连接在癫痫传播中常见，而枕区与额极之间过高相干性的异常值则更可能是眼动伪迹。这种可解释的过滤过程，是纯基于学习或相关性方法难以实现的。

第三，实验证明精炼图显著提升性能并降低过拟合风险。 在公开的大规模癫痫 EEG 数据集 TUSZ 上，使用 LLM 精炼后的图结构，GAT 分类器的准确率、F1 值和 AUC 全面提升，而且模型在不同患者之间的泛化能力更强。更重要的是，消融实验表明，仅依靠初始图构建（无精炼）或仅使用统计特征提示而不包含文本特征，都会导致性能下降，从而充分验证了 LLM 精炼模块和文本上下文信息的重要性。

实验结果分析

研究团队在 TUSZ（Temple University Hospital EEG Seizure Corpus）数据集上进行了大量实验。该数据集包含数千段标注好的发作与非发作 EEG 片段，覆盖不同癫痫类型、年龄和记录环境，是领域内公认的评测基准。

与多种基线模型的对比结果显示：

基于相关性的图构建方法（如 PLV、Pearson）在 GAT 上只能达到约 78‑82% 的准确率，且图结构非常密集，包含大量假阳性边。
单独使用 Transformer 边预测器的学习型构建方法，准确率提升到约 85%，但图结构仍旧存在噪声。
加入 LLM 精炼后，同一 GAT 的准确率跃升到接近 89%，F1 值也获得显著增益。可视化显示，精炼后的图更稀疏，但同时保留了临床已知的关键连接，如颞叶-额叶、颞叶-顶叶环路，这与癫痫发作的经典传播路径高度吻合。

进一步的消融实验显示：

若移除提示中的文本特征（仅保留统计特征），性能下降约 3%，说明解剖学先验在精炼中发挥了实质作用。
如果将 LLM 替换为基于规则的过滤器（如单靠相关系数阈值），性能不仅无法提高，反而丢弃了一些有效边，导致召回率下降。

这些结果有力地证明了 LLM 并非仅仅在做简单的阈值判断，而是真正在运用复杂的推理。它能够在统计特征模棱两可的边界上，根据电极的功能含义做出更合理的判断。

实践应用与未来方向

对临床辅助诊断的实践建议

轻量化集成：当前方法使用的 LLM 可以是一类中等规模的开源模型（如数十亿参数级别），这对于医院内部部署、保护患者隐私至关紧要。建议在构建系统时，将 LLM 精炼模块封装成一个独立的微服务，与上游信号处理流水线解耦，以便于维护和升级。
可解释性审计：LLM 精炼过程自然产生每条边的决策理由（可通过提示要求输出简短解释），这为临床审查提供了便利。在实践中，可将这些理由连同最终图可视化一并呈现给医生，作为辅助决策依据，增强人机信任。
领域适配微调：虽然本工作使用零样本提示取得了良好效果，但在特定医院的设备、蒙太奇和患者群体上，对 LLM 进行少量监督微调（如使用医生标注的可靠连接）可能会进一步提升鲁棒性。同时应建立反馈循环，不断用临床专家的修正意见优化提示模板。
数据隐私与延迟：考虑到 EEG 实时监测的需求，可尝试将精炼过程离线批处理（如在每次记录开始时进行初始化图构建和精炼，然后固定图结构进行在线预测），或利用量化、蒸馏等技术加速 LLM 推理。

未来发展方向

多模态大模型融合：未来的 LLM 可以直接处理原始 EEG 图像或频谱图，结合视觉-语言模型，完全端到端地进行图推理和疾病分类，进一步简化流水线。
动态图精炼：癫痫发作是一个动态演化过程，可以将时间维度引入，让 LLM 根据当前滑动窗口内的连接变化趋势来精炼动态图，实现更精确的发作预测。
扩展到其他生理信号：该框架天然适用于心电图、肌电图等其他多通道生理信号，只需调整电极相关的文本库，即可迁移使用。
因果发现与干预：利用 LLM 对图结构的理解，不仅能精炼关联性边，还可以尝试推断因果连接，为病灶定位和手术规划提供更直接的支持。

总结与展望

本文以巧妙的视角将大语言模型的推理能力注入 EEG 分析中的图构建环节，提出了一种“先学习，后精炼”的两阶段框架。通过 Transformer 预测器生成初始图，并利用 LLM 综合统计特征和神经解剖学先验对边集进行二次筛选，显著抑制了噪声引起的冗余连接，从而提升了图表示的质量和癫痫检测的性能。实验不仅验证了方法的有效性，还展示了精炼图的可解释性，为将 LLM 融入复杂生理信号分析树立了一个成功范例。

展望未来，随着 LLM 推理效率的不断提升和多模态技术的成熟，这类利用语义知识增强数据驱动模型的方法有望从实验室走向临床真实场景，成为精准神经疾病诊疗的智能基石。同时，如何从“精炼边”这一具体任务延伸出更广泛的“大模型引导的结构发现”范式，将是一项值得持之以恒探索的课题。