EHR神经症状标注与AI一致性研究

原创

用户11764306

发布于 2026-04-14 11:29:13

480

电子健康记录中神经系统体征和症状标注的评分者间一致性

摘要

从电子健康记录的自由文本中提取患者的体征和症状，对于精准医疗至关重要。一旦提取出来，体征和症状就可以通过映射到本体中的相应概念而变得可计算。从自由文本中提取体征和症状既繁琐又耗时。先前的研究表明，临床概念提取的评分者间一致性较低。本文研究了在电子健康记录临床记录中标注神经系统概念时评分者间的一致性。在对标注流程、标注工具和辅助神经本体进行培训后，三名标注者在三轮中标注了15份临床记录。三名标注者在文本跨度（text span）和类别标签上的评分者间一致性很高。基于卷积神经网络的机器标注者与人类标注者具有较高的一致性，但低于人类间的一致性。结论是，通过适当的培训和标注工具，人类标注者之间可以实现较高的一致性。此外，更多的训练样本结合神经网络和自然语言处理的改进，应能使机器标注者具备高通量自动化临床概念提取的能力，并与人类标注者保持高度一致。

引言

从电子健康记录中提取医学概念是精准医疗的关键。患者的体征和症状（患者表型的一部分）通常以自由文本形式记录在病程记录、入院记录和出院小结中。患者的临床表型分析涉及将自由文本映射到本体中定义的术语概念。这是一个两步过程：首先识别叙述中合适的文本跨度，然后将文本跨度转换为本体中的目标概念。将自由文本映射到本体中已定义类别的过程（如示例(1)和(2)所示）被称为标准化。

(1) patient movements were ataxic → ataxia → UMLS CUI: C0004134

(2) free text → clinical concept → machine-readable code

在示例(1)中，标注者高亮显示术语“ataxic”，然后将其映射到概念“ataxia”，并检索UMLS代码CUI C0004134。对于人类标注者来说，这是一个缓慢且容易出错的过程。人类评分者在临床文本标注上的一致性通常较低。一项关于三家专业编码公司编码员之间SNOMED CT代码一致性的研究发现，精确匹配的一致性约为50%，当调整为近似匹配时一致性略高。另一项关于眼科记录SNOMED CT编码的研究显示，评分者间一致性较低，范围为33%至64%。已确定的编码员之间不一致的来源包括：人为错误（缺乏适用的医学知识、无法识别概念的缩写、以及普遍粗心）、标注指南缺陷（规定不明确、不清楚）、本体缺陷（编码概念的多义性）、界面术语问题（临床行话分类不一致）以及语言问题（由于使用省略、照应、释义和其他语言概念导致的解释困难）。

高通量表型分析的目标是利用自然语言处理自动化标注过程。高通量临床概念提取的方法包括基于规则的系统、传统机器学习算法、深度学习算法以及混合方法。基于规则、语言分析和统计模型的概念提取工具（如cTAKES和MetaMap）的准确率和召回率通常在0.38到0.66之间。神经网络正被越来越成功地用于概念识别。Arbabi等人开发了一个卷积神经网络，可以将输入短语高精度地匹配到人类表型本体中的概念。其他深度学习方法，包括基于Transformer双向编码器表示的神经网络，在自动化临床概念提取方面显示出潜力。

本文研究了在电子健康记录记录中识别神经系统概念文本跨度的评分者间一致性。除了人类标注者之间的一致性，我们还研究了人类标注者与基于卷积神经网络的机器标注者之间的一致性。

方法

标注工具

使用Prodigy（某机构，柏林，德国）在EHR医生记录中标注神经系统概念。Prodigy在macOS、Windows或Linux的终端模式下运行于python环境。它在本地创建一个Web界面（图1A、B）。作为输入，Prodigy需要将自由文本转换为JSON格式。

(3) {"text": "The patient had weakness and sensory loss"}

JSON文件（示例3）中的每一行文本都会在Prodigy中显示为一个独立的标注屏幕（图1A、B）。标注存储在SQLite数据库中，并可导出为包含标注和文本跨度的JSON文件。Prodigy与spaCy自然语言处理工具包（某机构）集成，可以训练用于命名实体识别和文本分类的神经网络。

图1 (A) 多发性硬化症患者的标注屏幕。患者主诉不平衡、腿部无力和疼痛，这些概念已被标注。不平衡和疼痛被标注为一元词组；腿部无力被标注为二元词组。标注者被训练忽略侧向性（例如，右腿无力）。每个Prodigy屏幕反映JSON输入文件中的一行文本。此屏幕有三个潜在项目可用于Kappa统计：不平衡、腿部无力和疼痛。(B) 多发性硬化症患者神经系统概念的标注屏幕。患者否认视力、感觉、膀胱、肠道、步态或跌倒方面有问题。标注者被训练不标注被否定的概念。神经网络没有特定的否定规则，但通过训练示例学会了不标注被否定的概念。由于此屏幕中没有体征和症状，如果两位标注者都没有标注，则在此屏幕上为一致性分配1分。如果一位标注者没有标注而另一位有标注，则记为不一致。

使用Kappa统计量来评估三位标注者与神经网络之间的一致性。Kappa统计量校正了评分者之间的偶然一致性。其范围从0到1，1表示完全一致，0表示偶然一致。Kappa值在0.6到0.79之间被认为具有实质性一致性，0.8到0.90之间为强一致性，超过0.90则接近完美一致性。对于每一行有一个或多个标注的文本，如果两位标注者一致，则一致性评为1；如果不一致，则评为0。两位标注者都没有标注的文本行（空标注）一致性评为1。对于两位评分者A和B，Kappa统计量考虑的标注总数为(A ∪ B + 空标注)。

评分者培训和说明

三位标注者参与了研究。标注者1（A1）是一名资深神经科医生，标注者2（A2）是一名主修神经科学、准备进入医学院的学生，标注者3（A3）是一名三年级医学生。评分者首先回顾了神经概念本体中的神经系统体征和症状，然后被指示在神经科记录中找到所有神经系统概念。标注体征和症状（如共济失调、疲劳、无力、记忆力丧失等），但不标注疾病实体（如阿尔茨海默病、多发性硬化症等）。评分者标注神经系统概念，忽略侧向性和其他修饰语（例如，将“右臂疼痛”标注为“臂痛”，将“严重背痛”标注为“背痛”）。此外，标注者为每个文本跨度标记一个类别标签（见图1A、B）。类别标签包括：一元词组（单字词概念，如共济失调）、二元词组（两字词概念，如复视）、三元词组（三字词概念，如下背痛）、四元词组（四字词概念，如相对传入性瞳孔缺陷）、扩展（长度超过四个词的文本跨度标注）、复合（一个文本跨度中的多个概念，如踝反射和膝反射活跃）和表格化（以表格或列格式表示的概念，通常显示左右身体两侧）。按文本跨度的长度和类型对体征和症状进行标记，其动机是我们假设：训练用于识别医学文本中体征和症状的神经网络在处理较长的文本跨度时会表现出较低的准确率。这一假设得到了我们团队最近一项研究的证实。

机器标注者

机器标注者（NN）是一个经过训练的神经网络，用于识别电子健康记录医生记录中包含神经学概念的文本跨度。NN是spaCy默认的命名实体识别模型，基于一个四层卷积神经网络，使用tok2vec查看每个标记两侧各四个词，初始学习率为1×10⁻³。训练使用了Prodigy提供的默认参数。NN在11,000条手动标注的句子上进行训练，这些句子来自神经学教科书、在线神经疾病描述和电子健康记录记录。关于训练NN的更多细节可参考相关文献。

标注

在每轮中标注五份患者EHR记录。用于研究目的的EHR临床记录标注已获得某机构审查委员会的批准。通过某机构生物样本库项目，获得了所有受试者对使用临床记录的知情同意。三位人类标注者（A1、A2和A3）和机器标注者（NN）对每份记录进行了标注。每轮标注后，标注者开会审查任何标注分歧。每位标注者的标注存储在SQLite数据库中，并导出为JSON文件，用于在Python中计算评分者间一致性。文本跨度通过利用包含3,500个目标短语的查找表和spaCy的相似度方法，映射到神经本体中的概念。使用SPSS计算单因素方差分析和Cohen's Kappa统计量。

结果

标注者识别了电子健康记录医生记录中的神经系统体征和症状。每位标注者识别与每个体征和症状相关的文本跨度，并为每个标注分配一个类别标签（例如，一元词组、二元词组、三元词组等）。计算了三位人类标注者与机器标注者之间的评分者间一致性（已调整和未调整）。

尽管每轮标注了五份EHR记录，但记录长度各不相同。EHR记录中的每一行都被转换为JSON文件中的一行，并在Prodigy标注器中生成一个标注屏幕。第1轮有625个标注屏幕，包含139个需标注的体征和症状；第2轮有674个标注屏幕，包含205个体征和症状；第3轮有523个标注屏幕，包含138个体征和症状。由于体征和症状的数量少于标注屏幕的数量，许多标注屏幕没有需要标注的体征或症状（空屏幕）。当两位标注者都认为标注屏幕没有体征或症状时，在调整和未调整指标（Kappa和一致性）中均记为标注者一致。

在文本跨度任务上，人类标注者间的一致性（未调整一致性）为88.9%±3.2（均值±标准差），人类标注者与机器标注者之间的一致性为83.9%±4.6（均值±标准差）（人类间均值更高，单因素方差分析，df=1，p=0.016）。在类别标签任务上，人类标注者间的一致性为87.7%±4.4（均值±标准差），人类标注者与机器标注者之间的一致性为84.6%±5.5（均值±标准差）（均值无差异，单因素方差分析，df=1，p=0.212）。

Cohen's Kappa统计量（κ）在文本跨度任务（0.715至0.893）和类别标签任务（0.72至0.89）上均较高。在文本跨度识别任务上，人类-人类对的κ值（0.85±0.05均值±标准差）高于人类-机器对（0.76±0.06）。在类别标签任务上，人类-人类对（0.83±0.05均值±标准差）和人类-机器对（0.82±0.06）的κ值相似。文本跨度任务和类别标签任务的κ值在不同轮次之间没有差异。

图2 (A) 神经系统概念文本跨度评分者间一致性的Kappa统计量箱线图。单因素方差分析显示，平均评分者间一致性因评分对而异（单因素方差分析，df=5，p=0.021）。Bonferroni事后比较显示，A1-A2对的表现优于NN-A2对。(B) 神经系统概念类别标签评分者间一致性的Kappa统计量箱线图。单因素方差分析显示，类别标签一致性的平均Kappa值不因评分对而异（单因素方差分析，p=0.165，df=5）。

图3 (A) 人类-人类与人类-机器评分者在文本跨度上一致性的Kappa统计量。组间存在差异，单因素方差分析，df=1，p=0.004。(B) 人类-人类与人类-机器评分者在类别标签上一致性的Kappa统计量。组间无差异，单因素方差分析，df=1，p=0.589。

图4 (A) 各轮次文本跨度评分者间一致性的Kappa统计量。第1轮：0.78±0.03（均值±标准误），第2轮：0.84±0.03，第3轮：0.81±0.03，组间无差异，单因素方差分析，df=2，p=0.310。(B) 各轮次类别标签评分者间一致性的Kappa统计量。第1轮：0.80±0.21（均值±标准误），第2轮：0.85±0.21，第3轮：0.83±0.21，组间无差异，单因素方差分析，df=2，p=0.306。

讨论

体征和症状是患者表型的重要组成部分。从电子健康记录中提取这些表型特征并将其转换为机器可读代码，使其变得可计算。这些可计算表型对于精准医疗计划至关重要。Agrawal等人将临床实体提取概念化为一个两步过程：先是文本跨度识别，然后是临床实体标准化。文本跨度识别是在自由文本中识别体征和症状；实体标准化是将这些文本映射到本体（如UMLS）中的规范体征和症状。本文重点关注文本跨度标注的评分者间一致性。对于实体标准化，则依赖于一个查找表，将文本跨度映射到神经本体中的概念。研究发现人类标注者之间具有高的一致性（未调整一致性约为89%），而人类标注者与机器标注者之间的一致性较低（未调整一致性约为84%）。

类别标签的一致性（未调整一致性）低于文本跨度的一致性，这可能是由于EHR记录自由文本中连字符的使用以及标注者对哪些类型的文本跨度需要表格化标签的不确定性等因素造成的。人类-人类评分者的Kappa统计量（调整后一致性）在0.77和0.91之间，人类-机器一致性则在0.69和0.87之间（图3A）。本文认为人类评分者之间的调整后一致性（0.77至0.91）是良好的，尤其是与训练有素的神经科医生引出患者体征和症状时的调整后一致性相比。对于训练有素的神经科医生引出诸如无力、感觉丧失、共济失调、失语、构音障碍和嗜睡等体征和症状，κ统计量范围在0.40到0.70之间。

本研究中较高的一致性水平可能反映出从患者身上引出体征或症状比在EHR中标注体征或症状更困难。尽管如此，本研究的调整后一致性（κ）高于先前的标注研究，这可能归因于对标注者的培训、神经本体的使用、不对症状严重程度或侧向性进行编码的决定，以及使用了先进的标注工具。

研究未发现人类标注者在各轮次之间存在训练效应（图4A、B）。尽管标注者在每轮后开会讨论标注差异，但调整后和未调整的评分者间一致性在各轮之间并未显著提高。这表明文本跨度标注的评分者间一致性可能存在一个上限，Kappa值为0.80至0.90，由于任务的复杂性和无法通过额外培训或经验解决的随机因素，可能无法达到更高的一致性水平。这种人类评分者间一致性的天花板效应对人机之间获得更高一致性率的潜力具有影响（图3B）。文本跨度的人类-人类对平均调整后一致性（κ=0.85）高于人类-机器对（κ=0.76）。更多的训练示例可能会提高机器标注者在文本跨度和类别标签任务上的性能。此外，其他神经网络很可能优于作为Prodigy基线的卷积神经网络。研究发现，基于Transformer双向编码器表示的神经网络可以将文本跨度任务的性能提高5%到10%。其他人也发现，基于BERT的深度学习方法在概念识别和提取任务上优于基于CNN的方法。无论是人-人还是人-机，标注体征和症状的评分者间一致性的天花板效应可能接近κ=0.90。

鉴于医生繁重的文档记录负担以及归因于电子健康记录的医生职业倦怠，医生对体征和症状的文档记录很可能仍将以自由文本形式进行。在当前环境下，作为自由文本替代方案的结构化体征和症状记录过于繁重。一个中等规模的医疗中心，日均住院患者 census 为300，日均门诊患者 census 为2,000，每天至少生成5,000份临床记录，或每年超过150万份记录（基于两个学术医疗中心的未发表估计）。电子健康记录中临床记录的庞大体量使得手动标注体征和症状变得不切实际。为精准医疗计划提取体征和症状将依赖于自然语言处理和自然语言理解的进步。

尽管通过手动方法对电子健康记录进行高通量表型分析是不切实际的，但可以使用电子健康记录中自由文本的手动标注来训练用于表型分析的神经网络。神经网络也可以加速手动标注过程。Prodigy标注器有一种称为ner.correct的标注模式，它使用训练好的神经网络来加速体征和症状的手动标注。

通过适当的培训和指南，人类标注者之间对于体征和症状实现高水平的评分者间一致性是可行的。将标注限制在有限领域（例如，神经系统体征和症状）和受限本体（例如，神经本体）可以简化手动标注。尽管人-机标注者之间的一致性低于人类标注者之间的一致性，但自然语言处理的进步应使人机之间的评分者间一致性更加接近，并使电子健康记录的高通量表型分析成为可能。

这项工作存在局限性。临床记录样本量较小（每轮标注五份患者记录）。更大的记录样本会更理想。标注过程仅限于神经科记录中的神经系统体征和症状。目标本体是一个包含1600个概念的有限神经本体。仅评估了一个基于卷积神经网络的机器标注者。其他神经网络可能表现更好。关于评分者间一致性的结果可能无法推广到其他医学领域和本体。尽管本研究有三名评分者，但未指定其中任何一位作为“金标准”，而是选择分别计算每对评分者之间的评分者间一致性。认为，人类评分者之间90%水平的未调整一致性应被视为高。同样，能够与人类标注者达到90%未调整一致性的机器标注者应被视为准确。由于缺乏金标准，选择将机器标注者的性能衡量为一致性（未调整一致性）和Kappa统计量（调整后一致性），而不是准确率、精确率和召回率。尽管使用ANOVA评估了调整后和未调整一致性均值差异的显著性，但不能确定ANOVA的所有假设（包括正态性、方差齐性和独立性）在样本中都得到满足。