UTE-MRI 对肺结节检测和 Lung-RADS 分类的功效

Background

肺癌是全世界男性和女性癌症死亡的主要原因。肺结节无论是在临床实践还是低剂量CT扫描中都是一种常见的发现。肺结节类型和大小的评估是结节治疗降低肺癌特异性死亡率的有效指标。

低剂量和标准剂量的薄层CT检查目前被广泛用于肺结节的检测和评估，甚至在常规的临床实践中。然而，从20世纪90年代初开始，MRI在有限的基础上用于不同的肺、纵隔和胸膜疾病。在21世纪，基于自旋回波、梯度回波、和回波平面成像序列(有或没有造影剂)的几种技术已被提出，并处于测试中（和CT相比）。最近，许多新的关于成像质量和诊断能力的改进方法被不断地提出。

作为这些改进之一，在过去的几年中，超短回声时间(UTE)或零回声时间的肺薄层MRI已被用于结节检测或结节亚型分类，并与标准或低剂量CT进行了各种影像学表现的评估。Fleischner协会和其他国际机构已经认可该技术为常规临床实践中胸部MRI的一种有前途的工具。

然后，据我们所知，并没有文献对基于Lung-RADS评估的肺癌筛查中，超短回声时间肺MRI (下文简称：肺UTE-MRI)、低剂量CT和标准剂量CT的表现做直接比较。

Research Objective(s)

本文目的是为了比较三种成像方式（肺UTE-MRI、低剂量CT和标准剂量CT）在肺结节诊断、大小测量和Lung-RADS分类三个方面的能力。

Method(s)

被试人员

在这个多中心的前瞻性研究中，我们收集了2017年1月至2020年12月期间，272名患者的数据。并采取了以下六条排除原则（如图所示），最终选出205个病例。

放射检查

所有患者都接受了薄层胸部CT检查。低剂量和标准剂量CT的管电流分别为60和250毫安。分别在一台320个探测器的排式CT扫描仪、一台80个探测器的排式CT扫描仪和一台160个探测器的排式CT扫描仪上进行。此外，采用3套3.0T磁共振系统，16元相控阵体表线圈和接收通道，结合并行成像能力，在冠状面采用呼吸门控三维径向UTE序列进行肺UTE-MRI扫描。

参考标准

标准剂量CT的影像由两位有经验的放射医生审查，并达成共识，作为最后的评估参考标准。两位医生不参与后续的图像分析。两位医生记录了所有确诊结节的位置、大小和结节类型。此外，将每种类型的结节分为三类：毛玻璃结节、部分实质结节和实质结节。同时也对这些结节进行了Lung-RADS分类（分为2、3、4A、4B和4X）。另外，两位医生对整个结节和结节实质部分的最长轴向直径分别进行了测量，并取两位医生测量的平均值作为二者的最终直径。以上结果皆用于作为后续的参考标准。

图像分析

为了比较三种成像方法对于肺结节的诊断和分类的能力，所有图片被随机打乱并在同一个阅片系统中由另外两位放射医生（不是参考标准中的两人）查看。采用五分视觉评分(1分，不存在；2分，可能不存在；3分，模棱两可；4分，可能存在；5分，存在)进行每一结节的分析，并将所有结节的位置记录下来。对于结节大小，每位医生对整个结节和结节实质部分的最大直径分别进行两次测量取平均值作为各自的测量值，再对两位医生的各自测量值取平均作为最终值。对于Lung-RADS分类，两位医生共同决定诊断的肺结节的最终分类。

统计分析

结节诊断。采用JAFROC分析法对每位放射医生的三种成像的结节诊断结果进行评估。同样的分析也被用来比较基于软件计算产生的共识诊断结果（即results里的consensus reading）（相对于在研究中有三组结果，两组是两个医生得出的，另外一组是由软件根据两个医生得出的结果计算出来的）。此外，采用单方差分析对三种成像方法对应诊断结果之间的差异进行分析（FOM值、敏感性和假阳性）。采用McNemar检验和符号秩和检验比较三种成像方法对共识阅片的敏感性和假阳性(每组数据)。统计结果表明，对每种方式检测到的结节，若两位医生均给至少三分并且由参考标准认可，则可假定为真阳性，否则可假定为假阳性结果。

最长轴向直径。采用Pearson相关分析评估两位医生所测量的两种直径（整个结节和结节实质部分的最长轴向直径）之间的一致性。此外，用Bland-Altman分析评估两位医生对每个长轴直径测量的误差。同时，Bland-Altman分析也被用于比较三种成像方法对应的每个结节的平均长轴直径。

结节类型。采用加权k统计值来比较对于每种成像方法两位医生的一致性和共识阅片与参考标准的一致性。当k小于0.21时，一致性被认为是差的；当k为0.21 - 0.40时，一致性是合理的；当k为0.41-0.60时，一致性是中等的；当k为0.61-0.80时；一致性是较显著的，当k为0.81-1.00时，一致性是极好的。此外，通过共识阅片结果和参考标准之间的McNemar检验，比较各个方法的结节类型预测的准确性。

Lung-RADS分类。为了确定三种成像方式对Lung-RADS分类的影响，采用加权k统计值分析和卡方检验来确定两名医生的一致性。此外，也用相同的方法检验每种成像方式的共识阅片的Lung-RADS分类结果和参考标准的一致性。

Results

患者和肺结节

本研究最终收录了205个病人，其中共有1073个结节存在。根据标准剂量CT表现，所有结节分为实性结节(SN) (n = 759)、部分实性结节(PSN) (n = 132)和毛玻璃结节(GGN) (n = 182)。每个结节按Lung-RADS分类为2类(n = 706)、3类(n = 219)、4A类(n = 58)、4B类(n = 75)和4X类(n = 15)。

下图展示了一个63岁男性的三种肺部影像。该结节如箭头所指，被诊断为毛玻璃结节；Lung-RADS分类为2类。

下图展示了一个65岁男性的三种肺部影像。该结节如箭头所指，被诊断为部分实性结节；Lung-RADS分类为3类。

下图展示了一个67岁男性的三种肺部影像。该结节如箭头所指，被诊断为实性结节；Lung-RADS分类为4B类。

肺结节诊断

如表2所示，医生对三种图像的诊断结果的FOM有所差异（P<0.001）。对于共识阅片，三种方法对应诊断的FOM 存在差异（标准剂量CT: FOM = 0.91，低剂量CT: FOM = 0.89，肺UTE-MRI: FOM = 0.94），P值小于0.001。

最长轴向直径

对于每种成像方法，两名医生之间的整个结节测量值(r = 0.98, P<0.001)和结节内实性成分测量值(r = 0.98, P<0.001)的相关系数都很好。整个结节的长轴直径一致性的平均界限为：标准剂量CT，0.0mm ± 2.0；低剂量CT，0.0mm ± 2.1；肺UTE-MRI，0.0mm ± 2.2。结节实质部分长轴直径一致性的平均界限为：标准剂量CT，0.0mm ± 1.8；低剂量CT，0.0mm ± 1.8；肺UTE-MRI，0.0mm ± 2.0。对整个结节和实性成分的长轴直径的Bland-Altman分析结果如下图所示。

肺结节类别

两位医生分类结果的一致性几乎是完美的(标准剂量CT: k = 1.00, P<0.001；低剂量CT: k = 0.99, P<0.001；肺UTE-MRI: k = 0.97, P<0.001)。共识阅片的结果与参考标准的一致性如表3所示。由表中数据可发现，共识阅片的结果与参考标准的相关性较为显著。标准剂量CT和低剂量CT在结节类型评估准确性方面的一致性高于肺UTE-MRI。