Nature子刊用于阿尔茨海默病痴呆评估 - 间质性肺疾病

TUhjnbcbe - 2024/10/9 16:39:00

白癜风临床专家 https://wapjbk.39.net/yiyuanzaixian/bjzkbdfyy/bdf/

在全球范围内，每年有近万新发痴呆病例，其中阿尔茨海默病（AD）最为常见。需要新的措施来改善对各种病因导致认知障碍的个体的诊断。作者报告了一个深度学习框架，该框架以连续方式完成多个诊断步骤，以识别具有正常认知（NC）、轻度认知障碍（MCI）、AD和非AD痴呆（nADD）的人。作者展示了一系列能够接受常规收集的临床信息的灵活组合的模型，包括人口统计、病史、神经心理学测试、神经影像学和功能评估。然后，作者表明这些框架与执业神经科医生和神经放射科医生的诊断准确性相比具有优势。最后，作者在计算机视觉中应用可解释性方法，以表明模型检测到的疾病特异性模式可以跟踪整个大脑的退行性变化的不同模式，并与尸检时神经病理学病变的存在密切相关。作者的工作证明了使用既定的医学诊断标准验证计算预测的方法。

介绍

阿尔茨海默病（AD）是全球痴呆症的最常见原因，未来由于人口老龄化导致的病例数量增加可能会加剧对现有的医疗服务需求。临床需求的增加可能会加剧老年人发病率和死亡率的负担，因此需要改进治疗并及时识别AD。近年来，在开发脑脊液（CSF）生物标志物以及淀粉样蛋白和tau正电子发射断层扫描（PET）等先进成像模式方面做出了重大努力。此外，新一代的AD疾病治疗方法现已进入临床研究范围，尽管其疗效仍存在争议。尽管取得了这些进展，但许多新兴的诊断和治疗方式仍然仅限于研究环境，并且生前诊断的支柱仍然是传统的临床评估、神经心理学测试和磁共振成像（MRI）。轻度认知障碍（MCI）是痴呆的前驱阶段，也可能是AD的一种微妙的早期表现，其诊断同样需要资深专家的显着临床敏锐度。使问题复杂化的是存在许多其他非阿尔茨海默病痴呆（nADD）综合征，其临床表现通常与AD重叠。因此，AD以外的常见痴呆原因，如血管性痴呆（VD）、路易体痴呆（LBD）和额颞叶痴呆（FTD），扩大了神经退行性疾病的鉴别诊断范围，并导致诊断敏感性和特异性的变异性。

要可靠地区分正常认知老化、MCI、AD和其他痴呆病，需要治疗记忆障碍的熟练的专家具有显着的临床敏锐度，但患者和家属及时进入记忆诊所往往受到限制。这在发达国家的偏远农村地区和经济发展中的国家是个大问题，因为那里缺乏专业的医生。此外，对熟练临床医生的需求正在上升，但美国预计在未来几十年内将面临神经科医生等熟练的临床医生的短缺。随着临床需求的增加与医学专业知识的供应减少，用于帮助神经系统诊断的机器学习方法已开始引起人们的兴趣。作为对其他组报告的高诊断准确性的补充，作者之前报告了可解释的深度学习方法，该方法能够使用磁共振成像（MRI）扫描、年龄、性别和简易精神状态检查（MMSE）。其他人也证明了深度学习在区分AD和特定类型的nADD方面的功效。然而，在记忆诊所就诊的人的临床评估需要考虑认知障碍的多种病因。因此，在统一框架中成功区分不同研究队列中的NC、MCI、AD和nADD的能力仍有待开发。

在这项研究中，作者报告了一个深度学习框架的开发和验证，该框架能够在具有不同痴呆病因和不同认知功能水平的多个参与者队列中准确分类患有NC、MCI、AD和nADD的受试者（表1，图1）。使用来自国家阿尔茨海默病协调中心（NACC）的数据，作者开发并外部验证了能够使用MRI、非成像变量及其组合对认知状态进行分类的模型。为了验证作者的方法，作者证明了模型的准确性与一组执业神经科医生和神经放射科医生的诊断性能的可比性。然后作者利用ShapleyAdditiveexPlanations（SHAP），将计算预测与神经退行性变的众所周知的解剖学和病理学标记联系起来。作者的策略提供了证据，证明即使在异构数据集中，由深度学习驱动的自动化方法也可以接近准确诊断的临床标准。

表1研究人群和特征

图1.建模框架和总体策略。包括MRI扫描、人口统计、病史、功能评估和神经心理学测试结果在内的多模态数据被用于开发各种分类任务的深度学习模型。本研究使用了八个独立的数据集，包括NACC、ADNI、AIBL、FHS、LBDSU、NIFD、OASIS和PPMI。作者选择NACC数据集来开发三个独立的模型：（i）仅MRI的CNN模型（ii）传统机器学习分类器形式的非成像模型，它不使用任何MRI数据（iii）一个融合模型，在连接CNN和CatBoost模型的混合架构中结合成像和非成像数据。仅MRI模型在所有八个队列中都得到了验证，而非成像和融合模型的外部验证仅在OASIS上进行。首先，将T1加权MRI扫描输入CNN以计算连续痴呆模型（DEMO）分数，以评估0到2级的认知状态，其中“0”表示NC，“1”表示MCI，“2”表示DE。使用最佳阈值算法将DEMO分数转换为类别标签，这些分配构成COG任务。对于患有DE诊断的个体，多任务CNN模型同时区分了他们患AD和nADD的风险，作者将这种分类称为ADD任务。作者将AD诊断的概率表示为ALZheimer（ALZ）评分。然后将MRI导出的DEMO分数和ALZ分数与非成像变量一起输入到各种机器学习分类器中以形成融合模型，然后分别预测COG和ADD任务的结果。从NACC测试队列中随机选择了一部分确诊的痴呆症病例（n=50），与国际执业神经放射学家团队直接比较融合模型。模型和神经放射科医生都使用可用的MRI扫描、年龄和性别完成了ADD任务。此外，随机选择了一部分NACC病例（n=）以将融合模型的性能与执业神经科医生进行比较，模型和临床医生都能获得一套共同的多模态数据。最后，将模型预测与NACC、ADNI和FHS队列（n=）的神经病理学等级进行比较。

结果

作者将鉴别诊断过程划分为阶段性任务。第一个，作者称之为COG任务，将人标记为NC、MCI或任何原因引起的痴呆（DE）。值得注意的是，COG任务可以被视为包含三个独立的二元分类子任务：（i）COGNC任务：分离NC和MCI/DE病例（ii）COGMCI任务：分离MCI与NC/DE病例，以及（iii）COGDE任务：将DE与NC/MCI病例分开。在完成整体COG任务后，作者接下来制定了ADD任务，其中作者将所有标记为DE的人分配给AD或nADD的诊断。COG和ADD任务的连续完成允许执行全面描述NC、MCI、AD和nADD案例的总体4分类。

作者还创建了三个独立的模型：（i）仅MRI模型：一个卷积神经网络（CNN），它在内部计算一个连续的痴呆模型（DEMO）分数来完成COG任务，以及一个阿尔茨海默氏（ALZ）分数来完成ADD任务。（ii）非成像模型：传统的机器学习分类器，仅将来自人口统计学、既往病史、神经心理学测试和功能评估的标量值临床变量作为输入。与仅MRI模型一样，非成像模型还计算了可以完成COG和ADD任务的DEMO和ALZ分数。作者针对这些目的测试了多种机器学习架构，并最终选择了CatBoost模型作为作者最终的非成像模型架构。（iii）融合模型：该框架将CNN连接到CatBoost模型。通过这种方法，CNN计算的DEMO和ALZ分数被回收并与可用的临床变量一起使用。CatBoost模型然后在附加的非成像信息的上下文中重新计算这些分数。

图2.特定于站点和扫描仪的观察结果。后处理MRI和隐藏层激活的无监督聚类分别评估了输入数据和模型预测中的系统偏差。a显示了下采样MRI扫描的二维（2D）t分布随机邻域嵌入（tSNE）嵌入。使用样条插值对后处理的MRI扫描进行下采样，每个轴上的下采样因子为8。各个点代表来自单个受试者的MRI，并根据其原始队列（NACC、ADNI、AIBL、FHS、LBDSU、NIFD、OASIS或PPMI）着色。b作者展示了来自倒数第二个CNN隐藏层的隐藏层激活的2DtSNE。各个点对应于测试期间MRI扫描的内部表示，并按队列标签着色。c显示了来自NACC数据集的下采样MRI扫描的2DtSNE嵌入图。代表MRI扫描的各个点由参与NACC合作的21个阿尔茨海默病研究中心（ADRC）之一的唯一标识符着色。d显示了由ADRCID着色的倒数第二层激活的dtSNE嵌入。e显示了来自NACC数据集的下采样MRI扫描的2DtSNE嵌入图。此图中的嵌入与c中的嵌入相同，但根据用于获取每个MRI的扫描仪制造商（通用电气（GE）、西门子或飞利浦）进行着色。FNACC数据集中的案例显示了倒数第二层激活的2DtSNE图。嵌入等同于在d中可视化的嵌入，但现在由用于图像采集的扫描仪制造商着色。g提供了按制造商分类的疾病类别计数的表格。仅包括NACC数据集中的案例。作者提供互信息评分（MIS）来量化疾病类型和扫描仪制造商之间的相关性。H作者还提供了NACC数据集中按ADRCID分层的疾病类别计数的表格表示。MIS再次被证明可以量化诊断标签和参与NACC研究的各个中心之间的相关程度。

表2混合模型性能

图3.深度学习模型的性能。a，bROC曲线显示真阳性率与假阳性率，PR曲线显示阳性预测值与灵敏度，在aNACC测试集和bOASIS数据集上。a和b中的第一行表示仅MRI模型、非成像模型和融合模型（CNN+CatBoost）的性能，这些模型经过训练可将有NC的病例与没有NC的病例分类（COGNC任务）。第二行显示了仅MRI模型、非成像模型和COGDE的融合模型的ROC和PR曲线旨在区分有DE的病例和没有DE的病例的任务。第三行说明了仅MRI模型、非成像模型和侧重于区分AD与nADD的融合模型的性能。对于每条曲线，计算平均AUC。在每个图中，平均ROC/PR曲线和标准偏差分别显示为粗线和阴影区域。每个图中的虚线表示具有随机性能水平的分类器。c，d融合模型中具有最高平均绝对SHAP值的15个特征分别用于COG和ADD任务，分别在交叉验证轮次（n=5）。覆盖在条形图上的误差条以数据的平均值为中心，并扩展了+/-一个标准差。对于每项任务，MRI扫描、人口统计信息、病史、功能评估和神经心理学测试结果都被用作深度学习模型的输入。c和d中的左图说明了SHAP值的分布，右图显示了平均绝对SHAP值。c和d中的所有图均按平均绝对SHAP值的降序排列。e，f为了比较，作者还构建了传统的机器学习模型，使用深度学习模型所使用的相同特征集来预测认知状态和AD状态，结果分别在e和f中呈现。热图显示了为每个模型获得的具有最高平均绝对SHAP值的15个特征。源数据作为源数据文件提供。

混杂评估

作者使用二维t分布随机邻居嵌入（tSNE）来评估疾病状态与某些形式的元数据之间是否存在混杂关系。使用这种方法，作者观察到用于测试仅MRI模型的八个队列中没有明显的后处理MRI嵌入聚类（图2a，b）。在NACC队列中，作者还没有观察到基于个别阿尔茨海默病研究中心（ADRC，图2c，d）或扫描仪制造商（图2e，f）的明显聚类。相关地，尽管CNN隐藏层激活的tSNE分析确实产生了NACC数据点的聚类（图2b），鉴于选择NACC作为作者的模型训练队列，这是一个预期的现象。否则，由于特定的ADRC（图2d）或扫描仪制造商（图2f），作者发现隐藏层激活没有明显的嵌入聚合。最后，从NACC队列计算的互信息评分（MIS）表明特定扫描仪制造商（MIS=0.，图2g）和ADRC（MIS=0.，图2h）。

深度学习模型性能

作者观察到，融合模型在一系列临床诊断任务中为NC、MCI、AD和nADD提供了最准确的认知状态分类（表2）。作者发现在NACC测试集（图3a，第1行）和外部验证集（OASIS；图3b）之间，COGNC任务模型性能很强大，如接收者操作特征（AUC）曲线下的面积分别为0.[95%置信区间（CI）：0.，0.]和0.[CI：0.，0.]。精确度-召回（AP）曲线下的面积也观察到类似的数值，分别为0.[CI:0.，0.]和0.[CI:0.，0.]。AUC和AP性能之间的这种对应关系支持对跨数据集的类不平衡的稳健性。在COGDE任务中，也看到了类似的结果，因为融合模型产生了各自的AUC和AP分数，分别为0.[CI:0.，0.]/0.[CI:0.，0.]（图3a，第2行），在NACC数据集中的AUC和AP分别为0.[CI:0.，0.]/0.[CI:0.，0.]（图3b，第2行）。相反，在NACC数据集中，分类性能略有下降，AUC/AP值分别为0.[CI：0.，0.]/0.[CI：0.，0.]（图3a，第3行），在OASIS数据集中为0.[CI：0.，0.]/0.[CI：0.，0.]（图3b，第3行）。

相对于融合模型，作者观察到在仅MRI模型中跨分类的性能适度下降。对于COGNC任务，仅MRI框架产生的AUC和AP得分为0.[CI:0.，0.]/0.[CI:0.，0.]（NACC）和0.[CI:0.，0.]/0.[CI:0.，0.]（OASIS）。在COGDE任务上，模型结果具有可比性，其中仅MRI模型的AUC和AP得分分别为0.[CI:0.，0.]/0.[CI:0.，0.]（NACC）和0.[CI:0.，0.]/0.[CI:0.，0.]（OASIS）。对于ADD任务，仅MRI模型的结果与融合模型的结果大致相当，分别给出0.[CI:0.，0.]/0.[CI:0.，0.]的AUC和AP分数（NACC）和0.[CI:0.，0.]/0.[CI:0.，0.]（OASIS）。

有趣的是，作者注意到非成像模型通常会产生与融合模型和仅MRI模型相似的结果。具体来说，为COGNC任务训练的CatBoost模型给出的AUC和AP值为0.[CI:0.，0.]/0.[CI:0.，0.]（NACC），以及0.[CI:0.，0.]/0.[CI：0.，0.]（OASIS）。COGDE任务的结果依然强劲，AUC/PR为0.[CI:0.，0.]/0.[0.，0.]（NACC）和0.[CI:0.，0.]/0.[CI:0.，0.]（OASIS）。对于ADD任务，非成像模型的AUC/PR分数分别为0.[CI:0.，0.]/0.[CI:0.，0.]（NACC）和0.[CI:0.，0.]/0.[CI:0.，0.]（OASIS）。

为了评估各种成像和非成像特征对分类结果的贡献，作者在COG（图3c）和使用融合模型的ADD预测任务（图3d）中计算了具有最高平均绝对SHAP值的15个特征。尽管MMSE分数是COG任务的主要判别特征，但从CNN模型得出的DEMO分数在预测认知状态方面排名第三。类似地，来自CNN的ALZ分数是解决ADD任务的最显着特征。有趣的是，当用各种其他机器学习分类器代替CatBoost模型代替融合模型时，特征的相对重要性基本保持不变（图3e，f）。这种一致性表明作者的预测框架对于模型架构的特定选择是稳健的，而是依赖于一组一致的临床特征来实现NC、MCI、AD和nADD类之间的区分。相关地，作者还观察到非成像和融合模型在各种输入特征组合中保持预测性能，显示了在信息可用性的差异中操作的灵活性。然而，重要的是，在所有的非影像学变量组合中，增加MRI衍生的DEMO和ALZ分数提高了4路分类性能。

图4.痴呆的神经影像学特征。a，b基于SHAP值的与结果最相关的大脑区域的图示。a和b中的第一列显示了在轴向、冠状和矢状平面上定向的模板MRI。在a中，第二、第三和第四列分别显示了来自CNN第二个卷积块的输入特征的SHAP值，这些值分别在所有患有NC、MCI和痴呆的NACC测试对象中平均。在b中，第二列和第三列分别显示了所有具有AD和nADD的NACC测试对象的平均SHAP值。c显示了从NACC测试数据获得的AD和nADD病例的脑区特异性SHAP值。小提琴图按每个叶组织，并按平均绝对SHAP值的降序排列。d，e分别与AD和nADD分类有关的大脑区域网络。作者选择了33个具有代表性的大脑区域进行矢状区域的图形分析和可视化，以及57个区域进行轴向分析。代表大脑区域的节点覆盖在二维大脑模板上，并根据加权程度确定大小。连接不同节点的线段的颜色表示相关性的符号，线段的粗细表示相关性的大小。必须注意的是，不是所有的节点都可以从矢状面或轴向面看到。

AD和非AD痴呆的神经影像学特征

模型预测的出处是通过CNN模型内隐藏层的像素化SHAP映射来可视化的。然后将SHAP矩阵与每个受试者MRI中的物理位置相关联，以显示与从NC到痴呆的每个认知衰退阶段有关的明显的脑区（图4a）。这种方法允许神经解剖学风险映射来区分与AD相关的区域与nADD相关的区域（图4b）。事实上，代表疾病风险的彩色图直接叠加在源自传统MRI扫描的解剖图谱上，有助于深度学习模型的可解释性。此外，SHAP派生表示的独特性使作者能够观察到特定于每个感兴趣的结果的疾病提示区域。

SHAP的一个关键特征是大脑内的单个体素或子区域可以有助于准确预测一个或多个类别标签。例如，在NC参与者的海马区SHAP值为负值，但在痴呆症参与者中为正值，这强调了海马体在记忆功能中的公认作用。此外，在海马区域内观察到AD的SHAP值呈阳性，nADD病例的SHAP值呈阴性，表明海马萎缩与AD相关的病因直接成比例。根据其对分割的大脑区域的重要性排序的SHAP值也进一步证实了海马的作用及其与痴呆预测的关系，特别是在AD的情况下（图4c），以及nADD案例。在nADD的情况下，其他大脑区域（如侧脑室和额叶）的作用也很明显。显然，基于SHAP的网络分析揭示了大脑区域之间的成对关系，这些关系同时有助于指示AD的模式（图4d）。该分析表明的一组大脑网络也表明AD和nADD之间的结构变化存在显着差异（图4e）。

神经病理学验证

除了将隐藏层SHAP值映射到原始神经影像之外，深度学习预测与神经病理学数据的相关性进一步验证了作者的建模方法。定性地，作者观察到COG任务的高SHAP评分区域与尸检获得的区域特异性神经病理学评分相关（图5a）。同样，这些人的区域神经病理学变化的严重程度与作者使用Spearman等级相关检验从CNN得出的区域认知风险评分显示出中度到高度的一致性。值得注意的是，最强的相关性似乎发生在受AD病理学影响的区域，例如颞叶、杏仁核、海马和海马旁回（图5b）。使用单向方差分析检验，作者也拒绝了半定量神经病理评分组（0-3）之间的DEMO评分没有显著差异的零假设，置信度为0.95，包括全球ABC严重程度评分Aβ的Thal阶段（AscoreF检验：F（3，51）=3.，p=1.e-2），Braak和Braak用于神经原纤维缠结（NFT）（BscoreF检验：F（3，）=11.，p=1.e-6）和CERAD神经炎斑块评分（CscoreF检验：F（3，）=4.，p=3.e-3）（图5c）。作者使用Tukey’s程序进一步进行了事后测试，以比较DEMO分数的成对组均值，观察到神经退行性研究结果的最高和最低负担的个体之间分别有一致的显著差异。值得注意的是，作者还观察到ALZ评分随半定量神经病理学评分的增加趋势（图5d）。

图5.神经病理学验证。作者将模型结果与NACC、ADNI和FHS队列（n=）的尸检参与者的神经病理学严重程度的区域ABC评分相关联。a来自阿尔茨海默病神经影像学倡议（ADNI）数据集的示例案例以矢状、轴向和冠状视图显示。从第二个卷积块得出的SHAP值和神经病理ABC评分被映射到尸检时测量的脑区。从视觉上看，无论从哪个隐藏层得出的SHAP值，在解剖学映射的SHAP值之间都有很高的一致性。在颞叶内观察到SHAP值和神经原纤维缠结（NFT）评分之间的一致性。b热图显示了来自第二卷积层输入特征的群体平均SHAP值与大脑各区域的染色剂特异性ABC分数之间的Spearman相关性。在海马/副海马、杏仁核和颞回等几个众所周知的受影响区域，SHAP值和神经病理变化之间有很强的正相关关系。c蜂巢图与上覆的盒须图表示ABC系统子分数（横轴）与模型预测的认知分数（纵轴）的分布。显示的数据点代表来自ADNI、NACC和FHS的一组参与者，他们的神经病理学报告可从尸检中获得。每个符号代表一个研究参与者，方框以中位数为中心并延伸到四分位间距（IQR），而底部和顶部的胡须分别代表第1和第3个四分位数-/+1.5xIQR。作者将p0.05表示为*，p0.为**，p0.0为***，基于事后Tukey检验。d显示神经病理学评分分布与模型预测AD概率的热图。这里，地图中的每一列代表一个独特的个体，其沿水平轴的位置是根据深度学习模型的AD风险的降序函数。覆盖的阴影图案代表数据集（ADNI、NACC和FHS），每个人都从中抽取。

图6.专家级验证。a对于COGNC任务（第1行），使用NACC数据集中的随机病例子集（n=），将委员会认证的神经学家（n=17）的诊断准确性与深度学习模型的性能进行比较。个体临床医生的指标与训练模型的ROC和PR曲线相关。个人临床医生的表现由蓝色加号表示，平均临床医生表现以及误差条由ROC和PR曲线上的绿色加号表示。平均ROC/PR曲线和标准偏差分别显示为粗线和阴影区域。还显示了成对Cohen的kappa统计量的热图，以证明临床医生队列中的评分者间一致性。对于COGDE任务（第2行）、ROC、PR和评估者协议图形以相同的方式与认证的神经科医生进行了比较。对于这些任务，所有神经科医生都可以访问多模态患者数据，包括MRI、人口统计、病史、功能评估和神经心理学测试。相同的数据被用作训练深度学习模型的输入。b为了验证ADD任务，作者将NACC队列中的痴呆病例的随机子集（n=50）提供给神经放射科医师团队（n=7），他们将AD与其他病因引起的痴呆（nADD）分类。如上所述，医师队列的诊断准确性与使用ROC和PR曲线的模型性能进行比较。用于可视化模型和临床医生表现的图形约定如上文a中所述，并且再次显示成对的Cohen的kappa值以证明评估者之间的一致性。c从选定的大脑区域平均的第二个卷积层的SHAP值显示为与神经放射科医生分配的萎缩分数相对应的图。橙色和蓝色点（以及回归线和95%CI）分别代表左右半球。Spearman相关系数和相应的双尾p值也显示出来，并证明SHAP评分与临床医生指定的区域萎缩严重程度之间具有统计学意义的比例。

专家级验证

最后，为了给作者的建模方法提供临床基准，招募了神经科医生和神经放射科医生对NACC病例的一个子集执行诊断任务。神经科医生和神经放射科医生的方法和表现表明不同临床实践之间存在差异，使用所有任务的成对kappa（κ）评分评估的评分者间一致性适中。特别是在神经科医生中，作者观察到COGNC任务的平均κ=0.（图6a，第1行）和COGDE任务的平均κ=0.（图6a，第2行）。在执行ADD任务的神经放射科医生中，作者发现平均κ=0.（图6b）。在NC、MCI、AD和nADD的整体4分类中，作者观察到融合模型的准确度（平均值：0.，95%CI：[0.，0.]）达到了神经科医生的准确度（平均值：0.，95%CI：[0.，0.]）。有趣的是，非成像CatBoost模型（平均值：0.，95%CI：[0.，0.]）实现了类似水平的4类准确度，但不是仅MRI模型（平均值：0.，95%CI：[0.，0.]）。然而，仅MRI模型确实在ADD任务中的诊断准确性（平均值：0.，95%CI：[0.，0.]）比神经放射科医生（平均值：0.，95%CI：[0.，0.]）有适度的提高（图6b）。区域SHAP平均值与临床分级萎缩严重程度之间的统计学显着相关性表明CNN特征与广为人知的痴呆标志物之间存在联系（图6c）。

讨论

在这项工作中，作者提出了一系列机器学习模型，这些模型可以处理多模态临床数据以准确地对AD进行鉴别诊断。这些框架可以连续实现多个诊断步骤，首先根据整体认知状态（NC、MCI和DE）对人进行划分，然后将AD的可能病例与nADD的病例分开。重要的是，作者的模型能够灵活地组合成像和非成像数据，并且它们的性能在具有多种认知状态和痴呆亚型的多个数据集中得到了很好的推广。

作者的融合模型在诊断任务中展示了最高的整体分类准确度，取得的结果与从多个机构招募来完成临床模拟的神经科医生相当。值得注意的是，在NACC测试集和OASIS外部验证集中都观察到了相似的性能水平。作者的仅MRI模型也超过了执业神经放射科医生的平均诊断准确性，并在另外6个外部队列（ADNI、AIBL、FHS、NIFD、PPMI和LBDSU）中保持了相似的性能水平，从而表明诊断能力不偏向于任何单一数据源。还值得注意的是，DEMO和ALZ分数具有很强的分析重要性，就像用于痴呆诊断的传统信息一样。例如，在ADD任务中，SHAP分析显示ALZ评分在准确预测疾病状态方面比标准临床实践中使用的关键人口统计学和神经心理学测试变量（例如年龄、性别和MMSE评分）具有更大的影响。这些源自CNN的分数在用于其他机器学习分类器时保持相同的重要性水平，这表明在数字健康工作流程中具有广泛的实用性。

此外，事后分析表明，机器学习模型的性能是建立在痴呆症相关的神经变性的既定模式之上的。网络分析表明AD和nADD人群之间SHAP值的区域分布不同，这在海马、杏仁核和颞叶等区域最为明显。这些区域的SHAP值也与神经放射科医生的萎缩评级有很强的相关性。尽管最近的工作表明，可解释的机器学习方法可以识别成像数据中的虚假相关性，作者认为有能力将区域SHAP分布与解剖学萎缩以及Aβ淀粉样蛋白、神经纤维缠结和神经元斑块的半定量评分联系起来，使建模结果与死后诊断的金标准相联系。更广泛地说，作者的方法展示了一种将深度学习方法与医疗保健中有效的临床证据相融合的手段。

作者的工作建立在先前构建痴呆诊断自动化系统的努力之上。此前，作者开发并在外部验证了一种可解释的深度学习方法，使用MRI和临床变量的多模态输入对AD进行分类。尽管这种方法提供了一个新颖的框架，但它依赖于将个体区分为二元结果的人为场景，这简化了现实世界环境的复杂性。作者目前的工作通过模仿记忆诊所设置并考虑整个认知范围内的案例来扩展这个框架。尽管许多团体已经接受了使用深度学习进行nADD诊断的挑战，甚至这些任务也被构建为疾病亚型之间的简单二元分类。鉴于医学实践很少减少到两种病理之间的选择，在深度学习模型可以被吹捧为临床决策支持的辅助工具之前，需要能够更充分地复制专家鉴别诊断过程的集成模型。作者的结果展示了一种使用深度学习扩展诊断任务范围的策略，同时还确保自动化系统的预测仍然基于已建立的医学知识。

有趣的是，应该注意的是，仅非成像模型的性能就接近了融合模型的性能。然而，包含神经影像数据对于通过临床标准（例如，与死后神经病理学报告的互相关）验证作者的建模结果至关重要。这种验证性数据源不容易与非成像模型同化，因此限制了将其性能独立地建立在非计算标准中的能力。因此，作者并没有将神经影像学对诊断准确性的适度贡献视为一个缺点，而是认为作者的结果提出了一条道路，即平衡对透明度的要求和使用常规收集的临床数据建立模型的需要。像作者这样的模型可以在资源丰富的领域得到验证，在这些领域，先进的神经影像学有助于可解释性。由于医生可能难以将医疗决策委托给人工智能中的黑盒模型，将机器学习结果建立在已建立的痴呆神经科学中可能有助于促进临床应用。尽管如此，作者注意到非成像模型可能最适合在全科医生（GP）和资源匮乏的环境中部署。

在功能上，作者还认为，作者的方法提供的输入灵活性是痴呆症多个阶段临床采用的必要前提。鉴于亚组分析表明对训练数据的多种组合（即人口统计、临床变量和神经心理学测试）具有显着的4种诊断能力，作者的整体框架可能适用于临床实践的许多变化，而无需提供者显着改变他们的典型工作流程。例如，全科医生经常在有或没有直接订购MRI测试的情况下进行认知筛查，而记忆专家通常会扩大测试范围，包括成像和高级神经心理学测试。这种沿着临床护理连续体整合的能力，从初级护理到三级护理，使作者的深度学习解决方案能够通过提供筛查和下游诊断的工具来解决综合痴呆症护理中的两级问题。

作者的研究有一些局限性。首先，在混合性痴呆的情况下，只要出现这种情况，本模型就会默认诊断为AD，从而将单一诊断归因于患有多种合并症的参与者。鉴于混合性痴呆症相当普遍，未来的工作可能包括多标签分类的可能性，该分类可能允许识别同一个体内同时发生的痴呆症状况（例如，LBD和AD、VD和AD）。作者的队列也没有包含任何确诊的非典型AD病例，估计影响大约6%的老年发病病例和三分之一的早发性疾病患者。还必须注意，MCI本身就是一个广泛的类别，包括可能会或可能不会发展为痴呆症的人。当在许多队列中获得相关数据时，未来的调查可能包括记忆删除和非记忆删除的MCI受试者，以了解患有前驱AD的人的不同特征。作者还承认，研究数据主要来自主要