人工智能血细胞形态学检查的关键技术进展
2023年3月
中华检验医学杂志,第46卷第3期 第326页-第330页
杨军霞,连荷清,庞博
血细胞形态学检查是指利用显微镜对细胞大小、形状、染色性质和内含物等细胞形态特征进行定性、定量分析的经典技术方法,对于血液系统疾病或其他多种非血液系统的疾病的诊断、辅助诊断、治疗检测等具有重要作用。人工镜检染色的外周血涂片进行形态学分析是血液学疾病诊断的重要方法,但人工操作较为费时费力,不容易实现同时分析大批量的样本,且镜检结果高度依赖于检验人员的工作经验、知识储备和技能水平,主观因素比较强。近年来,随着自动化仪器的发展以及人工智能等计算机技术的进步,数字化血细胞形态学自动分析仪(系统)得以研发并应用到临床。这种基于计算机辅助诊断的系统有望大幅提高血细胞形态学分析的工作效率,并能在很大程度上避免主观性,实现标准化,提高血细胞形态学检验的工作质量和应用范围。
临床工作中,理想的人工智能辅助血细胞形态学检查系统应满足自动化、高效率、高准确度、高图像质量、可识别细胞种类多等要求,而这些目标的实现有赖于图像获取、识别、分类等关键技术的进步。自动化细胞形态学分析系统从20世纪60年代出现的Cydac扫描显微镜系统演化至今[1],在图像获取、图像分割与细胞分类等关键技术已出现了重大进展,同时也伴随着卷积神经网络、全卷积网络等深度学习算法技术的进步。
自动化采集高质量图像可以为人工智能学习提供大量训练集,也是未来临床应用的理想模式,有许多研究者在这方面进行了尝试。很多研究改进了传统人工观测和对焦方法,使采集图像的过程更为智能和自动化。许德鹏[2]使用奥林巴斯BX53 显微镜和奥林巴斯DP80摄像头来获取血液图片,采集时的对焦过程是由人观察计算机上显示的图像,并手动调节显微镜对焦旋钮。马岩[3]设计一种全自动血细胞高质量显微图像获取装置,可以进行高精度自动聚焦和图像采集等工作。李东明[4]为达到获取样品细胞成像的超分辨率的目的,完成了二维宽场结构光照明荧光显微光学成像系统设计。何文军等[5]开发了一套自动控制系统,可模拟人工阅片,自动调焦,调节血涂片位置。Kovalev等[6]为了解决细胞分布不均导致采集效率问题,设计了一个独特的采集技术,即先在较小的放大倍数下进行连续扫描,以定位细胞,根据白细胞之间的距离对其进行分层聚类,然后用大倍数进行图像采集。Wang等[7]建立了一套分子高光谱成像系统,与二维图像中的像素不同的是,高光谱立方体中的每个像素都是一个反映在波长维度上的N维光谱向量,可以显著区分原始淋巴细胞和淋巴细胞的特征。
目前数据采集技术主要分为基于传统光学显微镜和以高光谱显微成像为主的新型显微成像技术2种。基于传统光学成像技术以提高采集图像效率和图像清晰度为设计目的,有的研究模拟人工阅片来进行快速对焦成像[3,5, 6],有的研究通过改进显微镜来采集更清晰的超分辨率图像[4]。高光谱显微成像技术结合了空间和光谱信息,与传统的光学显微镜成像相比,为识别细胞提供了更丰富的信息,能更好地提高其分类精度,但其成本较高,目前尚处于研究阶段。高效率的自动对焦系统以及超高分辨率的图像采集是未来的主流应用方向。
图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程,白细胞分割则是将白细胞与血液周边图像中的其他不同成分分开,或者将白细胞的核和质分开。白细胞分割是确保计数、分类等任务准确性的关键步骤。由于细胞类型的不同、染色技术的变化、白细胞与红细胞之间的黏附,不同的白细胞在颜色和形状上有很大的不同,这些情况使得人工分割白细胞耗时,因此需要一个高效、准确的自动分割系统。对该领域的研究主要可以分为以下几个方向。
1. 传统图像处理:一些研究针对白细胞的颜色特征,先将图像二值化,在用一个阈值将白细胞从背景中分离出来,阈值分割的效果会受到阈值选取方法的影响,不同研究从不同的阈值选取方法出发,Ghane等[8]用大律法进行白细胞的提取的定位,成功识别了细胞核的特征。
一些研究针对白细胞的边缘特征进行白细胞分割,分水岭算法作为有代表性的方法之一被广泛应用在各个领域的图像分割任务上。Miao和Xiao[9]首先从距离和梯度获得的边缘信息,然后结合先验形状对分水岭算法过程进行控制和优化,最终获得更快、鲁棒性更强的细胞分割算法。
用传统图像处理方式进行细胞分割的方式因其性能易受光照、设备等拍摄条件影响,且不能很好地处理细胞挤压的问题,导致其在应用上不能获得更好的泛化能力。但该方法简单有效,可快速验证,不需要大量数据标注训练,不依赖算力,部署成本低,作为经典算法至今依然在某些细分任务上使用。
2. 传统机器学习:传统图像处理是对单张图像进行,需要专业先验知识,机器学习则是对多张图像进行训练,借助算法自动发现前景与背景的差异。Khamael等[10]提取了细胞核的颜色纹理和形状信息,采用模糊C均值聚类算法的适应性区域增长来分割和计数白细胞及其细胞核,在训练数据有限的情况下,依然获得良好的结果。Zheng等[11]提出了一种自监督的学习方法,包括无监督的初始分割和有监督的分割细化,第一个模块通过K均值聚类从细胞图像中提取整体前景区域,第二个模块进一步使用第一个模块的粗略分割结果作为自动标签,主动训练支持向量机分类器。
3. 深度学习:传统机器学习虽然在一定程度上解决了传统图像处理方法鲁棒性差、效率低的问题,但是在特征学习上仍有差距,2012年随着以AlexNet为代表的深度学习出现,越来越多的深度学习网络结构如YOLO(You Only Look Once,YOLO)系列、SSD(Single Shot MultiBox Detector,SSD)等被用在白细胞的分割上。Cao等[12]改进了YOLOv5s,通过聚类构造先验框以适应白细胞大小,实现白细胞的高精度定位,检测准确率比以往方法提高了10.7%。
在过去的十多年中,大量的研究致力于血液学显微镜图像领域,重点是白细胞及其细胞核的检测和分割,这些研究在改进现有方法的同时,也具有自身的局限性,图像校准会受到颜色分布的影响,通过几何主动轮廓、水平集算法和分水岭算法可以在弱边缘的条件下完成分割,然而对于细胞质的分割效果仍然有待提升,传统图像处理方法和机器学习方法计算成本相对较高、鲁棒性较差,例如边缘检测、阈值分割等,且很难分割重叠的细胞,Hough变换在一定程度上解决了重叠细胞分割的问题,但是速度依然很慢,近年来,利用深度学习实现白细胞分割成为了主流的研究方向,由于足够深的神经网络能容纳更丰富的语义信息,从大量数据中挖掘到重要特征,因此这些深度学习算法在速度和精度上都取得了显著提升。但是深度学习的方法因为需要大量的已标注数据,增大了算法研发的时间和人力成本。
在一个实际的图像识别系统中,图像预处理与分割的最终目的是进一步对图像的特征进行提取和分析,即先找出能够区分不同目标的合适特征参数这些特征参数对于不同目标能够得到不同的特征值根据特征值,我们就可以区分开不同的目标。比如,正常细胞和异常细胞之间在大小、形状、颜色等方面均有差别,但有一些差别很明显,而另一些不明显,所以需要尽量寻找到能够较明显地区分开二者的那些特征。同时仅仅依靠某一种特征有时难以区分目标,就需要同时依靠多个特征来综合进行分析,所以目标的特征选择是很重要的,它们直接影响图像分析的结果。
常用的图像特征类型有图像的灰度特征、纹理特征、频谱特征等。Sajjad等[13]首先对核进行分割,然后提取纹理、统计和小波特征,在众多基准数据库上验证了该系统与其他先进方案相比较好的有效性和较高的效率。通常,进行特征提取时,会对多个特征同时进行提取。何文军等人提取血细胞图像面积、边界和纹理等多种特征,对血细胞形态进行识别,该系统识别白细胞的正确率95.1%,速度≤5 min/片[5];袁满[14]在特征提取与选择方面,首先从形态、色度和纹理三个方面对白细胞核、白细胞浆进行特征提取。根据白细胞核凸包区域的特点,增加对白细胞核凸包区域的形态、色度和纹理特征提取,加入周长差异率、边缘梯度积分等特征,最终提取了100个特征。
目前较常用的特征提取方法有模糊C均值聚类、主成分分析(principal Component Analysis,PCA)、支持向量机等。特征提取是对研究对象固有的、本质的及重要的特征属性进行测量并将结果数值化。Viswanathan[15]利用细胞核的纹理、几何形状、颜色和统计特征以确定白血病的各种因素,用模糊C均值聚类训练每个细胞的单行特征向量,将白血病分出来,这使得该算法在准确性和时间消耗上优于常规血液科医生的人工分类;Khamael等[10]提出使用基于颜色纹理分布的算法,并使用模糊C均值进行区域增长来分割和计数白细胞及其核数;Al-Dulaimi等[16]使用主成分分析将感兴趣的变量的数量减少到更小的组成部分。计算协方差矩阵的特征向量,并利用特征值对向量进行排序。然后将居中数据投影到这些特征向量上,得到主成分,只保留主成分的子集,其余部分丢弃的方式进行降维。
现有的细胞分类方法主要分为两类:(1)基于手工提取的特征分类;(2)基于深度学习的分类。前者主要集中于2018年以前,2018年以后随着深度学习技术在各个领域的成功,人们开始逐渐将其引入血细胞分割、检测及分类领域,并取得显著的成果。
1. 基于传统手工提取特征的分类方法:支持向量机、随机森林、K近邻、遗传算法是最常用的几种方式。袁满[14]用支持向量机、随机森林和K近邻3种分类器进行白细胞的5分类,并对3种分类器的分类准确率进行对比分析。翟梦蝶[17]对超参数进行全局寻优,构建了改进的支持向量机模型,有效地提高了白细胞五分类的识别效率。
2. 基于深度学习的分类方法:随着深度学习在计算机视觉领域的成功,传统的细胞分割、需要手动指定特征的提取和分类方法逐渐被卷积神经网络所取代。基于深度学习的模型框架如VGGNet、ResNet等被用于白细胞分类。
Yildirim和Sinar[18]用AlexNet、Resnet50、DenseNet201和GoogleNet架构对原始数据进行分类,然后用高斯滤波器和中值滤波器用同样的4个架构重新分类,得到了更准确的分类。Sharma等[19]采用基于深度学习的DenseNet121模型进行细胞分类,并通过规范化和数据增强等预处理技术对模型进行了优化。??nar和Tuncer[20]提出了一个基于预训练的AlexNet和GoogleNet进行白细胞分类。这些基于深度学习网络的分割和分类方法适用于单一的白细胞图像,可以为白细胞分类提供许多有用的信息。Rehman等[21]构建了深度卷积神经网络模型来对淋巴细胞白血病进行细胞分类,该系统由卷积层、最大池化层来训练模型,并由全连接层、softmax和分类层来进行细胞分类。
基于深度学习的检测模型可以直接定位到图像中的所有细胞并进行分类,而不再是通过分割和分类两个步骤解决。目前,基于深度学习的检测器可以分为两类:两阶段[22]和单阶段[23]。Zhang等[24]基于YOLOv3检测离散的白细胞,然后通过图像密度估计方法计算聚集的细胞。Shakarami等[25]用Efficient-Net取代YOLOv3的特征提取方式。
传统基于特征分类的方法需要根据专业经验进行有目的的手工特征提取,该方式可解释性好,但拟合能力较弱,因此精准度及泛化能力受限。基于深度学习的分类方法不要手工提取特征,可解释性较差,需要大量的标注数据进行训练,但其凭借强大的特征自动抽取能力,展现出优异的性能。目前国内外的自动化血细胞形态分析仪也随着技术发展由基于传统特征分类的方法逐渐向深度学习的方式转变。目前主流技术多基于经典的YOLO系列、ResNet系列、VGGNet等为代表的深度特征提取网络进行细胞分类,可单独使用某一种架构,也会结合传统特征提取技术等多个架构相结合的方式进行。
大规模、高质量的血细胞图像数据是人工智能识别血细胞不断发展的基石。目前已有一些开放的显微血细胞图像数据库可以使用,这些数据库包含了白细胞、红细胞及其多种亚类血细胞的显微图像。
BCCD数据库的总图像约为12 500幅。其中包含不同种类白细胞,每种细胞大约有3 000张图像。急性淋巴细胞白血病数据库(acute lymphoblastic leukemia image database,ALL-IDB)是一个急性白血病疾病的数据库。此数据集有两个子类型ALL-IDB1和ALL-IDB2。ALL-IDB1数据集有109幅图像,分辨率为2 592×1 944,共包含510个淋巴母细胞。ALL-IDB2数据集有260幅图像,分辨率为257×257,包含130个淋巴母细胞。白细胞图像的分割与分类(Leukocyte Images for Segmentation and Classification,LISC)数据集包含健康受试者的图像。图像总数为400张,来自8名健康受试者的100张不同的血片。图像大小为720×576。C-NMC数据集包含了来自118名参与者的15 135张图像,所有图像都是BMP格式,该数据分为训练组、初步测试组,以及不同癌症和正常图像的最终测试组。ASH图像数据库由美国血液学会管理,它是一个白血病细胞图像的在线图像库,提供了不同类型的血液病细胞图像。Raabin数据库包含约40 000张白细胞的图片,有两名专家对部分细胞进行了标记,有1 145个细胞的核、浆基本信息已被提取出来。
已有研究者利用这些数据库进行了相关研究,例如Chen等[26]从BCCD数据库获得了12 444张白细胞图像,其中单核细胞、嗜酸性粒细胞、中性粒细胞和淋巴细胞均在3 000张以上,数据集裁剪后的图片像素为320×240。该研究者还从Raabin数据库获得了14 514张白细胞图像,包含301张嗜碱性粒细胞,795张单核细胞,1 066张嗜酸性粒细胞、8 891张中性粒细胞以及3 461张淋巴细胞图像,其分辨率为575×575。从LISC数据库获得了242张白细胞图像,图片像素为720×576。随后作者利用空间和通道注意力机制对白细胞进行了精确分类。国内外血细胞形态学数据库的发展,必将更好地推动人工智能识别血细胞的技术进步,有必要进一步加强我国在这类公共数据库方面的建设。
近年来,人工智能辅助血细胞形态学检查技术在细胞数字图像采集、图像分割算法、细胞特征提取及分类方面都取得了较快的发展,深度学习技术在血细胞形态学识别方面的应用尤其值得关注。尽管国外已有一些可用的数据库,但更大规模的高质量图像公共数据库仍然亟待建成,这对于技术的发展十分重要。
人工智能辅助血细胞形态学检查技术也有一些不足,例如图像的分割可能由于细胞重叠出现困难,部分白细胞亚型、特殊形态血小板和寄生虫的鉴别仍然具有挑战性。由于人工智能技术本身分析的方法并不能完全被解释,这造成其可信度仍会存在一些问题。尽管如此,我们认为,随着上述这些关键技术的进一步发展,人工智能辅助血细胞形态学检查的方法会不断完善,并在临床诊疗中发挥更加广泛和重要的作用。
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
[12]
[13]
[14]
[15]
[16]
[17]
[18]
[19]
[20]
[21]
[22]
[23]
[24]
[25]
[26]
收藏此内容
推荐给朋友