干细胞之家 - 中国干细胞行业门户第一站

 

 

搜索
干细胞之家 - 中国干细胞行业门户第一站 干细胞之家论坛 干细胞行业新闻 皮肤科的“GPT-4”时刻!200万张图像炼成全能AI,精准诊 ...
朗日生物

免疫细胞治疗专区

欢迎关注干细胞微信公众号

  
查看: 1794|回复: 0
go

皮肤科的“GPT-4”时刻!200万张图像炼成全能AI,精准诊断128种皮肤病 [复制链接]

Rank: 7Rank: 7Rank: 7

积分
24651 
威望
24651  
包包
144200  

优秀版主 博览群书 美女研究员 优秀会员

楼主
发表于 6 天前 |只看该作者 |倒序浏览 |打印
Nature Medicine:皮肤科的“GPT-4”时刻!200万张图像炼成全能AI,精准诊断128种皮肤病
. D1 D" p1 s, {" h: O( K+ i& G+ r7 X来源:生物探索 2025-06-11 12:08
# X# _* R" k4 `: FPanDerm展现了惊人实力:在早期黑色素瘤的动态监测中,其诊断准确率超越人类皮肤科医生10.2%;在AI辅助下,它能将医生的皮肤癌诊断准确率提升11%。
1 d5 }7 U& s& O+ H6 N: U2 f. J$ z你是否曾为身上一颗痣的微小变化而彻夜难眠,或因一次突如其来的皮疹而焦虑不安?在皮肤健康的“战场”上,我们每个人都可能面临困惑,而预约一位资深皮肤科专家却往往耗时耗力。然而,一个革命性的“AI超级医生”可能正将这一困境彻底改写。: ~2 u" h9 h" u' n6 m& y
6月6日《Nature Medicine》刊登了一项颠覆性研究“A multimodal vision foundation model for clinical dermatology”。一个名为 PanDerm 的多模态视觉基础模型 (multimodal vision foundation model) 横空出世。它并非普通AI,而是一位博览群书的“全科专家”,其“学识”源自对全球11家顶级医疗机构、横跨四大影像模态(临床、皮肤镜、全身摄影和病理学)的超过210万张真实皮肤图像的深度学习。
7 _" q8 |4 l: k1 m& G  @这并非科幻。在一系列严苛的直接对决中,PanDerm展现了惊人实力:在早期黑色素瘤的动态监测中,其诊断准确率超越人类皮肤科医生10.2%;在AI辅助下,它能将医生的皮肤癌诊断准确率提升11%,更能将非专科医生的常见皮肤病鉴别诊断能力提升16.5%。从癌症筛查、风险预测,到128种皮肤病的精准鉴别,它几乎无所不能。* {8 F+ E3 ]& l/ n4 r- O. F
这位AI医生是如何炼成的?它真的能成为我们触手可及的健康守护者,还是会最终取代人类医生?
# G8 F* X0 k/ F* A& G   C7 [/ u- _5 S7 \% C* C
揭秘“AI学神”的诞生:200万张图片的魔鬼训练1 S3 \7 Q' ]% |. P3 H1 q0 }
在AI的世界里,模型的强大与否,很大程度上取决于它“读过多少书”。过去的皮肤科AI,更像是一个个“偏科生”,它们可能在某个单一任务上表现出色,比如仅从皮肤镜 (dermoscopy) 图像中识别黑色素瘤。但临床实践远比这复杂得多。一位真正的皮肤科医生,需要综合分析来自不同设备、不同角度的图像信息,才能做出全面准确的判断。* J5 S8 m4 x. N3 w) }
PanDerm的目标,就是成为一名“全科医生”。为了实现这一目标,研究团队为它准备了一份前所未有的“学习大餐”——一个包含超过210万张真实世界皮肤影像的庞大数据库。! Y* `4 Z' F: l# n0 N( M5 q6 z
这份数据的“豪华”程度体现在两个方面:规模与多样性。
( y& h1 S" o- |/ f) H) e  O/ A% v2 c首先是多样性。这些数据源自四大核心影像模态 (imaging modalities),完美复刻了皮肤科医生的工作流:
! z& J. f& r" M全身摄影 (Total-Body Photography, TBP) 图像 (占比35.3%): 这是高风险人群进行皮肤癌筛查的重要工具,AI需要从中宏观地分析全身的皮损分布和风险。6 B* x5 O& q( \+ F
皮肤病理学 (Dermatopathology) 图像 (占比25.4%): 这是诊断的“金标准”,即显微镜下的组织切片图像。让AI学习病理图像,意味着它能从细胞层面理解疾病的本质。' o) F2 O5 u' ~3 ^: S4 X
临床照片 (Clinical images) (占比21.4%): 这是最常见的皮肤病图像,直接拍摄皮损及其周围区域,考验AI对宏观形态的识别能力。
8 c/ }2 o& a, u& I皮肤镜 (Dermoscopy) 图像 (占比17.9%): 这是一种特殊的放大镜拍摄的图像,能揭示皮下的细微结构,是色素性病变诊断的关键。% Z7 f9 x( x, q
这些数据并非来自单一地区,而是横跨全球,汇集了来自11个临床机构的宝贵资料,包括澳大利亚、美国、西班牙等多个国家的研究中心和医院。这意味着PanDerm学习的病例覆盖了不同人种、不同肤色、不同地区的疾病特征,为其日后的“泛化能力”打下了坚实基础。
% b3 n  |+ o- B/ z; C. A( [: l6 @其次是训练效率。拥有海量数据只是第一步,如何让AI高效地“消化吸收”才是关键。研究团队采用了先进的自监督学习 (self-supervised learning) 技术。简单来说,就是让AI自己在没有“标准答案”的情况下,通过图像自身的内在联系进行学习。  r! @# k: E" @9 {+ n& M
PanDerm的架构设计得非常巧妙,它采用了一种被称为“掩码自动编码器 (Masked Autoencoder, MAE)”的变体结构,并引入了一个强大的“导师”——CLIP模型(一种能理解图像和文字关联的超大型模型)。训练时,一部分图像被“遮盖”起来,PanDerm的任务就是根据未被遮盖的部分,精准地“复原”出被遮盖区域的深层特征。
/ H' b8 _# J; {# {这种训练方式的效率有多高?研究数据显示,相较于其他顶尖的自监督学习模型如DINOv2或MILAN,它们通常需要500到800个训练周期 (epochs) 才能达到最佳性能,而PanDerm仅用了200个周期就达到了巅峰状态,计算效率大幅提升。这在医疗AI领域至关重要,因为高质量的医疗数据远比互联网上的猫狗图片稀缺,高效的训练方法意味着可以用更少的资源办成更多的事。9 D9 M/ C' L0 p# i/ E
正是通过这样一场涵盖四大模态、超过200万张图片的“魔鬼训练”,Pan-Derm这位“AI学神”才得以诞生。它不再是一个只会解一道题的“偏科生”,而是一个融会贯通,拥有了跨模态、深层次视觉理解能力的“通才”。
8 @4 [' Z; t* H8 ]+ o终极对决:28项全能挑战,PanDerm一战封神* M+ a# w+ w4 Q
学成之后,必须接受考验。研究团队为PanDerm设置了一场堪称“皮肤科AI奥运会”的终极挑战——在28个不同的基准测试中,与现有最先进的AI模型进行全面对决。这些任务覆盖了皮肤科临床工作的方方面面,从筛查、诊断到预后预测,无所不包。* v+ x* U" C0 S1 k
结果如何?PanDerm几乎在所有赛道上都取得了“state-of-the-art”(即当前最佳水平)的表现,常常以显著优势胜出。# ~+ A: N9 d5 B0 Y" l
诊断准确性与泛化能力的大考0 [- X/ u# y  Y% a: q1 d/ W
诊断是临床的核心。研究团队在10个公开数据集上测试了PanDerm的诊断能力,这些数据集来自7个不同的国际中心,涵盖了皮肤镜、临床照片、TBP和病理图像。( e2 q8 `! K7 _" d: t( [
数据显示,PanDerm的性能令人印象深刻。: x, g: T8 [8 @& y- g4 K- a; Q
在经典的皮肤镜数据集 HAM10000 上,PanDerm的加权F1分数 (Weighted F1 score,一种综合衡量准确率和召回率的指标) 达到了0.926,相较于表现第二的模型,性能提升了4.7%。/ c/ G0 H, {" X  K! c6 P
在巴西的临床照片数据集 PAD-UFES-20 上,它的优势更加明显,性能提升高达9.0%。  h5 g6 W# U6 W( f5 r
更关键的是它的数据效率 (label efficiency) 和 泛化能力 (generalization ability)。9 P; a8 F! i1 A6 S
所谓数据效率,是指模型在只有少量标注数据的情况下能学得多好。在医学领域,由专家标注的数据既昂贵又稀缺。研究发现,在多个任务中,PanDerm仅使用10%的标注训练数据,就能达到甚至超过其他模型使用100%数据训练出的性能。这意味着在部署新任务时,PanDerm可以极大地减少对专家资源的依赖,加速AI应用的开发周期。
6 W( i% g" V. D$ v而泛化能力,则考验模型在面对一个全新环境、全新人群时,表现是否依然稳定。研究人员将PanDerm应用在7个它在训练中从未见过的外部医疗中心数据集上,进行黑色素瘤诊断测试。结果显示,PanDerm在所有7个数据集上都显著优于其他模型。特别是在三个它从未训练过的临床照片数据集上,其AUROC(Area Under the Receiver Operating Characteristic curve,衡量模型综合诊断能力的指标,越接近1越好)分别提升了4.0%、2.6%和2.1%。这证明了PanDerm学到的不是特定数据集的“应试技巧”,而是真正可迁移、可泛化的“医学知识”。4 t2 R! v0 v' r" H* V
拓宽视野:从皮肤癌到128种常见皮肤病) y% q" z) N5 ]: X- o0 U
皮肤科远不止皮肤癌。湿疹、牛皮癣、各类感染……日常生活中困扰人们的皮肤问题五花八门。PanDerm能否应对这些更广泛的挑战?
: G+ v6 c5 L6 E! Z2 \! _! C研究团队在三个覆盖了从常见到复杂皮肤病的数据集上进行了测试。其中一个名为MMT-74的数据集,包含了多达74种细分的皮肤状况。结果显示,随着疾病种类的增加,PanDerm的优势愈发突出。
- i* W3 w" f8 C% \' x在包含9种皮肤病的MMT-09数据集上,PanDerm的加权F1分数比次优模型高3.2%。
. q& {8 e; u7 b5 E3 `$ ^) l在公共数据集DermNet(23种疾病)上,优势扩大到7.1%。# t8 B5 i7 F4 A
而在最复杂的MMT-74数据集上,它的性能提升达到了8.2%。8 i  S) n1 ]% N; g: x
这表明,PanDerm强大的特征表示能力,使其能够精准地捕捉不同疾病间的细微差别,即便是在类别繁多、极易混淆的情况下,依然能保持高水平的诊断能力。) \" b, v: z( Y# a. \) C
与时间赛跑:AI如何“预见”疾病的未来?
* L. I( r+ B* N如果说诊断是评判“现在”,那么更让研究人员兴奋的,是AI预测“未来”的潜力。PanDerm在这方面展现了两个惊人的能力:早期变化检测和转移风险预测。
9 v0 I5 N4 n# }; c2 q火眼金睛:捕捉毫米间的早期癌变  h5 o* u  R# W/ O- C
对于可疑的色素痣,医生常采用“短期序贯数字皮肤镜检查”(short-term sequential digital dermoscopy imaging) 的策略,即在3个月左右的时间里,连续拍摄多张皮肤镜图像,通过对比观察其细微变化来判断是否需要手术切除。这种方法能有效发现早期黑色素瘤,但极度依赖医生的经验和眼力,且耗时耗力。
: P* a4 ^% v8 X/ l: ^PanDerm被赋予了这项“动态视觉”的任务。研究团队开发了一套精密的图像处理流程,能对齐不同时间点拍摄的图像,排除光照、角度等干扰,让AI专注于病变本身的真实变化。4 d! W0 q4 Y+ U% y
在一个名为SDDI1的数据集上,原始的AI变化检测准确率(以AUROC衡量)仅为0.596,几乎相当于抛硬币。而经过图像处理优化后,PanDerm将这一准确率提升到了0.706。在另一个更具挑战性的SDDI2数据集上,准确率也从0.683提升至0.767。更重要的是,在使用优化流程后,PanDerm的表现比所有其他AI模型都要好,在SDDI1和SDDI2上分别领先次优模型4.3%和3.7%。
+ \( [3 i6 c* P: @. E这意味着,PanDerm能够比其他模型更可靠地识别出那些肉眼难以察觉的早期恶性变化,为患者争取到宝贵的治疗时间。8 l- E; \+ A- U# x
超越诊断:预测黑色素瘤的“宿命”* h; Q* g+ g' u8 s$ }
对于已经确诊为侵袭性黑色素瘤的患者,最大的恐惧莫过于——它会复发和转移吗?传统上,医生根据肿瘤厚度、是否溃疡等临床指标来评估风险,但并不总是那么准确。+ g% \2 Z5 J, j, [$ M. K
研究团队探索了一个大胆的方向:能否仅从一张诊断时的皮肤镜图像,就预测出这颗黑色素瘤未来的转移潜力?他们在一个包含680张侵袭性黑色素瘤图像的国际多中心数据集(ComBineMel)上对PanDerm进行了测试。
7 A! D" v- B1 K. U4 P结果令人震撼。
9 K1 A* e" q8 T% K6 t9 d8 F1 e在区分“会转移”与“不转移”的二分类任务中,PanDerm的AUROC值高达0.964(95% CI为0.937-0.991),非常接近完美。
& d. U: x( e  M- Z) h它甚至能细分出“局部转移”和“远处转移”,其表现比现有方法好2.8%。( E( j! l7 s8 |) N. v+ J" o3 p
为了验证这一预测的临床价值,研究人员进行了生存分析 (survival analysis)。他们根据PanDerm的风险评分,将患者分为“高危组”和“低危组”。结果显示,被PanDerm标记为高危的患者,其无复发生存期 (recurrence-free intervals) 显著缩短。其风险比 (Hazard Ratio) 达到了惊人的5.63,这意味着高危组的复发风险是低危组的5.6倍以上。1 k, m" L6 Y7 L: S, V; v
更令人信服的是,当把PanDerm的预测分与所有传统的临床风险因素(如年龄、性别、肿瘤厚度、溃疡等)放在一起进行多变量分析时,PanDerm的预测成为了最强、最独立的复发风险预测指标。
* r# y2 m% E) k3 C1 o在3年、5年和7年的时间点上,PanDerm的预测准确性(时间依赖性AUC)分别达到了0.950, 0.931和0.909,全面超越了仅使用多项临床指标的传统模型。& k: P( m( Z# ~1 H, i$ ?6 E
这不再是简单的图像识别,而是真正意义上的“预后预测”。PanDerm仿佛拥有了一双能够洞察肿瘤恶性潜能的“眼睛”,为医生制定个性化治疗和随访方案提供了前所未有的强大工具。
, o& h9 \* z& _! J7 D& j最佳拍档还是终极替代?AI与人类医生的“双向奔赴”
$ t9 E! V+ M9 f+ M, GPanDerm如此强大,是否意味着皮肤科医生即将被“取代”?为了回答这个问题,并探究AI在真实临床场景中的应用价值,研究团队精心设计了三项“人机协作”的研究。0 E5 X# |2 H& f2 i; H8 s
研究一:早期黑色素瘤检测,AI vs. 医生
$ e' w1 H4 ~1 e在这项研究中,12位人类评审员(包括7名经验丰富的皮肤科医生和5名皮肤科培训生)与PanDerm一起,分析序贯皮肤镜图像,任务是尽早发现黑色素瘤的恶性迹象。
4 \5 H' H" B/ t, L结果是颠覆性的:在总体诊断准确率上,PanDerm比人类评审员的平均水平高出10.2%,甚至比表现最好的人类专家还要高3.6%。
/ f$ R& N- ~( t  \# _在“早期发现”这一关键能力上,差距更为悬殊。对于那些最终确诊为黑色素瘤的病例,PanDerm在第一次拍摄图像时就成功识别出了其中的77.5% (89例中的69例)。而人类医生,在同一时间点,平均只能识别出32.6%。
, u( [! l, E2 Z: G+ f& K4 v这表明,AI在处理动态、细微的视觉变化信息时,可能比人类更敏感、更稳定,能够克服人眼易疲劳、主观性强等弱点。9 Z* z2 T9 w5 G1 W- E
研究二:AI辅助下的皮肤癌诊断,1+1>2?" H2 Q- \) h% f% J3 H; U9 q7 `& ?5 \: n
第二项研究邀请了41名不同经验水平的临床医生,对包含7种不同类型皮肤病变的皮肤镜图像进行诊断。他们先独立诊断一次,然后查看PanDerm给出的概率预测后,再进行第二次诊断。  K7 g7 G9 \8 {5 ^9 G6 H+ A/ |- z9 G
结果显示,AI的辅助作用非常显著。
+ V2 c* R% l* ^) R" H医生的总体诊断准确率从未使用AI时的0.69,显著提升到了使用AI辅助后的0.80。
" M* f% U1 z2 H  E5 Z  O* I; M这种提升对于经验较少的医生尤其明显。低年资医生的准确率提升了17%,中年资医生提升了12%,而经验丰富的高年资医生也获得了6%的提升。
% ]1 h1 v! _! V4 p# R% t& z4 a这意味着PanDerm可以成为一个强大的“教学工具”和“安全网”,帮助经验不足的医生快速成长,减少误诊,尤其是在基层医疗环境中。
9 }9 d6 c7 u$ [% }9 |2 y/ g5 t1 v  @研究三:128种皮肤病的“开放性考卷”,AI的终极考验9 K- n) u* ^& q. R: ^
最后一项研究是迄今为止最全面、最接近真实临床场景的考验。研究团队邀请了37名医疗专业人员,他们被分为两组:皮肤科专家组(20人,包括皮肤科医生和培训生)和全科医生组(17人,包括全科医生、护士等)。他们需要诊断一个包含128种不同皮肤病的临床照片数据集。7 E) z9 P4 ~8 }
这项研究得出了几个关键结论:
6 ?! h* ]( Z# ^- ^8 kAI显著提升了所有人的诊断能力:在PanDerm的帮助下,所有读者的平均Top-1诊断评分从2.83分提高到3.08分(满分4分),Top-3诊断准确率从54.0%提高到63.4%。7 O2 n8 o4 C7 E1 \* ~
对非专科医生的帮助更大:全科医生组在AI辅助下,Top-3诊断准确率提升了16.5%,而皮肤科专家组提升了10.3%。这再次证明了PanDerm在弥合专科医疗资源鸿沟方面的巨大潜力。
& E  ?7 z! d9 ?一个出人意料的发现:当研究者将PanDerm作为一名独立的“参与者”进行评估时,发现它自身的诊断准确率(Top-1评分为3.6)不仅高于无AI辅助的人类医生(2.83),甚至高于“人+AI”协作后的诊断准确率(3.08)!: H1 m; j, i, o( B
这个结果引人深思。它并不意味着AI应该完全取代医生。研究者认为,这可能反映了医生在采纳AI建议时的“选择性接受”现象——他们并不会盲从AI的每一个判断,而是结合自己的知识进行权衡。这恰恰是一种健康的、负责任的人机协作模式。医生依然是决策的主体,而AI则像一个无所不知、永远不会疲劳的顾问,在旁边提供最全面的信息和最客观的建议。0 w* U2 b- E. W3 x7 M
不止于皮肤,PanDerm推开的“全科AI”大门- [0 b; |6 ~; J# h  i6 ?& N
从诞生于200万张图片的学习,到在28项全能挑战中力压群雄;从精准诊断癌症,到“预见”病变未来;从超越人类专家,到成为医生的最佳拍档——PanDerm的故事,为我们描绘了一幅AI赋能精准医疗的壮丽图景。
" a  _. @3 C9 W0 \, X它向我们证明,一个设计巧妙、数据丰富的多模态基础模型,能够克服过去AI模型的局限,真正满足复杂临床工作的需求。它的成功不仅仅是皮肤科领域的突破,更为其他依赖多模态影像诊断的医学专科,如眼科、放射科、病理科等,指明了一条可行的发展道路。8 ]- m4 o5 V, B, U6 H
当然,正如研究者所强调的,PanDerm并非终点。目前的验证覆盖了约200种皮肤病,而人类已知的皮肤病超过1000种。对于罕见病、复杂系统性疾病的皮肤表现,以及在不同人种肤色间的公平性问题,还需要更深入、更广泛的研究。
) s5 C9 S# O& Y$ A但无论如何,PanDerm已经推开了通往新时代的大门。在这个时代里,AI不再是冰冷的代码或遥远的噱头,而是一位温暖、可靠、无处不在的健康守护者。它或许无法取代医生与患者之间的人文关怀,但它无疑能够将医生从繁重、重复的视觉分析工作中解放出来,让他们有更多时间去沟通、去思考、去创造,最终实现科技与医学最完美的融合。
, i/ H% X# L" Q# k% f下一次,当你再为皮肤上的一个小变化而担忧时,或许为你提供第一个专业建议的,就是像PanDerm这样不知疲倦的“AI皮肤科医生”。而这,正是科技带给我们最好的礼物。4 ^- s$ b+ |" y" v! A
+ K3 Y5 U2 y: I" e2 g
附件: 你需要登录才可以下载或查看附件。没有帐号?注册
‹ 上一主题|下一主题
你需要登录后才可以回帖 登录 | 注册
验证问答 换一个

Archiver|干细胞之家 ( 吉ICP备2021004615号-3 )

GMT+8, 2025-6-17 23:47

Powered by Discuz! X1.5

© 2001-2010 Comsenz Inc.