人工智能对医疗领域的研究现状与数据分析以及总结-电子发烧友网

Luke Oakden-Rayner 是澳大利亚知名学府阿德莱德大学的在读医学博士生、放射线学专家，曾发表过多篇医疗人工智能方面的论文。他在顶级杂志《Nature》上发表的一项研究成果显示，其团队开创性地研发出可以预测人类寿命的仪器。他一直在追逐医疗AI领域的发展，从今年5月份开始，他写了一系列的博客来介绍这一领域的最新研究进展，目前更新到了第三篇，其系列博客的名字就叫《人类医学的终结 - 医学AI研究最前沿》（The End of Human Doctors – The Bleeding Edge of Medical AI Research）。今天给大家介绍第一部分，希望你可以从中领会到人工智能对医疗领域的影响。

接下来几天，我们会陆续放出同系列另外两篇。欢迎继续关注人工智能和医疗这个热点话题。

今天的话题：机器学习最终是否会代替人类医生？

我们要探讨的这篇论文，它采取的方法，绝对可以比以往任何一种方法都好。本来我想在一篇博客里讨论好几篇类似的论文，可惜每一篇论文都有很多值得人们深思的地方（这篇文章就已经占了3000字了），所以每一篇论文我将花整个篇幅去深度探讨和理解。然后我将在几周里分开讨论这些文章，于是就产生了我博客中关于医疗人工智能这个系列专题。

对于本次话题，我非常感谢 Lily Peng博士，这篇论文的作者之一，他对我提出的许多问题做出了非常充分的解答。

这里先奉上一份简单的总结：

TL:DR

google（和他们的合作者）训练了一个系统，可以检测糖尿病视网膜病变（全世界5%的失明由它引起），该系统能够像一个眼科医生一样做出诊断。
这是一个有用的临床任务，它可能不会节省很多的费用，也不会在医疗自动化以后取代医生，但是它的提出有很大的人文情怀。
他们使用了13万个视网膜图像进行训练，比公开的数据集大了1到2个数量级。
他们使用阳性案例丰富了他们的训练集，在某些程度上抵消了不平衡的数据分布带来的影响。
由于大多数深度学习模型都是针对低分辨率的图像，所以原数据被下采样处理，丢弃了90%以上的像素值，然而我们无法评测这样做是否有利。
他们雇佣了一组眼科医生来对图像进行标注，可能会花费数百万美元，这样做的目的是为了使标注更准确，避免出现误判。
第5点和第6点是造成当前所有深度学习系统错误率高的原因，而且这个问题很少被谈及。
深度学习之所以比医生更有优势，是因为它们可以在各个“操作点”上运作，相同的系统可以执行高灵敏度筛选和高特异性诊断，不需要再加额外的训练。
这是一个很棒的研究内容，人们能够很容易的理解，并且在文本和补充中有很多有用的信息。
这项研究似乎符合目前FDA对510（k）批准的要求。虽然这项技术不太可能通过，但是该系统或衍生物在未来的一两年内很可能加入到临床的实践当中去。

免责声明：本文主要针对大众化的群体，包括机器学习领域的专家、医生等。相关专家们可能会觉得，我对一些概念的理解很肤浅，可是我还是希望他们能在自己研究领域之外找到更多有趣的新想法。还有一点要强调的是，如果这篇文章里有任何说错的地方，请读者告诉我，我会及时改正。

研究现状

在讨论之前，我想提醒大家，虽然从2012年开始，深度学习就逐渐发展成一种研究者经常使用的方法，但是五年之内我们并没有在医学中使用这种方法，为了安全起见，我们的医疗人员也通常比技术的发展落后一步。大家了解到这个背景以后，就可以想象到现在取得的一些成果更是令人难以置信，而且我们应该客观地认识到，人工智能对医疗的发展只是一个开始。

在论文中提出了，医疗自动化已经实现了突破性的进展，我会在本文中简单回顾一下，也适当地增加了一些有用的知识。我会进一步介绍这个研究，在介绍之前先花几分钟时间说明几个关键性的问题：

任务——这项任务是临床任务吗？如果实现自动化，在医疗实践过程中会面临多大的干扰呢？为什么选择这项特定的任务呢？
数据——如何收集和处理需要的数据？数据怎么处理才能符合医学实验和监管的要求呢？我们需要深入了解医疗人工智能对大数据的要求。
结果——人工智能将战胜医生还是打成平手？他们究竟测试了什么？我们还能有什么其他的收获吗？

结论——这个结果有多大的影响力？我们还可以进一步得到其他的结论吗？

Google的最新研究

任务：

糖尿病视网膜病是造成失明的一个重要病变，其成因是由于眼睛后部的细小血管损伤的造成的。医生可以通过观察眼睛后部的血管进行诊断，这其实是一项感知任务。

图一例如，DL系统能够学会如何识别“棉花状斑点”一样的白斑图案

他们训练了一个深度学习系统，可以完成和评估与糖尿病视网膜病变相关的几项工作，主要的成果是对一组糖尿病视网膜病变的病例进行评估，这些患者有着中度或者更严重的眼睛疾病（这组患者的治疗方式和非对照组的患者的治疗方式不同）。他们还测试了深度学习系统对其他严重的视网膜病变的识别能力，以及黄斑是否水肿的能力。

数据：

他们使用13万张视网膜图片对设计的深度学习系统进行训练，每个级别由3到7名眼科医生来投票确定，最终的结果以多数票来决定。图像是从四个地方的医院（美国EyePACS和3家印度医院）采集的可追溯的临床数据，由不同的相机拍摄出来的。

他们在两个数据集上验证了这个系统（在医学中，术语“验证”是指不参与到系统开发、训练环节的患者，与机器学习中的测试集是一个意思）。其中的一个数据集是对EyePACS数据集随机采样得到的，另一个数据集来自3家法国医院（Messidor-2）的公开数据集。第二个数据集中的所有图片是由同一个相机拍摄的。这些测试集由7-8个眼科专家进行分级，同样采用多数表决机制。

用来开发、训练的数据集中，视网膜病变的患病率占比55%，恶化率占比8%，验证数据中患者的患病率远远低于一般患者的患病率，在19.5%的患病率中，只有1.7%的严重或恶化。这样的数据集是研究者刻意设计的，训练集中有很多阳性病例（他们增加了病例，比通常发生在临床人群中更多）。

对于数据集的质量，视网膜图片的分辨率通常在1.3到350万像素之间。这些像素被缩小到299*299的分辨率，也就是0.08百万像素（整整少了94％到98％的像素！）。这是他们设计的网络结构的特性，其他大小分辨率的图像不能使用。

神经网络：

他们使用了Google Inception-v3深度神经网络的预训练版本，这也是到目前为止使用效果最好的图像处理系统之一。预训练意味着这个网络已经拿来训练过一些非医疗的物体（例如猫和汽车的照片），然后再在这个基础上对特定的医疗图片进行训练。这也是网络只接受229*229分辨率图片输入的原因。

结果：

我认为这篇论文是深度学习在医学人工智能领域取得的第一大突破。机器与眼科医生拥有几乎相同的疾病判断能力，甚至可以与“中级”眼科医生进行较量，表现也相当不错。

图二这是所谓的ROC曲线，是判断疾病诊断系统的最佳方式之一。通过计算曲线AUC下方的面积，能够将灵敏度和特异度结合在单一的指标中。99.1％是非常好的。

彩色点是专业眼科医生的诊断结果，黑线是所训练的深度学习系统的诊断结果。正如你所看到的，如果我们将所有的彩色点连接起来，就可以得到眼科医生诊断结果的ROC曲线*，与深度学习系统的ROC曲线相似。如果你不了解ROC曲线，你可以相信我，这绝对是一个证明两种诊断结果相同的有效方式（食品药品监督管理局将同意我的看法）。

他们的系统可以很准确的检测出黄斑水肿，但在一些严重的视网膜病变方面，它的绝对值（AUC值）数据有些差距，但与眼科医生的正面比较没有说明这些。

讨论：

关于这项研究，这里有一些有趣的事情要讨论一下。

费用：他们雇用了一组眼科医生来标注他们的数据，一共有50万个标签需要去标注。如果按照正常的看病价格去支付医生，大概需要数百万美元。这笔费用比大多数创业公司的成本还要多，而且他们肯定无法接受只有一个单一数据集的标注任务。从统计的角度考虑，数据就是力量。对于医疗人工智能来说，只有金钱才能产生这么多数据。换句话说，金钱就是力量。

任务：他们能够从眼睛的照片中检测到两类以上的“可视眼病”（中度或者重度视网膜病变），甚至更严重的视网膜病变和黄斑水肿。这些都是临床上非常重要的任务。最重要的是，这些任务涵盖了大多数医生在看糖尿病患者眼睛时在做的工作。当然，这个系统检测不出罕见的视网膜黑色素瘤，但是对于日常的眼睛检查，这是一个可以很好模拟医生的系统。

数据：数据是很有趣的方面，原因有两个：质量和数量。

从他们进行的系列实验中，我们可以看出来他们需要的图片的数量。他们还用不同数量的训练样本对系统的性能进行了测试。

图三数据集中图像的数量（单位：千）

这幅图像给我们展示了一些非常有趣的东西，他们的训练集中图像的数量上限为6万例，这些图像至少在97％的灵敏度工作点。值得关注的是，这比已经公开的数据集大了一到两个数量级，如果你的实验能超过97%的灵敏度，毫无疑问你的数据需求也一定会增加。

这个结果也向我们传达了关于数据集大小的其他内容。当他们努力复制眼科医生的工作时，对常见眼科疾病的灵敏度能够达到90%，但是对于重度或者更严重的疾病的灵敏度只有84%。可能是因为识别重度疾病的任务比较困难。

另外，我还注意到“中度或者重度”疾病的训练数据是普通的3到4倍。绝对数据较少（约9500例vs 34000例），而且关于流行眼病的数据也较少（9％为阳性，30％为阳性）。

机器学习需要训练分布不平衡的数据，但是不平衡的数据并不容易获得。以我的经验看来，不平衡的情况比低于30/70，机器学习会很难进行下去。这样的数据不仅使训练更加困难（较少的案例=较少的学习），并且也会让实际地诊断变得更加困难（系统在预测多类问题时会有一些干扰）。

不过，我们发现研究小组也在试图解决这个问题。在筛选人群的过程中，“参考”疾病的患病率在10%以下，所以这是一个高度不平衡的任务。因此，他们采用了额外的阳性病例以扩增训练数据集，令患病率达到30%。这样，训练结果得到了提升。并且，系统对其临床普遍性约为8％验证数据表现的较好。

但是，这种扩增较少的数据类型的方法只有在有更多的阳性案例情况下才有效，这种情况并不常发生。现在已经有了一些解决不平衡数据的方法，但是仍然没有找到一个解决不平衡数据的最佳方式。

这里还有两个关于数据质量的有趣的现象。

首先是数据的下采样。这个系统在比人类观测到的图片少98%像素点的情况下，能否观测结果和人类一样呢？我们可以肯定的说，这个系统真的可以做到。当然前提是大部分丢弃的像素必须是无用的噪声信息，否则会使深度学习系统训练的过程更加艰难。人类比计算机更善于忽视视觉噪音。

这个意义实际上更深远，因为深度学习系统已经在很多场合用来处理小型图片，但对于百万像素的大型图片**的处理，还从没有过很好的效果。实际上，高分辨率图像可能包含更多有用的信息，但是并不能适用于深度学习系统。

下采样的设想引发了一系列的问题讨论：

深度学习能对高分辨率图像有更好的训练效果吗？
低分辨率的图像是否适用于所有的医疗任务呢？
从技术的角度来看，我们是否可以在深度学习中采用高分辨率图像呢？

我不知道这些问题的答案，但是在接下来的几个星期，我们会通过阅读其他的论文来明确这些问题的答案。

关于数据的质量的第二个有趣的内容就是标注的质量问题。在机器学习中，我们需要非常准确的信息。也就是说，我们希望训练数据能够被正确的标注。比如视网膜病变的训练数据就应该是真正的视网膜病变。这些理论说起来很容易，但在实际操作中，医生们对疾病的诊断意见常常会出现分歧。所以，论文作者只是提供了数据。

人工智能对医疗领域的研究现状与数据分析以及总结

你可以从这幅图中看到，对于中等或中等以上程度的疾病，有80%的概率，至少有一个医生得出了与其他人不一致的结论！所以，使用一致的标签就是为了减少可能出现的人为错误。

然而数据集中的标签错误很难避免，并且危害着模型的性能。深度学习可以学习到任何你给它的东西。反过来说，如果标注出现问题，深度学习机器很容易做出误判。

有一个达成共识的标注并不是解决这个问题的唯一方法。一些任务可能有更准确的信息，例如我们下周会看到的一篇关于皮肤病变的论文。这篇论文中的每个病变都有病理学家给出的活检证实的诊断，但是变化不大。在极端的情况下，一些任务有非常完美的标签。我自己的一个项目就在关注着一个不能被误解的标签——死亡率。

我认为标签的关键在于你能得到的和你所投入的东西成正比。如果你使用个别医生的标签，至少你能和这个医生一样优秀。如果你使用共识性的数据，你将会比其中的任何一个人更厉害。如果你完整的使用校正信息，你可能会完美地完成任务。

影响：我对作者提出将医疗机器人作为疾病筛查工具的想法表示衷心的敬佩。他们展示了机器和眼科医生一样的运行结果（假阳性率较低，但缺少一些阳性病例），同时还显示了系统优化筛选时的结果（识别几乎所有阳性病例，但还有几个假阳性）。

这些系统和医生相比有一个主要的优势：人类医生在假设的ROC曲线上有一个单一的操作点，这是基于他们经验的灵敏度和特异性的平衡，并且很难用任何可预测到的方式去改变。相比之下，深度学习系统可以在ROC曲线的任何地方运行，不需要再加额外的训练。你可以在诊断模式和筛选模式之间进行切换，而且不需要额外的费用，这种灵活性真的太酷了！在实际的临床测试中非常有用。

考虑到监管部门，这项研究已经接近于临床使用的水平。他们验证了从真实医疗中筛选的数据集的模型，并且每个案例都有多个参与者。这项称为MRMC研究，也是FDA用于计算机辅助检测系统的一般证据标准。尽管我们并不清楚这项研究和诊断系统的关系，但是如果这个系统或者类似的系统在最近两年里取得了FDA批准，我并不惊讶。

这项任务在医疗费用方面还是很可观的。眼科并不是医学的一大部分，在成本方面，眼睛检查也并不会很昂贵。

如果这个用人工智能进行眼部病变筛检的技术能得到推广，那么它人类的影响会非常大。在许多发展中国家，糖尿病病情日益严重，但是眼科专家奇缺。鉴于图像处理在低分辨率的图片上上成功率跟高，如果能将该系统与低成本且易于使用的手持式视网膜摄像机结合起来，可以挽救数百万人的生命。

然而，即使人工智能可以代替医生对视网膜病变进行评估，这对医疗工作的影响还是很局限。并且，我认为视网膜病变筛查自动会很容易导致医生工作量增加，因为以前未确诊的患者现在也需要进一步地评估和治疗。

现在我们只讨论了对视网膜病变的评估，在我们再看几篇论文以后，我们将能够探索医疗自动化轨迹的发展意义。

接下来我会看看斯坦福大学的论文，他们声称训练的深度学习系统可以实现“对皮肤癌进行分类”。

曲线上眼科医生的结果的分布让我觉得非常惊讶，因为不同的医生可能做出非常不同的预测。其中有的医生认为有0个假阳性，而其他的医生认为有10％的假阳性。这是一个很大的错误范围。

已经使用了一些解决方案，例如首先将图像进行切片操作。但这通常会大量增加负面例子的数量，加剧了数据不平衡的问题。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
26424

浏览量
264030
人工智能

人工智能

+关注

关注
1776

文章
43824

浏览量
230582

原文标题：机器学习最终是否会代替人类医生？

文章出处：【微信号：AI_Thinker，微信公众号：人工智能头条】欢迎添加关注！文章转载请注明出处。

嵌入式人工智能的就业方向有哪些?

于工业、农业、医疗、城市建设、金融、航天军工等多个领域。在新时代发展背景下，嵌入式人工智能已是大势所趋，成为当前最热门的AI商业化途径之一。

发表于 02-26 10:17

人工智能技术在军事情报领域的应用现状和发展趋势

对人工智能技术在军事情报领域应用与研究现状进行了分析梳理,以期为后续军事情报研究提供借鉴。从情报

发表于 09-18 12:27 •815次阅读

<b class='flag-5'>人工智能</b>技术在军事情报<b class='flag-5'>领域</b>的应用<b class='flag-5'>现状</b>和发展趋势

《通用人工智能：初心与未来》-试读报告

作者给出的结论。整体读下来，可以给我们关于通用人工智能全面的了解。作者也反复强调了通用人工智能与专用智能的区别。尤其是人们错误的认为一堆专用智能堆砌起来就是通用

发表于 09-18 10:02

如何将人工智能应用到效能评估系统软件中去解决

以使用机器学习算法，对实时数据进行分析和处理，以便更好地总结和预测未来趋势。　　其次，华盛恒辉人工智能可以帮助我们识别业务流程中的瓶颈和短板，并提供更有效的解决方案。例如，我们可以使

发表于 08-30 12:58

人工智能的发展现状及前景

。人工智能始于上世纪六十年代，随着计算能力、数据累积和算法进步不断提升，人工智能得到了飞速发展。发展现状 1.应用场景日益广泛 人工智能技

发表于 08-17 12:37 •7242次阅读

什么是人工智能课程

人工智能课程的目的是使学生掌握人工智能基本原理和应用，熟悉机器学习、深度学习、自然语言处理、计算机视觉等技术，以及掌握数据分析和模型构建的基本方法。

发表于 08-13 14:22 •1240次阅读

人工智能的应用领域有哪些

也非常广泛。本文将介绍人工智能的应用领域，包括以下方面。一、医疗保健领域 人工智能能够进行智能

发表于 08-12 17:44 •8914次阅读

人工智能需要哪些知识

人工智能需要哪些知识随着人工智能的发展和普及，越来越多的人开始关注这一领域。但是，想要从事人工智能相关的工作，不仅需要具备一定的技术水平，还需要掌握一些基础知识。本文将从

发表于 08-12 17:27 •618次阅读

人工智能属于什么领域

人工智能属于什么领域 人工智能（AI）属于计算机科学和工程学领域，主要研究如何使计算机能够模拟人类智能

发表于 08-12 17:26 •1800次阅读

人工智能技术有哪些

技术的几种主要类型以及它们的应用。第一，机器学习。机器学习是一种人工智能技术，它利用算法让计算机能够从数据中自动学习，并通过这些学习提高预测准确性。它可以在许多领域应用，如大规模

发表于 08-12 16:37 •1234次阅读

人工智能应用有哪些领域

人工智能应用有哪些 人工智能（AI）是在计算机科学领域中的一个研究领域，是用计算机实现智能行为的

发表于 08-12 16:26 •955次阅读

关于人工智能的行业发展

和工作方式。而未来，人工智能将在更多领域展现其强大的应用潜能。一、医疗保健：人工智能在医疗领域

发表于 07-27 09:45 •594次阅读

人工智能是干嘛的 人工智能在教育中的应用研究

　　摘　要：如今人工智能在教育行业的应用已经收到了越来越多的关注。本文通过查阅相关文献资料，分析其研究与应用，总结了人工智能在教育行业中的应

发表于 07-18 16:55 •0次下载

电商数据分析攻略，让你轻松搞定数据分析！

商行业共性分析需求打磨而成，旨在帮助电子商务公司更好地了解和满足他们的客户需求，以实现业务增长。一、方案特点奥威BI电商数据分析方案的特点是其高度自适应性和智能化。它可以自动识别有效数据

发表于 06-27 09:22

【书籍评测活动NO.16】通用人工智能：初心与未来

之后的达特茅斯研讨会开始，用机器来模仿人类学习及其他方面的智能，即实现“人工智能”（Artificial Intelligence，AI）便成为计算机领域持续的研究热点。时至今日，以深

发表于 06-21 14:41

搜索历史

人工智能对医疗领域的研究现状与数据分析以及总结

评论

嵌入式人工智能的就业方向有哪些?

人工智能技术在军事情报领域的应用现状和发展趋势

《通用人工智能：初心与未来》-试读报告

如何将人工智能应用到效能评估系统软件中去解决

人工智能的发展现状及前景

什么是人工智能课程

人工智能的应用领域有哪些

人工智能需要哪些知识

人工智能属于什么领域

人工智能技术有哪些

人工智能应用有哪些领域

关于人工智能的行业发展

人工智能是干嘛的人工智能在教育中的应用研究

电商数据分析攻略，让你轻松搞定数据分析！

【书籍评测活动NO.16】通用人工智能：初心与未来