0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

DNN与逻辑回归效果一样?

DPVg_AI_era 来源:未知 作者:胡薇 2018-06-28 16:01 次阅读

谷歌用深度学习分析电子病例的重磅论文给出了一个意外的实验结果,DNN与逻辑回归效果一样,引发了热烈讨论。不仅如此,最近Twitter讨论最多的论文,是UC戴维斯和斯坦福的一项合作研究,作者发现神经网络本质上就是多项式回归。下次遇到机器学习问题,你或许该想想,是不是真的有必要用深度学习。

近来,谷歌一篇关于使用深度学习进行电子病例分析的论文,再次引发热议。

起因是以色列理工学院工业工程与管理学院的助理教授 Uri Shalit 在 Twitter 上发文,指出这篇论文的补充材料里,有一处结果非常值得注意:标准化逻辑回归实质上与深度神经网络一样好。

Uri Shalit 的研究方向是将机器学习应用于医疗领域,尤其是在向医生提供基于大型健康数据的决策支持工具方面。其次,他也研究机器学习和因果推断的交集,重点是使用深度学习方法进行因果推断。在加入以色列理工学院以前,他先后在 David Sontag 教授在纽约大学和在 MIT 的临床机器学习实验室当博士后。 Uri Shalit 说的补充材料中的结果是指这个:

其中,基线 aEWS(augmented Early Warning Score)是一个有 28 个因子的逻辑回归模型,在论文作者对预测患者死亡率的传统方法 EWS 进行的扩展。而 Full feature simple baseline 则是 Uri Shalit 说的标准化逻辑回归。

注意到基线模型(红框标识)和深度模型在 AUCs 置信区间的重叠了吗?

Uri Shalit 表示,他由此得出的结论是,在电子病例分析这类任务中,应该选择使用逻辑回归,而不是深度学习,因为前者更加简单,更具可解释性,这些优点要远远胜过深度学习带来的微小的精度提升。

或者,Uri Shalit 补充说,这表明我们目前还没有找到正确的深度学习结构,能实现在图像、文本和语音建模领域中那样的性能提升。

谷歌首篇深度学习电子病历分析论文,Jeff Dean等大牛扛鼎之作,结果出人意料

谷歌的这篇论文“Scalable and Accurate Deep Learning for Electronic Health Records”,发表在自然出版集团(NPG)旗下开放获取期刊 npJ Digital Medicine 上,由 Jeff Dean 率队,联合 UCSF、斯坦福、芝加哥大学众多大牛,与全球顶级医学院联合完成,从题目到作者都吊足了大家的胃口。

实际上,早在今年初,新智元就介绍过这篇论文,当时它还只是挂在 arXiv 上,康奈尔大学威尔医学院助理教授王飞对当时的 arXiv 版本进行了解读。

这项工作是在 UCSF 和 UChicago 这两大医院系统的电子病历数据上,用深度学习模型预测四件事:1)住院期间的死亡风险;2)规划之外的再住院风险;3)长时间的住院天数;4)出院的疾病诊断。

文章仔细介绍了实验信息,例如如何构建病人队列、特征如何变换、算法如何评价等等。对于每一个预测任务,作者也都选取了临床上常用的算法作为基线来进行比较,例如评价死亡风险的 EWS 分数,以及评价再住院风险的 HOSPITAL 分数,并对这些模型做了微小的改进。最终结果,作者提出的深度学习模型在各项任务中都显著优于传统模型(AUC 普遍提高 0.1 左右)。

论文插图:使用深度学习预测病人住院期间死亡风险,深度学习(实线)在前后24小时时间范围内,都比基线水平(虚线)准确率更高。

如果说这次在同行评议期刊发表出的论文与之前的 arXiv 版本有什么不同,最大的就是给出了 15 页的补充资料,展示了深度学习方法与各种基线的具体数值。

谷歌这篇论文的初衷,是强调直接从 FHIR 数据中进行机器学习(“我们提出了一种对病人整个基于 FHIR 格式的原始 EHR 的表示”)。正如论文中所写的那样,其方法的原创性并不仅仅在于对模型性能的提升,而是“这种预测性能是在没有对专家认为重要的那些变量进行手动选择的情况下实现的……模型访问每位患者数以万计的预测因子,并从中确定哪些数据对于进行特定的预测非常重要”。

但是,从论文的一些表述,尤其是标题中,难免有宣传深度学习的嫌疑,也是这次争议重点所在。

UC戴维斯和斯坦福新研究,首次证明神经网络 = 多项式回归

现如今,深度神经网络已经成了很多分析师进行预测分析的首选。而在大众媒体里,“深度学习”也几乎可以算得上“人工智能”的同义词。

深度学习的热潮或许仍在持续,但很明显,越来越多的人开始冷静下来思考并且质疑。

在一篇最新公布的文章里,加州大学戴维斯分校和斯坦福的研究人员便指出,神经网络本质上是多项式回归模型。他们的文章取了一个谨慎的标题《多项式回归作为神经网络的代替方法》(Polynomial Regression As an Alternative to Neural Nets),对神经网络的众多性质进行了讨论。

作者在论文中列出了他们这项工作的主要贡献,包括:

NNAEPR 原理:证明了任何拟合的神经网络(NN)与拟合的普通参数多项式回归(PR)模型之间存在粗略的对应关系;NN 就是 PR 的一种形式。他们把这种松散的对应关系称为 NNAEPR——神经网络本质上是多项式模型(Neural Nets Are Essentially Polynomial Models)。

NN 具有多重共线性:用对 PR 的理解去理解 NN,从而对 NN 的一般特性提供了新的见解,还预测并且确认了神经网络具有多重共线性(multicollinearity),这是以前未曾在文献中报道过的。

很多时候 PR 都优于 NN:根据 NNAEPR 原理,许多应用都可以先简单地拟合多项式模型,绕过 NN,这样就能避免选择调整参数、非收敛等问题。作者还在不同数据集上做了实验,发现在所有情况下,PR 的结果都至少跟 NN 一样好,在一些情况下,甚至还超越了 NN。

NNAEPR 原理——神经网络本质上是多项式回归

其中,作者重点论证了他们的 NNAEPR 原理。此前已经有很多工作从理论和实践角度探讨了神经网络和多项式回归的共性。但是,UC戴维斯和斯坦福的这几名研究人员表示,他们的这项工作是首次证明了 NN 就是 PR 模型,他们从激活函数切入:

根据通用逼近定理,NN 可以无限逼近回归函数 r (t),

假设 p = 2,用 u 和 v 来表示特征,第一层隐藏层的输入,包括“1”的节点,将是

设激活函数为,那么第一层的输出将是 u 和 v 的二次函数。类似地,第二层将产生四次多项式,依此类推,可以生成在回归函数空间中密集的多项式。

而对于更加实际的激活函数,其本身就常常被多项式逼近。因此,也适用于上述规则。

换句话说,NN 可以被松散地视为多项式回归的一种。

实验结果:多项式回归在很多时候都优于神经网络

作者进行了很多实验来比较 PR 与 NN 的性能。在下面的各种结果中,PR 表示多项式回归,PCA 表示在生成多项式之前用 90%总方差主成分分析降维。KF 表示通过 Keras API 的神经网络,默认配置是两层,一层 256 个单元,一层 128 个单元(写作 “256,128”),dropout 比例是 0.4。DN 表示通过 R 语言包 deepnet 的神经网络。DN 会比 KF 快很多,因此在大一些的问题里会用 DN,但两者性能还是相似的。

硅谷程序员收入预测的结果

预测歌曲出版时间的结果

UCI 数据集字母预测的结果

Kaggle 数据集出租车旅途时长预测结果

哈佛/MIT MOOC获得证书预测结果

NCI 基因数据癌症预测结果

男女运动数据预测 Crossfit Open 排名

Crossfit Open 排名,数据集大小与预测精度的比较

总之,一系列实验结果表明,PR 至少不会比 NN 差,有些时候还超过了 NN。在实践中,许多分析师只是一开始就去拟合过大的模型,比如使用很多层,每层有数百个神经元。他们发现,使用 PR,很少需要超越 2 级,NNAEPR 原理表示,只用一层或者两层就够了,每一层有少量的神经元。

同时,作者也开始怀疑,拟合大的 NN 模型通常导致大多数的权重为0,或接近于0。他们已经开始调查这一点,初步结果与 NNAEPR 原理相结合表明,在 NN 初始化中 configur 大型网络可能是个糟糕的策略。

最后,他们开源了一个 R 语言的软件包 polyreg(Python 的正在制作中),里面有很大源代码可以实现很多功能。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8062

    浏览量

    130442
  • 深度学习
    +关注

    关注

    73

    文章

    5206

    浏览量

    119804

原文标题:【神经网络本质是多项式回归】Jeff Dean等论文发现逻辑回归和深度学习一样好

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    设置延时函数时,为什么把变量设置为uchar 和uint效果一样

    问各位在设置延时函数时,把变量设置为uchar 和uint效果一样,uint时间长,uchar时间短。这是什么原因啊?
    发表于 09-29 17:00

    为什么在不同电脑上运行效果一样

    我们将程序生成安装包,然后放在不同两台电脑上效果一样台电脑上运行都正常,另外台运行出现点问题,问题是将测试结果写入到ccess数据
    发表于 01-16 18:34

    浅析逻辑回归

    ML-逻辑回归-公式推导- 多种实现
    发表于 04-25 15:35

    消息邮箱发送空消息和非空消息产生一样效果

    ,OS_POST_OPT_BROADCAST);和 OSMboxPostOpt(SeMbox,(void *)1,OS_POST_OPT_BROADCAST);发送空消息和非空消息怎么产生一样效果啊?书上不是说不能发送空消息吗,怎么
    发表于 05-08 06:36

    为什么串口通信的程序RI=0前后效果一样

    ;}RI=0;为什么两个实现的效果一样,第个第次发个指令就执行,第二个程序第次发指令得
    发表于 09-02 04:36

    请问fly-by适用于多个芯片的情况效果一样吗?

    请问下关于fly-by用在2个SDRAM和1个NandFlash时,下面2个图片结构的作用是否一样?谢谢。第种情况:第二种情况: 因为看视频只有1个SDRAM的情况,所以想问问2个SDRAM的情况。上面2种情况是不是都可以?是否效果
    发表于 09-16 10:27

    为什么我敷铜的效果跟老师的不一样

    敷铜的时候和老师的效果一样,图是老师敷的,我的为什么没有和元件连接到块,图二我的
    发表于 09-29 10:05

    回归算法之逻辑回归的介绍

    回归算法之逻辑回归
    发表于 05-21 16:25

    回归算法有哪些,常用回归算法(3种)详解

    量线性回归(多个输入变量,多个输出变量)。更多线性回归的相关内容,可参考https://en.wikipedia.org/wiki/Linear_regression。逻辑回归:用来确
    发表于 07-28 14:36

    TensorFlow逻辑回归处理MNIST数据集

    。mnist.train.images 的每项都是个范围介于 0 到 1 的像素强度: 在 TensorFlow 图中为训练数据集的输入 x 和标签 y 创建占位符: 创建学习变量、权重和偏置: 创建逻辑回归模型
    发表于 08-11 19:36

    TensorFlow逻辑回归处理MNIST数据集

    。mnist.train.images 的每项都是个范围介于 0 到 1 的像素强度: 在 TensorFlow 图中为训练数据集的输入 x 和标签 y 创建占位符: 创建学习变量、权重和偏置: 创建逻辑回归模型
    发表于 08-11 19:36

    请问emWin中怎样实现手机一样的滑动效果

    emWin中怎样实现手机一样的滑动效果
    发表于 08-20 22:50

    对NCNN要做哪些修改才能获得和Android一样的运行效果

    对NCNN要做哪些修改才能获得和Android一样的运行效果呢?
    发表于 03-10 08:15

    利用置位复位指令能实现和启保停电路一样效果吗?

    利用置位复位指令能实现和启保停电路一样效果吗?
    发表于 04-07 11:39

    Uri Shalit 发文称:标准化逻辑回归和深度学习一样

    Uri Shalit 在 Twitter 上发文,指出这篇论文的补充材料里,有一处结果非常值得注意:标准化逻辑回归实质上与深度神经网络一样好。
    的头像 发表于 07-04 10:15 3014次阅读
    Uri Shalit 发文称:标准化<b class='flag-5'>逻辑</b><b class='flag-5'>回归</b>和深度学习<b class='flag-5'>一样</b>好