创作

完善资料让更多小伙伴认识你,还能领取20积分哦, 立即完善>

3天内不再提示

用AI打击论文图像造假,仍有4000多篇医学“问题论文”

来源:未知 作者:李倩 2018-11-12 10:19 次阅读

在生物医学领域的论文中,AI已经搜索出9%的高度重复图像,0.59%的论文被认为存在欺诈嫌疑。因图像造假撤回的医学论文,一年时间可能浪费接近10亿美元的研发成本。

“打击论文造假,维护科研正义”。这不是一句喊口号的话。

今年6月,斯坦福大学微生物学家分析了2009-2016年发表在分子与细胞生物学(MCB)上的960篇论文,发现其中59篇(6.1%)含有“不适当的”重复图像,约有2%值得再去进行图像证伪。

不过,斯坦福大学微生物学家的工作完全依靠手动,五位研究人员靠十只手从近1000篇论文里总结出了这一成果。

现在,AI的介入让论文中的可疑图像被发现的概率大大提升,一个显著的成果是,在生物医学领域的论文中,AI已经搜索出9%的图像是高度重复的,0.59%的论文被认为存在欺诈嫌疑。

用AI打击论文图像造假,仍有4000多篇医学“问题论文”

使用AI来打击论文图像造假的工作是由纽约雪城大学(Syracuse University)机器学习研究员开发算法,他们分析了PubMed Open Access子集(PMOS)中截止到2015年发布的所有数据,包含了760036篇文章、超过200万的数据。

研究人员构建了一个pipeline,以自动检测不适合图像重用候选对象,在初步检测之后,删除了可能只是文本的图像或表示为图像的方程式,留下了大约200万张图片。

接着,研究人员发现每张图像平均有大约1K高熵关键点,这产生了大的相似度检测问题,研究人员使用近似最近邻算法来解决这个问题。之后,机器学习算法来估计是否显示生物图像。

检测复制-移动重用。A.癌变细胞和缩小部分的原始例子。B.关键点(高熵区域)的计算C.最近邻匹配。D.集群关键点、跨集群匹配和仿射变换。

最后,使用人工来评估不当重用。

算法检测图像区域重用,同时对旋转、裁剪、调整大小和对比度变化具有鲁棒性。总的来说,这项研究得出一个结论:在PubMed Open Access上,大约有0.59%的文章会被一致认为是具有欺骗性的。也就是说,在760036篇文章里面,大约有4484篇文章涉嫌造假。

论文图像篡改可能导致一年损失10亿美元

学术研究论文中的图像造假的祸害十分普遍。

两个星期前,Science联合撤稿观察发布了一个“撤稿”报告,许多数字令人震惊:过去10年里学术期刊撤回的论文数量增加了10倍,撤稿率最高的国家中国排第7,撤稿最多的10位作者中,中国占了两人。

Top 10撤稿作者(数据来自Science)

在撤稿观察的数据库中,有18000份研究论文被撤回(最早可追溯到20世纪70年代),其中,317篇被撤回论文进行了图像篡改,约占整体论文的1.7%。

宾夕法尼亚大学生物工程副教授Arjun Raj早在2012年就指出,平均一篇生物医学研究论文背后的科学成本约为30万美元至50万美元。而柳叶刀报道称,美国研究人员在当年发表了近152000篇论文。

这样推算,即使每篇论文成本30万美元,美国研究人员在2012年发表的所有生物医学科学论文的成本也将接近500亿美元。

如果2%的论文因为图像伪造需要撤回,美国可能会在2012年浪费接近10亿美元。随着全球科学产量每九年翻一番,照此计算,自2012年以来,因撤稿产生的负利润率可能会更大。

图像篡改向来如此糟糕吗?

有些研究人员认为,这么多年来,论文图像篡改问题一直在恶化。

来自美国研究诚信办公室(the United States Office of Research Integrity,ORI)的数据表明,在Photoshop发布后,他们所处理的涉及图像处理的案件比例有所增加。

技术在打击论文造假的过程中,一直是一场“猫鼠游戏”。AI除了检测图像区域重用,也成为对抗Photoshop的利器。

今年9月,Scientific Reports发表了一篇论文,文章指出,基于植物Rhus toxicondendron(毒性常春藤)的稀释度非常高的顺势疗法,至少与减轻疼痛的药物(加巴喷丁)一样有效。

不过,很快这篇介绍顺势疗法的论文,被生物学家Enrico Bucci使用的一款软件标记出来错误:在两种不同的实验中,所建议的药物浓度差别很大,而其图表却惊人地一致。

后来,论文作者回应称,他的的团队在准备手稿时犯了一些无意的错误,导致重复的图像和重复的数据。

作者表示,文本和数字之间的差异是错别字的结果。该小组将要求Scientific Reports更新该文章并进行更正。但也表示,“这不会以任何方式改变科学结论”。

AI距离自动打击论文造假还有多远?

然而,即使基于软件的方法已经被广泛讨论了近十年,使用此类应用程序的公司还是很少用软件发布他们的结果。

基于软件的方法仍然需要人为的监督支持。检测图像处理软件的开发有可能增加扫描图像期刊的数量。然而,需要注意的是,软件的使用并不能消除对人为干预的需求。软件的输出必须由人来评估。

一个领域是软件开发有可能对大型文章数据库的图像复制检测产生巨大影响,使用视觉检查技术不可能进行这种大规模的比较。

AI来检测论文图像造假在未来可能有两种形式。一是,公司可以为期刊编辑提供定制的应用程序,然后编辑可以使用这些应用程序对即将发表的论文进行分析,这可能类似于反抄袭软件的工作方式。

而另一种方法是,图像完整性分析公司将自己的人力和计算机资源分配给期刊进行图像完整性检查。

随着自动化的图像分析软件演变为一个企业,那些造假的研究人员可能会发现他们的计量很难再“瞒天过海”。然后,也许会出现另一个更为复杂的工具,使得造假的图像更难以被发现,这场“猫鼠游戏”更能还将继续。

原文标题:论文造假被AI抓:机器学习检测出4000多论文造假,一年损失高达10亿美元

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    科大讯飞线上展厅超人气上线

      一直以来,我们都有收到大家的留言和私信,希望来科大讯飞看看。   今天,机会来了!我们做了一个线....
    的头像 科大讯飞 发表于 05-27 17:48 735次 阅读

    旷视3A智慧物流解决方案助力更多企业实现数智化转型升级

    数智化升级不仅是一个提高效率的结果,也是一个提升质量的过程。除帮助企业创造数字化劳动力,解决用工荒难....
    的头像 科技绿洲 发表于 05-27 17:33 487次 阅读

    三星再获2022 CES奖项,C-Lab项目成为新主角

    日前,国际消费类电子产品展览会(CES)在美国拉斯维加斯落下帷幕。作为全球领先的科技企业,三星将“携....
    发表于 05-27 15:56 12次 阅读

    捕捉一致的颜色

    挑战:无论是分捡水果和蔬菜还是检查运动鞋,在保证可靠性的前提下高速捕获准确的色彩和丰富的细节都要求相....
    的头像 21克888 发表于 05-27 14:50 211次 阅读
    捕捉一致的颜色

    2022 RT-Thread全球技术大会:RT-Thread AI Kit

    嵌入式AI教育套件--包括K210定制学校板10个AI实验课程
    的头像 牵手一起梦 发表于 05-27 14:24 47次 阅读
    2022 RT-Thread全球技术大会:RT-Thread AI Kit

    如何在云端实现“数字化出海”的价值变现

    汇量科技:如何在云端实现“数字化出海”的价值变现随着数字化营销手段的不断升级,互联网商业获客正在从规....
    发表于 05-27 13:49 35次 阅读

    RT-Thread全球技术大会:关于瑞萨“e-AI”概念的训练和开发流程

    RT-Thread全球技术大会:关于瑞萨“e-AI”概念的训练和开发流程         审核编辑:....
    的头像 lhl545545 发表于 05-27 10:30 145次 阅读
    RT-Thread全球技术大会:关于瑞萨“e-AI”概念的训练和开发流程

    NVIDIA携手百度飞桨 共创多元AI开发生态

    由百度所举办的 Wave Summit 2022 深度学习开发者峰会圆满落幕, NVIDIA 作为百....
    的头像 NVIDIA英伟达企业解决方案 发表于 05-27 09:41 268次 阅读

    连接和AI如何带来技术突破和体验跃升

    近几年,很多行业出现了重要的发展趋势,如5G向企业网络扩展、万物连接至云端、AI在边缘侧规模化、物理....
    的头像 Qualcomm中国 发表于 05-27 09:26 180次 阅读

    国际顶级机器人盛会ICRA 2022看点

    国际机器人技术与自动化会议 ICRA 2022于5月23日至5月27日正在美国宾夕法尼亚州会议中心召....
    的头像 焦点讯 发表于 05-26 18:49 604次 阅读
    国际顶级机器人盛会ICRA 2022看点

    渊亭科技针对行业痛点需求推出算法仓平台服务

    为了帮助企业实现算法的统一管理和算法在企业应用中的全生命期支撑,提升企业资源的利用率和开放性,构建算....
    的头像 科技绿洲 发表于 05-26 17:13 378次 阅读

    谷东科技与英特尔就面向工业元宇宙生态建设达成战略合作协议

    谷东科技与英特尔(中国)宣布就面向工业元宇宙的生态建设达成战略合作协议。谷东科技依托自主研发的光学显....
    的头像 科技绿洲 发表于 05-26 16:37 373次 阅读

    云计算、AI、鸿蒙照亮少年开发者眼中的炬火

    提起“开发者”,我们会想到什么? 在现有的文化符号里,可能首先会想到那些后来创立了大公司的“车库少年....
    的头像 脑极体 发表于 05-26 16:30 215次 阅读
    云计算、AI、鸿蒙照亮少年开发者眼中的炬火

    华为基于昇腾AI基础软硬件平台 助力企业的数字化和智能化转型

    华为基于昇腾AI基础软硬件平台,逐步打造完善了从底层硬件、到中间AI框架到上层应用使能平台的整个AI....
    的头像 科技绿洲 发表于 05-26 14:28 343次 阅读

    DeepPavlov端到端对话系统和聊天机器人训练库

    ./oschina_soft/DeepPavlov.zip
    发表于 05-26 11:11 6次 阅读
    DeepPavlov端到端对话系统和聊天机器人训练库

    Ampere AI优化框架如何加速 AI 推理

    Microsoft Build 是为来自全球各地的开发人员、工程师、IT 专业人员、学生和初创公司打....
    的头像 科技绿洲 发表于 05-26 10:01 234次 阅读

    HMS Core帮助开发者步入智能世界 出海与创新时代的开发者之需

    中国移动开发者的全面出海时代已经正式到来。 根据相关数据,2021年,中国游戏开发者加速出海效率,全....
    的头像 脑极体 发表于 05-25 20:27 522次 阅读

    云天励飞打造星云软硬件一体化平台 推动AI大规模应用与推广

    为了给管理者的工作决策和部署提供精准的数据支撑,云天励飞通过可视化一张图的形式,让管理者可实时掌握隔....
    的头像 科技绿洲 发表于 05-25 17:19 437次 阅读

    美格智能旗舰级AI安卓智能模组SNM951赋能多场景应用

    无线网络传输能力是保障智能健身器材用户体验的关键要素。美格智能依托多年的技术积累,率先推出了一款旗舰....
    的头像 科技绿洲 发表于 05-25 16:40 288次 阅读

    云天励飞利用人工智能技术建设智慧健康驿站

    疫情就是命令,防控就是责任。今年年初,面对严峻的疫情形势,崂山区决定建设健康驿站,以容纳更多境外返回....
    的头像 云天励飞 发表于 05-25 15:33 123次 阅读

    捷通华声上榜“2021年度人工智能企业百强”

    5月24日,中科院《互联网周刊》、eNet硅谷动力、德本咨询联合发布“2021年度人工智能企业百强”....
    的头像 科技绿洲 发表于 05-25 14:35 222次 阅读

    极视角发布首款软硬一体极光 帮助客户低成本拥有应用AI能力

    极光是一款集平台、算法、存储为一体的智能边缘计算产品,基于极视角强大算法能力,结合高算力AI模块,致....
    的头像 科技绿洲 发表于 05-25 14:30 293次 阅读

    一文详解限流算法的实现方式

    不依赖外部库的情况下,限流算法有什么实现的思路?本文介绍了3种实现限流的方式。
    的头像 马哥Linux运维 发表于 05-25 12:00 192次 阅读

    芯片和软件将数据中心转变为AI工厂

    数字孪生彻底改变了最复杂产品的生产方式。芯片和软件将数据中心转变为AI工厂。游戏业的发展将世界上最流....
    的头像 NVIDIA英伟达 发表于 05-25 11:10 246次 阅读

    基于Jetson AGX Orin的边缘AI和嵌入式计算系统

    硬件设计师在这场技术盛会上展示基于 Jetson AGX Orin 的边缘 AI 和嵌入式计算系统。
    的头像 NVIDIA英伟达 发表于 05-25 11:05 215次 阅读

    华为云智能流程机器人方案助力政企业务自动化和智能化

    2022年5月24日,以“智能流程机器人为企业日常作业增质提效”为主题的华为云TechWave智能流....
    的头像 科技绿洲 发表于 05-25 10:48 659次 阅读

    数据中心如何转型成为AI工厂

    数字孪生彻底改变了最复杂产品的生产方式。芯片和软件将数据中心转变为AI工厂。游戏业的发展将世界上最流....
    的头像 科技绿洲 发表于 05-25 10:39 535次 阅读

    基于FPGA的视频图像拼接融合

    视频流的每个单独帧将具有对应于红色、绿色和蓝色的三个通道。视频帧中的颜色信息不会增强特征检测。此外,....
    的头像 OpenFPGA 发表于 05-25 10:20 442次 阅读
    基于FPGA的视频图像拼接融合

    燧原科技与奎芯科技达成战略合作 推动数字经济增长

    2022年5月24日,燧原科技与奎芯科技达成战略合作,依托双方在AI算力领域以及半导体互联IP和芯粒....
    的头像 科技绿洲 发表于 05-24 15:49 292次 阅读

    全球三十多家NVIDIA技术合作伙伴于Computex发布首批Jetson AGX Orin生产系统

    本周,全球30多家领先的技术合作伙伴在Computex上发布了首批基于NVIDIA Jetson A....
    的头像 Blue5 发表于 05-24 12:01 597次 阅读
    全球三十多家NVIDIA技术合作伙伴于Computex发布首批Jetson AGX Orin生产系统

    NVIDIA Grace CPU迎来首批玩家,多家厂商将推出基于它的全新数据中心系统

    NVIDIA在Computex前夕宣布,多家计算机制造厂商将发布首批基于NVIDIA Grace C....
    的头像 荷叶塘 发表于 05-24 11:54 987次 阅读
    NVIDIA Grace CPU迎来首批玩家,多家厂商将推出基于它的全新数据中心系统

    讯飞智能办公本Air带来便携无负担的办公新体验

    不同于常规的电子文字输入,传统书写在形态表达和灵感速记方面,均有着绝对优势,而讯飞智能办公本Air ....
    的头像 科技绿洲 发表于 05-24 10:14 757次 阅读
    讯飞智能办公本Air带来便携无负担的办公新体验

    大众将微软HoloLens 2首次用于移动车辆中

    将增强现实技术作为未来移动概念的主要组成部分正是大众汽车所设想的未来愿景。为了实现这一愿景,大众选择....
    的头像 科技绿洲 发表于 05-24 10:01 234次 阅读

    什么是基于深度学习的超分辨率

    基于深度学习的超分辨率是将学习的上采样(up-sampling)函数应用于图像的过程,目的是增强图像....
    的头像 科技绿洲 发表于 05-24 09:33 168次 阅读
    什么是基于深度学习的超分辨率

    光影不朽 一声快门和三个时代:全球移动影像二十年

    你是否还记得,拥有的第一款可摄影手机是什么型号? 你是否还记得,第一次在手机中按下快门,是种怎样的心....
    的头像 脑极体 发表于 05-24 09:21 717次 阅读
    光影不朽 一声快门和三个时代:全球移动影像二十年

    中科曙光携手百度飞桨共建AI生态

    备受行业瞩目的WAVE SUMMIT 2022年深度学习开发者峰会如约而至。该峰会由深度学习技术及应....
    的头像 中科曙光 发表于 05-24 09:20 197次 阅读

    华为MateBook的“三重变身”改变了什么?PC市场变革已见端倪

    两三年前,很多被迫WFH(work from home)的人大多还在期待:什么时候能回办公室上班?而....
    的头像 脑极体 发表于 05-24 09:19 625次 阅读
    华为MateBook的“三重变身”改变了什么?PC市场变革已见端倪

    Graphcore携手百度飞桨 共建全球软硬AI生态

    2022年5月20日,中国北京——今日,Graphcore®(拟未)在Wave Summit 202....
    的头像 21克888 发表于 05-23 11:24 485次 阅读
    Graphcore携手百度飞桨 共建全球软硬AI生态

    连接器如何支持海量数据下的机器学习

    数据、设备的互通互联在当今世界已经不足为奇,海量的数据每时每刻都在不断产生。在数据背后,神经网络通过....
    的头像 Robot Vision 发表于 05-23 09:53 989次 阅读
    连接器如何支持海量数据下的机器学习

    基于non-OS和RT-Thread的按键库源码及应用

    核心的按键扫描代码仅有三行,没错,就是经典的 三行按键扫描算法。使用 C 语言标准库 API 编写,....
    的头像 硬件攻城狮 发表于 05-23 09:39 327次 阅读
    基于non-OS和RT-Thread的按键库源码及应用

    海康威视以数字化助力智慧养老服务

    根据国际标准,当一个国家或地区65岁以上人口占比达到7%时,即进入老龄化社会,若比例达到14%时,则....
    的头像 海康威视 发表于 05-21 11:04 500次 阅读

    计算机视觉系统让车流变得更通畅

    NVIDIA Metropolis 合作伙伴 Tapway 所提供的计算机视觉系统让马来西亚最大的高....
    的头像 NVIDIA英伟达企业解决方案 发表于 05-21 10:09 573次 阅读

    WAVE SUMMIT 2022深度学习开发者峰会在线上举行

    蒸汽机,在工业革命中扮演着怎样的角色? 保尔·芒图在《十八世纪产业革命》中是这样形容蒸汽机的:“蒸汽....
    的头像 脑极体 发表于 05-20 22:37 122次 阅读

    爱芯元智与百度飞桨建立深度合作 加速开源生态丰富AI“芯”应用

    中国 北京 2022年5月20日,由深度学习技术及应用国家工程研究中心主办、飞桨承办的WAVE SU....
    的头像 21克888 发表于 05-20 18:18 1051次 阅读
    爱芯元智与百度飞桨建立深度合作 加速开源生态丰富AI“芯”应用

    爱芯元智将携手多家合作伙伴共同发起硬件生态共创计划

    5月20日,由深度学习技术及应用国家工程研究中心主办、飞桨承办的WAVE SUMMIT 2022深度....
    的头像 海阔天空的专栏 发表于 05-20 18:02 159次 阅读

    海康威视推出智能养老看护平台

    我国已经步入老龄化社会。 根据国际标准,当一个国家或地区65岁以上人口占比达到7%时,即进入老龄化社....
    的头像 海阔天空的专栏 发表于 05-20 17:46 420次 阅读

    Imagination携手百度飞桨共同发起“硬件生态共创计划”

    Imagination Technologies在今日隆重举行的“Wave Summit 2022”....
    的头像 科技绿洲 发表于 05-20 17:22 147次 阅读

    壹沓数字员工破解供应链困局,加速数字化转型

    “21世纪的竞争不再是企业与企业之间的竞争,而是供应链与供应链之间的竞争。”如今,这句话被现实兑现。....
    的头像 科技见闻网 发表于 05-20 16:56 138次 阅读

    字节跳动参与的海外研究成果入选Nature子刊

    近日,Nature子刊Nature Neuroscience接收了一项由字节跳动海外技术团队与新加坡....
    的头像 科技绿洲 发表于 05-20 16:53 173次 阅读
    字节跳动参与的海外研究成果入选Nature子刊

    机器学习简介与经典机器学习算法人才培养

    上课时间安排: 2022年05月27日 — 2022年05月30日 No.1 第一天 一、机器学习简介与经典机器学习算法介绍 什么是机器学习...
    发表于 04-28 18:56 2839次 阅读

    程序语言的奥妙 算法最好的入门书

    一本很不错的编程基础书籍,算法最好的入门书,有需要的可以下载 ...
    发表于 04-24 10:24 6500次 阅读

    RT-Thread基于优先级的全抢占式调度算法的实现

    一、原理概述 RT-Thread 是一款嵌入式实时操作系统(RTOS),同时也是一款优秀的物联网操作系统,相对于裸机的轮询调度算...
    发表于 04-20 14:17 1301次 阅读

    关于RT-Thread的动态内存堆管理简析

    内存堆管理机制 RT-Thread 操作系统在内存管理上,根据上层应用及系统资源的不同,有针对性地提供了不同的内存分配管理算法。...
    发表于 04-06 17:11 2410次 阅读

    浅谈模拟在机器学习领域的重要性

    电子设计行业正在发生相当大的变化,这主要是由于传感器的激增以及生成和收集更多信息的需求。这导致拥有更多传感器,并且这些传...
    发表于 03-28 15:15 1189次 阅读

    浅谈模拟在机器学习领域的重要性

    电子设计行业正在发生相当大的变化,这主要是由于传感器的激增以及生成和收集更多信息的需求。这导致拥有更多传感器,并且这些传...
    发表于 03-15 18:05 2360次 阅读

    RV1109优势和特点是什么?有哪些应用?

    RV1109优势和特点是什么?有哪些应用?
    发表于 03-10 06:45 1217次 阅读

    0.96寸OLED画圆形算法思路分享

    代码 这个算法是纯原创,没有任何借鉴的元素实现原理大概就是通过两个点算出直线方程然后描点在这个函数中OLED_DrawDot函数...
    发表于 03-01 06:27 595次 阅读

    卡尔曼滤波简介

    在这里我就不介绍卡尔曼的数学推算了,网上的数学推导一抓一大把,如果想了解推导过程的小伙伴可以去大佬的博客。如果你是想直接...
    发表于 02-28 14:24 633次 阅读