0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

极链科技HPAIC人类蛋白质图谱分类挑战赛金牌经验分享

张康康 2019-07-29 18:21 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近期,由Kaggle主办,Leica Microsystems和NVIDIA赞助的HPAIC(Human Protein Atlas Image Classification)竞赛正式结束。比赛为期三个月,共有来自全球的2236个队伍参加,极链AI研究院与工程院最终获得挑战赛金牌。

比赛介绍

蛋白质是人体细胞中的“行动者”,执行许多共同促进生命的功能。蛋白质的分类仅限于一种或几种细胞类型中的单一模式,但是为了完全理解人类细胞的复杂性,模型必须在一系列不同的人类细胞中对混合模式进行分类。

可视化细胞中蛋白质的图像通常用于生物医学研究,这些细胞可以成为下一个医学突破的关键。然而,由于高通量显微镜的进步,这些图像的生成速度远远超过人工评估的速度。因此,对于自动化生物医学图像分析以加速对人类细胞和疾病的理解,需要比以往更大的需求。

虽然这是生物学方面的竞赛,但是其本质是机器视觉方向的图像多标签分类问题,参赛队伍也包括许多机器视觉和机器学习领域的竞赛专家。

数据分析

官方给我们提供了两种类型的数据集,一部分是512x512的png图像,一部分是2048x2048或3072x3072的TIFF图像,数据集大概 268G, 其中训练集:31072 x 4张,测试集:11702 x 4张。

一个蛋白质图谱由4种染色方式组成(red,green,blue,yellow),图像示例如下:


我们将4个通道合并成3通道(RYB)可视化的图像如下所示:


在本次竞赛中一共有28个类别,比如 Nucleoplasm、Nuclear membrane等,每个图谱图像都可以有一个或者多个标签。标签数量统计如下:

e0892ea8aa624602a2bf616a52be54bb


可以发现标签数量集中在1-3个,但是仍然会有图像有5个标签,给比赛增加了一定的难度。

a700719ec2bf4704a9649d0bd424bed7


另一方面的难点是数据集中样本数量很不均匀,图像最多的类别有12885张,而图像最少的类别只有11张图像,这给竞赛造成很大的困难,样本数量分布情况可以在图中看出。

在比赛过程中逐步有参赛者发现官方的额外数据集HPAv18,并得到官方授权,这些数据集有105678张,很大程度的扩大了样本数量,同时给我们提供了很大的帮助。

环境资源

硬件方面我们使用了4块NVIDIA TESLA P100显卡,使用pytorch作为我们的模型训练框架。

图像预处理

HPAv18 图像与官方给出的图像有一定的差别,虽然也是由4中染色方式组成,但是每个染色图像是一个RGB图像,而不是官方的单通道图像,而且RGB三个通道的值差别较大,我们对这些图像做了预处理,对每个RGB图像只取一个通道(r_out=r,g_out=g,b_out=b,y_out=b),并将这些图像缩放到512x512和1024x1024两种尺度。

36a79fb3e91c487aacddb96586f6eb85


对于TIFF文件,我们用了一周的时间把这个数据集下载下来,然后将所有图像缩放到1024x1024。

数据增广

我们比赛中使用的增广方式有Rotation, Flip 和 Shear三种;因为我们不知道一张图像中的多个细胞之间是否有关联关系,所以比赛中没有使用随机裁剪的增广方式。

模型

我们最终使用的基础模型有Inceptionv3,Inceptionv4以及Xception三种,比赛前期我们测试了VGG,ResNet,ResNext,SeNet,但是效果不是很好,因此比赛末期没有再进行进一步测试。

我们使用了512,650和800三种尺度来增加网络对图像的理解,另外每个尺度进行10折交叉验证,保证验证集的划分对网络整体的影响,以及用验证集来评估模型预测的好坏和选择模型及其对应的参数。不同模型交叉验证时使用不同的随机种子划分验证集和训练集,以尽可能多的学到不同的样本组合。

Inceptionv3和Inceptionv4的512的结果不好(0.55+ public leaderboard 阈值0.15),因此没有做交叉验证,只是用512尺度训练了基础模型,并用在650和800的微调中。

模型修改:

1.第一层卷积的输入通道数由3修改为4,保持其他卷积参数不变,从而使网络应对4通道输入;

2.修改最后一的池化层为全局池化层,保证在多尺度时可以使用同一个网络;

3.全局池化后增加一层128的全连接,然后接一层28的全连接。

训练

训练过程的参数如下:

loss: MultiLabelSoftMarginLoss

lr: 0.05(512,imagenet 预训练),0.01(650和800,512预训练);

lrscheduler: steplr(gamma=0.1,step=6)

optimizer: SGD (adam,rms not well)

epochs: 25, 600和800一般在12-20直接提前结束,取loss最低的模型

10 folds CV

sampling weights:[1.0, 5.97, 2.89, 5.75, 4.64, 4.27, 5.46, 3.2, 14.48, 14.84, 15.14, 6.92, 6.86, 8.12, 6.32, 19.24, 8.48, 11.93, 7.32, 5.48, 11.99, 2.39, 6.3, 3.0, 12.06, 1.0, 10.39, 16.5]

scale:512,600,800

独立阈值

为每一个类别找到一个合适的阈值是一件很困难的事,但是多阈值是提升分数的关键,对我来说,大概可以提升0.005~0.008。 我们使用验证集来找阈值,我们训练单模型xception 512 ,验证集占13%。调整每一类的阈值使得f1 score达到最优,不过我们发现稀有类别的阈值普遍很高,public lb会变差,因此我们只调整了验证集1000张以上的类别,稀有类别控制阈值为0.15 通过这种方法找到的阈值在其他模型或者集成的时候同样有效。

测试

比赛结束以后我们将比赛中训练的模型重新提交查看private leaderboard成绩,得到如下结果:

1e6631091f804c019babf0d6794da072


比赛过程中我们发现做了10 fold ensemble不一定比single fold好,因此我们在最终集成的时候部分模型只选择了部分fold (根据loss选择)。

检索

我们使用检索的方法(特征使用inceptionv4 800 的128维特征)查找test与hpa相似的图片,使用余弦相似度进行度量,我们发现了许多相似的甚至相同的图片,直接使用相似度最高的300张图片的结果进行替换,分数在public lb上提升0.01~0.015,不过在private LB中并没有效果,官方在比赛过程中也说明部分test图像由于与HPA中部分图像重合,不再进行分数计算。

集成

我们将inceptionv3 inceptionv4以及xception 800的10fold 模型的特征进行concat(先进行l2),得到3840维的新特征,并在此基础上设计了2层的全连接网络进行训练, 并做10 fold CV,训练过程中使用不容参数训练过程如图所示,我们取了loss最低的参数。结果融合后private lb:0.55150 public lb:0.62791。

8a9bab29851c4bebb78a2413694541f5


虽然上面方法在public lb上分数较高,但是当与其他模型结果融合时,public LB的分数反而降了,因此我们降低了这个模型的权重。

最后的结果是通过加权融合的方式得到的,权重根据模型的public lb分数设置, inceptionv4 800和inceptionv3 800的权重最高,xception 650 最低,同时也用到了inceptionv4、xception其他尺度的部分fold。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    41976

    浏览量

    303065
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    北京人形具身天工3.0斩获全球首个全自主机器人勇士挑战赛冠军

      4月18日,首届北京亦庄机器人勇士挑战赛圆满举行,由优必选作为大股东和总经理单位牵头成立的北京人形机器人创新中心(以下简称:北京人形)携具身天工3.0全尺寸通用人形机器人参赛,以全自主方式完
    的头像 发表于 04-21 17:28 1166次阅读

    是德科技与Sateliot联合项目荣获6G创新挑战赛奖项

    是德科技(NYSE: KEYS )与Sateliot凭借联合项目“面向5G非地面网络的区块赋能端到端异常检测解决方案”,共同荣获第五届欧洲航天局(ESA)与GSMA Foundry创新挑战赛奖项
    的头像 发表于 04-11 09:20 490次阅读

    NVIDIA携手Google DeepMind与EMBL发布全球最大蛋白质复合物数据集

    NVIDIA、Google DeepMind、欧洲分子生物学实验室下属欧洲生物信息学研究所(EMBL-EBI)以及首尔大学 Steinegger 实验室,对 AlphaFold 蛋白质结构数据库
    的头像 发表于 03-25 09:39 441次阅读

    思必驰斩获Interspeech 2026音频推理挑战赛智能体赛道亚军

    近日,国际语音与语言处理领域顶级赛事Interspeech 2026音频推理挑战赛结果正式揭晓。在这场首次将评估焦点从“答案正确性”转向“推理过程质量”的变革性赛事中,思必驰-上海交通大学联合实验室团队凭借创新的多智能体协同方案,在全球众多顶尖科研团队的角逐中脱颖而出,斩获智能体赛道亚军。
    的头像 发表于 02-28 14:13 922次阅读

    中科曙光联合发布全球首个蛋白质结构智能压缩与生成AI服务器Protein-OCR

    近日,中科曙光与天目湖健康研究院、ENTROPITech、苏州大学、北京大学等多家中国顶尖科研机构联合发布了全球首个蛋白质结构智能压缩与生成AI服务器Protein-OCR。在底层逻辑上
    的头像 发表于 02-25 16:27 563次阅读

    AICAS 2026 Grand Challenge全球挑战赛启动

    第四届AICAS Grand Challenge——AICAS 2026全球技术挑战赛现已正式启动,诚邀各界英才和技术先锋共同参与,以“芯”智能驱动未来!
    的头像 发表于 02-04 14:59 1139次阅读

    “芯”年来袭 | 瑞萨边缘AI线上技术月暨挑战赛

    自1月7日起,瑞萨边缘AI技术月活动将每周开启一场在线技术交流,涵盖MCU/MPU产品、应用案例及开发实践,并同步开启瑞萨AI评测挑战赛,借助教程资源及每周在线讲解和答疑,帮助嵌入式开发者从入门学习到上手第一个AI项目。
    的头像 发表于 12-25 10:21 2565次阅读
    “芯”年来袭 | 瑞萨边缘AI线上技术月暨<b class='flag-5'>挑战赛</b>

    摩尔线程在SIGGRAPH Asia 2025斩获3DGS重建挑战赛银奖

    Challenge(3DGS 重建挑战赛)中凭借自研技术LiteGS出色的算法实力和软硬件协同优化能力,斩获银奖,再次证明摩尔线程在新一代图形渲染技术上的深度积累与全球学术界的高度认可。
    的头像 发表于 12-22 18:01 2046次阅读
    摩尔线程在SIGGRAPH Asia 2025斩获3DGS重建<b class='flag-5'>挑战赛</b>银奖

    2025 EDA精英挑战赛华大九天题发布

    中国研究生创“ 芯 ” 大赛·EDA精英挑战赛(以下简称EDA精英挑战赛)是由教育部学位管理与研究生教育司指导,中国学位与研究生教育学会、中国科协青少年科技中心主办的“ 中国研究生创‘芯 ’大赛
    的头像 发表于 08-26 15:00 2091次阅读
    2025 EDA精英<b class='flag-5'>挑战赛</b>华大九天<b class='flag-5'>赛</b>题发布

    2025 EDA精英挑战赛紫光同创题发布

    中国研究生创“ 芯 ” 大赛·EDA精英挑战赛(以下简称EDA精英挑战赛)是由教育部学位管理与研究生教育司指导,中国学位与研究生教育学会、中国科协青少年科技中心主办的“ 中国研究生创‘芯 ’大赛
    的头像 发表于 08-25 09:40 2041次阅读
    2025 EDA精英<b class='flag-5'>挑战赛</b>紫光同创<b class='flag-5'>赛</b>题发布

    一时的AI蛋白质解析,怎么样了?

    AI蛋白质解析领域正在经历一场静水流深的变革
    的头像 发表于 07-27 17:18 2535次阅读
    火<b class='flag-5'>极</b>一时的AI<b class='flag-5'>蛋白质</b>解析,怎么样了?

    e络盟社区携手 Würth Elektronik 发起全球 LED 设计挑战赛

    安富利旗下e络盟社区与 Würth Elektronik 合作推出全球设计挑战赛。这项全新竞赛诚邀工程师、创客和爱好者们使用 Würth Elektronik 先进的 SMD LED(集成了 WL-ICLED 控制器)开发原型或测试装置。
    的头像 发表于 07-23 10:15 1130次阅读
    e络盟社区携手 Würth Elektronik 发起全球 LED 设计<b class='flag-5'>挑战赛</b>

    传音多媒体团队揽获CVPR NTIRE 2025两项挑战赛冠亚军,推动视频画质升级

    近日,在计算机视觉领域最具影响力的国际竞赛CVPRNTIRE2025中,传音多媒体团队与上海交通大学图像所MediaLab联合团队分别斩获高效超分辨率挑战赛
    的头像 发表于 06-24 17:03 1099次阅读
    传音多媒体团队揽获CVPR NTIRE 2025两项<b class='flag-5'>挑战赛</b>冠亚军,推动视频画质升级

    传音多媒体团队揽获CVPR NTIRE 2025两项挑战赛冠亚军

    近日,在计算机视觉领域最具影响力的国际竞赛 CVPR NTIRE 2025中,传音多媒体团队与上海交通大学图像所MediaLab联合团队分别斩获 高效超分辨率挑战赛(NTIRE 2025
    的头像 发表于 06-24 16:08 1864次阅读
    传音多媒体团队揽获CVPR NTIRE 2025两项<b class='flag-5'>挑战赛</b>冠亚军

    ASML杯光刻「芯 」势力知识挑战赛正式启动

    ASML光刻「芯」势力知识挑战赛由全球半导体行业领先供应商ASML发起,是一项面向中国半导体人才与科技爱好者的科普赛事。依托ASML在光刻领域的技术积累与行业洞察,赛事致力于为参赛者打造一个深度探索光刻技术的知识竞技窗口,同时培养优秀科技「芯」势力,共同推动摩尔定律演进。
    的头像 发表于 06-23 17:04 1504次阅读
    ASML杯光刻「芯 」势力知识<b class='flag-5'>挑战赛</b>正式启动