0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

机器学习告诉你,新型冠状病毒接下来将如何变异?

倩倩 来源:美林数据Tempodata 2020-03-27 14:58 次阅读

提起达尔文的生物进化论,在人们的普遍认知中,这是开创现代科学的重要理论之一。像地球上其他所有为生存而挣扎的生物一样,病毒也会进化或变异。让我们看看人类病毒的来源——蝙蝠病毒的RNA核苷酸序列片段:AAAAT CAAA GCTT GTGTT GAA GAA GTTACAA CAACTCT GGAAG AAACTAAGTT与一小段人类的新型冠状病毒肺炎(Corona Virus Disease 2019,COVID-19)的RNA核苷酸序列:AAAAT TAAG GCTT GCATT GAT GAG GTTACCA CAACACT GGAAG AAACTAAGTT显然,冠状病毒已经改变了它的内部结构以适应新的宿主物种(更准确地说,大约20%的冠状病毒内部结构都发生了突变),但仍然保持了足够数量的一致,使它仍然忠于它的起源物种。事实上,研究表明,COVID-19会不断发生变异,以提高其存活率。在与冠状病毒的对抗中,我们不仅需要探究击败病毒的方法,更需要明白病毒是如何变异的,以及如何应对病毒变异。这篇文章中将从以下几个方面进行阐述:①从表面上解释RNA核苷酸序列是什么②使用K-Means创建基因组信息集群③使用PCA实现可视化集群什么是基因组序列?DNA是脱氧核酸的简称,其基本单位是脱氧核糖核苷酸(也叫脱氧核苷酸),是大多数生物的遗传物质,在真核生物、原核生物、DNA病毒内都存在的一种核酸;RNA则是核糖核酸的简称,其基本单位是核糖核苷酸,是RNA病毒的遗传物质。新型冠状病毒的基因序列就是RNA.基因组测序,通常被比作“解码”,是分析取自样本的脱氧核糖核酸(DNA)的过程。在每个正常细胞中有23对染色体,DNA的结构是这样的:

DNA卷曲的双螺旋结构可以使它展开成阶梯状,这个梯子是由成对的化学字母组成的,叫做碱基。在DNA中有四种碱基:腺嘌呤、胸腺嘧啶、鸟嘌呤和胞嘧啶。腺嘌呤只与胸腺嘧啶结合,鸟嘌呤只与胞嘧啶结合,这些碱基分别用A、T、G和C表示。这些碱基形成了各种各样的代码,指导有机体如何构建蛋白质——这就是DNA如何控制病毒一举一动的基础。

使用专门的设备,包括测序仪器和专门的标签,可以显示特定的DNA序列片段。由此获得的信息将经过进一步的分析和比较,使研究人员能够识别基因的变化,与疾病和表型的关系,并确定潜在的药物靶标。一长串的基因组序列A、T、G和C,代表了有机体对环境的反应,而生物体的突变又是通过改变DNA产生的,因此观察基因组序列是分析冠状病毒突变的有效手段,其中序列对齐法是常用的方法,主要通过将两个或多个核酸序列或者蛋白质序列进行对比,并将其中相似的结构区域突出显示。序列对齐:给定两个DNA序列A和B,对齐的方式是将空格分别插入到A和B序列中,得到具有相同长度的对齐后的序列C和D;空格可以插入到任意的位置(包括两端),但是相同位置不能同时为空格,也即是不存在C[i]和D[i]同时为空格的情况。然后为对齐后的序列的每个位置打分,总分为每个位置得分之和,具体的打分规则如下:a、如果C[i] == D[i]且都不是空格,得3分;b、如果C[i] != D[j]且都不是空格,得1分;c、如果C[i] 或者D[i]是空格,得0分。求给定原序列A和B的一个对齐方案,使得该对齐方案的总分最高。例如,序列原序列A和B如下:String strA = “GATC”; String strB = “ATCG”;则其中一个对齐方案如下:GATC**ATCG该方案总得分score=2*0+3*3 = 9分。因此,经常通过序列对齐方式来比较序列与已知(尤其是功能和结构已知的序列)之间的同源性,预测未知序列的功能。因此本文后续对于序列的分析主要是针对序列对齐后形成的指标特征进行探索和分析。数据的获取数据可以在Kaggle上找到,如下图所示:

每一行代表蝙蝠病毒的一个突变。首先,花一分钟来欣赏大自然是多么不可思议——在几周内,冠状病毒已经产生了262个突变来增加存活率。一些重要的列名解释:

query acc.ver表示原始的病毒标识符。

subject acc.ver是病毒突变的标识符。

% identity表示序列中与原始病毒相同的百分比。

Alignment length表示序列中有多少项是相同的或对齐的。

mismatches表示突变项和原始项之间的不同项数。

bit score代表了一个衡量标准,衡量序列的对齐程度;分数越高,对齐程度越高。

每一列的统计度量如下所示(这些可以在Python中运用data.describe()语句被方便地调用):

有趣的是,通过查看% identity列,我们可以看到一个突变与原始病毒的最小对齐比率约为77.6%。然而巨大的标准偏差(7%的% identity)意味着原始病毒存在广泛的变异范围。在bit score中巨大标准偏差证实可以证实这一点——标准偏差大于平均值(即代表变异系统大于1,进一步说明了突变发生情况的多样性)!通过相关性热力图可以很好的呈现变量之间的相关性,图形中每个单元表示一个特征与另一个特征的相关性。

我们不难发现,很多数据都是高度相关的,这是可以解释的,因为大多数的度量彼此存在一定的依赖性,因此导致变量之间存在高相关性,可以发现alignment length与bit score之间就具有高度相关性(0.94)。

使用K-Means来创建突变集群K-Means是一种聚类算法,是通过机器学习的方式在特征空间中确定数据点相似群组。我们运用K-Means的目标是找到突变的群体,这样我们就可以对突变的本质以及如何针对性的处理它们有深入的了解。在此之前,我们首先需要确定集群k的数量,虽然这就像在二维空间中绘制一个点一样简单,但在高维空间中是几乎无法实现的(如果我们想要保留最多的信息)。若用“肘部法则”来选择k会显得过于主观,且不准确,所以我们会用轮廓法来代替。轮廓法是给不同取值k的集群打分,来区分聚类的结果好坏程度(好的聚类:内密外疏,同一个聚类内部的样本要足够密集,不同聚类之间样本要足够疏远)。Python中的sklearn库将使K-Means和轮廓法的实现变得非常简单。

通过对上图进行分析,可以发现群体数为5时聚类效果最佳。现在,我们可以进一步确定群体中心,这些点是每个群体的中心,代表了不同群体的突变样本的共性特征。

注:特征已经被标准化,列与列之间无可比性

在此热力图中,行:代表不同的群体,列:代表每个群体的属性。因为在聚类之间需要对于特征按比例进行缩放,以减少不同特征尺度差异的影响,所以图中的数值在数量(缩放值,非原始尺度下的值)上没有任何意义,但是,我们可以通过比较每个列中的缩放值,这使得我们可以对每个突变群体的特征相对大小产生一个更直观的感觉。通过对以上聚类结果的分析,可以让科学家将更多精力聚焦在对不同突变群体的特征研究上,进而针对性的研究不同类型的疫苗,治疗和预防也将变的更有目标性。聚类的结果已经可以帮助我们解决很多方面的问题,但由于存在高维特征及特征之间相关性的存在,让我们不能更好的去解读聚类结果,因此,在下一节中,我们将使用PCA来实现聚类结果的可视化呈现。利用PCA进行集群可视化主成分分析是一种降维方法。它选择多维空间中的正交向量来表示坐标轴,通过特征的空间变换,可以有效降低特征之间的相关性,进而通过贡献度来保留最多的信息的特征,实现降维目的。同样,我们可以通过Python的sklearn库,PCA的执行可以被两行代码实现。首先,我们可以检查被解释的方差比(explained variance ratio),这是从原始数据集中保留的统计信息的百分比。在本例中,被解释的方差比是0.9838548580740327,代表信息只有很少部分遗失!在此我们可以确信,无论我们从PCA得到什么分析,数据都是具有很高的可信度。每个新的特征(主成分)都是其他几个列的线性组合。通过热力图,我们可以直观地了解每一特征对于两个成份(新的特征)中的重要性。

通过以上图中数值的分析,关键是要理解在成分1中出现高数值是什么意思——在这种情况下,它的特点是有着更高的一致性,即更接近原始病毒;成分2的主要的特点是拥有更低的一致性,即突变远离原始值,这也反映在bit score的较大差异上。

通过主成分将所有样本映射到2维空间体系下,可以很明显发现,病毒突变有5条主线,以下通过对这5条线的分析,可以让我们获取更多的信息。可以发现,有四个病毒突变在第一主成分(X轴)的左边,一个在右边。第一主成分的特征是alignment length具有很高的取值,这意味着第一个主成分的值越高,对应的alignment length就越长(越接近原始病毒)。因此,第一主成分的低值区与原始病毒的遗传距离较远,即大多数病毒集群与原始病毒有很大不同。因此,试图研制疫苗的科学家应该意识到,这种病毒会发生大量变异。第二主成分(Y轴)在同一群体之间的差异性很小,在不同群体之间明显分为3个区段,这就需要后续我们进一步分析,以便能够更好的对于突变群体进行深入了解。结论本文一方面通过使用K-Means聚类算法,能够帮助我们从众多突变样本中快速识别冠状病毒的五个主要典型突变群体,另一方面用PCA分析方法在二维空间中实现这些群体的可视化展现,通过展示结果可以很直观的呈现冠状病毒有很高的突变率(这可能就是它如此致命的原因),通过对于这些分析结果,对于研制冠状病毒疫苗的科学家来说,可以利用群体的共性特征值结合领域专业知识来充分解读每个群体的特征信息,以便有针性的、更好的指导疫苗的研制及预防工作。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • DNA
    DNA
    +关注

    关注

    0

    文章

    240

    浏览量

    30918
  • K-means
    +关注

    关注

    0

    文章

    28

    浏览量

    11225
收藏 人收藏

    评论

    相关推荐

    思科承诺投入2.25亿美元抗击新型冠状病毒

    思科首席执行官查克·罗宾斯(Chuck Robbins)周日晚间撰写的博客文章称,思科承诺投入2.25亿美元与冠状病毒作斗争。 这家美国公司专注于制造电信设备和网络硬件。思科将向全球冠状病毒应对工作分配800万美元现金和产品2.1亿美元。他们将这些资源集中在支持医疗保健和
    的头像 发表于 03-23 10:40 4714次阅读

    芯系武汉半导体企业向受冠状病毒地区捐赠汇总

    联发科:捐赠1000万元1月28日,联发科官微显示,已经向武汉东湖高新区***捐赠价值1000万元人民币的医疗相关物资,用于新型冠状病毒肺炎的疫情防控工作。2.英特尔:捐赠100万美元1月29日
    发表于 02-07 16:48

    怎样预防手机上的新型冠状病毒传播

    一直是细菌和病菌的传播站,除了指纹和汗液污渍等看得见的“脏”以外,看不见的“脏”更多:斯坦福大学的研究报告曾指出,触屏手机的细菌与病毒数量是洗手间的18倍以上,德国“生活健康组织”更是呼吁要及时给手机消毒。那么,手机会不会成为新型冠状病
    的头像 发表于 02-04 14:19 7275次阅读

    新型冠状病毒加速了“智慧城市”对“传统城市”的代替

    新型冠状病毒成了2020年飞出来的一只黑天鹅! 随着新型冠状病毒肺炎的爆发,对于中国乃至全人类来说都是一场重大的灾难,而随着此次状病毒的刺激
    的头像 发表于 02-26 11:52 2534次阅读

    新型冠状病毒肺炎影像云,AI助力疫情防控

    相对于新型冠状病毒感染的肺炎确诊标准的核算检测,医学影像往往更早发现异常变化,更早发现是防控措施的重点。而且影像学检查更方便、快捷、直观,在基层医院易于普及。
    的头像 发表于 02-12 07:34 2507次阅读
    <b class='flag-5'>新型</b><b class='flag-5'>冠状病毒</b>肺炎影像云,AI助力疫情防控

    预防新型冠状病毒需要什么智能设备应该如何使用

    本来准备了好多鞭炮烟花,想过年了好好放一下,把过往一年的晦气炸飞,唤醒今年的好运,结果,一切精心的准备,就被这个突如其来的新型冠状病毒给废了。
    的头像 发表于 02-12 11:42 3482次阅读

    新型冠状病毒对Uber业务影响大

    北京时间3月3日消息,Uber公司在美国时间本周一的时候承认,新型冠状病毒已经对于公司的业务造成了极大的影响。二月初的时候,Uber公司CEO曾表示,他们不认为病毒会对整体业务产生影响。
    的头像 发表于 03-03 15:31 1788次阅读

    三星受新型冠状病毒的影响已决定关闭三星Gumi智能手机工厂

    新型冠状病毒的爆发席卷全球,科技巨头也正在进行一场完全不同的战斗。 此前报道称,三星Gumi智能手机工厂中发生一例冠状病毒感染后,于周末关闭。今天早些时候,三星证实另一名工人已被感染,该公司决定关闭工厂。 现在,三星将韩国令人沮
    发表于 03-05 08:33 852次阅读

    Google正式宣布启动新型冠状病毒公共数据集项目 将允许用户训练机器学习模型

    据媒体报道,3月31日,Google正式宣布启动一项名为新型冠状病毒公共数据集(COVID-19 Public Datasets)的项目,该项目将托管一个与疫情相关的公共数据资料库,它们是开放的,外界可自由访问和分析。
    发表于 04-01 09:54 468次阅读

    利用机器学习发现新型冠状病毒的潜在中和抗体

    随着COVID-19大流行的爆发,Barati Farimani很快将他的实验室的重点转移到SARS-CoV-2研究上。此前,他曾使用机器学习工具来研究埃博拉病毒和艾滋病病毒的抗体,现
    的头像 发表于 04-15 11:18 3312次阅读

    谷歌的DeepMind通过AI帮助科学家了解冠状病毒

    谷歌的DeepMind正在将其人工智能系统置于一项新的任务:试图弄清这种新型冠状病毒的某些特性,这种新型冠状病毒在过去的几个月中已经杀死了数千人。
    的头像 发表于 04-29 22:19 3186次阅读

    浅谈3D打印技术在抗击新型冠状病毒疫情中的应用

    当下,新型冠状病毒疫情还在丧心病狂地肆虐着很多地区,像法国、意大利等已经正式宣布二波疫情的到来,而我国的形势也不容乐观,山东青岛和新疆喀什先后曝出多个本土确诊病例。 由此可见,与新型冠状病毒
    发表于 11-20 14:42 1633次阅读

    同茂线性马达谈又双变异新型冠状病毒

    11月24日,南非向世界卫生组织报告发现新型毒株奥密克戎毒株,也就是说,新型冠状病毒变异病毒德尔塔之后,再度出现
    发表于 12-29 09:24 314次阅读

    社交距离提醒(冠状病毒)开源案例

    电子发烧友网站提供《社交距离提醒(冠状病毒)开源案例.zip》资料免费下载
    发表于 10-31 15:13 0次下载
    社交距离提醒(<b class='flag-5'>冠状病毒</b>)开源案例

    冠状病毒实时更新器开源分享

    电子发烧友网站提供《冠状病毒实时更新器开源分享.zip》资料免费下载
    发表于 10-28 09:46 0次下载
    <b class='flag-5'>冠状病毒</b>实时更新器开源分享