谷歌的人工智能实现了最先进的文本摘要性能-电子发烧友网

自动文本摘要是机器学习算法正在努力的方向之一，微软近期发布的相关论文也表明了这一趋势。对于那些每天要阅读大量文字信息的工作者们来说，这是一个值得庆贺的好消息。有调查显示，这类工作者每天仅在阅读信息上就要花费大约2.6小时。

相应的，Google Brain和伦敦帝国理工学院的一个团队构建了一个系统——Pegasus（Pre-training with Extrac ted Gap-sentences for Abstractive Summarization Sequence-to-sequence），它使用了谷歌的变形金刚架构，结合了针对文本摘要能力的预训练目标。据称，它在12种测试中均达到了达到最先进的水平，这些测试包括了科学、故事、电子邮件、专利和立法法案等。不仅如此，它在材料缺乏的文本整合测试中也表现惊人。

正如研究人员指出的那样，文本摘要的目的是总结输入的文档，生成其准确和简洁的摘要。

抽象的摘要也不是简单地从输入的文本中复制粘贴文字的片段，而是会产生新单词或总结重要信息，从而使输出的语言保持流畅。

变形金刚是Google Brain （谷歌的人工智能研究部门）的研究人员在介绍的一种神经结构。

它提取特征以及学习做出预测的方式和所有的深度神经网络一样：神经元被安排在相互连接的层中，这些层传递着输入数据的信号，调整每个连接的权重。

但变形金刚架构又有其独特之处：每个输出元素和每个输入元素都有连接，并动态计算它们之间的权重。

在测试中，研究小组选择了表现最佳的Pegasus模型，该模型包含了5.68亿个参数。它有两个训练材料。一个是从3.5亿个网页中提取出来的文本，有750GB。还有一个训练材料则覆盖了15亿篇新闻类型的文章，总计3.8TB。研究人员说，在后者的情况下，他们用白名单域来植入网络爬虫工具，覆盖了质量参差不齐的内容。

根据研究员的说法，Pegasus生成的摘要语言非常优秀，流畅性和连贯性都达到了高水准。此外，在文本匮乏的环境中，即使只有100篇示例文章，它生成的摘要质量与在20，000到200，000篇文章的完整数据集上训练过的模型相当。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

谷歌

谷歌

+关注

关注
27

文章
6245

浏览量
110270
算法

算法

+关注

关注
23

文章
4761

浏览量
97156
机器学习

机器学习

+关注

关注
66

文章
8541

浏览量
136236

搜索历史

谷歌的人工智能实现了最先进的文本摘要性能

评论