0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一款看起来挺有文化的写稿机器人上线了

倩倩 来源:lq 2019-08-27 11:37 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,一款看起来挺有文化的写稿机器人上线了。它叫小柯,由中国科学报社和北京大学科研团队共同研发。

小柯写的不是普通的稿子,而是中文科学新闻。据介绍,运用自然语言处理技术,小柯以英文论文摘要为基础,能够快速写出中文科学新闻底稿,然后由专业人士和报社的编辑进行把关和信息完善,帮助科学家以中文方式快速获取全球高水平英文论文中的最新科研进展。

目前小柯的作品已经上线。人工智能的触角,也在伸向各个领域。

小柯:一个尽职的摘要翻译转写者

科技日报记者发现,7月5日,小柯机器人发出第一篇稿子,截至8月22日记者统计时,小柯机器人共发稿415篇。初期更新时间距论文发表时间间隔一个月左右,现在可以做到当天或隔天更新,每天更新几篇到二十几篇不等。所选论文来自生命科学等领域,涉及《自然》《细胞》《新英格兰医学杂志》等期刊。

记者对照分析了小柯作品《单细胞测序揭示冠状动脉疾病保护机制》及其英文原文。新闻中,小柯先对论文主题、研究单位以及发表期刊进行简单介绍,后接英文原文摘要的翻译,大致反映原文内容;翻译时会对原文进行适当的语句简化,同时在对专业词语的翻译上也使用了如“血管平滑肌细胞”“保护性纤维帽”等专业表述。

不过,这也不全是小柯的功劳,因为稿件发出前,还有人工审校这一步骤。北京大学计算机科学技术研究所研究员万小军团队负责小柯的系统总体设计与联合技术攻关。 他告诉科技日报记者,目前机器翻译系统的性能很大程度上依赖于其所使用的训练数据,即平行语料。目前的平行语料多为新闻语料,因此训练得到的机器翻译模型对于日常新闻的翻译效果较好。但学术文献(比如生物学术论文)与日常新闻在用词造句等方面都有较大差别,机器翻译系统对于学术文献翻译的效果并不理想。

这一次,他们通过融合领域知识进行语句智能筛选,选择适合大众理解的语句,并基于语句简化提升语句翻译质量。“英文学术论文摘要适合专业科研人员阅读,但摘要中的语句并不都适合写到科学新闻中面向大众传播,因此需要结合编辑提供的先验知识,采用计算机算法对语句进行筛选,保留适合进行大众新闻传播的语句。”万小军说。

自然语言处理技术不只能让机器人写稿

研发小柯用了半年时间,万小军表示,和一般写稿机器人相比,一个好的跨语言科技新闻写稿机器人需要进行两次重要的信息转换过程:一次是不同语言的转换,将英文文本转换为中文文本;另一次是语言风格的转换,将学术型文字表达转换为大众能够接受的通俗文字表达。“这两次转换都具有较大的挑战性,目前并没有完全解决。后续还需要进一步积累数据,调整算法模型,才能取得更好的效果。”万小军说。

接下来,团队还将继续优化小柯,让它写出的科学新闻内容更丰富,表达更生动。

当然,翻译撰写科技新闻稿件,只是自然语言处理等人工智能技术在学术交流中所能大显身手的领域之一。

“基本上,只要人类交流和工作过程中涉及到语言和文字的地方,自然语言处理技术都有可能发挥作用。”万小军说,在科研论文写作过程中,可以借助自然语言处理技术帮助推荐参考文献,并自动生成related work等章节的文字;业界也有基于自然语言处理技术自动编撰图书的尝试。“我个人也接触到很多很有意思也很有挑战的应用需求,但可惜的是不少需求都无法基于目前的自然语言处理技术进行实现。自然语言处理技术还需要进一步地发展和突破,我相信在未来将有更多的用武之地。”

中国知网常务副总经理张宏伟长期关注自然语言处理,大数据和人工智能方面的应用研究。他告诉科技日报记者,在数字出版和知识服务的全链条中,你都能看到人工智能和机器学习技术的身影。

人工智能可以对数字出版的选题策划、协同撰稿、内容编审进行赋能。大数据标注机器人则能对海量文献信息资源进行OCR文字识别,智能版面分析,知识元抽取,自动分类,自动标引主题,自动生成摘要,自动翻译,自动标注引用和参考文献。

人们熟悉的论文抄袭检测,同样需要智能技术。它不是简单的语句重复检测,而是要对文本内容(包括图片、公式、表格等)进行语义索引,“看你在思想上有没有抄袭别人”。如果存在不同语言之间的互抄,还需要动用“机器翻译”。张宏伟表示,初级的语义抄袭可以由机器揪出来,不过,如果足够有“心机”,完全用自己的语言“洗”了别人的思想,对人工智能的技术要求一下就提高了许多。目前已有利用神经网络模型对文本内容构建高维度语义索引等新技术出现,不管是中文还是英文,一律映射到一个统一的语义空间,实现真正基于内容理解的语义级全文比对检索。

知识库是智慧社会的基础设施

至于在学术研究中必不可少的资料索引,看似简单,也仍然具有技术含量。

张宏伟说,数字出版和数字图书馆的资源类型非常丰富,有大量文本、图像和音视频数据,且数据是非结构化的,若想对其进行深度的挖掘利用,难度不小。

就拿常见的信息检索来说,首先得做到结果要全,相关度要高;再进阶一步,能不能用自然语言交互的方式检索;升级一下难度,用智能问答的方式查找信息,能否直接给出答案?“要让检索功能变得更贴心,计算机要‘学会’阅读资料,总结、推理然后回答。它需要把海量的数据资源变成自己可以理解的知识库。”张宏伟说。

深度学习等统计方法严重依赖于大样本数据,然而,现实世界中,很多实际问题仅仅依靠统计方法是无法解决的,这就需要建立专门的计算机能理解的知识库,实现真正的人工智能。但构建知识库,本身是一项极其艰难且耗时漫长的工作。毕竟,机器和人对知识的理解方式大相径庭。

张宏伟说,像知网这样的机构正在致力于深度整合全球知识信息资源,建设世界知识大数据。也在让文本文献碎片化、网络化,依据知识使用的场景,采用半自动知识抽取算法来构建面向垂直领域的知识图谱。2019年知网陆续推出了一些基于知识图谱的行业智慧应用产品,如医疗领域的临床智能诊断,法律领域的智能量刑判案等。

“不过,我们在这些领域刚刚起步。我个人觉得,还是要少一点浮躁,踏踏实实做一些基础性的工作。没有知识的支撑,就谈不上‘智慧’。” 在张宏伟看来,知识库和人工智能,本身就是互相促进、相互赋能的关系。构建知识库需要人工智能,而人工智能的发展,也离不开知识库。怎么将人类的知识库转换成计算机能理解的知识库是人工智能的核心问题,面临许多困难,需要学术界和产业界共同努力。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    213

    文章

    30594

    浏览量

    219635
  • 人工智能
    +关注

    关注

    1813

    文章

    49742

    浏览量

    261577
  • 自然语言处理

    关注

    1

    文章

    629

    浏览量

    14563
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    探索RISC-V在机器人领域的潜力

    运行ROS 2,充分证明了RISC-V架构完全有能力承载机器人操作系统这样的复杂软件栈。它不仅是学习RISC-V的绝佳工具,更是探索未来边缘计算和智能机器人个强大起点。 致谢: 感谢进迭时空、发烧友提供开发板,以及论坛中各
    发表于 12-03 14:40

    CW32L012小型机器人控制评估板活动 四足机器人+智能小车 开箱评测

    、评测前言 非常感谢CW32生态社区,开源分享许多比较好玩、优质的项目。这次活动都尾声还能有幸申请购买到 四足机器人+小车-智能小车(套件数量不多)的评测套件,多谢C32生态社区
    发表于 11-24 23:44

    RK3576机器人核心:三屏异显+八路摄像头,重塑机器人交互与感知

    ,已经成为机器人开发者不容忽视的核心处理器。而米尔电子的MYD-LR3576开发板,则以其丰富的接口、稳定的性能和成熟的软硬件支持,为快速原型验证和产品开发提供绝佳的平台。如果您正在寻找一款能够同时处理复杂视觉任务和丰富交互界
    发表于 10-29 16:41

    宇树科技发布H2仿生人形机器人

    就在10月20日会跳舞的机器人来了,宇树科技正式发布H2仿生人形机器人,高180cm,重70kg,配以31个关节。在宇树科技展示的视频中,H2仿生人形机器人摆出专业的芭蕾舞动作;看起来
    的头像 发表于 10-20 17:52 1472次阅读

    什么是机器人?追溯机器人技术的演变和未来

    的定义。机器人的定义,真如表面看起来那么简单直白?还是比我们所认为的更为复杂呢? 从本质上讲,机器人种可编程机器,能够感知、处理信息,并
    的头像 发表于 10-02 16:32 4141次阅读
    什么是<b class='flag-5'>机器人</b>?追溯<b class='flag-5'>机器人</b>技术的演变和未来

    最新发布!泰科机器人发布首自研双足人形机器人

    泰科机器人凭借十多年的技术积淀与持续创新,已成功推出多款高性能人形机器人四肢的解决方案。今天,泰科机器人再次迎来重大突破——首自主研发的双足人形
    的头像 发表于 09-02 14:34 2851次阅读
    最新发布!泰科<b class='flag-5'>机器人</b>发布首<b class='flag-5'>款</b>自研双足人形<b class='flag-5'>机器人</b>

    工业机器人的特点

    机器人是关键。工业互联网是通过端上的数据传输,经过大数据分析和云计算处理,再进行智能化决策的整个过程,其中端的数据传输是基础。工业互联网的端包括机器人、传感器等切线下连接端口。因此
    发表于 07-26 11:22

    盘点#机器人开发平台

    地瓜机器人RDK X5开发套件地瓜机器人RDK X5开发套件产品介绍 旭日5芯片10TOPs算力-电子发烧友网机器人开发套件 Kria KR260机器人开发套件 Kria KR260-
    发表于 05-13 15:02

    【「# ROS 2智能机器人开发实践」阅读体验】机器人入门的引路书

    的非常好的,特别是些流程图,很清晰的阐释概念 很适合作为初学者入门的引路书 还能了解很多技术和框架,破除初学者的自负困境,让初学者知道功能是由很多开发者维护的,前人已经为各种产品搭建了完善的框架。避免陷入得一个人单打独斗的错
    发表于 04-30 01:05

    什么是机器人?追踪机器人技术的发展和未来

    什么是机器人? 我们都知道“机器人”这个词,并在日常对话中随意使用它。但我们知道它真正的含义吗?让我们花点时间来深入研究机器人的定义。它是像看起来那么简单,还是挑战了我们的理解? 在其
    的头像 发表于 04-24 19:21 4038次阅读

    名单公布!【书籍评测活动NO.58】ROS 2智能机器人开发实践

    ROS的成熟,加快了其普及的步伐。 图 ROS的发展历程 回顾2007年,ROS的创始团队原本只想做一款个人服务机器人,却意外成就一款被广泛应用的
    发表于 03-03 14:18

    INDEMIND助力TCL打造世界首分体式陪伴机器人 Ai Me

    作为CES 2025展位面积最大的中国品牌,TCL不仅带来了诸多前沿显示、全品类智能物联生态技术。在AI应用上,首次亮相世界上第一款分体式AI陪伴机器人Ai Me。同时,这也是首
    的头像 发表于 01-10 10:44 1335次阅读
    INDEMIND助力TCL打造世界首<b class='flag-5'>款</b>分体式陪伴<b class='flag-5'>机器人</b> Ai Me

    【「具身智能机器人系统」阅读体验】2.具身智能机器人的基础模块

    具身智能机器人的基础模块,这个是本书的第二部分内容,主要分为四个部分:机器人计算系统,自主机器人的感知系统,自主机器人的定位系统,自主机器人
    发表于 01-04 19:22

    【「具身智能机器人系统」阅读体验】2.具身智能机器人大模型

    的局限性以及衡量大模型的关键指标。阅读了该部分后,我感受到了种前所未有的震撼,这种震撼不仅来源于技术本身的先进性,更来源于它对传统机器人控制方式的颠覆。 传统机器人的局限性与大模型的变革 传统的
    发表于 12-29 23:04

    【「具身智能机器人系统」阅读体验】+数据在具身人工智能中的价值

    提供机器人环境和动作的统和详细的理解。只有在这些过程之后,数据才能有效地用于训练 EAI 系统。 目前,应用 Sim2Real 技术的主要障碍是“现实差距”,即模拟环境与现实世界之间的差异,包括物理
    发表于 12-24 00:33