0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

用《圣经》做训练数据集,打造语言风格转换工具

DPVg_AI_era 来源:未知 作者:李倩 2018-11-01 09:24 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

达特茅斯学院的研究人员为了提高计算机模型对文本风格的转换能力,竟然将目光投向了《圣经》!研究表明,不同版本的《圣经》行文风格迥异,使用不同版本的《圣经》作为训练数据集,训练出的算法可以将书面文本转换成内容相同,但行文风格迥异的新文本。

为了寻找改进计算机文本翻译质量的灵感,达特茅斯学院的研究人员向《圣经》寻求帮助和指导。结果发现,使用各种版本的《圣经》训练的算法可以将书面作品转换成针对不同受众的不同风格的译文。

目前市面上可用的多语种互译的网络工具有很多。但行文风格和样式转换工具,即文本的语种相同,但转换行文风格的工具出现的速度则要慢得多。在某种程度上讲,由于难以获得所需的大量训练数据,开发这类转换工具的研究遭遇了困难。因此,研究团队想到在《圣经》中汲取灵感。

来自达特茅斯学院的研究团队发现,《圣经》除了为遍布全球的许多人提供精神上的指引之外,还能提供一个“大型的、以前尚未开发的对齐平行文本数据集”。《圣经》每个版本都包含超过31000节经文,研究人员用这些经文为机器学习训练集生成了超过150万个源经文和目标经文的专门配对。

该研究论文已发表在Royal Society Open Science期刊上。文中表示,这不是首个为文字风格转换而创建的并行数据集。但却是第一个使用《圣经》的数据集。过去这类数据集使用的其他文本,比如莎士比亚作品、维基百科条目之类,所能提供的数据集要么比现在小得多,要么不适合学习风格转换的任务。

“英文版《圣经》有许多不同的行文风格,使其成为风格转换的完美源文本。”达特茅斯大学学生、本论文的第一作者Keith Carlson说。

由于《圣经》的文本已经全面索引化,对不同版本的《圣经》文本的组织是可预测的,消除了用自动化方式匹配相同文本可能引起的对齐错误的风险。

“圣经是一个'神圣的'数据集,可以用来研究这项任务,”达特茅斯计算机科学教授丹尼尔·洛克莫尔说。 “几个世纪以来,人类一直在执行组织圣经文本的任务,我们的信仰不可能基于不太可靠的对齐算法。”

为了定义研究的“风格”,研究人员参考了句子长度、被动或主动语音的使用,以及可能导致文本具有不同程度的简洁或形式的用词选择。

根据这项研究的结果:“不同的措辞可能会传达不同程度的礼貌度或对读者的熟悉程度,显示关于作者的不同文化信息,使文本对某些人群更容易理解。”

该团队使用了34种风格独特的圣经版本,其语言复杂程度从“詹姆斯国王版”到“基础英语圣经”。研究人员使用这些文本作为两种算法的输入,一种是名为“摩西”的统计机器翻译系统,另一种是常用于机器翻译的神经网络框架“Seq2Seq”。

虽然研究团队使用了不同版本的《圣经》来训练计算机代码,但最终可以开发出能够为不同受众转换任何书面文本风格的系统。例如可以从“Moby Dick”中选择英语,并将其风格转换成适合年轻读者、非英语母语人士或其他多种受众团体中的不同版本。

“文本简化只是一种特定类型的风格转换。更广泛地说,我们开发的系统旨在生成与原文具有相同含义的文本,但会用不同的文字进行表述。”卡尔森说。

达特茅斯学院在计算机科学领域有着悠久的创新历史。“人工智能”(AI)一词最初就是在1956年达特茅斯学院召开AI研究学科的会议期间诞生的。该校其他相关研究还包括BASIC语言的设计,这是第一个通用和可访问的编程语言,以及为现代操作系统做出贡献的“达特茅斯时间共享”系统。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    67

    文章

    8561

    浏览量

    137208
  • 数据集
    +关注

    关注

    4

    文章

    1240

    浏览量

    26259

原文标题:用《圣经》做训练数据集,达特茅斯学院完美打造语言风格转换工具

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【瑞萨AI挑战赛】手写数字识别模型在RA8P1 Titan Board上的部署

    ),步骤如下: 图像数据采集:将MNIST测试的图像数据转换为C语言数组(格式为uint8_t,像素值0-255),作为模型的离线输入
    发表于 03-15 20:42

    MinGW-w64工具压缩包的下载

    MinGW-w64工具压缩包的下载 这是MinGW-w64工具压缩包的下载进度界面,文件名为x86_64-13.2.0-release-posix-seh-ucrt-rt_v11-
    发表于 02-07 04:59

    1 GHz Arm® Cortex®-M85 MCU上部署AI模型

    本文将手把手带你实现实时人脸检测,并将完整流程开源。打通从数据采集、模型训练、量化转换,到集成部署的每一个环节。我们已为你准备好了数据
    的头像 发表于 12-02 21:04 9592次阅读
    1 GHz Arm® Cortex®-M85 MCU上部署AI模型

    一文了解Mojo编程语言

    ,利用硬件加速提升效率。 科学计算与数据处理 高效处理大规模数值分析、基因组学数据等任务。 系统工具开发 开发操作系统级工具,结合 Python 的便捷性和 C 的性能优势。 嵌入式与
    发表于 11-07 05:59

    【Sipeed MaixCAM Pro开发板试用体验】基于MaixCAM-Pro的AI生成图像鉴别系统

    图像的快速鉴别,满足实时或准实时的应用需求。 3. 数据采集 AI图片数据,本项目使用gemini生成图片,使用的是gem来实现的。 提示词如下 你是一个能够生成美术绘本风格插画的智
    发表于 08-21 13:59

    请问AICube所需的目标检测数据标注可以使用什么工具

    请问AICube所需的目标检测数据标注可以使用什么工具? 我使用labelimg进行标注,标注后的数据改好文件名后导入不进去。一直卡在
    发表于 08-11 08:07

    训练平台数据过大无法下载数据至本地怎么解决?

    起因是现在平台限制了图片数量,想要本地训练下载数据时发现只会跳出网络异常的错误,请问这有什么解决办法?
    发表于 07-22 06:03

    harmony-utils之TempUtil,温度转换工具

    harmony-utils之TempUtil,温度转换工具类 harmony-utils 简介与说明 [harmony-utils] 一款功能丰富且极易上手的HarmonyOS工具库,借助众多
    的头像 发表于 06-26 00:50 538次阅读

    使用AICube导入数据点创建后提示数据不合法怎么处理?

    重现步骤 data目录下 labels.txt只有英文 **错误日志** 但是使用示例的数据可以完成训练并部署
    发表于 06-24 06:07

    数据下载失败的原因?

    数据下载失败什么原因太大了吗,小的可以下载,想把大的下载去本地训练报错网络错误 大的数据多大?数据
    发表于 06-18 07:04

    恩智浦eIQ Time Series Studio工具使用教程之数据智能

    能够通过可视化界面将相应的数据标签(如电弧或无电弧)应用于当前数据图形的不同部分,从而对导入的原始数据进行分类。然后,该工具根据标签对原始数据
    的头像 发表于 06-05 10:10 1680次阅读
    恩智浦eIQ Time Series Studio<b class='flag-5'>工具</b>使用教程之<b class='flag-5'>数据</b>智能

    PanDao应用:确定和转换透镜公差

    不同的标准(如采用MIL标准而不是ISO10110标准)。此外,图纸中的关键参数可能偶尔存在缺失。 针对此类复杂场景,PanDao提供免费的专业光学转换工具,当前涵盖以下核心功能模块: 可以在下方找到专业光学转换工具入口:
    发表于 06-04 08:47

    OCR识别训练完成后给的是空压缩包,为什么?

    OCR识别 一共弄了26张图片,都标注好了,点击开始训练,显示训练成功了,也将压缩包发到邮箱了,下载下来后,压缩包里面是空的 OCR图片20几张图太少了。麻烦您多添加点,参考我们的ocr识别训练
    发表于 05-28 06:46

    NXP eIQ Time Series Studio 工具使用攻略(九)-数据标签

    其中"Data Labeling",数据标签工具使用户能够通过可视化界面将相应的数据标签(如电弧或无电弧)应用于当前数据图形的不同部分,从而对导入的原始
    的头像 发表于 05-22 09:51 1717次阅读
    NXP eIQ Time Series Studio <b class='flag-5'>工具</b>使用攻略(九)-<b class='flag-5'>数据</b>标签

    海思SD3403边缘计算AI数据训练概述

    AI数据训练:基于用户特定应用场景,用户采集照片或视频,通过AI数据训练工程师**(用户公司****员工)** ,进行特征标定后,将标定好的训练
    发表于 04-28 11:11