0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

再现辉煌:瑞典国家图书馆运用 AI 解析数百年数据

NVIDIA英伟达企业解决方案 来源:未知 2023-02-15 16:10 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

瑞典国家图书馆正在使用五百年来的瑞典语文本训练最先进的 AI 模型,以支持历史、语言学、媒体研究等方面的人文研究。

从价值连城的中世纪手稿到今天的披萨店菜单,瑞典国家图书馆在过去 500 年中收藏了几乎所有瑞典语出版物。

由于瑞典法律要求一切瑞典语出版物都要上交副本至瑞典国家图书馆(也称为瑞典皇家图书馆),因此该图书馆的藏品涵盖了各清晰度的书籍、报纸、无线广播、电视广播、互联网内容、博士论文、明信片、菜单和电子游戏。这个内容丰富的收藏集含近 26 PB 的数据,是训练尖端 AI 的最佳选择。

瑞典国家图书馆数据实验室 KBLab 的负责人 Love Börjeson 表示:“我们有最好的数据,所以我们可以构建最先进的瑞典语 AI 模型。”

该团队使用 NVIDIA DGX 系统开发了二十多个可在 Hugging Face 上使用的开源 Transformer 模型。这些模型推动了图书馆和其他学术机构的研究,每月的开发者下载量多达 20 万。

Börjeson 表示:“在我们的实验室成立前,研究者无法在图书馆访问数据集,他们每次只能查阅一个对象。因此,为帮助那些需要大量查阅资料的研究者,创建图书馆的数据集十分必要。”

这样,研究者很快就能创建专门的数据集。例如,调出所有描绘教堂的瑞典明信片、所有特定风格的文本或是所有提到某一历史人物的书籍、报纸文章及电视广播。

从图书馆档案到 AI 训练数据

瑞典国家图书馆的数据集涵盖了瑞典语的所有变体,包括各种正式和非正式变体、地区方言以及随着时间的推移而产生的变化。

Börjeson 表示:“数据还在持续不断地涌入并增长,我们每个月都会增加超过 50 TB 的新数据。在处理成倍增长的数据的同时,我们还要将数百年前的实物藏品转换成数据录入,所以我们一直在不断扩大我们的数据集。”

2019 年 KBLab 成立后不久,Börjeson 就看到了运用庞大的图书馆档案训练 Transformer 语言模型的潜力。谷歌早期的多语言自然语言处理模型含有 5GB 瑞典语文本,他从此受到了启发。

KBLab 的第一个模型使用了谷歌多语言自然语言处理模型 4 倍之多的数据——Börjeson 团队的目标是使用至少 1 TB 的瑞典语文本训练模型。在发现多语言数据集可能提高 AI 的性能之后,这座实验室开始进行实验,在其数据集中添加荷兰语、德语和挪威语内容。

NVIDIA AI 和 GPU 加速模型开发

该实验室一开始使用的是消费级 NVIDIA GPU,但 Börjeson 很快发现他的团队需要数据中心规模的计算来训练更大的模型。

Börjeson 表示:“我们意识到在小型工作站上无法完成这项工作,所以 NVIDIA DGX 是明智之选。我们很多的工作离不开 DGX 系统。”

该实验室使用两套来自瑞典供应商 AddPro 的 NVIDIA DGX 系统进行本地 AI 开发。这些系统用于处理敏感数据、开展大规模实验和微调模型。它们还准备在全欧盟搭载 GPU 的大型超级计算机上进行更大规模的运行,其中包括卢森堡的 MeluXina 系统。

Börjeson 表示:“我们在 DGX 系统上的工作至关重要,因为我们希望能够在高性能计算环境中做到最好,这必须将超级计算机的作用发挥到极致。”

该团队还采用了用于训练大型语言模型的 PyTorch 框架 NVIDIA NeMo Megatron。其内置的 NVIDIA CUDA 和 NVIDIA NCCL 库可优化 GPU 在多节点系统中的使用。

Börjeson 表示:“我们十分依赖 NVIDIA 的框架。因为我们实验室的规模较小,无法派出 50 名工程师优化每个项目的 AI 训练,NVIDIA 的优势在这就十分明显了。”

利用多模态数据开展人文科学研究

除了能够理解瑞典语文本的 Transformer 模型外,KBLab 还有一个能将声音转换成文本的 AI 工具。这使得图书馆能够将其大量的无线广播收藏转换成数据集,以便研究者能够搜索录音中的具体内容。

KBLab 还在开发生成式文本模型,同时还在研究一个可以处理视频并自动生成内容描述的 AI 模型。

Börjeson 表示:“我们还希望将各种模态的数据联系起来。当你在图书馆数据库中搜索一个特定的词语时,系统将能够返回包括文本、音频和视频在内的结果。”

KBLab 与哥德堡大学的研究者开展了合作。这些研究者正在使用该 KBLab 的模型开发用于语言学研究的下游应用程序。项目之一是帮助瑞典学院升级用于创建瑞典语词典的数据驱动技术。

Börjeson 表示:“这些模型的社会效益远远超出了我们的最初预想。”

9aac0100-ad07-11ed-bfe3-dac502259ad0.png      

点击“阅读原文”扫描下方海报二维码,即可免费注册 GTC 23,切莫错过这场 AI 和元宇宙时代的技术大会


原文标题:再现辉煌:瑞典国家图书馆运用 AI 解析数百年数据

文章出处:【微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英伟达
    +关注

    关注

    23

    文章

    4039

    浏览量

    97649

原文标题:再现辉煌:瑞典国家图书馆运用 AI 解析数百年数据

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    OBOO鸥柏丨教学会议一体机图书馆电子白板会议平板前沿科技

    在现代教育和企业环境中,高效的教学和会议工具已成为提升工作效率和教学质量的关键。【OBOO鸥柏】作为行业领先的会议教学培训解决方案提供商,其教学会议一体机、图书馆电子白板及会议平板等产品,以其卓越
    的头像 发表于 11-19 11:29 570次阅读
    OBOO鸥柏丨教学会议一体机<b class='flag-5'>图书馆</b>电子白板会议平板前沿科技

    智慧图书馆国产化

    在数字化、智能化的浪潮中,传统的图书馆正悄然发生着革命性的变化——演变为集阅读、学习、交流、创新于一体的智慧化公共空间。在这场深刻的变革背后,稳定、高效、安全的计算核心至关重要。向成电子以其
    的头像 发表于 11-05 10:28 167次阅读
    智慧<b class='flag-5'>图书馆</b>国产化

    PN27G01A-芯片里的“图书馆

    的“备注/备份”,非常适合需要大量数据分区存储的应用场景。   数据如何找到? 芯片通过12位的“列地址”和16位的“页/块地址”,就像在图书馆里用编号精确地定位每一本书,既高效又精准。 性能表现:速度快,效率高 PN27G01
    的头像 发表于 10-31 08:33 64次阅读
    PN27G01A-芯片里的“<b class='flag-5'>图书馆</b>”

    DEKRA德凯举行百年庆典 推动可持续发展

    领事Lukas Meyer先生,DEKRA德凯集团首席执行官Stan Zurkiewicz先生,DEKRA德凯集团执行副总裁、亚太区总裁Kilian Aviles博士,DEKRA德凯亚太区高级副总裁、中国大陆及香港董事总经理吴航军先生,以及近五百位嘉宾、客户及合作伙伴齐聚一堂,共同回顾百年安全的
    的头像 发表于 09-14 16:31 1105次阅读

    施耐德电气助力百年学府数据中心改造升级

    面对不同场景下的“跨时空”能效升级挑战,施耐德电气精准施策,以先进的AI技术为核心应用,依托SmartCool末端空调节能解决方案与多种施家硬件设备解决方案的联合携手,为这家百年学府的数据中心量身
    的头像 发表于 08-13 16:47 1072次阅读

    RFID 系统与智能工具柜:重构社康、图书馆与医疗行业的资产管理范式

    在数字化转型的深水区,基层服务与专业机构的资产管理正面临效率与安全的双重考验:某社康中心每月因疫苗冷链记录疏漏被约谈 3 次;某图书馆年度盘点耗费 500 工时,仍有 12% 图书账实不符;某医院
    的头像 发表于 07-07 16:21 408次阅读
    RFID 系统与智能工具柜:重构社康、<b class='flag-5'>图书馆</b>与医疗行业的资产管理范式

    图书馆WiFi总掉线?我的秘密武器居然是它.

    图书馆阿姨收书还快 ​​稳定输出​​:连续3小时查资料,中途只掉线1次(还是因为我手机不小心碰掉了USB) ​​无缝衔接​​:换IP后不用重新登录数据库,连cookie都还在 ​​3. 实测对比:蜂鸟IP
    发表于 06-10 18:05

    RFID在图书馆自动化中的应用

    RFID在图书馆自动化中的优势高效率:RFID可以快速批量读取图书信息,大幅缩短借还书时间,提高图书馆管理效率。准确性:RFID减少了人工操作的错误率,提高了图书管理的准确性和可靠性。
    的头像 发表于 05-27 17:15 494次阅读
    RFID在<b class='flag-5'>图书馆</b>自动化中的应用

    RFID智能书架:图书馆数字化转型的新核心技术

    随着数字化转型的推进,图书馆智能化升级成为趋势。RFID智能书架凭借高效、精准、自动化的管理能力,成为图书馆现代化转型的新宠。
    的头像 发表于 04-28 11:26 580次阅读
    RFID智能书架:<b class='flag-5'>图书馆</b>数字化转型的新核心技术

    图书馆效率革命!RFID智能书柜如何颠覆传统借阅体验?

    传统借阅体验繁琐且低效,图书馆借阅效率亟待提升。RFID智能书柜颠覆传统借阅体验,实现图书精准定位与高效管理。便捷自助借还,缩短借还时间,降低排队时间,提高借阅体验。
    的头像 发表于 04-23 15:21 433次阅读
    <b class='flag-5'>图书馆</b>效率革命!RFID智能书柜如何颠覆传统借阅体验?

    RFID图书管理系统如何重构数字化仓储管理新生态

    图书馆与出版行业数字化转型进程中,RFID图书管理系统正打破传统人工管理的效率瓶颈,通过与数字化仓储管理系统的深度融合,实现从图书采购、入库到借阅的全链路智能化。本文结合RFID固定资产管理软件的应用逻辑,
    的头像 发表于 04-18 16:59 586次阅读
    RFID<b class='flag-5'>图书</b>管理系统如何重构数字化仓储管理新生态

    智慧阅读触手可及——RFID微型图书馆,你了解吗?

    RFID微型图书馆是一种新型的阅读模式,通过射频识别技术构建的小型化、智能化图书馆设施。它提供24小时自助服务、多种登录方式、图书定位与查找、快速盘点图书
    的头像 发表于 04-09 15:37 547次阅读
    智慧阅读触手可及——RFID微型<b class='flag-5'>图书馆</b>,你了解吗?

    用腾讯ima和Deepseek建立个人微信知识库

    腾讯AI图书馆来了,是时候升级英飞凌工业半导体的《微信图书馆》啦。(对于工程师零难度)近日腾讯推出了AI智能工作台ima.copilot,本人亲测,可以在微信平台上建立方便实用的私人
    的头像 发表于 02-25 17:33 2019次阅读
    用腾讯ima和Deepseek建立个人微信知识库

    二维码扫描头嵌入在图书自助管理设备中的应用案例

    在当今数字化时代,二维码扫描技术已广泛应用于各行各业,其中,在图书自助管理设备中的嵌入应用尤为引人注目。这不仅极大地提升了图书馆的服务效率与用户体验,还实现了图书管理流程的智能化与自动化。以下将详细
    的头像 发表于 12-19 16:22 862次阅读
    二维码扫描头嵌入在<b class='flag-5'>图书</b>自助管理设备中的应用案例

    如何保障图书馆用电安全?——安科瑞 丁佳雯

    一、图书馆的安全挑战  图书馆作为公共场所,其电气系统复杂且庞大,包括照明、空调、电脑、电子阅读设备等众多用电设备。这些设备在长时间运行过程中,可能会因老化、接触不良或设计缺陷等原因产生故障电弧
    的头像 发表于 12-13 14:34 686次阅读
    如何保障<b class='flag-5'>图书馆</b>用电安全?——安科瑞 丁佳雯