0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一个可以预测活页乐谱中和目标录音匹配度最高的的位置的AI系统

LiveVideoStack 来源:LiveVideoStack 作者:LiveVideoStack 2020-12-07 11:37 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

音乐AI技术正在快速发展。

在预印平台Arxiv.org上发布的一项研究中,约翰内斯·开普勒大学林茨计算感知研究所和奥地利人工智能研究所的研究人员介绍了一个可以预测活页乐谱中和目标录音匹配度最高的的位置的AI系统。表面上,其对齐精度高于当前基于图像的最新乐谱追踪器。

乐谱追踪技术是很多应用程序的基础。这些应用包括自动伴奏、翻页以及将现场表演与可视化图像同步等等。现有的系统要么依赖于固定长短的小片段乐谱图像,要么需要光学音乐识别技术所提取出的计算机可读的乐谱。但是这些研究人员的AI系统可以以独特的方式观察整页乐谱,从而从头到尾地追踪任意长度的音乐表演。

这个研究团队将乐谱追踪当作一种图像分割任务。根据特定时间的某个音乐表演,他们的系统针对当前正在播放的音乐相对应的乐谱预测分段蒙版(即小片段)。研究人员说,仅仅利用固定大小音频输入的乐谱追踪器无法在超过特定环境的情况下区分重复的音符,然而他们提出的AI系统在处理较长时间的乐谱时都不会有问题。

在实验过程中,研究人员们从多模型乐谱数据集(MSMD)中获取了一些复音钢琴样本,其中包括巴赫、莫扎特、贝多芬等多个作曲家的作品。在手动识别并且纠正一些对齐上的错误后,他们通过353对乐谱和MIDI音频信息训练了AI系统。

该AI系统的另一位作者说,除了最高的门槛以外(没搞懂highest threshold是啥),他们的系统拥有比基准线更高的性能,并能在时间差方面得出更精确的结果(即对于更严格的容错率,百分比更高)。它偶尔也会产生一些错误,研究人员将其归因于系统可能会在图像纸上 “大幅跳跃”。但是他们断言,种种试验结果都表明这个AI系统在大多数情况下都是“非常精确的”。

“未来的工作会需要对扫描图像或照片进行测试,以评估该AI系统在视觉领域的泛化能力。”研究人员写道,“成就功能更强大的系统的下一步是显式或隐式地结合某种机制来处理乐谱和演奏中重复的音符。尽管我们也怀疑其性能会很大程度上取决于迄今为止音频的隐式编码。举例来说,循环网络中能够存储多大的听觉环境将成为很重要的一个因素,但我们相信,我们所提出的方法能够从合适的(经受过训练的)的数据中很自然地获得这种功能。”

音乐AI技术正在快速发展。OpenAI最近发布了一款叫做Jukebox的机器学习框架,它可以生成包括基本歌曲在内的音乐作为各种音乐类型和音乐风格的原始音频。在2018年末,Google Brain的“Project Magenta”项目致力于“探索机器学习在创作过程中的作用”,提出了一个叫做“Musical Transformer”的模型。该模型能够生成可识别的重复性歌曲。不仅如此,去年三月,谷歌发布了一种算法“Google Doodle”,让用户能够创造向巴赫致敬的旋律。

责任编辑:lq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 音频
    +关注

    关注

    31

    文章

    3226

    浏览量

    86317
  • 数据集
    +关注

    关注

    4

    文章

    1240

    浏览量

    26261
  • ai技术
    +关注

    关注

    1

    文章

    1315

    浏览量

    25807

原文标题:研究人员的AI技术能够实时匹配活页乐谱与MIDI音频

文章出处:【微信号:livevideostack,微信公众号:LiveVideoStack】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    可测 + AI 预测:光伏发电功率预测如何提升消纳与收益

    可测是“精准采集数据”的基础,AI预测是“提前预判趋势”的核心,二者联动,不仅能精准预测光伏发电功率,更能优化调度、减少波动、提升消纳,让每一度绿色电能都能转化为实实在在的收益。
    的头像 发表于 04-24 09:26 348次阅读
    可测 + <b class='flag-5'>AI</b> <b class='flag-5'>预测</b>:光伏发电功率<b class='flag-5'>预测</b>如何提升消纳与收益

    【应用方案】会议 面试记录终结者-艾为AI智能录音卡方案,清晰拾音,解放双手

    进入AI时代,智能录音卡、录音豆等新代轻量化AI录音设备,以便携无感、智能转写、高效整理、安全
    的头像 发表于 04-08 18:32 311次阅读
    【应用方案】会议 面试记录终结者-艾为<b class='flag-5'>AI</b>智能<b class='flag-5'>录音</b>卡方案,清晰拾音,解放双手

    Ubuntu系统音频调试指南:解决录音异常问题

    在网安产品出货国外的过程中,我们在 x86 平台上遇到了 Ubuntu 系统录音异常的情况 —— 安装 Windows 系统录音正常,但切换到 Ubuntu 24.04.3 版本后
    的头像 发表于 02-05 13:41 420次阅读
    Ubuntu<b class='flag-5'>系统</b>音频调试指南:解决<b class='flag-5'>录音</b>异常问题

    使用NORDIC AI的好处

    ,时延更低,系统在网络不稳定甚至离线时也能继续工作。[Edge AI 概述] 提升隐私与可靠性 原始传感器数据(如运动、生理信号等)可以留在本地,只上传推理结果,有利于隐私与数据安全。 本地决策
    发表于 01-31 23:16

    大厂激战录音硬件,国产芯片加速端侧AI竞赛

    克等品牌掀起的硬件竞赛背后,国产AI芯片也在“比拼”端侧AI能力。   AI录音硬件竞赛:形态创新与市场竞逐 安克 AI
    的头像 发表于 01-23 09:29 6401次阅读
    大厂激战<b class='flag-5'>录音</b>硬件,国产芯片加速端侧<b class='flag-5'>AI</b>竞赛

    目标追踪的简易实现:模板匹配

    )*(720-50+1)= 826001 次。每次运算都会计算出 SAD 值,而我们只要找到这个最小的 SAD 值对应的模板所在位置,就可以认为找到了帧图像
    发表于 10-28 07:21

    提高条件分支指令预测正确率的方法

    “Gshare方法”。 BTB: 分支目标缓冲器(Branch Target Buffer,BTB)是用于存储分支指令地址和目标地址的高速缓存,其常见于超标量处理器中,主要用于提
    发表于 10-22 08:22

    AI赋能6G与卫星通信:开启智能天网新时代

    学习,AI可以智能识别和纠正信号错误。在2024年欧洲卫星通信展上,展示的AI信号处理系统使卫星通信的误码率从0.01%降至0.0001%,相当于每1000万比特数据中,错误比特数从1
    发表于 10-11 16:01

    使用studio,最高版本的系统是4.0.3,用到LVGL,但是可选的版本是9.1的,不匹配怎么解决?

    使用studio搭建的系统,选的是4.0.3版本,需要用到LVGL,但是版本没的选,只有9.1最高的版本,系统匹配怎么办?
    发表于 09-29 09:56

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    流体芯片 ⑤AI计算平台 ⑥基于AI的自主决策系统 ⑦基于AI的自主学习系统 2、面临的挑战 ①需要造就
    发表于 09-17 11:45

    多种录音笔录音芯片方案推荐

    产品成本。唯创知音作为音频芯片领域的知名厂商,推出了系列性能卓越的录音芯片,为录音笔的设计提供了多样化且优质的解决方案。 二、多种录音芯片推荐 (
    的头像 发表于 08-06 16:48 1507次阅读

    瘦客户端解决方案:树莓派电脑助力企业实现碳中和目标

    Losingthewires通过帮助企业转向RaspberryPi管理的瘦客户端,减少对台式电脑的依赖,使商业世界更加可持续,并助力企业实现碳中和目标
    的头像 发表于 06-22 20:33 782次阅读
    瘦客户端解决方案:树莓派电脑助力企业实现碳<b class='flag-5'>中和</b><b class='flag-5'>目标</b>!

    基于LockAI视觉识别模块:C++多模板匹配

    多模板匹配种在图像中同时寻找多个模板的技术。通过对每个模板逐进行匹配,找到与输入图像最相似的区域,并标记出匹配
    发表于 05-14 15:00

    基于LockAI视觉识别模块:C++多模板匹配

    多模板匹配种在图像中同时寻找多个模板的技术。通过对每个模板逐进行匹配,找到与输入图像最相似的区域,并标记出匹配
    的头像 发表于 05-14 14:37 1751次阅读
    基于LockAI视觉识别模块:C++多模板<b class='flag-5'>匹配</b>

    【「零基础开发AI Agent」阅读体验】+Agent的工作原理及特点

    感知系统从环境中收集信息并从中提取相关知识的能力,这类包括文本、图像、声音等。 2)规划 规划是指Agent为了实现某一目标而进行的决策过程,在该阶段Agent会根据收集的信息制定出系列策略,并确定
    发表于 05-11 10:24