0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

全球AI音乐会,第一次听见中国声音

脑极体 来源:脑极体 作者:脑极体 2024-04-19 11:01 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

盛夏将至,各条AI赛道也热烈了起来。如果评选一下,近段时间哪个领域的AI应用最为火爆,那么AI音乐创作绝对名列前茅。

一个月之前,海外初创企业Suno发布新版AI音乐生成大模型Suno V3,它可以根据用户自然语言快速生成相关风格音乐,在全球范围内引发热议。而就在不久前,来自前DeepMind团队成员的Udio音乐大模型发布。这款模型可以带来非常逼真的音乐制作效果,并且可以完成多段式、长音乐作品的生成。

AI音乐生成大模型赛道,竞争突然激烈了起来。加上OpenAI的MuseNet、谷歌的MusicLM、Meta的MusicGen等项目,我们似乎在今年迎来了一场全球AI音乐会。一时间异彩纷呈,好不热闹。

但在这场AI音乐会中,有一个现象非常值得重视:这一次,中国科技与全球前沿AI趋势之间没有时差,无缝衔接。我们不再是跟随者与追赶者,而是第一时间加入了这场音乐与AI的盛宴,奏响了属于自己的旋律。

4月2日,由昆仑万维打造的AI音乐生成大模型“天工SkyMusic”开启免费邀测,4月17日更是正式发布。

天工SkyMusic是国内唯一公开可用的AI音乐生成大模型,也是中国首个音乐SOTA模型。

它与震撼全球科技与音乐产业的Suno、Udio保持了时间线上的高度同步,同时多个领域的技术能力更加出色。在与Suno V3的横向测评中,天工SkyMusic在人声&BGM音质、人声自然度、发音可懂度等领域显著领先对手,并以6.65分的综合得分超越Suno V3,成为全球AI音乐最新SOTA模型。

wKgaomYh3oqAOsQ-AAFs-iXnfDE192.jpg

“中国AI不缺席”,是一段我们期待了很久的旋律。究竟是什么让昆仑万维能够完成这次演奏?天工SkyMusic,以及背后的天工3.0有着怎样的产业与社会价值?

让我们打开这场全球AI音乐会,听懂一首关于“中国AI不缺席”的盛夏奏鸣曲。

天工SkyMusic:东方的AI音乐会

不缺席的中国AI音乐大模型,不仅需要第一时间跻身行业一线,更需要在能力上拿出足够有说服力的答案。

天工SkyMusic在发布之后,获得了各方非常积极的反馈。来自媒体、音乐人与行业专家以及广大用户的声音,证明了其具备加入全球AI音乐大模型竞逐的底气。AI音乐会不仅发生在欧美,同时也奏响在东方。

首先,我们可以具体来看一下天工SkyMusic在技术能力上的特色。

通过采用音乐音频领域类Sora的DiT模型架构,天工SkyMusic在AI音乐大模型的几个核心能力指标上都有不俗的表现。

其中包括高质量的音乐生成能力、高逼真的人声模拟能力、高丰富度的歌词段落控制能力、高规模的音乐风格掌握,以及高灵活的音乐表达。

举例而言,欧美AI音乐风格多以“器”见长,更偏重乐器丰富度参数,但在人声拟合方面往往表现一般。

相较而言,昆仑万维天工SkyMusic则专门在人声自然度、发音可懂度上进行了模型专门训练,使得AI发音清晰、无异响,让大模型生成的音乐足以“以假乱真”。

此外,天工SkyMusic所能够创作的音乐,展现出了对多种不同音乐风格,不同生成诉求的把握。比如神曲改造对流行音乐的把握,古诗词改编对中国传统文化与格律的把握等。

透过广泛的生成案例,我们可以发现天工SkyMusic具有丰富的使用场景与广泛的需求人群,例如:

1.音乐从业者可以借助天工SkyMusic寻找灵感,辅助音乐创作。比如说,创作者可以输入一些“母题”,包括亲情、爱情等。通过天工SkyMusic生成的歌词与旋律来寻找灵感,探索创作边界。

2.短视频创作者和UP主可以通过音乐生成来拓展创作边界,降低音乐方案的创作门槛。比如说,UP主可以用天工SkyMusic改编“网络神曲”,获得新的视频BGM。下面这首神曲,天工SkyMusic就可以为你带来完全不一样的感受。


3.音乐爱好者与粉丝可以获得更多样的音乐乐趣,与自己喜欢的音乐类型、音乐风格进行更加多样性、深层次的互动。比如我们可以换一个声音,把我们喜欢的音乐进行重新演绎。

4.在教育教学场景中,天工SkyMusic可以用来辅助音乐教育,让学习者感受到音乐创作的内在逻辑与丰富技巧。同时还能够助力传统文化、乐器演奏等方面的教育教学。比如说,天工SkyMusic可以基于古诗词生成音乐,让学生更生动准确掌握古典文化的精髓。

在这样的应用价值基础上,我们还必须看到天工SkyMusic作为国内最早,也是目前唯一的AI音乐大模型,在填补产业空白方面的价值是巨大的。它的出现,意味着中国用户有了更加符合华语音乐创作习惯的AI模型,对中文有了更好的支持。同时它完全免费,不限使用次数,无需额外的使用门槛,这都是国外同类AI音乐模型所无法实现的。

而从技术角度上看,天工SkyMusic对比MuseNet、MusicLM、MusicGen等项目也具备独特的技术优势。

除了上文提到的人声合成演唱能力外,在音乐风格上天工SkyMusic更加精巧且多元。它能够通过歌词控制情绪变化,实现如颤音、歌剧、吟唱等多种歌唱技巧,并且可以使生成的音乐作品情感更加丰富且贴合情境。在此基础上,天工SkyMusic支持创作说唱、民谣、放克、古风、电子等多种音乐风格,用户可以根据个人喜好定制音乐风格。

总体来看,天工SkyMusic开创了中国AI音乐大模型的先河,成为中国首个音乐AIGC SOTA,并且大幅提高了AI大模型音乐生成在人声领域的技术表现。

天工 3.0:全球最大规模的开源MOE大模型

天工SkyMusic能够与全球AI音乐会同频奏响,背后必然离不开两点:一是战略方向的敏锐把握,二是技术底座的基石打造。

而天工SkyMusic背后的技术基石,则是刚刚发布的“天工3.0”

天工3.0采用了4000亿级参数MoE混合专家模型,是目前全球模型参数最大、性能最强的MoE模型之一。相较于上一代天工2.0MoE大模型,其在模型语义理解、逻辑推理,以及通用性、泛化性、不确定性知识、学习能力等领域都有着大幅的性能提升,其模型技术知识能力提升超过20%,数学/推理/代码/文创能力提升超过30%。

具体来看,天工3.0在四个方向带来了全面升级:

首次是逻辑推理能力的增强。天工3.0强大的逻辑推理能力使其能够在实际应用中更加准确和高效地处理信息。例如,在天工3.0AI搜索的研究模式中,能够围绕用户的某个简单指令进行相关问题的延伸,并实时判断该段落信息是否需要联网搜索。在分析某个具体行业的信息时,能够实现总结相关事件、拆解产业链地图等复杂功能,并以结构化或思维导图的形式进行最终展示,让AIGC能力与行业应用更紧密融合。

其次,是语义理解能力的增强。天工3.0能够更好地理解和处理用户自然语言Query中的复杂语义信息,包括隐喻、多义词等。比如说,天工3.0可以对用户Query进行拆解、细化,甚至对用户进行追问,从而在面对不确定知识时表现更好,能够满足用户多样化的需求。

此外,天工3.0新增了专项Agent训练能力。天工3.0可以针对模型独立规划、调用、组合外部工具及信息的能力进行了专项训练,使其能够独立生成并调用代码,完成包括产业研究、产品横评、信息分析、图片生成、图表绘制等多种复杂用户需求。

针对B端产业用户的需求,天工3.0也在知识库能力、任意工具调用能力、复杂角色指令追寻能力等领域进行了升级,企业用户可以通过上传知识文档构建专属知识库及Agent,并实现自动调用制定工具、完成复杂指令遵循Agent构建等实用能力。

最后,天工3.0的内容生成能力也得到了全面升级。对比天工2.0,天工3.0群星了全面的内容创作能力增强,能够完成AI音乐生成、AI语音、AI对话、AI二次元漫画生成等内容创作。还可以通过专项Agent训练实现在对话中结合文本需求实时生成图片、结合文本需求实时内容分析及图表构建等能力。

总结天工3.0的技术特点,最为关键的一点就是:独立思考。

天工3.0可以将复杂任务进行拆解优化,并在每一步都独立思考,判断每一步是否需要调用不同的工具。也是基于独立思考能力,天工3.0新增了联网能力、文生图、代码能力等优势应用能力,同时增强了AI搜索等能力的表现。

更为值得注意的是,性能强大,技术独创性极强的天工3.0,选择了开源开放的策略。在全球开源大模型极速发展,基于开源生态的AI应用百花齐放的大背景下,天工3.0的开源无疑是给中国AI开源事业注入了强心剂。全面提升了中国开源大模型的整体技术水平与产业底座厚度。

在选择开源开放的同时,天工3.0还搭建了智能体广场,帮助开发者定制化打造智能体。更好的中文适配度,也让天工3.0与中文开发需求更加契合。

全面增强的能力,更加丰富的功能,以及与开发者更紧密地契合,让天工3.0成为一块基石——“中国AI不缺席”的基石。

这一次,中国AI不缺席

过去AI行业内部总是认为,我们与欧美顶级AI企业之间存在着时间差。在新模型、新技术火热之后,中国AI行业才开始跟随和学习。

但在AI音乐大模型的热潮里,情况显然并非如此。为什么我们这次可以不跟随,不焦虑,而是第一时间抵达这个舞台,开始自己的演奏?

事实上,在AI音乐生成这个方向上,昆仑万维一直保持着高度关注。早在2022年12月昆仑万维发布的“昆仑天工”AIGC全系列开源算法与模型中,就包括多模态音乐内容生成大模型。此后,昆仑万维还打造了多个基于AI音乐大模型的合作项目,掌握了丰富的实践经验。昆仑万维关注并且重视AI音乐生成,是天工SkyMusic的战略牵引。

天工3.0与天工SkyMusic的发布展现出来了这样一个价值逻辑:在AI大模型快速发展的产业纪元里,想要提升创新效率,把握战略机遇,需要首先孕育一个底座。这个底座可以融合各种先进的AI技术能力。

wKgZomYh3oqAHuwZAABV3EHqUIw366.jpg

昆仑万维集团董事长兼CEO方汉认为,SOTA指的是当前技术在本领域技术指标全球第一。OpenAI是文本大模型和视频生成大模型的SOTA,而昆仑万维目前实现了音乐AIGC的SOTA。

之所以能够实现这一点,有赖于天工3.0提供了底座级别的AI能力,进而实现发展效率与发展质量的统一。

昆仑万维创始人周亚辉认为:“未来三十年,人类社会很大的一个变化,是人类要从感知线,变成表达线,整个人类社会在自我表达侧要翻1000倍;创作和自我表达是未来30年在整个社交和文化领域增长最快的曲线,会有越来越多人表达自我,表达对世界的理解、对社会事物的态度,表达越来越艺术化和趣味化;这种表达在过去很困难,因为工具门槛高,而未来30年是自我表达的30年,我们要用AI把人类创作的门槛降得足够低,让人们更充分地实现自我表达。”

基于昆仑万维“All in AGI 和 AIGC”的战略布局,天工3.0成为集自然语言处理、计算机视觉、多模态、AI搜索、AI智能体等多项前沿技术为一身的AI大模型。基于天工3.0提供的底座能力,昆仑万维可以敏锐步骤发展机会,抓住诸如AI音乐创作这样的产业风口。而广大开发者则可以获得多元且丰富的AI能力,将AI带到千行百业的每个角落。

以超级模型蕴育种种AI技术,包容千行百业,这才是全球AI音乐会中,那道独特且悦耳的东方旋律。

在起步阶段的天工SkyMusic,已经为用户带来了丰厚的音乐创作乐趣。随着未来的持续优化升级,我们会得到一个专业且易用的音乐创作平台。围绕天工SkyMusic,将可能出现AI音乐创作者生态,新的音乐明星。进而影响音乐行业的发展。

在全球AI音乐的热潮背后,我们可以看到从“中国AI不缺席”到“中国AI如何引领”的深刻变革。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    90

    文章

    38225

    浏览量

    297071
  • OpenAI
    +关注

    关注

    9

    文章

    1238

    浏览量

    9819
  • 大模型
    +关注

    关注

    2

    文章

    3460

    浏览量

    4975
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    中软国际加入全球计算联盟CloudDevice专业委员

    今日,华为全联接大会2025在上海启幕。期间,全球计算联盟(GCC)CloudDevice专业委员(以下简称“专委会”)第一次全体会议召开,华为与中国信通院、中科院、中移互联、中软国
    的头像 发表于 09-19 14:18 546次阅读

    湿法去胶第一次去不干净怎么样

    在半导体制造过程中,若湿法去胶第一次未能完全去除干净,可能引发系列连锁反应,对后续工艺和产品质量造成显著影响。以下是具体后果及分析:残留物导致后续工艺缺陷薄膜沉积异常:未清除的光刻胶残留作为异物
    的头像 发表于 09-16 13:42 372次阅读
    湿法去胶<b class='flag-5'>第一次</b>去不干净<b class='flag-5'>会</b>怎么样

    智能客服驱动效率和体验升级,上海电信+昇腾AI一次民生应用实践

    上海电信+昇腾AI一次民生应用实践
    的头像 发表于 07-30 23:44 2713次阅读
    智能客服驱动效率和体验升级,上海电信+昇腾<b class='flag-5'>AI</b>的<b class='flag-5'>一次</b>民生应用实践

    暑假班第一次直播回放 | 新能源汽车的基础知识及RK3576芯片功能模块介绍

    感谢大家的支持,由李增老师主讲的RK3576汽车视觉智能座舱系统设计暑假班正式开课啦!扫描下方二维码观看第一次直播回放视频。观看回放1.前沿实战,开启汽车座舱新征程今年的暑假班中,李老师以全程实例
    的头像 发表于 07-11 16:31 502次阅读
    暑假班<b class='flag-5'>第一次</b>直播回放 | 新能源汽车的基础知识及RK3576芯片功能模块介绍

    STM32H747 USB接口,插拔第一次连接的上,之后就再也连接不上,为什么?

    状态 :STM32H747 全新板子,没有烧任何程序,boot0 拉高。上电 USB口强制进入DUF模式。 操作及现象 1、第一次上电,通过USB连接电脑 。可以识别成 DFU in FSmode
    发表于 07-10 06:08

    航盛电子出席东风日产第一次供应链顾问委员

    近日,以“共创、共赢”为主题的东风日产第一次供应链顾问委员会在广州召开。39家战略供应商齐聚东风日产企业大学,结合时代机遇与挑战,共商共享发展方针。航盛集团董事长、总裁杨洪作为东风日产供应链顾问代表,受邀出席本次会议。
    的头像 发表于 07-01 16:58 777次阅读

    福田特来电2025年第一次股东及董事顺利召开

    近日,北京福田特来电微电网科技有限公司(以下简称“福田特来电”)2025年第一次股东及董事会在福田汽车北京总部召开。福田汽车副总经理、福田特来电董事长崔士朋、福田汽车金融副总裁张雪薇、福田汽车Z
    的头像 发表于 06-18 17:32 961次阅读

    看门狗存在问题,设备第一次设置后正常,再次运行提示ValueError: WDT id is used,怎么解决?

    看门狗存在问题,设备第一次设置后正常,再次运行提示ValueError: WDT id is used,重启也无法恢复
    发表于 04-29 07:17

    PCM2912APJTR设计的USB声卡播放声音有哒哒的声音的原因有哪些

    最近学习PCB设计设计了个USB声卡,电路图参考了官方demo模块的原理图,但是设计出来的板子发现播放音乐会有哒哒的声音。本人由于是初学者,所以有点不懂是PCB不对的问题还是原理图设计的问题了。 希望有人能够给点修改建议。 下
    发表于 03-21 11:54

    第一次给本科生讲课,从孩子们身上我看到了祖国未来希望

    第一次给本科生代课,我感觉是件很有意义的事情,孩子们也让我倍加感动,记录到公众号,分享给大家。 下图是课程结束后,学生们自己非常自觉地整理实验材料,注意:是自觉整理,这体现出孩子们对器材和设备
    的头像 发表于 03-12 12:21 1016次阅读
    <b class='flag-5'>第一次</b>给本科生讲课,从孩子们身上我看到了祖国未来希望

    STM32L496RG第一次烧写程序后需要重新上下电才能正常执行程序,为什么?

    项目中使用板子第一次下程序后必须得重新上下电才能下程序,期间什么复位都不起作用,只有第一次会有这种情况 观察第一次对应的PC指向0X1FFF5236,该区域对应SYSTEM区,以为是启动选项字节问题,发现烧写完和未烧写的选型字
    发表于 03-11 07:41

    百度AI手语数字人助力听障人士“听见声音

    近几年,百度先后与天津理工大学、鲸言科技合作,共同研发出百度智能云曦灵AI手语平台与双向手语翻译机,让手语的“声音”,被更多人听见
    的头像 发表于 02-21 11:29 1326次阅读

    请教ADC12D800RFRB评估板第一次使用问题

    ADC12D800RFRB评估板第一次使用问题 大家好,我的问题如下: 第一次使用的时候按照提供的个使用手册,安装了WV5,连好板子,PC也识别到了。但是手册上说,第一次使用的时候
    发表于 01-21 06:50

    第一次做电路,总把小mos管烧掉

    设计电路,工程师应该有不少得意之作,而画板子、焊板子、调板子也有很多趣事,尤其是新手期,哈哈。 1. 自己第一次做的电路 24变12伏,根据lay的板子用实验板搭出来。 开始调试时,总是把小mos管
    的头像 发表于 01-15 14:06 663次阅读
    <b class='flag-5'>第一次</b>做电路,总把小mos管烧掉

    ADS1256第一次上电的时候,采集的ADC信号是实际值的半,为什么?

    最近在用ADS1256这款ADC芯片,出现了个很怪异的问题。当我第一次上电的时候,采集的ADC信号是实际值的半,重新上电后又正常了。 但是并不是每次
    发表于 12-13 15:33