婷婷开心色四房播播-国内久久婷婷五月综合色谷歌已将该论文投给ICLR 2022
你的位置:婷婷开心色四房播播 > 一本伊人 > 国内久久婷婷五月综合色谷歌已将该论文投给ICLR 2022
国内久久婷婷五月综合色谷歌已将该论文投给ICLR 2022
发布日期:2022-04-22 23:15    点击次数:186

 国内久久婷婷五月综合色国内久久婷婷五月综合色

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请相关出处。

听一遍曲子,就能宗旨曲谱,还能立时演奏,况且还独揽“十八般乐器”,钢琴、小提琴、吉他等都不在话下。

这就不是人类音乐群众,而是谷歌推出的“多任务多音轨”音乐转音符模子MT3。

谷歌推出万能扒谱AI:惟有听一遍歌曲,钢琴小提琴的曲谱全有了

领先需要解释一下什么是多任务多音轨。

时常一首曲子是有多种乐器合奏而来,每个乐曲便是一个音轨,而多任务便是同期将不同音轨的曲谱同期归附出来。

谷歌已将该论文投给ICLR 2022。

归附多音轨曲谱

比较于自动语音识别 (ASR) ,自动音乐转录 (AMT) 的难度要大得多,因为后者既要同期转录多个乐器,还要保留细巧的音高和时辰信息。

多音轨的自动音乐转录数据集更是“低资源”的。现存的开源音乐转录数据集一般只包含一到几百小时的音频,比较语音数据集动辄几千上万小时的市集,算是很少了。

谷歌推出万能扒谱AI:惟有听一遍歌曲,钢琴小提琴的曲谱全有了

先前的音乐转录主要聚首在特定于任务的架构上,针对每个任务的各式乐器量身定制。

因此,作家受到低资源NLP任务挪动学习的启发,诠释了通用Transformer模子不错履行多任务 AMT,并显耀提高了低资源乐器的性能。

作家使用单一的通用Transformer架构T5,况且是T5“小”模子,其中包含苟简6000万个参数。

该模子在编码器妥协码器中使用了一系列圭臬的Transformer自顾惜力“块”。为了产生输出符号序列,一本伊人该模子使用权术自讲究解码:输入一个输入序列,将权衡出下一个出现概率最高的输出符号附加到该序列中,并叠加该经过直到终结 。

MT3使用梅尔频谱图行为输入。关于输出,作家构建了一个受MIDI标准启发的token词汇,称为“类MIDI”。

谷歌推出万能扒谱AI:惟有听一遍歌曲,钢琴小提琴的曲谱全有了

生成的曲谱通过开源软件FluidSynth渲染成音频。

此外,还要科罚不同乐曲数据集招架衡和架构不同问题。

作家界说的通用输出token还允许模子同期在多个数据集的羼杂上进行历练,近似于用多言语翻译模子同期历练几种言语。

这种行径不仅简化了模子诡计和历练,况且加多了模子可用历练数据的数目和种种性。

实质后果

在系数办法和所稀有据集上,MT3长期优于基线。

历练时代的数据集羼杂,比较单个数据集历练有很大的性能进步,十分是关于 GuitarSet、MusicNet 和 URMP 等“低资源”数据集。

谷歌推出万能扒谱AI:惟有听一遍歌曲,钢琴小提琴的曲谱全有了

最近,谷歌团队也放出了MT3的源代码,并在Hugging Face上放出了试玩Demo。

谷歌推出万能扒谱AI:惟有听一遍歌曲,钢琴小提琴的曲谱全有了

不外由于转念音频需要GPU资源,在Hugging Face上,忽视列位将在Colab上初始Jupyter Notebook。

如果IT团队无法通过定期报告了解其私有云,那么这些都无关紧要。私有云监控可以帮助识别出现的即时问题。尽管如此,只有在对私有云进行充分报告时才能进行长期规划和主动战略制定。

以下是企业在构建混合云解决方案策略时如何选择合适的云计算提供商的一些建议。

论文地址: https://arxiv.org/abs/2111.03017

源代码: https://github.com/magenta/mt3

Demo地址: https://huggingface.co/spaces/akhaliq/MT3

 

 



相关资讯