四只胳膊可与人类合作即兴作曲机器人怎么做的？_

　　机器人已经开始做很多工作了，这并不奇怪，不过机器人现在所代替的一般是繁琐的机械性的工作，在创意和艺术方面，机器人可能还有很远的路要走。不过现在有位叫“Shimon”的机器人开始尝试进行音乐创作了，而且还能积极与人类配合，它是怎么做到的呢?IEEE Spectrum 的记者 Evan Ackerman 对 Shimon 的制造者进行了采访。

　　在佐治亚理工学院音乐技术中心， Gil Weinberg 凭借其“机器人学”和“人工智能”的相关专业技术和创造力，开始让他们的机器人进行音乐创作。至今，他们不仅完成了很多机器人音乐项目;还进行了大量非常有趣的、关于机器人与人类合作进行即兴音乐创作的调查研究。最值得关注的是他们的“Shimon”机器人，一个有着四条胳膊的、极富表现力的“马林巴琴演奏家”，它能够对音乐进行实时的分析，并与人类作曲家进行即兴音乐创作。

　　Shimon的音乐创作才华着实让人眼前一亮，Shimon 的音乐天赋在很大程度上受到了人类作曲家的限制。而现在，Shimon利用了深度学习，可以独立创作出了有结构的、连贯的乐曲。

　　Shimon的“音乐老师”是来自“乔治亚理工大学”的博士生Mason Bretan。你现在所听到的音乐旋律，其实是一个“种子旋律”在神经网络运行后的得到结果。这个神经网络是经过近5000首完整的歌曲(其中包括了贝多芬、披头士、Lady Gaga、Miles Davis和John Coltrane的歌)和大量音乐元素(包括即兴歌曲、音乐主题、音乐片段、歌词等)测试训练的成果。

　　在Shimon独创乐曲的第二段中，Bretan使用了一个节奏稍快的“种子旋律”，所以这一段的音乐与上一段风格完全不同，节奏明显更加轻快：

　　我们必须要知道，Shimon的作曲过程并不是简单地将不同的音乐片段组合到一起，也并没有使用所谓的“音乐生成器”。Shimon的曲子实际上是深度神经网络对成千上万首歌曲进行分析、学习后的结果。它能够创作出和声和弦，并且能够像人类一样关注于曲子的整体结构，而非乐章的某一部分。

　　Bretan把Shimon的这种创作特点称作“高级音乐语义学”。我们现在还不能完全认同Shimon的音乐，因为它创作的曲子说到底只是一个深度学习系统的创造性输出。Weinberg把Shimon的音乐形容为“美妙的、振奋的，同时也是奇怪的”。Shimon的曲子确实与人类创作的音乐有共通之处，但它同时也有着自己的独创性。

　　为了进一步了解Shimon音乐创作方面的更多细节，我们通过电子邮件与Bretan和Weinberg教授进行了交流：

　　IEEE Spectrum：这几段音乐视频是您从Shimon作品中特意挑选出来的吗?这些曲子是不是Shimon的作品中特别出色的?

　　Gil Weinberg：这些是Shimon使用深度学习创作的前两部作品，并不是我们有意挑选的。这两首曲子是Shimon在对大量歌曲进行分析学习之后创作出来的作品，同时也是其“种子旋律”的展现。如果我们扩大了训练Shimon的歌曲数据库，在训练数据中加入了很多不同的音乐元素;或者我们输入了不同的“种子旋律”——那么Shimon创作出的音乐就会大不相同。

　　IEEE Spectrum：如果只以一种类型的音乐作为数据训练机器人(假设是古典乐，或者甚至是某个作曲家创作的古典乐)，那么这个机器人创作出的曲子与训练数据相关的程度究竟有多大?

　　Weinberg：Shimon的音乐与训练数据集的关系非常密切，所以如果训练数据集中只包含一个作曲家的音乐作品，那么Shimon创作出来的音乐很可能与这个作曲家的风格非常相似。另一个非常重要的创作要素是“种子旋律”，它对于音乐的风格有着至关重要的影响。

　　IEEE Spectrum：Shimon的训练数据集中为什么既有零散的音乐元素，又有完整的歌曲?它是如何做到将这两种数据整合的呢?

　　Mason Bretan: 我们是想让神经网络通过这些数据，理解重要的结构性概念。如果一个人想要写作，那他必须要先了解词语、句子、段落的概念。在音乐创作中，歌词、主题、音乐片段都是必不可少的组成部分。让神经网络自己学习这些音乐概念，我们就只需要通过改变音乐序列的长度对它进行动态的训练，从而让这个网络根据前一段曲子来预测下一片段的曲子，或者根据前两段、前八段，直到前十六段乐曲来预测接下来的音乐片段。

　　IEEE Spectrum：您能向我们详细地讲述一下Shimon作曲的过程吗?

　　Bretan：Shimon作曲的第一步，也可以说是最重要的一步，就是“神经嵌入”，意思是让神经网络学习一小段音乐的有效数字表示。在“语言建模”中，“词向量”是神经网络学习词语概念的方法。在音乐创作中，有着与之相似的操作过程，通过这样的操作，神经网络就能学会有效地表示一段乐曲。

　　第二步就是“音乐序列建模”，即对这些音乐片段进行预测。经过训练后的神经网络需要根据前面给出的音乐段落，对接下来的曲子进行预测。这并不是机器人训练中通常使用的“强化学习”——机器人通过学习一系列离散的动作来解决问题。Shimon是在一个连续的空间内预测一个数字序列。假设我们给神经网络的序列是“1,2,1，2,1,2,1”，那么接下来网络就会预测出数字“2”。这就意味着在训练中，离数字2越远，网络对参数的更新就越具有实质参考价值。因此，如果网络经过了训练，接收到一个“种子旋律”，它就能够不断地对接下来的音乐片段进行预测，而这些预测的音乐片段实际上就成了Shimon的音乐作品。

　　IEEE Spectrum：Shimon作为一个“作曲家”，有没有独特的创作风格呢?Shimon的音乐作品与其他的人类创作的音乐作品存在哪些不同呢?

　　Weinberg：我们的机器人“音乐家”创作的基本原理是将人类喜欢的音乐与音乐演奏的新方式充分结合。在这里，深度学习建筑主要是在捕捉人类使用的音乐概念和模式。作为创作的一份子，我们可以用算法任意添加一些数学序列，然后Shimon就有可能创作出一些新颖、美妙、奇怪的音乐了。

　　IEEE Spectrum：除了音乐创作以外，这一学习方法和即兴创作技术还有其他的实际应用吗?

　　Weinberg：我们现在正使用的是“LSTM网络”(长短期记忆网络)和“基元选择”。这两种方法都能用于“语言建模和生成”，而“语言建模和生成”就等同于我们所说的“即兴创作”。

　　IEEE Spectrum：那么您二位接下来研究的方向是什么呢?

　　Weinberg：我们现在开始研究如何让深度学习不单单从一系列符号象征中学习，还能从人类音乐表演的数据中学习。这就意味着机器人不仅要知道乐曲中的旋律，还要掌握演奏这些音乐的方法，让它听起来更具有表现力。

　　Bretan：而我接下来研究的大问题是关于互动，以及如何在音乐创作中获取对音乐更深层次的理解。Shimon有四支胳膊，它与有着十指、两臂的人类相比，在音乐领悟方面到底有什么不同呢?

　　注：本文由「图普科技」编译，您可以关注微信公众号tuputech，体验基于深度学习的「图像识别」应用。

头条号入驻

互联泛观察互联泛观察，资深创作者！

财经自媒体联盟更多自媒体作者

今日推荐优秀作者看点月榜

新浪财经头条意见反馈留言板

4000520066 欢迎批评指正

四只胳膊 可与人类合作即兴作曲 机器人怎么做的？

头条号入驻

财经自媒体联盟更多自媒体作者

热文排行榜

四只胳膊可与人类合作即兴作曲机器人怎么做的？