脑机接口与混合智能-新闻-AI舞蹈合成系统，以编舞为导向的音乐驱动的舞蹈合成

介绍

本篇报告内容来源于网易互娱AI Lab、清华大学的研究人员在SIGGRAPH上发表的《ChoreoMaster : Choreography-Oriented Music-Driven Dance Synthesis》

音乐和舞蹈自古以来就密不可分，它们的关系随着人类文明的发展而演变。对舞蹈音乐关系的研究形成了一个学科，称为舞蹈音乐学，风格和节奏是音乐和舞蹈中两个相互关联的因素，相对独立，但又密切相关。一方面，遵循相同节奏模式的音乐和舞蹈可能呈现出截然不同的听觉和视觉风格，反之亦然。另一方面，节奏模式的分布与音乐和舞蹈风格密切相关：例如，舒缓的音乐往往节奏柔和，而摇滚音乐的节拍强烈。保证音乐和舞蹈之间风格、节奏的一致性对于音乐驱动的舞蹈动作合成至关重要。

ChoreoMaster自动合成舞蹈示例视频

网易互娱AI Lab、清华大学的研究人员提出ChoreoMaster，一种可用于制作的音乐驱动的舞蹈动作合成系统。给定一段音乐，ChoreoMaster 可以根据音乐的风格、节奏、结构自动生成高质量的舞蹈动作序列。为了实现这一目标，研究人员引入了一种面向编舞的舞蹈音乐嵌入框架，该框架成功地为音乐和舞蹈片段之间的风格和节奏关系构建了一个统一的舞蹈音乐嵌入空间。然后将学习到的舞蹈音乐嵌入结合到一个面向舞蹈的基于图形的运动合成框架中，该框架可以根据各种舞蹈规则生成高质量的舞蹈动作。

图1：ChoreoMaster 包括两个面向编舞的模块：一个用于捕捉音乐-舞蹈连接的编舞嵌入模块，以及一个基于图形的运动合成模块，用于根据各种编舞规则从输入音乐中生成高质量的舞蹈动作。

实现

编舞风格的嵌入空间

图2：一段连续的舞蹈动作中出现了动作风格不一致

舞蹈表演中风格的一致性是舞蹈作品的基本要求，具体来说是舞蹈中各部分的动作风格的一致性和舞蹈动作风格与音乐风格的一致性。研究人员采用了一个舞蹈音乐嵌入网络来隐式地模拟音乐和舞蹈风格之间的联系。关键思想是将音乐和舞蹈片段映射到一个统一的嵌入空间中，其中传达相似情绪和音调的片段紧密聚集在一起。具体来说，研究人员首先使用未配对的音乐和舞蹈数据独立训练两个分类网络，然后利用配对数据将两个特征空间转换为统一的嵌入空间，其中音乐和舞蹈项目保持可分类，而配对的音乐和舞蹈项目保持尽可能靠近。

该架构如图 3（左）所示。主要采用[2]作为音乐编码分支的骨干。它由四个卷积块层和两个GRU层组成。舞蹈编码分支与音乐编码分支相似，其中卷积块被图卷积块替换。EM和ED的用途是将音乐和舞蹈序列压缩成嵌入向量ZM和ZD。

为了让音乐和舞蹈动作数据配对，研究人员采用了两阶段的训练程序。第一阶段，使用所有标记的未配对音乐和舞蹈动作数据独立训练音乐和舞蹈动作分支。第二阶段，为了更好地反映学习嵌入空间中的潜在子样式，研究人员还结合了无监督深度嵌入聚类 (DEC) 策略[3]，它能让分类网络的特征空间中的数据更好地聚类。通过这两个阶段的训练，可以将任何音乐和舞蹈片段映射到一个统一的舞蹈音乐嵌入空间中，其中音乐和舞蹈之间的风格一致性可以通过相应嵌入向量之间的欧几里德距离来衡量。

图3：ChoreoMaster包括两个面向编舞的模块：面向编舞的舞蹈音乐嵌入网络包含一个舞蹈音乐风格嵌入网络和一个舞蹈音乐节奏嵌入网络。

编舞节奏的嵌入空间

图4：节奏签名示例。偶数位表示存在规则拍子，而奇数位表示半拍。连续的零表示连奏。

（乐理知识）
节拍：是衡量节奏的单位，在音乐中，有一定强弱分别的一系列拍子在每隔一定时间重复出现。
拍子：音乐的拍子，是根据乐曲的要求而定的。如果规定的速度为每分钟120拍的时候，那么每一拍占的时间是半秒钟。
拍号：是记录节拍/拍子种类的符号。

研究人员将节拍和拍子用于舞蹈动作。通常，音乐拍子对应于音乐中的声音脉冲，而舞蹈拍子对应于身体动作的暂停或急转。为了更好地理解音乐和舞蹈之间的节奏关系，研究人员构建一个由专业艺术家手动指定舞蹈的节拍模式的数据库。

研究人员将每个节拍表示为一个二进制向量，称之为节奏签名，一种统一的舞蹈音乐节奏嵌入的自然综合形式。由于数据集中的所有舞蹈动作都以四拍计（一个节拍由四个拍子构成）构成，因此，研究人员用8个bit表示节奏签名（见图 4）。在每个节奏签名中，偶数位表示规则拍子（1：存在，0：不存在），它们对应于拍号指示的均匀间隔的标准拍子，而奇数位表示半拍（1：存在，0：不存在），它解释了两个常规小拍之间的节奏点（通常由连音、休止符或小点引起，或者仅仅是因为相邻节拍是由多个较小的节拍构成的）。节奏签名中的连续零表示音乐和舞蹈动作中的连奏或平滑周期。可以使用汉明距离来计算两个节奏签名的差异。

研究人员设计了一个节奏特征分类网络，以有效地获取音乐和舞蹈的编舞节奏嵌入。该网络的架构如图3（右）所示；它由三个块组成，有两个单独的音乐特征提取块EMR和舞蹈EDR分别由两个卷积层和一个稠密层构成。最后是一个共享块ERS用于节奏特征分类，由三个密集层构成。对应音乐片段ZM和舞蹈片段ZD的风格嵌入向量分别与EMR和EDR提取的特征向量连接。研究中为EMR网络提供音乐的频谱起始强度曲线[4]和RMS能量曲线；为EDR提供舞蹈运动曲线、两条手轨迹曲率曲线和两条脚接触曲线。

基于图的运动合成框架，将学习到的舞蹈音乐嵌入和其他舞蹈规则整合到基于图形的运动合成框架中

图5：系统通过镜像、混合和重新洗牌使舞蹈动作更多样化。

在ChoreoMaster系统中，运动图中的每个节点都对应一个舞蹈节拍。学习的风格嵌入向量和标记的节奏签名也附加到每个图节点。为了更好地利用现有舞蹈动作数据，系统中采用镜像、混合和重新洗牌的方法使舞蹈动作更多样化（见图5）。镜像操作应用于数据库中的所有运动节拍，而混合和重新洗牌仅在具有相同节奏特征和非常接近的风格编码的节拍之间。

图6：以编舞为导向的舞蹈合成过程。系统中使用了几个面向舞蹈编排的约束，包括数据项、过渡项和重复/镜像约束来合成满足专业审美要求的高质量舞蹈动作。

在基于运动图的框架中，每个合成的运动对应于运动图中的一条路径。因此，在ChoreoMaster系统中，为输入音乐合成舞蹈动作可以看作是在图中找到满足各种编排规则（风格一致、舞蹈与音乐节奏对应、舞动动作平滑）的最佳路径（见图6）。系统的目标是将运动图中的舞蹈运动节点分配给每个音乐节拍，并最小化由数据项、过度项和结构约束项的成本。其中：

数据项表示音乐节拍和舞蹈动作节拍之间风格和节奏匹配的成本；
过度项表示保持合成运动中相邻运动段之间的平滑过度的成本；
结构约束项解决了音乐和舞蹈之间结构的一致性问题。编舞者在编舞中经常使用重复/镜像的动作来呼应音乐中重复的片段（相同音乐片段和舞蹈动作相同，以及一个小的音乐片段中经常有对称的动作）。

方法对比

图7：四种不同方法为一首中国传统歌曲生成的舞蹈动作。

图8：普通用户（上）和编舞家、艺术家（下）的用户研究结果。ChoreoMaster比[5,6,7]取得了更高的分数。

项目主页：https://netease-gameai.github.io/ChoreoMaster/

论文：https://netease-gameai.github.io/ChoreoMaster/Paper.pdf

参考文献

[1] Chen K, Tan Z, Lei J, et al. Choreomaster: choreography-oriented music-driven dance synthesis[J]. ACM Transactions on Graphics (TOG), 2021, 40(4): 1-13.
[2] Choi K, Fazekas G, Sandler M, et al. Convolutional recurrent neural networks for music classification[C]//2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2017: 2392-2396.
[3] Xie J, Girshick R, Farhadi A. Unsupervised deep embedding for clustering analysis[C]//International conference on machine learning. PMLR, 2016: 478-487.
[4] Böck S, Widmer G. Maximum filter vibrato suppression for onset detection[C]//Proc. of the 16th Int. Conf. on Digital Audio Effects (DAFx). Maynooth, Ireland (Sept 2013). 2013, 7.
[5] Duan Y, Shi T, Zou Z, et al. Semi-supervised learning for in-game expert-level music-to-dance translation[J]. arXiv preprint arXiv:2009.12763, 2020.
[6] Sun G, Wong Y, Cheng Z, et al. DeepDance: music-to-dance motion choreography with adversarial learning[J]. IEEE Transactions on Multimedia, 2020, 23: 497-509.
[7] Lee M, Lee K, Park J. Music similarity-based approach to generating dance motion sequence[J]. Multimedia tools and applications, 2013, 62(3): 895-912.

原文链接

https://www.scholat.com/teamwork/showPostMessage.html?id=11442