Music Content Description and Indexing

--- tags: music --- # Music Content Description and Indexing 在MPEG-7标准中，内容描述符(content descriptor)被定义为一个独特的数据的特征，它对某人意味着什么 [220] 。术语音乐内容在文献中被认为是与一首音乐相关的隐含信息，并被表示为与乐曲相关的信息，并在乐曲本身中得到体现。的信息（见图2.1）。音乐DeepL 内容技术然后试图自动提取有意义的特征，称为描述符或特征，从音乐材料中提取。 # 音乐内容描述符可以按照三个主要标准进行分类 Gouyon等人[85]和Leman等人[152]提出的三个主要标准：（1）抽象水平：从低级的信号描述符到高级的语义描述符；（2）时间范围：描述符可以指时间范围：描述符可以指某个时间点（瞬时或基于帧）、某个片段或整个音乐作品（全局）。或完整的音乐作品（全局）；（3）音乐方面：旋律。节奏、和声/音调、音色/乐器、动态、结构或空间位置。 # 我们在此介绍音乐的主要技术 DeepL 内容。重点是对音乐音频信号的分析。这种描述对MIR来说是至关重要的，因为与文本文件中的单词、句子和段落不同，音乐没有一个完整的描述。文本文件，**音乐没有明确的、容易恢复的结构**。提取的描述符被用于索引大型音乐然后利用提取的描述符为大型音乐集建立索引，并根据不同的背景和用户需求提供检索能力。 ![](https://i.imgur.com/3OEfAxw.png) ## 2.1 Music feature extraction ### 2.1.1 Time and frequency domain representation 音乐录音的自动描述技术是基于的时间和频率表示的计算。信号。我们在此总结一下获得这种表征的主要概念和程序。这种表征。一个简单的正弦波的频率被定义为每秒重复一个周期的次数。一个周期每秒重复的次数，它通常是以周期为单位它通常以每秒的周期，或赫兹（Hz）来衡量。举例来说，一个频率为f=440赫兹的正弦波在每秒重复440次。频率f=440赫兹的正弦波每秒进行440个周期。频率f的倒数频率f的倒数被称为周期T（f = 1 T )，其单位是秒，表示正弦信号的一次振荡的时间长度。正弦波信号的时间长度。**在时域中，模拟信号x(t)每隔T秒被采样一次，以获得数字信号表示x[n]。获得数字信号表示x[n]，其中n = i-TS，i = 0, 1, 2, ... 和 fs = 1 Ts 是取样率，单位是每秒的样本（Hz）。根据根据Nyquist-Shannon采样定理，一个给定的音频信号应该至少要对其最大频率的两倍进行采样，以避免所谓的混叠**，即引入假象。所谓的混叠，也就是在采样过程中引入伪影。时域表示法，**如图2.2所示。适用于提取与波形x[n]的时间演变有关的描述符**。的时间演变相关的描述符，如信号的主要变化的位置特性。时域信号的频谱是该信号在频域中的一种表示。它可以通过以下方式产生 **它可以通过信号的傅里叶变换(FT)产生，产生的数值通常以振幅和相位的形式呈现，都是与频率的关系图**。**如图2.3所示。对于采样信号x[n]，我们使用离散的版本的傅里叶变换（DFT）。频谱分析通常是频谱分析通常是在声音信号的短片段（称为帧）中进行的，以捕捉频率内容的变化。为了捕捉频率内容在时间上的变化（短时傅里叶变换 - STFT）**。这在数学上表示为将离散信号x[n]与窗口函数w[n]相乘。通常有一个钟形的形式，并且在所考虑的区间外是零值的。STFT显示为一个频谱图，如图2.4所示。图2.4。影响分析的主要参数是帧大小 N，连续帧之间的重叠和窗函数的形状函数w[n]。帧大小N（以样本为单位）决定了频率分辨率 ∆f = fs N Hz，即在频域中连续分档之间的距离。频域中连续分档之间的距离。**在具有良好的时间分辨率（使用短帧）或良好的频率分辨率（使用長帧**间的折衷办法是好的时间分辨率（使用短帧）或好的频率分辨率（使用帧）之间的折衷是一个重要的因素，应该根据实际情况进行调整。适应所分析的信号的时间和频率特性。一个时间和频率分辨率之间的折衷的例子是图2.4中说明了时间和频率分辨率之间的折衷。声谱，如图2.3所示，是决定音色或质量的主要因素之一。决定一个声音或音符的音色或质量的主要因素之一。它描述了复杂声音的不同频率的相对振幅。声音的相对幅度。 ![](https://i.imgur.com/rabdNlG.png) ![](https://i.imgur.com/aoQfiHN.png) ![](https://i.imgur.com/NDm1vGb.png) ### 2.1.2 Low-level descriptors and timbre 低级别的描述符是以直接或衍生的方式从音频信号中计算出来的，例如从其频率表示。它们对用户没有什么意义 **它们通常与响度和音色有关，被认为是声音的颜色或质量。Wessel[301] 发现音色与音乐信号的三个主要属性有关：能量的时间演变（如图2.2所示），频谱包络形状(spectral envelope shape) (不同频率成分的相对强度，如图2.3所示)。图2.3），以及频谱的时间变化**。低级别的描述符然后专门用来表示这些特征。低级描述符是高级分析的基础，因此它们应提供所研究的声音的适当代表。它们也**应该是确定的，对任何信号（包括沉默或噪音）都可以计算，并且是稳健的（例如，对不同的编码格式，这可以是应用而定）。虽然没有标准的方法来计算低级别的描述符，但它们对最终应用的行为有很大的影响**。Peeters在[201]和[200]中提出了一个被广泛引用的关于低级描述提取程序的描述。**并在图2.5中说明。瞬时（基于帧的）描述符在时域和频域上都得到了瞬时描述符，然后再计算分段或全局描述符。或全局描述符是在时间建模后计算出来的。知名的瞬时时间描述符有：短时零点穿越率（测量信号每秒穿越零轴的次数与噪音和高频内容有关和能量（用均方根值表示,x[n]的均方根值，与响度有关）。常见的全局时间描述符是对数攻击时间log attack time（音符开始时的持续时间）和时间中心点temporal centroid。(测量信号能量的时间位置，对区分持续与非持续的声音很有用**）。梅尔-频率倒挂系数（MFCCs）已被广泛用于以紧凑的方式表示广泛用于以紧凑的方式（用有限的系数数）表示信号频谱。它们是在语音识别的背景下提出的它们是在语音识别方面提出的（见Rabiner和Schafer[208]），并由Logan等人应用于音乐。Logan等人[158]。**它们的计算方法如图2.6所示。幅度频谱用一组三角滤波器进行滤波，其带宽是按照Mel-frequency scale（模仿人类听觉系统的行为）。人类听觉系统的行为）。对于每一个滤波器，都要计算能量的对数。能量的对数被计算出来，然后应用离散余弦变换（DCT）来获得最终的系数集。（13是文献中使用的一个典型数字）**。其他描述符是光谱矩（光谱中心点、扩散、偏度和峰度）。偏度和峰度），频谱斜率，频谱滚降（上层频率跨越95%的光谱能量），光谱平坦度，以及光谱通量 (连续幅值光谱之间的相关性)。**图2.7显示了一个低水平瞬时描述符的例子(use libxtract Vamp plugin1in Sonic Visualizer** 瞬时描述符的演化可以通过简单的统计学（如平均值、标准差或导数）来研究。低层次的描述符通常是在高层次描述符中表示音色的基础。高层次的描述符，如乐器、节奏或流派。此外，**they have been directly used for audio fingerprinting as compact content-based signatures summarizing audio recordings** ![](https://i.imgur.com/ZsNjZYh.png) ![](https://i.imgur.com/PBbQO26.png) ![](https://i.imgur.com/YktJhU9.png) Spectral Flux 頻率變化的程度 Spectrogram 時頻圖 spectral centroid 時頻圖的重心 ### 2.1.3 Pitch content descriptors 音乐声是由几个成分组成的复杂波形。时域中的周期性信号（周期为T0秒）在频域中是谐波，因此它们的**频率成分fi = i- f0是所谓基频(fundamental frequency)**。谐波序列与主要的音乐音程有关，并建立了音乐协和与音阶理论的声学基础，正Sethares在[251]中所解释的那样。 **基频的知觉对应物是音高，它是一种主观的质量，通常被描述为高或低**。**根据Hartman[96]，如果通过调整任意振幅的正弦波的频率可以可靠地匹配，那么声音就有一定的音高。虽然复杂音调的音高通常与基频的音高有关，但它也会受到其他因素的影响，如音色的影响**。一些研究表明，即使对应于音高的频率分量可能不存在（缺少基频），人们也能感知到复合音的音高，非周期性的声音（如钟声）也能被感知为具有一定的音高。我们参考Schmuckler[244]和de Cheveigné[44]的工作，对音高感知的问题进行全面回顾。虽然不一样，但在文献中，音高和基本频率这两个词经常被当作同义词使用。**在音乐中，音阶是对数的（即增加某个音程相当于将f0乘以一个给定的系数），音程的单位是分（1半音=100分）。十二音平均律将八度音（即f0乘以2的系数）分为12个半音，每个半音100分。在西方音乐中，相隔整数个八度的一组音符有相同的音级或色度。例如，A音级由所有八度的A音组成**。音高内容描述器是旋律、和声和调性描述的核心之一，**其主要目标是从音乐信号的时域或频域表示中估计其周期性**。**文献中提出了大量从单音信号（一次出现一个音符）中估计f0的方法，并适用于不同的乐器，正如Gómez等人[78]所评论的。知名的方法是通过最大化时域或频域的自相关（或最小化距离）来测量周期性，例如de Cheveigné和Kawahara的著名的YIN算法[45]**，它是基于时域距离计算的。**其他的方法是将幅度频谱与理想的谐波序列进行比较（例如Maher和Beauchamp[162]提出的双向失配**），应用听觉模型（例如Klapuri[120]提出的）或基于倒谱（即幅度频谱对数的反傅立叶变换），如Noll[183]）。尽管所有这些研究的努力，据我们所知，没有一个标准的方法，能够在所有条件下的任何声音工作。**该任务的主要困难在于准周期性的存在**，事实上，**多个周期性与一个给定的f0，以及存在的时间变化，模糊的事件和噪声。将声音信号从时间-频率域映射到 "时间-f0 "域的问题，在几个声源同时活动的复音信号中，被证明是特别困难的。多音调（多f0）估计可被视为该领域的主要挑战之一，因为我们需要处理掩蔽、重叠的音调、谐波和非谐波声源的混合，以及声源数量可能未知的事实**。因此，**方法集中在三个简化的任务上：（1）提取复杂复调中主要乐器（如流行音乐中的歌声）所对应的f0包络，这项任务通常被称为旋律提取[216]；（2）对简单复调（少数重叠的音符）的多个f0进行估计。(3）色度特征的计算，其中多个f0值被联合分析并映射到一个单一的八度空间[296]**。 #### Predominant melody extraction 主导f0算法是在单声道音乐信号中工作的方法的延伸，但基于假设在频谱中存在一个主导声源（例如，歌唱的声音或独奏乐器）。然后，**主要目标是在频谱域中确定一个主要的谐波结构。有两种主要的旋律提取方法**：**salience-based algorithms**，基于从信号频谱中估计每个可能的f0值（在旋律范围内）的显著性，以及基于**source separation**的方法，首先尝试从背景中分离出主导声源，然后应用单音f0估计。关于旋律提取的先进性、应用和挑战的详细回顾，**我们参考了Salamon等人的工作[216]**。**Salamon和Gómez[215]提出的最先进的 salience-based见图2.8**。**首先，音频信号被转换到频域，加入一些等响度滤波器和频率/振幅校正，然后检测频谱峰值。这些频谱峰值被用来建立 "显著性函数"**，即信号的时间-0表示。通过分析这个显著性函数的峰值，一组f0轮廓被建立起来，是使用听觉流线索分组的f0候选者的时间连续序列。通过研究等值线的特征，该系统区分了旋律和非旋律的等值线，以获得最终的旋律f0序列。**图2.9是用MELODIA工具3提取的这种旋律提取方法的一个输出例子**。**目前的方法对有主要乐器的音乐（主要在歌唱声中评估）效果很好（根据Salamon等人[216]，总体准确率约为75%），但在发声检测（估计是否有主要乐器）和有强伴奏的情况下仍有局限** ![](https://i.imgur.com/vPbkxY0.png) #### Multi-pitch estimation 多音调（多f0）估计方法试图估计混合物中的所有音调。至于旋律提取，目前的算法是基于音源分离或突出性分析。 **基于音源分离的方法可能遵循一个迭代过程，其中主要的f0被估计出来，从这个f0信息中建立一个主要的频谱，然后从原始频谱中减去。这方面的一个著名算法是Klapuri[123]提出的，图2.10说明了这个算法。它由三个主要部分组成**： **auditory modeling, bandwise processing, and periodicity estimation**。首先，信号被输入到外围听觉系统的模型中，该模型由72个滤波器组成，中心频率在临界带范围内（人类听觉中滤波器的对数带宽的近似值），覆盖60Hz到5.2KHz的范围。滤波器组的输出经过压缩、半波整流和低通滤波，以进一步模拟内耳的机制。这个听觉建模的步骤之后是计算每个通道的幅度谱。波段内的幅度频谱被相加，得到一个汇总的幅度频谱，其中主要的f0被估计出来。然后，找到与f0候选值相对应的谐波，并应用谐波模型来建立主要的幅度谱，再从原始谱中减去。**另一组方法是基于联合f0估计，目标是找一組N个f0候选者，使之最接近频谱**。在这种情况下，频率分析的多波段或多分辨率方法经常被考虑（例如Dressler[58]），**联合估计通常是通过将频谱峰值部分分配给谐波位置来进行的，如Klapuri在[121]中提出的**。最先进的算法是在简单的多声部上进行评估。例如，在2013年的音乐信息检索评估交流会4（MIREX）上，最多有5个同时出现的音符，这是一个基于社区的国际评估活动，在国际音乐信息检索会议（ISMIR）的背景下进行。**目前的方法（Yeh等人[306]和Dressler[59]）产生的准确率约为65%，显示了这项任务的难度** ![](https://i.imgur.com/TrUAUg0.png) ![](https://i.imgur.com/LtY19qn.png) ![](https://i.imgur.com/Q6xQYCw.png) #### Chroma feature extraction 色度特征，如图2.11所示，代表了等音阶的12个音级的强度。12个音阶中的每个音阶的强度。并从频谱中计算出来。色度特征可以从单声道和多声道的音乐信号中提取。音乐信号中提取。与音高估计方法一样，色度特征提取器应该对噪声（非音调的声音）具有robust，并且与音色（(spectral envelope）、动态和调谐无关。有几种提取色度特征的方法(**我们可以参考Gómez[74]的研究），其步骤如图2.12所示**。首先对信号进行分析，以获得它的频域，使用高频率分辨率。主要的频率然后根据估计的调谐频率，将主要的频率成分（如频谱峰值）映射到音阶值。对于大多数方法，一个频值部分贡献于一组 "次谐波 "基本频率（和相关的音阶等级）候选值。色度色度向量是以给定的区间分辨率（每八度的宾格数）计算出来的，并最终进行后期处理。八度），最后进行后处理，得到最终的色度表示。**音色不变性是通过不同的变换实现的例如spectral whitening [74]或cepstrum liftering（discarding low cepstrum coefficients**）由Müller和Ewert[177]提出。**一些色度估计的方法被应用于可下载的工具中，如例如，HPCP Vamp插件5 实现了[74]中的方法和Chroma Matlab工具箱6 实现了[177]中的特征。** ![](https://i.imgur.com/XuC6EX7.png) ### 2.1.4 Melody, harmony, and tonality 前面描述的音高内容描述符是更高层次的音乐分析的基础，它不仅对具有音乐理论知识的用户有用，而且对普通大众也有用（例如，大小调被发现与情感相关）。音高按顺序组合成旋律，并同时形成和弦。这两个概念汇聚成了对调性的描述，被理解为特定音乐作品中音高材料的结构组织。大多数关于调性模型的实证研究都是针对西方音乐的，**我们把调性定义为一系列音高之间的关系系统**，其中最重要的元素是调性，其次是主音（音阶的第五度）和副主音（音阶的第四度）。在西方音乐中，有两种基本模式，大调和小调，它们在各自的音阶中都有不同的音程位置。当每个调同时管理一个大调和一个小调时，考虑到等温线音阶（一个八度内平均分布12个半音），总共有24个调。正如Chew[34]所回顾的，有不同的研究与从乐谱信息中计算调性的模型有关。**Krumhansl等人[134]提出了一种从乐谱表征中估计调性的著名方法，该方法基于测量音高持续时间信息（音阶的12个音级中每个音级的相对持续时间直方图）与一组调性轮廓的相关性。图2.13所示的这些大调/小调轮廓**，代表了12个音级相对于一个给定调的稳定性。它们是基于Krumhansl和Kessler的实验数据，在这些实验中，受试者被要求对每个音阶等级与先前建立的调性背景（如节奏或音阶）的 "适合程度 "进行评分。作为人类评分的替代方法，**一些方法是基于从音乐理论书籍中学习这些配置文件，如Temperley[274]提出的，或MIDI文件**，如Chai[33]提出的。**目前的方法在估计MIDI文件中的调性方面提供了非常好的准确性（根据MIREX，古典音乐中为92%），如Temperley提出的方法[275]**。其中一些方法通过利用音高内容描述符，主要是色度特征，已经适应了音频信号，如Gómez[74]、Chuan和Chew[35]以及Papadopoulos和Peeters[198]所提出的。**最先进的方法的准确度低于基于MIDI的对应方法的准确度（大约80%）**。**这是由于从复调音乐音频信号中提取音高内容信息的困难，而这一信息在MIDI文件中是隐含的（见2.1.3节）**。仅仅给出一个键值在描述方面是很差的，因为一首音乐作品很少在整个持续时间内保持相同的音调中心。根据Leman[151]，音调背景是在不同的时间尺度上建立起来的，至少有一个时间框架用于局部事件（音高和弦），另一个用于全局事件（键）。**基于模板的方法也被应用于短片段，以估计和弦而不是调性，例如，Oudre等人[188]，如图2.14所示。概率模型（隐马尔可夫模型）也被应用于这项任务**，例如Papadopoulos和Peeters[197]。最近，多**尺度方法，如Sapp[223]的方法，已被改编为处理音乐信号，如图2.15所示[167]**。目前的音调表示方法已经适应了不同的曲目，主要是一些参数，如音程分辨率（如应对非西方音乐中的不同调音系统）或使用的配置文件。不同剧目中的一些例子有马卡姆音乐[109]或印度音乐[217]。 ![](https://i.imgur.com/9Whk064.png) ![](https://i.imgur.com/LTOatfW.png) ![](https://i.imgur.com/wkFDHm9.png) ### 2.1.5 Novelty detection and segmentation 新颖性与音频信号的变化检测有关，通常用于将音乐信号分割成相关部分，如音符或具有不同乐器的部分。**MIR文献中的两个主要任务与新奇性检测有关：onset detection and audio segmentation**。 onset detection algorithms 的目标是定位信号中新事件（瞬态或音符）的开始时间（发声）。发声被定义为开始的瞬間。这个任务和技术类似于那些在其他模式中发现的任务和技术，例如视频中镜头边界的位置[154]。Onset detection是更高层次的音乐描述的一个重要步骤，例如音乐转录、旋律或节奏的特征。 **Bello等人[10]对起始点检测的挑战和方法做了很好的概述。据作者说，这项任务的主要困难是存在缓慢的瞬态、模糊的事件（例如，颤音、颤音、滑音）和复调（来自不同来源的起始点）。起音通常以快速的振幅增加为特征，所以起音检测的方法是基于检测时域能量的快速变化（例如通过对数能量导数）或高频成分的存在（例如使用低层次特征，如频谱通量）。图2.16说明了这一程序**。对于复调音乐信号，this approach is often extended to multiple frequency bands as proposed by Klapuri [119]. Detecting notes is slightly different than detecting onsets, as consecutive notes can be only perceived by a pitch glide, so that approaches for onset detection would fail. Note segmentation approaches then combine the location of energy and f0 variations in the signal, which is especially challenging for instruments with soft changes such as the singing voice。在不同的情况下需要将音频流分割成同质的部分，如语音与音乐分割、歌声分離或乐器分離。在文献中，与音色、乐谱表现、音高或色度有关的低级特征已被用于音频分割，**主要有两种方法**：基于信号特征的无模型方法和依赖概率模型的算法。无模型方法遵循与之前介绍的起始点检测算法相同的原则，使用特征向量的变化量作为边界检测器：当这个变化量高于一个给定的阈值时，就会做出边界变化的决定。阈值的调整需要一定量的试错，或关于不同分割类的微调调整。此外，通常还会应用一个平滑窗口。基于模型的分割需要先前基于低层次描述符和注释数据的训练。 **Hidden Markov Models, Gaussian Mixture Models, Auto-Regressive models, and Support Vector Machines**，我们参考Ong[185]对这些方法的评论。 ![](https://i.imgur.com/C5pfyP4.png) ### 2.1.6 Rhythm 如Desain和Windsor[47]所述，节奏与音乐事件沿时间的架构组织有关（时间层次），并包含了规律性（或组织）和差异性。**从音乐信号中提取的主要节奏描述符与四个不同的组成部分有关：时间（事件发生的时间）、节奏（事件发生的频率）、节拍（什么结构最能描述事件的发生）和分组（事件如何在动机或短语中结构化）**。 **计算节奏描述的方法是基于测量事件的周期性**，由起始点（见第2.1.5节）或低层次特征，主要是能量（在一个或多个频段上）和频谱描述符来表示。图2.17说明了这一点，**使用Stark等人[267]提出的算法进行计算，可在线获得7**。周期性检测的方法类似于第2.1.3节中介绍的用于音高估计的算法，但是基于低层次的描述符。 **大多数现有的文献都集中在估算速度和节拍位置，并推断出与节拍、切分音（节奏重音的位移）或节奏模式有关的高级节奏描述符。整体框图如图2.18所示。我们参考Gouyon[84]对节奏描述系统的评论** Holzapfel等人[104]对节拍跟踪算法进行了比较评估，发现现有系统的主要局限性是处理具有软起音的非发声材料（如声乐），以及处理短时偏差、变化的节奏和整合关于节奏感知的知识（双重或一半错误）[171]。 ![](https://i.imgur.com/9fmKSDX.png) ### 2.2 Music similarity 相似性是MIR中一个非常活跃的研究课题，因为它是许多应用的核心，如音乐检索和音乐推荐系统。在音乐内容描述符中，我们在两个不同的时间范围内考虑相似性：在本地，当我们试图定位同一音乐作品的相似摘录时（自相似性分析），或在不同的音乐作品之间的相似摘录；如果我们打算计算两个音乐作品之间的全局距离，则要考虑全局。如果我们打算计算两首音乐作品之间的全球距离，则是全局性的。局部和全局相似性/检索之间的区别也可以在其他模式中找到（例如，文本中的段落检索[299]或图像中的物体识别[154, 160]。音乐相似性方面的主要研究问题是定义一个合适的的距离或相似性措施。我们必须选择音乐方面和我们必须选择所涉及的音乐面和描述符，抽象程度（太具体的会抛弃变化，太抽象的会产生错误的变化，而太抽象的则会产生假阳性），以及所需的颗粒度水平或时间范围。此外，相似性还取决于此外，相似性取决于应用（如第1节所示），并且可能是一种主观的质量，需要人为地进行建模（如需要人工建模（例如Vignoli和Pauws[292]）。 ![](https://i.imgur.com/pzE6DGW.png) ### 2.2.1 Self-similarity analysis and music structure 结构与相似性、接近性和连续性有关；**因此对音乐信号结构分析的研究主要与两个研究目标有关：检测信号变化（如第2.1.5节所述）和检测同一音乐作品中的重复，准确的或有变化的重复**。这项任务也被表示为自相似性分析。例如，一个实际的目标是检测一首歌曲的合唱部分。**自相似性分析是基于Foote[68]所提出的自相似性矩阵的计算**。这种矩阵是通过对音乐录音中两个不同帧的特征向量进行配对比较而建立的。图2.19中显示了一个自相似性矩阵的例子。通过定位该矩阵的对角线来检测重复，一些音乐限制可能被应用于最终的片段选择和标记。**自相似性分析的一个重要应用是音乐总结，因为歌曲可以由其最经常重复的片段来代表(預覽之類的)**[37, 33]。 ![](https://i.imgur.com/JwPWBSk.png) ### 2.2.2 Global similarity 相似性的概念是索引、检索、推荐和分类的一个关键方面。全局相似性的计算通常基于内容描述符或背景信息（见第3节）。 **基于内容的音乐相似性的传统方法大多基于低层次的音色描述符**，如Aucouturier和Pachet[3, 189]和Pampalk[194]所提出的。**Foote[69]提出了对节奏特征的利用（后来加入了旋律和音调信息），主要是在翻唱版本识别的背景下（见Serrà等人[248]对方法的广泛回顾）** **最近的一个先进方法的例子是Seyerlehner等人提出的Block-level Framework（BLF）**[254]。这个框架通过首先将音乐作品建模为其音频信号的幅度谱的重叠块(overlapping)(when signals from two or more than two origins are broadcast at an equal frequency)来描述它。为了说明所考虑的音频的音乐性质，具有线性频率分辨率的幅度频谱被映射到对数分频上。基于这些Cent频谱表示，**BLF定义了几个特征，这些特征是在帧块上计算的（图2.20）**。频谱模式（SP）描述了频率内容，三角频谱模式（DSP）强调了音符的起始点，差异三角频谱模式（VDSP）旨在捕捉起始点随时间的变化，对数波动模式（LFP）描述了节拍的周期性，相关模式（CP）模拟了不同频段之间的相关性，频谱对比模式（SCP）使用频谱峰值和谷值之间的差异来识别音调和打击乐成分。图2.20说明了肖斯塔科维奇的一首钢琴曲的不同特征。y轴代表频带，x轴代表区块的分类时间成分。最近关于全局相似性的工作用通过自动分类获得的语义描述符来补充低级描述符（见第2.3节），如Bogdanov等人[19, 17]为音乐相似性和推荐提出的。**全局相似性也可以基于局部相似性。为此，序列排列的算法已经被使用，例如，Serrà[248]和Müller等人[180]在封面版本识别的背景下获得了一个全局相似性值。** 音乐相似性仍然是一个定义不明确的概念，通常在艺术家分类、封面版本识别的背景下，通过对个人收藏和播放列表中的歌曲进行共现分析[12, 13]或通过调查[292]进行间接评估。第4节回顾了一些使相似性度量适应不同用户环境的策略，第5节提供了关于相似性度量的定量和定性评价的进一步细节。 ![](https://i.imgur.com/hvtM4KQ.png) ### 2.3 Music classification and auto-tagging 到目前为止，我们已经回顾了从音乐信号中提取与旋律、节奏、音色或和谐相关的描述符的方法。这些描述符可用于通过分类方法推断更高层次的语义类别。这种高层次的方面通常更接近于人类描述音乐的方式，例如，通过流派或乐器。一般来说，**我们可以区分两种方法，一种是将一个给定的音乐作品归入一组类别中（音乐分类），另一种是为一个作品分配一些语义标签（或 "标签"）的方法（音乐自动标签）**。自动标签经常使用来自民间的标签，例如来自Last.fm用户的标签，并且可以被认为是一个多标签分类问题。关于音乐分类的研究工作一直致力于从乐器（Herrera等人[102]）、流派（Tzanetakis和Cook[281]、Scaringella等人[225]）、情绪（Laurier等人[139]）或文化（Gómez等人[77]）等方面对音乐进行分类。这项任务的结果取决于不同的因素，如类的数量、类实例的客观性（例如，情绪是一个相当主观的概念）、用于训练的集合的代表性，以及考虑的描述符的质量。 **Sordo[264]提出的图2.21说明了音乐自动标签的过程**。给定一个有标签的音乐集（训练集），从音频中提取特征，随后可能进行降维或特征选择步骤，以提高计算性能。随后，根据特征向量和标签之间的关系，由分类器学习标签模型。在这个标记数据的训练阶段之后，分类器可以被用来预测以前未见过的音乐项目的标签。自动标签器中经常使用的特征包括节奏和音色描述符（Mandel等人[165]），但也可以考虑高层次的特征（Sordo[264]）。 **一些最近的音乐自动标签的方法总结如下。Sordo [264]提出了一种称为加权投票的k-NNN（k-NN）分类器的方法**。给出一首要标记的歌曲s和一个已标记歌曲的训练集，所提出的方法根据其特征向量表示，确定s的k个最近的邻居N。此后，分配给N的每个标签的频率被加起来，N中最频繁的标签（与k的值有关）被预测为s。他们研究了不同的艺术家相似性措施，特别是来自Last.fm播放列表中艺术家的共同出现、Last.fm标签、关于艺术家的网页以及音乐内容特征的相似性。 **Mandel等人[165]提出了一种方法，使用条件限制波尔兹曼机[262]**，在歌曲片段的层面上学习标签语言模型。他们考虑了三组词汇：通过亚马逊的Mechanical Turk收集的用户注释、从标签游戏MajorMiner[164]获得的标签以及从Last.fm提取的标签。作者进一步建议，不仅要考虑歌曲片段，还要将曲目层面和用户层面的注释纳入其模型。 Seyerlehner等人[253]提出了一个自动标记器，它结合了在他们的块级框架[254]中建模的各种音频特征，如之前所述。然后用一个随机森林分类器(A Random Forest classifier)来学习歌曲和标签之间的关联。最近的一个趋势是采用两阶段的算法。这种算法在第一步从音乐内容特征中获得更高层次的信息，例如，描述性术语的权重。这些新的表征，有时与原始音频特征相结合，随后被分类器用来学习语义标签（Coviello等人[39]；Miotto等人[172]）。 ![](https://i.imgur.com/DAnIaTg.png) ### 2.4 Discussion and challenges 我们回顾了为音乐信号提取有意义的描述的主要方法，这些方法与不同的音乐方面有关，如音色、旋律、和声和节奏，我们看到，这些描述符可以在相似性和分类等方面得到利用。这些基础技术在一定程度上是有效的（根据任务的不同，最先进的特征提取算法的准确率在80%左右），但显示出 "玻璃天花板 "效应。这可以用几个因素来解释，比如一些标签任务的主观性以及内容特征提取器和专家分析之间存在的概念（语义）差距。此外，目前的技术应该适应所研究的曲目（例如，专注于主流流行音乐；例如，对古典音乐或所谓西方传统以外的曲目的限制）。克服这些限制的最新策略是开发特定曲目的方法，整合特征提取和专家注释（计算机辅助描述），开发个性化和自适应描述符，以及整合多种模式（乐谱、音频和视频）进行自动音乐描述。