基于内容的MP3音乐检索研究和实现
【摘要】:
基于内容的音乐检索就是把音乐本身的内涵,如节奏、旋律、和弦、伴奏音型、音色等,作为查询条件,对一个由不同格式的音频媒体(如MIDI、MP3或其它格式的波形音乐)所构成的音乐数据库实施查询检索以获取数据库中满足查询条件或包含相同或相似音乐片段的音乐资源。这些表征不同音乐内涵的查询条件可以通过哼唱或借助现有的乐谱输入工具输入到检索系统中以实施检索。本论文对基于内容的MP3音乐检索技术进行了研究,并实现了一个灵活的具有多种查询音乐输入方式的MP3音乐检索原型系统。
目前,大部分基于内容的音乐检索系统所检索的对象都是MIDI音乐,对MP3音乐检索的研究相对来说比较少,并且查询音乐的输入方式也大都比较单一。鉴于不同的用户具备不同的音乐素养及拥有不同的查询音乐资源,本论文提出了在MP3音乐检索系统中引入多种查询音乐输入方式,包括五线谱输入方式、类简谱输入方式、哼唱输入方式、单音色且单声部的MP3音乐文件输入方式和多声部的MP3音乐文件输入方式。而由于当前对波形音乐的音高辨识技术的研究还不够成熟,且用户在哼唱输入时对音准和旋律节奏也并非能准确把握,这都使得系统最终获得的查询旋律特征与用户所期望的查询旋律会存在一定的差距,自然影响到检索的准确性。为此,本论文还提出通过多种交互手段使用户可以根据自己的音乐能力来判断和校正系统所获取的音乐旋律特征,以进一步提高检索的准确性和增强系统的可用性。
在检索匹配多声部MP3音乐数据库的实现技术上,本论文针对单音色、单声部音乐和多声部音乐这两种类型的查询音乐的不同特点分别使用了不同的匹配方法。对于前者,本论文提出了一种包含休止符归并和长音分段的二次规整匹配新算法,并通过原型系统进行了实验模拟分析,证明了该算法的有效性。对于后者,本论文将Jeremy(2004)提出的基于和声模型的多声部MIDI音乐检索多声部MIDI音乐数据库的技术推广到使用多声部MP3音乐片段检索多声部MP3音乐数据库,分别构建了HMM和声模型和Markov和声模型两种检索模型,实验结果表明这两个模型都具有一定的实用价值。