基于内容的哼唱音乐检索系统研究
【摘要】:在计算机多媒体技术高速发展的当今时代,音乐数据库的歌曲数量急剧增长。如何从庞大的音乐数据库中快速准确地找到需要的音乐数据已成为现代信息检索领域的一个热门的研究课题。传统的基于文本的音乐检索系统依靠输入歌曲名称、歌手名或歌曲相关文本信息的方式进行检索,无法满足人们对音乐检索的实际需求,因此基于内容的哼唱音乐检索系统是目前的主要研究方向。本文设计了基于DTW(动态时间规整)算法的哼唱音乐检索系统,该系统主要包括预处理模块、旋律表达模块和匹配模块三个部分。对于哼唱音乐数据和音乐库中的数据,本文采用两种不同的方法进行特征提取。本文提出了基于双门限端点检测和基频曲线起伏的二级音符切分方法,音符正确切分率为90%,并以音高差和音长比来表示哼唱音乐信号音符之间的音高和节奏的关系,以此对音乐进行旋律表达。采用HPSS(谐波乐器/打击乐器声音分离)方法对音乐库中的音乐数据进行滤波预处理,将谐波乐器分量从混合音乐信号中分离出来,只留下人声和打击乐器分量的混合信号。采用一种基于听觉场景分析的主旋律基频提取算法对音乐库中音乐数据进行提取人声主旋律,并对其进行旋律表达。本文对DTW算法进行优化,有效提高检索效率。提出采用综合考虑音高相似度和节奏相似度结合的方法得到哼唱输入的相似度,以此作为哼唱音乐检索系统评价标准。实验所用的哼唱音乐数据由苏州大学语音技术研究室采用ProTools音频录音设备在标准录音室录制。不同性别的10位实验者每人哼唱20段,平均每段8s;音乐库包含长度8s的网上自行下载的流行音乐800首。实验测试表明,与已有的传统哼唱音乐检索系统相比检索正确率提高了 5%,检索时间减少了 9.5%。