基于内容的海量音频高效检索
【摘要】:新世纪以来随着互联网在全世界范围的广泛普及、音频编解码技术的迅猛发展以及高容量存储介质的诞生,使得网络中的数字音频资源数量呈现指数级别的增长。海量的网络数字音频资源给人们带来了极大地便利,然而由于互联网数字音频管理体系和版权保护制度的不规范和不完善,网络用户可以随意的上传下载数字音频资源甚至对音频内容进行更改,这在无形中严重侵犯了数字音频资源版权拥有者的合法权益。数字音频的版权保护,如今已经引起社会各界的广泛关注,已经成为亟待解决的重要问题。
依据新闻出版总署重大科技工程项目“数字版权保护技术研发工程”及国家科技部支撑项目课题“数字版权服务关键支撑技术研究”需求,本课题主要研究音频特征备案及高效检索的相关关键技术,最终实现在普通配置服务器设备存储的10万条规模的数字音频内容版权核心资源数据库中对未知信息音频片段进行检索定位,所需查询时间小于1秒,同时保证检索准确率达到90%以上。课题的研究对网络环境下的海量数字音频资源的规范管理、数字音频版权的有效保护以及数字音频内容的快速准确的访问等问题具有不容忽视的推进作用和重大意义。
课题首先对基于内容的音频检索系统的国内外研究现状进行了详细的阐述,通过对目前现有的音频指纹提取方法及相关快速检索方法的全面总结与分析,围绕经典的Philips音频指纹,重点对其相关的快速检索方法进行深入探讨。最后设计了一种基于Philips指纹的海量音频高效检索系统,并进行大量实验验证。课题的主要贡献有:1)在Philips指纹的基础上引入bag-of-features算法,提出一种数据量相比Philips指纹成倍减少的高效、鲁棒的中间指纹进行过滤检索,可以在短时间内快速过滤不相关音频;2)相应地设计了一种基于阈值的固定间隔抽样匹配算法,大幅减少检索过程中相似度匹配的计算量,并有效地促进了中间指纹的过滤速度;3)结合Fibonacci哈希索引算法、中间过滤指纹、Philips指纹及基于阈值的固定间隔抽样匹配算法,设计并实现了一套高效的阶梯式音频过滤检索系统。
经大量反复的实验验证,基于BoF和Philips指纹的中间过滤指纹具有极高的过滤速度和过滤幅度,同时保证检索的召回率和准确率,基于阈值的固定间隔抽样匹配算法在略微降低过滤幅度的基础上,可以有效地提高过滤速度和检索速度,最终设计的高效阶梯式音频过滤检索系统,在一台存储约为10万条音频指纹的普通配置PC上对10秒的未知信息音频片段进行批量检索,平均检索时间仅为0.15秒,检索召回率可达99.47%以上,检索准确率接近100%,圆满完成项目相关指标任务。