基于本体的视频服务网站监管技术研究
【摘要】:随着网络带宽的提高、网络用户的增加,以及数码产品的普及,网上视频内容日益丰富,收看网络视频的用户急剧增多,视频服务网站也不断涌现。然而由于开放性、匿名性以及资源缺乏统一管理的特点,互联网在带给人们便利的同时,许多不良视频服务网站也混入其中。这些不良视频服务网站对青少年的健康成长和社会的稳定有着非常不利的影响。尽管国家已加大了打击力度,然而事实上不良视频服务网站仍然存在,且通过搜索引擎的帮助获取的难度很低。因此如何自动发现和准确识别不良视频服务网站从而对其进行有效监管成为了值得研究的问题。
目前视频服务网站监管主要存在的难点和问题包括:(1)视频服务网站的自动发现,目前仅中国的网站数量就已经达到230万之多,如何从互联网的海洋中自动发现视频服务网站成为了视频服务网站监管的重要问题;(2)支持网站健康性评估的领域本体自动构建技术,不良视频领域本体可以提供计算机可理解的不良视频的语义描述,从而为后续的不良视频网页识别以及网站的健康性评估提供语义基础,传统的领域本体自动构建方法多依赖于自然语言处理技术,受限于自然语言处理工具的性能,构建出的领域本体的质量往往不高;(3)基于领域本体的网站健康性分析评估技术,在拥有了不良视频领域本体之后,如何设计出一种可以利用本体中的文字和结构信息的网页相关度计算方法从而准确地计算出网站的健康性,就成为了值得研究的问题。针对这三个问题,本论文的主要研究工作和创新点如下:
1.提出了视频服务网站的自动发现方法。
针对视频服务网站自动发现的问题,本文首先提出了一种基于元搜索的视频服务网站的自动发现方法,该方法设计了一种关键词更新和评价机制用以向元搜索系统提供高质量的搜索关键词,元搜索的结果将作为初始网站列表提供给主题爬行模块以进一步发现更多的视频服务网站。通过分析网页的标签特征和候选播放器的视觉特征,本文提出了一种基于多特征多策略的视频播放页识别方法。在确定一个视频播放页后,将该页面存为播放页模板,后续视频播放页的识别利用其与播放页模板的相似性来判定。在对搜索过程所遇到的网页及链接主题相关度的分析基础上,本文提出了一种URL的预期剩余能量模型用以计算每个方向的搜索能量,进而决定主题爬虫的搜索方向和步长。实验中,基于多特征多策略的视频播放页识别准确率和召回率分别达到了99.21%和99.24%,而基于预期剩余能量模型的主题爬行算法则明显优于对比算法的性能。
2.提出了基于超链接结构图聚类的领域本体自动构建方法。
针对领域本体自动构建的问题,着重研究了领域概念的自动识别和领域概念间同义/近义关系的自动构建方法。首先,本文提出了基于超链接结构图聚类的领域概念识别方法,该方法首先利用网络爬虫从指定的入口地址处深度受限广度优先遍历Wiki页面,构建关于某特定领域的无向超链接结构图。然后利用得到的网页数据库和词汇表构建词汇-文档矩阵,使用潜在语义索引算法和余弦相似度计算节点间的相似度,将该相似度作为相应边的权重,再利用有权图渗滤算法对有权无向链接结构图进行聚类,并对聚类结果进行评估,进而得到相应的领域概念。针对概念间同义/近义关系的自动构建,本文首先构建链接-词语的共现矩阵,使用余弦相似度度量,再使用自底向上的凝聚型层次聚类算法对词语进行聚类,从而得到词语间的同义/近义关系。实验结果显示,领域概念识别的准确率在top-10阶段接近96%,而同义/近义联系的识别准确率则接近90%。
3.提出了基于领域本体的网站健康性评估方法。
针对网站健康性的计算问题,本文提出了一种基于领域本体的网站健康性计算方法。传统的网页分类和相关性计算方法使用的文档表示模型通常假设特征项之间是相互独立的,并且特征词的权值大都基于词频信息,忽略了词的位置及上下文信息,而已有的本体分类系统只是将本体用于辅助分类的过程,无法有效利用到本体自身的结构和文字信息。针对这些问题,本文提出了一种基于网页概念树和领域本体树匹配的网页健康性计算方法。该方法首先提出了一种可以不依赖于独立性假设的新的网页文档表示模型,并在该模型的基础上使用了一种可以利用到词语的位置及上下文信息的词语加权算法,最后在新的网页表示模型的基础上,提出了一种可以有效利用领域本体的结构及文字信息的网页健康性计算方法。实验结果显示,该方法的不良网页识别准确率、召回率和F1值分别为96%、95.7%和95.8%,视频服务网站健康性评估的准确率则达到了95%。
上述方法已部分应用于国家863项目“结合语义的视频网站自动发现与分析评估服务”课题中的主题聚集搜索和网站内容分析评估部分,并将应用于国家科技支撑计划“增强型搜索系统架构、关键技术及测试规范的研究”以及公安部重点研究计划项目“多媒体服务网站监管技术研究”之中。