收藏本站
收藏 | 论文排版

基于本体的视频服务网站监管技术研究

尹文科  
【摘要】:随着网络带宽的提高、网络用户的增加,以及数码产品的普及,网上视频内容日益丰富,收看网络视频的用户急剧增多,视频服务网站也不断涌现。然而由于开放性、匿名性以及资源缺乏统一管理的特点,互联网在带给人们便利的同时,许多不良视频服务网站也混入其中。这些不良视频服务网站对青少年的健康成长和社会的稳定有着非常不利的影响。尽管国家已加大了打击力度,然而事实上不良视频服务网站仍然存在,且通过搜索引擎的帮助获取的难度很低。因此如何自动发现和准确识别不良视频服务网站从而对其进行有效监管成为了值得研究的问题。 目前视频服务网站监管主要存在的难点和问题包括:(1)视频服务网站的自动发现,目前仅中国的网站数量就已经达到230万之多,如何从互联网的海洋中自动发现视频服务网站成为了视频服务网站监管的重要问题;(2)支持网站健康性评估的领域本体自动构建技术,不良视频领域本体可以提供计算机可理解的不良视频的语义描述,从而为后续的不良视频网页识别以及网站的健康性评估提供语义基础,传统的领域本体自动构建方法多依赖于自然语言处理技术,受限于自然语言处理工具的性能,构建出的领域本体的质量往往不高;(3)基于领域本体的网站健康性分析评估技术,在拥有了不良视频领域本体之后,如何设计出一种可以利用本体中的文字和结构信息的网页相关度计算方法从而准确地计算出网站的健康性,就成为了值得研究的问题。针对这三个问题,本论文的主要研究工作和创新点如下: 1.提出了视频服务网站的自动发现方法。 针对视频服务网站自动发现的问题,本文首先提出了一种基于元搜索的视频服务网站的自动发现方法,该方法设计了一种关键词更新和评价机制用以向元搜索系统提供高质量的搜索关键词,元搜索的结果将作为初始网站列表提供给主题爬行模块以进一步发现更多的视频服务网站。通过分析网页的标签特征和候选播放器的视觉特征,本文提出了一种基于多特征多策略的视频播放页识别方法。在确定一个视频播放页后,将该页面存为播放页模板,后续视频播放页的识别利用其与播放页模板的相似性来判定。在对搜索过程所遇到的网页及链接主题相关度的分析基础上,本文提出了一种URL的预期剩余能量模型用以计算每个方向的搜索能量,进而决定主题爬虫的搜索方向和步长。实验中,基于多特征多策略的视频播放页识别准确率和召回率分别达到了99.21%和99.24%,而基于预期剩余能量模型的主题爬行算法则明显优于对比算法的性能。 2.提出了基于超链接结构图聚类的领域本体自动构建方法。 针对领域本体自动构建的问题,着重研究了领域概念的自动识别和领域概念间同义/近义关系的自动构建方法。首先,本文提出了基于超链接结构图聚类的领域概念识别方法,该方法首先利用网络爬虫从指定的入口地址处深度受限广度优先遍历Wiki页面,构建关于某特定领域的无向超链接结构图。然后利用得到的网页数据库和词汇表构建词汇-文档矩阵,使用潜在语义索引算法和余弦相似度计算节点间的相似度,将该相似度作为相应边的权重,再利用有权图渗滤算法对有权无向链接结构图进行聚类,并对聚类结果进行评估,进而得到相应的领域概念。针对概念间同义/近义关系的自动构建,本文首先构建链接-词语的共现矩阵,使用余弦相似度度量,再使用自底向上的凝聚型层次聚类算法对词语进行聚类,从而得到词语间的同义/近义关系。实验结果显示,领域概念识别的准确率在top-10阶段接近96%,而同义/近义联系的识别准确率则接近90%。 3.提出了基于领域本体的网站健康性评估方法。 针对网站健康性的计算问题,本文提出了一种基于领域本体的网站健康性计算方法。传统的网页分类和相关性计算方法使用的文档表示模型通常假设特征项之间是相互独立的,并且特征词的权值大都基于词频信息,忽略了词的位置及上下文信息,而已有的本体分类系统只是将本体用于辅助分类的过程,无法有效利用到本体自身的结构和文字信息。针对这些问题,本文提出了一种基于网页概念树和领域本体树匹配的网页健康性计算方法。该方法首先提出了一种可以不依赖于独立性假设的新的网页文档表示模型,并在该模型的基础上使用了一种可以利用到词语的位置及上下文信息的词语加权算法,最后在新的网页表示模型的基础上,提出了一种可以有效利用领域本体的结构及文字信息的网页健康性计算方法。实验结果显示,该方法的不良网页识别准确率、召回率和F1值分别为96%、95.7%和95.8%,视频服务网站健康性评估的准确率则达到了95%。 上述方法已部分应用于国家863项目“结合语义的视频网站自动发现与分析评估服务”课题中的主题聚集搜索和网站内容分析评估部分,并将应用于国家科技支撑计划“增强型搜索系统架构、关键技术及测试规范的研究”以及公安部重点研究计划项目“多媒体服务网站监管技术研究”之中。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 ;琥珀网通过广电审核获视频牌照[J];中国新通信;2008年18期
2 汪延;哪儿有免费的“午餐”?[J];软件世界;1998年02期
3 ;企业网站为何受非议[J];中国计算机用户;1998年51期
4 阿东;;精选电影网站[J];软件世界;1998年10期
5 胡海龙;对网络媒体的一点探讨[J];国际新闻界;1999年06期
6 冯云庆;网虫爬行线[J];电脑;1999年02期
7 ;小李聊网站[J];家用电器科技;1999年06期
8 ;站点扫描[J];计算机周刊;1999年17期
9 ;网站优化,从图像开始——使网页变“苗条”的技巧[J];计算机周刊;1999年19期
10 ;网站设计基础(三)[J];计算机周刊;1999年27期
11 ;网站布局设计[J];计算机周刊;1999年43期
12 高骐;个人网站:文化的大餐[J];计算机周刊;1999年51期
13 ;新闻·时事评述[J];计算机周刊;1999年Z1期
14 梅涛;眼睛价值无限?![J];微电脑世界;1999年09期
15 孙小羽;;证券理财网站有“智能” 盛润www.stock2000.com.cn开通[J];每周电脑报;1999年25期
16 Michael Miller;;网以隐私分[J];每周电脑报;1999年38期
17 ;MyWeb:互联网只能冲不能等[J];每周电脑报;1999年45期
18 蔡辛;;产品用网站做推广 借力跃上Internet[J];每周电脑报;1999年46期
19 ;个性泡泡[J];每周电脑报;1999年49期
20 魏颖;传媒网站的现状及出路[J];新闻爱好者;2000年03期
中国重要会议论文全文数据库 前10条
1 迟骋;;网络监听[A];第十九次全国计算机安全学术交流会论文集[C];2004年
2 迟骋;;网络监听在检察实践中的应用[A];第二十次全国计算机安全学术交流会论文集[C];2005年
3 凌媛;郑立乔;刘宝云;;我国十大城市交通门户网站维护主体复杂性分析[A];2007第三届中国智能交通年会论文集[C];2007年
4 彭永新;郭嘉;王康平;;高校心理辅导网站的设计尝试[A];中国心理卫生协会大学生心理咨询专业委员会全国第七届大学生心理健康教育与心理咨询学术交流会暨专业委员会成立十周年纪念大会论文集[C];2001年
5 王京生;;北京市区县决策气象服务系统网站的建设[A];信息技术在气象领域的开发应用论文集(一)[C];2005年
6 邓怀勇;;浅谈网页制作中meta标签的作用[A];2008年计算机应用技术交流会论文集[C];2008年
7 郑海峰;;地市级广播电台网站的建立和规划[A];中国新闻技术工作者联合会五届一次理事会暨学术年会论文集(下篇)[C];2009年
8 林明和;;网络信息资源在中医药期刊编辑工作中的应用[A];学报编辑论丛(第十五集)[C];2007年
9 林江;;《医用化学》精品课程的建设和探究[A];第五次全国医用化学教学研讨会论文集[C];2009年
10 李晨;陈星霖;;一种多阶段控制方法在对抗钓鱼攻击中的应用[A];第26次全国计算机安全学术交流会论文集[C];2011年
中国博士学位论文全文数据库 前10条
1 尹文科;基于本体的视频服务网站监管技术研究[D];中国科学技术大学;2013年
2 姜岩;消费者购物网站依恋机理研究[D];大连理工大学;2013年
3 吴胜;网站信息分类体系优化方法及其应用[D];南京林业大学;2009年
4 郭小清;面向IP网的实时视频应用的关键技术研究[D];东南大学;2006年
5 张海旸;视频网格资源组织与调度方法的研究[D];北京邮电大学;2008年
6 周涛;面向交易全过程的电子商务信任研究[D];华中科技大学;2007年
7 王海萍;在线消费者粘性研究[D];山东大学;2009年
8 张蕾;概念结构及其应用[D];西北工业大学;2001年
9 段建勇;多词表达抽取及其应用[D];上海交通大学;2007年
10 王立君;概念图在促进认知和评估知识结构方面的理论与实证研究[D];上海师范大学;2008年
中国硕士学位论文全文数据库 前10条
1 孙茂;证券公司网站信息服务的管理战略[D];华东师范大学;2005年
2 王昕;ORACLE数据库在大型网站中的应用[D];中国地质大学(北京);2003年
3 杨涵;网络新闻专题信息传播的多维视野[D];四川大学;2007年
4 何娜;户外运动网站运营模式及网站发展趋势研究[D];北京第二外国语学院;2008年
5 潘宇昊;论网络空间下的民事管辖权[D];苏州大学;2009年
6 焦永鑫;基于浏览器插件的网络钓鱼防范研究[D];吉林大学;2011年
7 冯平;电子商务网站访问性能研究[D];华中科技大学;2005年
8 宋少忠;基于SSL协议的在线支付系统实现[D];吉林大学;2006年
9 张雪;招聘网站信息构建的可用性研究[D];大连海事大学;2007年
10 王艾莎;《纽约时报》网站涉华报道研究[D];黑龙江大学;2007年
中国重要报纸全文数据库 前10条
1 徐超;美国贴士网站——贴近大众衣食住行[N];中华新闻报;2007年
2 本报记者 周婷;生存还是毁灭[N];中国证券报;2008年
3 小文;WGSN制作特别网站 庆贺成立十周年[N];中国服饰报;2008年
4 本报记者 李佳祺 苏显龙 赵永新;网络低俗之风不可长[N];人民日报;2009年
5 赵齐;中小企业网站获益免费IE8兼容服务[N];国际商报;2009年
6 本报记者 李可 通讯员 崔栋君;十字路口的SNS网站[N];光明日报;2009年
7 特约评论员 黄静;社交网站的“政治抗议”[N];21世纪经济报道;2009年
8 胡若愚;韩美主要网站同遭“黑客集团”攻击[N];新华每日电讯;2009年
9 木子;纸媒与网站应实现共赢[N];大众科技报;2009年
10 本报记者 毕玮琳;透析“文抄风”[N];吉林日报;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978