收藏本站
《新疆大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

农业网站中垃圾网页过滤方法的研究

张晓宇  
【摘要】:新疆位于祖国的西北地区,幅员辽阔,资源广袤,但是正是由于地域广阔,客观上造成了乡村之间、城乡之间距离较远,从而间接导致了农村信息的相对闭塞,阻碍了农村生产力的发展。新疆农村地区的信息化建设迫在眉睫,广大农民迫切需要通过各种技术手段获取实时涉农信息,掌握市场动态。而在众多的信息化手段中,农业网站最受农民用户的青睐,因为它不仅实时提供专业的农业信息,反映农业市场动态,而且信息丰富,广大农民可以通过涉农网站浏览最全面的农业信息,关注国家实时出台的农业政策,调整种养结构,买卖农产品等。但是纵观目前所有的农业网站,都普遍存在着一个问题,即网站中存在着很多无效的信息网页。这些无效的信息网页主要表现在或者与农业信息无关或者网页的主体部分没有内容或者为导航网页,我们称这些网页为“农业网站中的垃圾网页”。 “垃圾网页”的存在严重妨碍了农民用户及时准确地获得市场信息,为此我们选取合适的网页识别模式并加以改进把“垃圾网页”从农业网站中剔除出去,帮助农民用户及时、准确地获得他们所需要的农业信息。 本文在参阅了大量国内外相关文献的基础上,深入研究了多元线性回归、朴素贝叶斯、Fisher三种模式识别方法的优缺点,分别对它们采用了文档频率与卡方检验两种特征提取模式以及JE与IK以及Paoding’s Knives三种中文分词软件,对它们的测试结果予以了比较和分析,在此基础上,选用Fisher模式识别方法,可以有效地区分正常涉农网站和垃圾涉农网站。在特征值的提取过程中,根据涉农网页的自身特征,改进了特征提取模式,不再以词为特征值,而是以词组的形式表示。利用此种模式,较好地实现了对垃圾网页的辨识。 本文的研究内容为自治区重点科研项目《农村科技信息服务平台关键技术研究与应用示范》中涉农搜索引擎的关键技术。本文的研究内容,已采用PHP编程技术全面实现并得到实际应用。经过实际测试,涉农垃圾剔去率达90%以上,应用效果良好。
【学位授予单位】:新疆大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP393.092

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 贺全荣;;轻松解锁网页 随意复制粘贴[J];电脑迷;2011年12期
2 孙敏;;给网页遮羞 拒黄图通行[J];电脑迷;2011年18期
3 阚文浩;;巧制网页 在淘宝购物中赚“回扣”[J];电脑爱好者;2011年11期
4 黄伟光;;网页木马及其防范[J];保密科学技术;2011年05期
5 阎皓的皓;;选择性屏蔽网页中的音乐[J];电脑迷;2011年18期
6 崔艳红;;我国农业电子商务发展策略[J];电子商务;2011年08期
7 ;教你几招识别和防御Web网页木马好方法[J];计算机与网络;2010年Z1期
8 孙利;张得生;陈萍;;基于多网页信息隐藏算法研究[J];价值工程;2011年23期
9 ;网页游戏市场:最美好也最混乱的时代[J];通讯世界;2011年07期
10 曹春华;;想让更多朋友加入你的群吗[J];电脑爱好者;2011年05期
中国重要会议论文全文数据库 前10条
1 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
2 白清源;林锦贤;谢丽聪;;信息自动获取系统的研究[A];第十七届全国数据库学术会议论文集(技术报告篇)[C];2000年
3 冯艳卉;洪宇;颜振祥;姚建民;朱巧明;;基于搜索引擎的双语混合网页识别新方法[A];第六届全国信息检索学术会议论文集[C];2010年
4 江志纲;丁增喜;刘洋;王大玲;鲍玉斌;于戈;;基于面向属性规约方法的网页和超链的分类[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
5 孔辉;梁洪亮;辛阳;杨义先;陈林顺;;一种高性能的网页篡改检测与恢复机制[A];2010年全国通信安全学术会议论文集[C];2010年
6 刘晖;赵萍;;新疆环境气象中心网站的总体规划及建设[A];信息技术在气象领域的开发应用论文集(一)[C];2005年
7 李立宗;高铁杠;陈蓉;陈超;;基于混沌系统的web信息隐藏研究与实现[A];第六届全国信息获取与处理学术会议论文集(3)[C];2008年
8 王玉龙;叶新铭;李秀华;;网页优化策略的模糊C均值(FCM)聚类算法研究(英文)[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
9 朱建国;孙钟德;刘婷;;地市级网络管理监控初探[A];“推进气象科技创新,提高防灾减灾和应对气候变化能力”——江苏省气象学会第七届学术交流会论文集[C];2011年
10 郑传新;谢筱惠;;基于网页技术的决策气象服务信息系统[A];2002年广西气象电子专业技术交流会论文集[C];2002年
中国重要报纸全文数据库 前10条
1 董裴;农业网站农村访客不足三成[N];中国经济导报;2009年
2 本报记者 陈晓晟;网游概念股走势平稳 网页游戏或成新亮点[N];通信信息报;2008年
3 本报记者 杨阳;“我要玩”:网页游戏集中营[N];经济观察报;2009年
4 商报记者 金朝力;网页游戏繁华之后难掩衰落[N];北京商报;2009年
5 本报记者 廖庆升;网游巨头纷纷“涉水” 网页游戏面临洗牌[N];通信信息报;2009年
6 付燕;8000万元联合风投搅动网页游戏市场[N];中国高新技术产业导报;2009年
7 刘思齐;网页游戏的春天即将来临或将赶超大型网游[N];中国高新技术产业导报;2009年
8 许冰洲 鞠金华;全国首个网页游戏孵化器欲成网页游戏产业基地[N];嘉兴日报;2009年
9 商报记者 李鹏;网页游戏:成长的烦恼[N];中国图书商报;2009年
10 记者 赵建军;第五届农业网站发展论坛在并开幕[N];山西日报;2009年
中国博士学位论文全文数据库 前10条
1 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
2 覃健诚;网络多层纵深防御体系的关键技术研究[D];北京邮电大学;2011年
3 刘凯鹏;社会性标注关键技术及其在信息检索中的应用研究[D];哈尔滨工业大学;2010年
4 朱征宇;Web资源组织与服务性能研究[D];重庆大学;2003年
5 黄小广;港美经济关系研究[D];暨南大学;2008年
6 窦平安;电子商务语义信息共享模式[D];吉林大学;2009年
7 吴瑞;模糊和粗糙环境下的网络用户浏览模式研究[D];天津大学;2006年
8 黄健斌;基于条件概率图模型的Deep Web数据抽取与集成研究[D];西安电子科技大学;2007年
9 杜阿宁;互联网舆情信息挖掘方法研究[D];哈尔滨工业大学;2007年
10 刘东飞;智能双语搜索方法及搜索引擎的研究[D];武汉理工大学;2009年
中国硕士学位论文全文数据库 前10条
1 张晓宇;农业网站中垃圾网页过滤方法的研究[D];新疆大学;2011年
2 孙学刚;面向奥运的中文网页信息获取方法的初步研究[D];清华大学;2004年
3 黄辉;基于LSI和SVC的网页文本分类算法研究[D];长沙理工大学;2010年
4 王祥冰;个人网页人际意义构建的多模态分析[D];西南交通大学;2012年
5 李琦;基于层次聚类和网页关系的人名消歧[D];山东大学;2012年
6 邱鹏;移动终端网页转换系统的设计与实现[D];大连理工大学;2012年
7 涂涛;嵌入式浏览器网页排版技术的研究与实现[D];华中科技大学;2004年
8 马千驰;基于搜索词的网页结果聚类研究与应用[D];华南理工大学;2010年
9 云颖;复杂网络中的社区发现及进化研究[D];河北大学;2011年
10 颜振祥;互联网双语资源挖掘关键技术研究[D];苏州大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026