收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于行为识别的网页文本分类算法研究与实现

刘俊荣  
【摘要】: 近年来互联网快速发展,网络中出现了海量、动态、半结构化或者非结构化的信息,这些信息80%以上都是以文本形式存在。网页分类是搜索引擎、网页过滤、网络信息管理的技术基础,因此对网页分类的研究越来越重要。网页分类算法是网页分类过程中的一个重要步骤,分类算法的优劣直接影响分类效果的好坏。网页分类技术建立在文本分类的基础上,但又不同于纯文本分类技术有所差异,这是因为网页中存在“噪音”信息以及网页的半结构化特点。 文本分类由文本预处理,特征词库的建立、文本分类器、文本分类结果测试这几个部分组成。本文围绕搜索引擎优化对网站设计具有引导性的研究基础上,对网页进行行为分析,提出了一种新的网页文本分类算法——基于行为识别的网页文本分类算法。本文的主要研究工作如下: 在对网页行为的研究中发现,网站的设计受搜索引擎优化技术的影响,网站设计者为了提高网站的搜索排名,利用元标签反应网站主题,因此元标签对反映网站的主题有很大的贡献。并且在这种半结构化的文本结构中,绝大多数网页中都包含title, keywords, description, subtitle等,利用网站的这一行为特点提出了新的算法。 基于行为识别的网页文本分类算法充分考虑到网站中语言多元化的特点,将网页的文字编码进行统一,最大可能的消除了语言之间的区别带来的干扰。 本文同时完成了对该算法的测试,并同国外的类似产品进行比较。该算法正确率、召回率等都能达到90%,体现了良好的分类性能。 论文最终给出了基于行为识别的网页文本分类算法的具体实现,及测试工具的实现。该程序目前已对4000万的URL进行分类,包含中、英、俄、德、法等八种语言,体现了良好的性能。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 ;北京石景山区网页设计大赛开幕[J];电脑爱好者;2010年24期
2 贾健;;视觉艺术在网页设计中的运用[J];企业导报;2011年11期
3 王诗沐;;网页设计和用户界面设计[J];程序员;2010年07期
4 李慧萍;刘亮;;网页设计中CSS的应用技巧[J];电脑知识与技术;2011年26期
5 李晓宁;;浅析网页设计中视觉要素对人产生的情感因素[J];大众文艺;2011年16期
6 陈振宇;;色彩在网页设计中的应用[J];才智;2011年18期
7 黄俊鹏;;浅析案例教学法在网页设计教学中的应用[J];华章;2011年21期
8 廖洁;;高职非艺术类专业网页设计教学探索[J];现代营销(学苑版);2011年07期
9 李湘媛;;网页版式设计的视觉流程分析[J];艺术教育;2011年08期
10 李晓宁;;网页设计中的视觉要素分析[J];大舞台;2011年08期
11 司丽丽;;网页设计中的文字版式设计探讨[J];硅谷;2011年16期
12 彭晓明;林姝华;;浅谈网页设计教师的专业成长[J];中国科教创新导刊;2011年23期
13 张建淳;;网页设计的弹性化趋势[J];新闻传播;2011年06期
14 热沙来提·热依木;;网页设计中的页面布局研究[J];华章;2011年23期
15 刘妤;;艺术设计专业的网页设计课程教学改革与实践[J];包装世界;2011年04期
16 海狼;;复制受限网页 不用那么麻烦[J];电脑爱好者;2011年07期
17 张秀梅;彭新平;;色彩在网页中的应用[J];经营管理者;2011年13期
18 刘伟;;关于商用网页的视觉设计法则研究[J];吉林艺术学院学报;2011年03期
19 周景报;唐建宁;;高职院校网页设计实践[J];长春工业大学学报(自然科学版);2011年03期
20 王会兰;;浅谈项目教学法在《网页设计与制作》课程中的应用[J];新课程(教育学术);2011年05期
中国重要会议论文全文数据库 前10条
1 孙云山;张立毅;李艳琴;;基于模糊分类器的PAM盲均衡算法[A];四川省通信学会2005年学术年会论文集[C];2005年
2 刘艳民;;中文网页分类方法的研究[A];2009年全国开放式分布与并行计算机学术会议论文集(下册)[C];2009年
3 李晓波;;集成分类对比:Bagging NB & Boosting NB[A];2010年全国开放式分布与并行计算机学术会议论文集[C];2010年
4 邢延铭;诸克军;李春平;;一种基于遗传算法和模糊规则的分类算法[A];科学发展观与系统工程——中国系统工程学会第十四届学术年会论文集[C];2006年
5 王毅军;张志广;李勇;高小榕;高上凯;杨福生;;2003年脑机接口数据竞赛论文之一——基于CSSD和FDA的单次手指运动诱发脑电分类算法[A];首届全国功能神经影像学和神经信息学研讨会论文汇编[C];2003年
6 傅言;郭振华;李乃民;;基于图像分析的中医色诊及在肝病上的研究[A];第一届全国中西医结合诊断学术会议论文选集[C];2006年
7 尧德中;廖祥;;基于支持向量机的脑电模式分类技术研究[A];中国生物医学工程进展——2007中国生物医学工程联合学术年会论文集(下册)[C];2007年
8 谢永芳;蒋有为;唐明珠;;一种基于数据剪辑的半监督最邻近分类算法[A];Proceedings of the 2011 Chinese Control and Decision Conference(CCDC)[C];2011年
9 王谨;;水墨风格在网页设计中的运用[A];城市文化与艺术审美[C];2008年
10 杨敏;杜小勇;;hRIPPER:一种基于层次规则学习的文本分类算法[A];第二十二届中国数据库学术会议论文集(技术报告篇)[C];2005年
中国博士学位论文全文数据库 前10条
1 刘刚;数据挖掘技术与分类算法研究[D];中国人民解放军信息工程大学;2004年
2 贾银山;支持向量机算法及其在网络入侵检测中的应用[D];大连海事大学;2004年
3 吴广潮;基于聚类特征树的大规模分类算法研究[D];华南理工大学;2012年
4 骆成凤;中国土地覆盖分类与变化监测遥感研究[D];中国科学院研究生院(遥感应用研究所);2005年
5 钱晓东;基于神经网络等技术的数据与文本聚分类研究[D];天津大学;2005年
6 唐勤;非均衡数据分类算法及其在助学贷款风险管理中的应用研究[D];华中科技大学;2012年
7 谢珺;二进制粒神经网络研究及其在故障诊断中的应用[D];太原理工大学;2009年
8 张雪英;基于粗糙集理论的文本自动分类研究[D];南京理工大学;2005年
9 李军;不平衡数据学习的研究[D];吉林大学;2011年
10 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
中国硕士学位论文全文数据库 前10条
1 刘俊荣;基于行为识别的网页文本分类算法研究与实现[D];北京邮电大学;2010年
2 宋鳌;网页去噪在交互电视中的应用与研究[D];上海交通大学;2011年
3 彭聪;一种在移动网络环境下的网页排序算法的研究[D];湖南大学;2010年
4 任昌;基于多特征融合的网页对象自动定位技术研究[D];中北大学;2011年
5 刘阳;基于内容的搜索引擎网页去重研究[D];江苏大学;2010年
6 陈烨;面向用户体验的网页界面优化设计方法研究[D];重庆大学;2010年
7 刘典型;多页面特殊网页文字提取与合并技术研究[D];湖南大学;2010年
8 董娟;基于页面结构分析的网页信息抽取方法研究[D];中国石油大学;2010年
9 宋玲;网页交互设计的视觉体验[D];西安美术学院;2010年
10 戴支荣;基于Lucene的面向主题信息搜索系统的关键技术分析及应用[D];武汉理工大学;2011年
中国重要报纸全文数据库 前10条
1 酷娱网设计部经理 王民;网页设计面试常见四陋习[N];电脑报;2010年
2 ;SecuiWALL独创分类算法[N];计算机世界;2002年
3 Relen;个性网页设计之内容艺术[N];电脑报;2001年
4 Relen;个性网页设计之创意无限[N];电脑报;2001年
5 河南 张金贵;网页设计布局心得[N];电脑报;2001年
6 西安市第十九中学 丁锦;网页设计中的色彩搭配[N];学知报;2011年
7 记者 薛亚芳;网络美工,动手能力最重要[N];人才市场报;2011年
8 吴兴国;网页设计的几项原则[N];山西科技报;2000年
9 实习生 郭晓;“我设计的软件是独一无二的”[N];科技日报;2006年
10 王楠;网页设计:网站的灵魂工程师[N];电脑报;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978