收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

博客数据特征提取与基于分类的垃圾博客过滤

闫瑞  
【摘要】: 随着Internet的迅速发展,博客成了继Email、BBS、QQ/ ICQ之后的新一代网络交流方式,并以极快的速度融入到人们的日常生活中,成为基于互联网的基础服务。随着博客空间的急速增长,垃圾博客也迅猛蔓延到博客空间的各个角落;而大量垃圾博客的存在,严重影响了信息检索的准确性,从而使得用户体验变得越来越差,如何精确地判断垃圾博客成为信息检索领域亟待解决的难题之一。在信息安全领域,博客内容倾向性分析成为新的研究热点之一,但大量垃圾博客的存在将严重影响倾向性分析的结果,大大降低其正确性和可信性。因此,必须对博客进行垃圾过滤,以便进行进一步的分析和检索。 本文在已有的垃圾博客特征提取基础上,提出了采用词性分析手段对博客特征进行进一步提取的方法。首先考虑到在中文的语法结构中,一个句子由主谓宾构成,尤其在口语话的语句中,还会有很多省略句,这些句子通常只有主语和谓语或仅仅只有谓语。而且博客作者大都在博客文章中记录一些关于自己感兴趣的事情,或者记录自己的心情和近况,会在博客正文中使用丰富的形容词和语气词来表达自己。而垃圾博客通常只是为了提高用户的点击率,或者希望通过增加链接和关键词的方式来提升某个网页在搜索引擎中的重要程度,因此在文章中会出现大量的名词,尤其是跟行业相关的专有名词。所以,对博客文章进行词性分析,提取出跟词性相关的一些特征会大大增加特征之间的互补性,提高垃圾博客分类与过滤的效果。 进一步,本文设计了一种针对垃圾博客过滤的动态组合分类算法。该算法首先构造出一种树状组合分类器结构来支持分类,并进一步利用了一种动态调整策略来训练组合分类器。与已有的基于单一分类器或简单集成分类器的方法相比,该方法可以根据样本的分布特点,自适应地调整分类器的组合结构,从而有效缓解样本特征稀疏和样本高度不均衡对分类性能的影响。基于垃圾博客过滤的测试实验表明,该算法在用于垃圾博客过滤时,可以获得较好的准确率和召回率。 最后,本文设计并实现了一个基于博客内容的信息检索原型系统,并将垃圾博客过滤算法用于该系统,取得了较好的效果。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 梁竞敏;;集成学习SVM在图像检索中的应用[J];计算机工程与应用;2009年18期
2 闫瑞;曹先彬;李凯;;面向短文本的动态组合分类算法[J];电子学报;2009年05期
3 陈冰;张化祥;;集成学习的多分类器动态组合方法[J];计算机工程;2008年24期
4 翁宁龙;刘冉;吴子章;;一种改进的LBP特征的人脸识别方法[J];信息通信;2011年03期
5 刘礼辉;;基于Adaboost的快速人脸检测系统[J];科技风;2009年03期
6 戴青云;程俊红;;AdaBoost算法在人脸识别中的应用[J];黑龙江科技信息;2009年36期
7 范一峰;颜志英;;基于Adaboost算法和肤色验证的人脸检测研究[J];微计算机信息;2010年21期
8 李凤华;;基于Log-Gabor变换和ADABOOST的人脸表情识别[J];辽宁工业大学学报(自然科学版);2010年04期
9 凌霄汉;吉根林;;一种基于聚类集成的无监督特征选择方法[J];南京师范大学学报(工程技术版);2007年03期
10 何毓知;陆建峰;;基于Adaboost的行道线检测[J];江南大学学报(自然科学版);2007年06期
11 王芳;杨慧中;;一种改进的支持向量回归集成算法[J];计算机工程与应用;2008年03期
12 唐静远;师奕兵;张伟;;基于支持向量机集成的模拟电路故障诊断[J];仪器仪表学报;2008年06期
13 蒋焰;丁晓青;;基于多步校正的改进AdaBoost算法[J];清华大学学报(自然科学版);2008年10期
14 刘侠;李苏;李廷军;;一种改进的Adaboost算法的人脸检测分类器[J];空军工程大学学报(自然科学版);2009年02期
15 付炜;孔祥栋;;基于肤色和Adaboost算法的人脸检测[J];现代电子技术;2010年06期
16 王燕;;基于Adaboost算法的行人检测[J];电脑编程技巧与维护;2010年10期
17 胡章芳;李林;罗元;张毅;;基于头势的机器人的人机交互[J];重庆邮电大学学报(自然科学版);2010年04期
18 李迪;王林;;基于Log-Gabor和AdaBoost的人脸识别算法研究[J];微型电脑应用;2011年02期
19 章品正;王健弘;;一种应用机器学习的车牌定位方法[J];应用科学学报;2011年02期
20 张宁;李娜;;基于Adaboost算法的人脸检测技术的研究与实现[J];现代电子技术;2011年14期
中国重要会议论文全文数据库 前10条
1 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 郭翌;汪源源;;基于Adaboost算法的颈动脉粥样硬化判别方法[A];中国仪器仪表学会第十一届青年学术会议论文集[C];2009年
3 张超;苗振江;;基于AdaBoost的面部信息感知[A];第十三届全国信号处理学术年会(CCSP-2007)论文集[C];2007年
4 徐昉;宗成庆;;汉语base NP识别:错误驱动的组合分类器方法[A];第三届学生计算语言学研讨会论文集[C];2006年
5 章成志;;基于集成学习的自动标引方法研究[A];中国索引学会第三次全国会员代表大会暨学术论坛论文集[C];2008年
6 李晶;陈媛媛;;基于AdaBoost的车牌字符识别模型研究[A];2008中国仪器仪表与测控技术进展大会论文集(Ⅰ)[C];2008年
7 李烨;蔡云泽;许晓鸣;;基于支持向量机集成的故障诊断[A];第16届中国过程控制学术年会暨第4届全国故障诊断与安全性学术会议论文集[C];2005年
8 张红梅;高海华;王行愚;;抑制样本噪声的AdaBoost算法及其在入侵检测中的应用[A];2007年中国智能自动化会议论文集[C];2007年
9 刘伍颖;王挺;;一种多过滤器集成学习垃圾邮件过滤方法[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
10 胡琼;汪荣贵;胡韦伟;孙见青;;基于级联分类器的快速人脸检测方法[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
中国博士学位论文全文数据库 前10条
1 张春霞;集成学习中有关算法的研究[D];西安交通大学;2010年
2 方育柯;集成学习理论研究及其在个性化推荐中的应用[D];电子科技大学;2011年
3 王清;集成学习中若干关键问题的研究[D];复旦大学;2011年
4 张丽新;高维数据的特征选择及基于特征选择的集成学习研究[D];清华大学;2004年
5 王勇;WEB数据挖掘研究[D];西北工业大学;2006年
6 刘天羽;基于特征选择技术的集成学习方法及其应用研究[D];上海大学;2007年
7 杨水山;冷轧带钢表面缺陷机器视觉自动检测技术研究[D];哈尔滨工业大学;2009年
8 刘峰;贝叶斯网络结构学习算法研究[D];北京邮电大学;2008年
9 沈道义;基于最小化训练误差的子空间分类算法研究[D];中国科学技术大学;2008年
10 杨振森;基于超声图像的前列腺病变计算机辅助诊断[D];中国科学技术大学;2009年
中国硕士学位论文全文数据库 前10条
1 闫瑞;博客数据特征提取与基于分类的垃圾博客过滤[D];中国科学技术大学;2009年
2 张家红;集成分类学习算法研究[D];山东师范大学;2011年
3 任芳;基于集成学习模式的Boost-SVM算法研究[D];武汉科技大学;2008年
4 刘晓坤;基于遗传算法的混合学习和集成学习研究[D];天津大学;2003年
5 刘立元;基于集成学习的蛋白质亚细胞定位预测[D];济南大学;2011年
6 贺梁;基于支持向量机的集成学习算法研究[D];华南理工大学;2010年
7 李新军;基于支持向量机的建模预测研究[D];天津大学;2004年
8 李洪伟;基于模式识别和集成学习的电力系统暂态稳定评估[D];华北电力大学(河北);2010年
9 赵万鹏;基于Adaboost算法的数字识别技术的研究与应用[D];中国科学院研究生院(成都计算机应用研究所);2006年
10 王晓芹;类别不平衡数据的集成学习研究[D];山东师范大学;2010年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978