收藏本站
《江南大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

中文Web文本分类新技术的研究和应用

吴春颖  
【摘要】: 随着网络信息技术的高速发展,Internet上的Web页面数量呈指数增长,如何有效的组织和处理这些海量信息,如何更好地搜索、过滤和管理这些网络资源,成了一个亟待解决的问题。其中,Web文本分类技术是信息检索和数据挖掘的核心内容,基于机器学习的文本分类方法已经取得了较好效果,但是它仍然存在如何提高分类精度和分类速度两大难题。 本文研究的对象是中文Web本文,针对中文文本的特殊性,首先研究了中文分词方法,并提出了一种基于二元语法的N-最大概率中文粗分模型,该模型能够较好地得到少量高召回率、高效率的粗分结果,更大程度地保留歧义字段和未登录词,进而提高后续分词质量。然后针对中文Web本文的信息量巨大且内容更新速度快等特点,提出了一种新的Web文本表示方法,即基于新词发现的表示方法:用词和新词共同来表示Web文本,理论和实验表明该方法可以帮助识别未登录词并扩充现有字典,能够增强Web文本表示能力,改善Web文本的特征项质量,最终提高Web文本分类效果。 在现有分类算法中,KNN算法是一种简单、有效、非参数的分类算法,在Web文本分类中得到广泛的应用并取得较好的分类效果;但是该算法存在两个显著不足,其一:计算量巨大,它要求计算未知文本与所有训练样本间的相似度进而得到K个最近邻样本;其二:当类别间有较多共性,即训练样本间有较多特征交叉现象时,KNN分类的精度将下降。针对KNN这两个问题,本文提出了一种改进的KNN分类算法,即先通过Rocchio算法快速得到k0个候选类别,然后在k0个类别中采用改进的相似度计算方法来提高分类精度。由于Web文本资源通常采用层次结构来组织,因此本文也探讨了层次分类,提出了层次结构和KNN算法相结合的Web文本分类算法,利用层次结构来提高分类速度,而KNN算法弥补层次分类中的精度问题。实验表明,以上两种改进的KNN分类算法都能很大程度地提高分类效率,同时也一定程度上提高了分类精度。
【学位授予单位】:

知网文化
【相似文献】
中国期刊全文数据库 前20条
1 白若鹞;董渊;张素琴;徐大伟;;研究中文文本分类技术的辅助平台[J];清华大学学报(自然科学版)网络.预览;2008年07期
2 白若鹞;董渊;张素琴;徐大伟;;研究中文文本分类技术的辅助平台[J];清华大学学报(自然科学版);2008年07期
3 陈超;陈盛雄;;一种基于SMO算法的垃圾邮件过滤系统设计[J];福建电脑;2007年03期
4 刘延华;林嘉雯;;基于贝叶斯算法的中文邮件过滤系统设计[J];福建电脑;2009年11期
5 刘延华;陈国龙;;中文垃圾邮件多层次过滤技术的应用研究[J];计算机工程与应用;2009年34期
6 熊桂喜;李政;;基于规则和语料库的中文姓名识别研究[J];计算机与信息技术;2007年12期
7 李跃民;王浩;赵生慧;;有词典中文分词算法研究[J];滁州学院学报;2008年03期
8 许高建;胡学钢;路遥;王庆人;;一种改进的中文分词歧义消除算法研究[J];合肥工业大学学报(自然科学版);2008年10期
9 黄德根;焦世斗;周惠巍;;基于子词的双层CRFs中文分词[J];计算机研究与发展;2010年05期
10 孙殿哲;魏海平;陈岩;;Nutch中庖丁解牛中文分词的实现与评测[J];计算机与现代化;2010年06期
11 杨文涛;司应硕;张森;;GA-BP神经网络算法在中文分词分析中的应用研究[J];河南机电高等专科学校学报;2010年04期
12 孙乐;方自金;;基于互联网的信息采集系统的设计与实现[J];河北大学成人教育学院学报;2010年04期
13 陈伏虎,宫先仪;遗传与互信息混合算法用于水声目标特征选择[J];信号处理;1997年03期
14 陈红英,李卫华;智能信息Agent的研究和实现[J];计算机工程与应用;2002年12期
15 刘斌,曾立波,刘生浩;血液细胞图像自动识别系统的研究[J];计算机工程;2003年01期
16 林珊,宁国宁,赵之霖;中文分词在邮件过滤系统中的应用[J];华南理工大学学报(自然科学版);2004年S1期
17 王坚,赵恒永;专业搜索引擎中文分词算法的实现与研究[J];福建电脑;2005年07期
18 许敏;周伟灿;;CAD电子图管理系统中全文检索的研究[J];微计算机信息;2006年19期
19 任江涛;孙婧昊;黄焕宇;印鉴;;一种基于信息增益及遗传算法的特征选择算法[J];计算机科学;2006年10期
20 山岚;赵英;徐耀;王坚;张莹莹;;专业搜索引擎系统的设计与实现[J];微计算机信息;2007年06期
中国重要会议论文全文数据库 前10条
1 李娜;曾向阳;;目标识别中的样本选择和特征选择联合算法研究[A];2009年西安-上海声学学术会议论文集[C];2009年
2 张永;陈思睿;杨志勇;;一种改进的文本分类方法的研究[A];第二届全国信息检索与内容安全学术会议(NCIRCS-2005)论文集[C];2005年
3 王强;曾向阳;王曙光;李娜;;主元分析在水下目标特征选择中的应用[A];中国声学学会水声学分会2011年全国水声学学术会议论文集[C];2011年
4 高砚军;徐华平;;基于窗口自适应灰度共生矩阵的SAR图像分类[A];第六届全国信息获取与处理学术会议论文集(1)[C];2008年
5 李晓丽;王彤;杜振龙;;基于粗糙集理论的流数据最优特征选择[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
6 徐燕;孙春明;王斌;李锦涛;;基于词条频率的特征选择算法研究[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
7 李爱新;孙铁;郭炎峰;;基于人工神经网络的脑电信号模式分类[A];自动化技术与冶金流程节能减排——全国冶金自动化信息网2008年会论文集[C];2008年
8 靖红芳;王斌;杨雅辉;;基于类别分布的特征选择框架[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
9 周志红;周新聪;严新平;袁成清;;磨粒特征参数的评价与优化方法研究[A];2006全国摩擦学学术会议论文集(一)[C];2006年
10 李占潮;陈超;周喜斌;邹小勇;;基于遗传算法和支持向量机预测蛋白质结构类[A];第九届全国计算(机)化学学术会议论文摘要集[C];2007年
中国重要报纸全文数据库 前10条
1 清华大学IT可用性实验室;2005中文搜索引擎质量对比[N];计算机世界;2005年
2 本报记者 张彤;让计算机说中国话[N];网络世界;2004年
3 周晓娟;TD已过分水岭[N];通信产业报;2008年
4 记者 吴苡婷;用技术挖出网络信息中“金子”[N];上海科技报;2009年
5 天相投顾 闻群王聃聃;选基金需考虑风险承受力[N];中国证券报;2007年
6 孙志伟;刘刚检查城防林建设[N];齐齐哈尔日报;2008年
7 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
8 贺俊;汇聚亿万草根智慧 奇虎发布经验搜索[N];证券日报;2006年
9 记者 杨朝晖;医药搜索:不再“众里寻他千百度”[N];科技日报;2007年
10 郑卫东;高产鹅选种方法和标准[N];中国畜牧兽医报;2007年
中国博士学位论文全文数据库 前10条
1 韦娜;基于内容图像检索关键技术研究[D];西北大学;2006年
2 张颖;基于群集智能模式识别方法的研究[D];大连理工大学;2008年
3 吕铁军;通信信号调制识别研究[D];电子科技大学;2000年
4 燕忠;基于蚁群优化算法的若干问题的研究[D];东南大学;2005年
5 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
6 李勇明;尿沉渣图像自动识别算法的研究[D];重庆大学;2007年
7 刘天羽;基于特征选择技术的集成学习方法及其应用研究[D];上海大学;2007年
8 杨水山;冷轧带钢表面缺陷机器视觉自动检测技术研究[D];哈尔滨工业大学;2009年
9 黄东山;特征选择及半监督分类方法研究[D];华中科技大学;2011年
10 熊文;基于群智的特征选择、分类与聚类挖掘的研究[D];北京邮电大学;2010年
中国硕士学位论文全文数据库 前10条
1 王新丽;中文文本分类系统的研究与实现[D];天津大学;2007年
2 马忠宝;基于支持向量机的中文文本分类系统研究[D];武汉理工大学;2006年
3 陈超;基于支持向量机的中文文本分类的系统研究[D];武汉理工大学;2007年
4 卢扬竹;基于内容的垃圾邮件过滤技术研究[D];西南交通大学;2009年
5 杨彦;基于Hash结构的机械统计分词系统[D];中南大学;2005年
6 戚晶;基于RSS的搜索引擎的研究与实现[D];吉林大学;2006年
7 马莉;基于SVM的垃圾邮件过滤的研究[D];山东大学;2005年
8 王新梅;基于内容挖掘的垃圾邮件过滤技术[D];武汉理工大学;2006年
9 李培国;基于人工神经网的中文垃圾邮件过滤器的设计与实现[D];暨南大学;2007年
10 刘琨;搜索引擎的研究与实现[D];西安电子科技大学;2004年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978