收藏本站
《中国地质大学(北京)》 2006年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Web的中文文本分类的研究与实现

邹丹  
【摘要】:论文系统阐述并实现了一套 WEB 文本分类的技术。主要技术包括 WEB 文本收集、WEB 文本预处理、处理后的 WEB 文本的中文分词、预抽取训练样本及使用 SVM 方法进行文本训练和文本分类等。通过对系统功能的分析,我们把系统分成了 WEB 文本收集和预处理、中文分词、文本特征向量的提取、文本训练和分类等四部分。 与一般文本分类器不同,我们首先需要收集 WEB 文本,对 WEB 文本进行预处理,保存其中文本信息的权重。在这部分,作者首先实现了抢先式多线程WEB 文本收集器,采用深度优先的算法获取特定类型的网页,接着根据 HTMLTag 文本的特点,实现了基于递归方式匹配的 WEB 文本预处理器,它用于去除WEB 文本中的 Tag 信息,并根据 Tag 对分类的重要程度设置权重。 在中文分词部分,作者使用经改进的全二分最大匹配快速分词算法,根据汉字编码体系、汉语词特点形成了分词词典,再针对该分词词典具体实现了此算法。此外,为了能够达到更好分词性能,作者结合了正向匹配和逆向匹配两种方式。经实验证明,系统实现的分词算法可以达到很好的分词效果,在准确性和速度上基本上都满足了文本分类的需要。 在文本特征向量的提取部分中,作者使用了一种基于词和类别的互信息量预抽取训练样本的方法,这种方法不仅相对简单,而且在保证分类器性能的情况下,可以允许我们适当地选择训练样本,减少支持向量,从而提高支持向量机(SVM)的训练和分类速度,此外作者使用了 TF—IDF 公式来计算向量的权重。 在文本特征向量的提取部分,介绍了 SVM 的基本理论以及目前 SVM 方法在文本分类中的应用情况,以及使用开源软件包 LIBSVM,利用获得的文本特征向量及其权重来生成输入文档,进行文本训练和分类的过程。 总之,本课题实现了 WEB 文本收集、WEB 文本预处理、中文分词、特征向量提取、文本训练和文本分类等 WEB 文本分类的关键技术,并在研究的基础上提出了一套特征抽取及文本分类的方案。
【学位授予单位】:中国地质大学(北京)
【学位级别】:硕士
【学位授予年份】:2006
【分类号】:TP391.1

【相似文献】
中国期刊全文数据库 前10条
1 张文慧;张冉;;基于中文分词的农业信息检索平台设计[J];安徽农业科学;2011年20期
2 杜娟;;Nutch中文分词的研究和改进[J];软件导刊;2011年06期
3 刘珺;张文欣;;基于RSS的层次结构用户兴趣模型的分析与设计[J];河南工程学院学报(自然科学版);2011年03期
4 张旭;;构建基于本地服务的垂直搜索引擎[J];才智;2011年18期
5 陶惠;张妍;郝光权;;基于向量空间的文档聚类算法分析[J];电脑知识与技术;2011年20期
6 韩月阳;邓世昆;贾时银;李远方;;基于字分类的中文分词的研究[J];计算机技术与发展;2011年07期
7 刘兆伟;黄永峰;;面向主题搜索引擎的实现与优化[J];数据通信;2011年04期
8 李卫东;陆玲;;融合VSM技术的PageRank算法研究与应用[J];计算机与现代化;2011年07期
9 李虎;邹鹏;贾焰;周斌;;一种基于MapReduce的分布式文本数据过滤模型研究[J];信息网络安全;2011年09期
10 阴桂梅;郭广行;;智能答疑系统模型设计[J];电脑开发与应用;2011年07期
中国重要会议论文全文数据库 前10条
1 王敏;叶宽余;薛峰;;一种面向网店商品搜索的中文分词系统设计[A];全国第22届计算机技术与应用学术会议(CACIS·2011)暨全国第3届安全关键技术与应用(SCA·2011)学术会议论文摘要集[C];2011年
2 修驰;宋柔;;基于“大词”实例的中文分词研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 张梅山;邓知龙;车万翔;刘挺;;统计与词典相结合的领域自适应中文分词[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 韩冬煦;常宝宝;;基于边界熵和卡方统计量的多领域适应性中文分词方法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 王桐;刘大昕;田迪;孙伟;张万松;;一种改进的XML向量空间模型及其近似匹配算法[A];第二十三届中国数据库学术会议论文集(研究报告篇)[C];2006年
6 侯松;周斌;贾焰;;分词结果的再搭配对文本分类效果的增强[A];全国计算机安全学术交流会论文集(第二十四卷)[C];2009年
7 高勇;荀恩东;宋柔;;构造自然语言问答系统平台[A];第二届全国学生计算语言学研讨会论文集[C];2004年
8 喻飞;夏晓燕;吴蓉晖;徐成;;基于向量空间模型的信息安全审计系统[A];第二十六届中国控制会议论文集[C];2007年
9 陈浩;何婷婷;代玲;;基于向量空间模型的无导词义消歧[A];第二届全国学生计算语言学研讨会论文集[C];2004年
10 黄萱菁;夏迎炬;吴立德;;基于向量空间模型的文本过滤系统[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
中国重要报纸全文数据库 前10条
1 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
2 本报记者 张彤;让计算机说中国话[N];网络世界;2004年
3 清华大学IT可用性实验室;2005中文搜索引擎质量对比[N];计算机世界;2005年
4 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;寻“宝”有术[N];计算机世界;2003年
5 记者 吴苡婷;用技术挖出网络信息中“金子”[N];上海科技报;2009年
6 贺俊;汇聚亿万草根智慧 奇虎发布经验搜索[N];证券日报;2006年
7 记者 杨朝晖;医药搜索:不再“众里寻他千百度”[N];科技日报;2007年
8 张韬;谷歌推出“谷歌拼音”力拼百度[N];上海证券报;2007年
9 王翌;互联网2005:个性化生存[N];计算机世界;2005年
10 李永胜;在中文网页搜索质量上 Google险胜百度[N];中国计算机报;2007年
中国博士学位论文全文数据库 前10条
1 孙道军;文本挖掘预处理相关基础技术分析与应用研究[D];北京邮电大学;2008年
2 孙越恒;基于统计的NLP技术在中文信息检索中的应用研究[D];天津大学;2005年
3 何嘉;基于遗传算法优化的中文分词研究[D];电子科技大学;2012年
4 邢军;领域本体构造中数据源选取及构造方法的研究[D];大连理工大学;2008年
5 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
6 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年
7 杜卫锋;粗糙集理论在中文文本分类中的应用[D];西南交通大学;2006年
8 马晖男;信息检索中浅层语义模型的研究[D];大连理工大学;2007年
9 陈博;WEB文本情感分类中关键问题的研究[D];北京邮电大学;2008年
10 徐婕;基于对等网络的资源搜索策略的研究[D];华中科技大学;2007年
中国硕士学位论文全文数据库 前10条
1 褚金正;面向特定领域的文本识别和分类[D];湖南大学;2005年
2 吴新涛;基于向量空间模型的网页信息过滤方法研究[D];大连理工大学;2008年
3 袁凯;基于主题的网络蜘蛛的设计与实现[D];北京交通大学;2008年
4 李副铭;垂直搜索引擎的研究与设计[D];电子科技大学;2009年
5 甘立国;中文文本分类系统的研究与实现[D];北京化工大学;2006年
6 操卫平;基于结构化向量空间模型的中文信息检索系统研究与实现[D];北京工业大学;2008年
7 王新丽;中文文本分类系统的研究与实现[D];天津大学;2007年
8 郭浩军;基于本体的Web跨语言信息检索研究[D];华北电力大学(河北);2009年
9 赵治军;OAI-PMH中元数据相似度计算的研究与实现[D];太原科技大学;2009年
10 刘宏伟;搜索引擎中中文WEB文本自动分类研究[D];暨南大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026