收藏本站
收藏 | 论文排版

基于词和基本短语模式的特征提取方法

赵蕾蕾  
【摘要】:Internet的发展带动了信息的迅速增加,如何从海量的信息中快速有效地找到有用的信息,已经成为亟待解决的问题。文本信息的自动分析可以有效地解决这一问题,而文本信息自动分析中的一个主要技术就是文本分类。文本分类技术可以使用户按照自己的要求搜索到有用的信息,不仅大大提高了文本信息的利用率,还具有广泛的研究价值和商业价值。 文本分类主要包括四个部分:文本预处理、特征提取、特征权重计算和分类器分类。其中特征提取是文本分类的关键,而消除语义歧义和降低向量空间维数是特征提取的难点。传统的文本分类方法都以词作为文本的特征进行提取,而单个词语所能涵盖的文本特征含义十分有限。本文改进了特征项单一性的缺点,提出了一种基于词和基本短语模式的特征提取方法。本文采用了对分词后的词语进行词性标注,并且使用同义词词林处理同义词和多义词的方法。即有效地消除了语义歧义,还降低了空间向量维数。 本文用KNN分类器和SVM分类器分别进行了实验。实验结果表明,分类的准确率和召回率都得到了提高。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 何国辉;吴礼发;;基于机器学习的文本分类技术的研究[J];计算机与现代化;2009年08期
2 田昕辉;李成基;;带有短语切分的中文文本分类方法(英文)[J];计算机技术与发展;2010年01期
3 李文;王炜立;;中文文本理解技术在法律案情文本分类中的应用[J];南昌大学学报(工科版);2007年01期
4 贺一帆;江铭虎;;网络文本分类中基于信息瓶颈的特征提取[J];清华大学学报(自然科学版);2010年01期
5 甄志龙;曾晓勤;韩立新;;文本分类中基于图模型的特征提取方法[J];情报科学;2011年08期
6 李广原;一种特征词权重调整算法的研究[J];电脑与信息技术;2005年04期
7 牛强;王志晓;陈岱;夏士雄;;基于支持向量机的Web文本分类方法[J];微电子学与计算机;2006年09期
8 黄浩;王英林;;面向企业应用的文本自动分类系统的设计和实现[J];计算机应用与软件;2007年11期
9 屈志毅;李一伟;张延堂;杨曙光;张菲菲;;一种基于关键重复语义的最大熵文本分类[J];广西师范大学学报(自然科学版);2007年04期
10 呼声波;刘希玉;;网页分类中特征提取方法的比较与改进[J];山东师范大学学报(自然科学版);2008年03期
11 申红;吕宝粮;内山将夫;井佐原均;;文本分类的特征提取方法比较与改进[J];计算机仿真;2006年03期
12 寇苏玲;蔡庆生;;中文文本分类中的特征选择研究[J];计算机仿真;2007年03期
13 叶振宇;刘晶;;基于关联度分析的二次文本特征提取方法研究[J];电脑知识与技术(学术交流);2007年06期
14 郭飞;张先君;叶俊;;基于改进互信息的特征提取的文本分类系统[J];四川理工学院学报(自然科学版);2008年03期
15 周晗;赵卫东;季军;;一种用于文本分类的特征选择方法[J];电脑知识与技术;2008年34期
16 张筱丹;;Web文本挖掘的研究[J];科技信息;2009年04期
17 周雪芹;刘建舟;邵雄凯;廖力;;中文文本分类中特征提取的方法[J];湖北工业大学学报;2010年02期
18 武旭,须德;基于向量空间模型的文本自动分类系统的研究与实现[J];北方交通大学学报;2003年02期
19 陈涛,谢阳群;文本分类中的特征降维方法综述[J];情报学报;2005年06期
20 郑金芳;;基于文本分类领域中文本分类和主题分析[J];中国科技财富;2008年11期
中国重要会议论文全文数据库 前10条
1 刘华;周凌燕;张普;;面向词典编撰的词汇聚类研究[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
2 武洪萍;周国祥;;Web文本挖掘研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
3 刘华;张普;;面向词典编纂的词汇聚类研究[A];2004年辞书与数字化研讨会论文集[C];2004年
4 牛强;王志晓;陈岱;夏士雄;;基于支持向量机的Web文本分类方法[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
5 贾会强;刘晓丽;于洪志;;基于词性特征提取的藏文文本分类方法研究[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
6 黄旭;朱艳琴;罗喜召;;重复串特征提取算法在不良信息检测中的应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
7 刘秉权;李博;孙林;王宝勋;刘远超;;标签特征和正文特征融合的SVM博客文本分类算法研究[A];第六届全国信息检索学术会议论文集[C];2010年
8 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
9 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
10 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
中国博士学位论文全文数据库 前10条
1 张旗;基于属性的图像分类研究[D];大连海事大学;2005年
2 张立福;通用光谱模式分解算法及植被指数的建立[D];武汉大学;2005年
3 苏彩红;墙地砖质量自动检测技术的研究[D];华南理工大学;2004年
4 宋余庆;医学图像数据挖掘若干技术研究[D];东南大学;2005年
5 宋晴;基于液滴分析技术和液滴指纹图的液体识别方法的研究[D];天津大学;2005年
6 吴婷;自发脑电脑机接口模式识别关键技术与实验研究[D];上海交通大学;2008年
7 孙真真;基于光学区雷达目标二维像的目标散射特征提取的理论及方法研究[D];中国人民解放军国防科学技术大学;2001年
8 武子玉;矿物近红外光谱信息提取及应用研究[D];吉林大学;2005年
9 王承;基于神经网络的模拟电路故障诊断方法研究[D];电子科技大学;2005年
10 孙蕾;医学图像智能挖掘关键技术研究[D];西北大学;2005年
中国硕士学位论文全文数据库 前10条
1 赵蕾蕾;基于词和基本短语模式的特征提取方法[D];河北大学;2009年
2 蒋健;文本分类中特征提取和特征加权方法研究[D];重庆大学;2010年
3 李文;公安执法监督管理中的文本理解技术的研究及其应用[D];南昌大学;2005年
4 陈伟萍;基于语义概念的中文文本分类研究[D];燕山大学;2006年
5 张淼;基于支持向量机的文本分类系统研究[D];大庆石油学院;2008年
6 谭新;基于语义特征提取的PU文本分类的研究与实现[D];吉林大学;2007年
7 尹志喜;基于内容的垃圾邮件过滤技术研究[D];中北大学;2007年
8 关娜;基于文本分类算法的垃圾短信过滤技术研究[D];电子科技大学;2008年
9 沈贺丹;核心能力评价系统的分类模块研究[D];辽宁工程技术大学;2006年
10 郭飞;文本挖掘方法探讨及应用[D];成都理工大学;2006年
中国重要报纸全文数据库 前10条
1 燕海霞;王忆勤;李福凤;脉象信号研究日渐深入[N];中国医药报;2005年
2 林木树;反垃圾邮件有待新突破[N];人民邮电;2004年
3 沈占锋;遥感影像信息提取与分析[N];计算机世界;2006年
4 王竣;深入开发CAD系统对疾病诊断有重要意义[N];中国医药报;2007年
5 北京数码空间信息技术有限公司技术总监 刘斌;Web Mining:第二代网络信息处理技术[N];计算机世界;2000年
6 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
7 孙哲南 谭铁牛;生物识别的十大关键技术[N];计算机世界;2007年
8 上海 高博;让电脑“听懂”人话[N];电脑报;2008年
9 记者 何腾江 通讯员 周汇成;验钞新技术通过鉴定[N];中山日报;2008年
10 中科院自动化所 何鹏 陶建华 谭铁牛;看懂人的“脸色”[N];计算机世界;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978