收藏本站
《重庆大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

用于文本分类的简明语义分析技术研究

李智星  
【摘要】:文本是获取、存储、传播信息最有效的途径。目前人类正面对着信息的海洋,海量的文本信息储存了人类知识和文化的精华,也是人类文明得以延续和发展的保证。文本分类技术的作用就是利用计算机辅助,帮助人们对文本进行归类、整理。作为自然语言处理和文本自动化处理的一个基础应用,文本分类一直都被研究者们所关注。 文本表示是文本分类的一个关键步骤。文本表示指的是如何将人能阅读和理解的自然语言文本表示为计算机可读的数据,本质上是一个信息转换的过程。我们总是希望能够将尽可能充足和完备的信息传递给计算机,然而计算机只有对数据进行存储和计算的能力,无法像人脑一样对文本进行语义分析。为克服经典词袋模型的高维和词语独立性假设的缺陷,本文提出了一种用于文本分类的简明语义分析方法,将词语和文本片段在一个较低维的概念空间中进行表示,从而实现词语和文本片段的语义分析。同时为考察简明语义分析在大规模数据集上应用的潜力,深入分析了简明语义分析的可扩展性与并行化。为充分利用文本中的词序信息,本文提出了一种可以保留原文词语顺序的词串模型,将文本表示为概念空间中的向量串,并提出两种向量串相似度计算方法,设计了一个拟k-NN分类器,并通过实验对词串模型的性能进行了验证。论文主要成果如下: ①提出了一种基于类标的简明语义分析技术。简明语义分析技术是针对文本分类提出的一种文本表示技术,可以将文本表示在被类标派生出来的概念所构成的空间中。根据语料库的不同,本文提出直接派生、拆分派生和组合派生三种派生方式。针对不同的语料库可以选取不同的方式,构造简洁有效的概念空间。 ②提出了一种词语与概念之间相关度计算的方法。本文提出的方法基于信息集中度的思想,将文本长度当做词语重要性的一个影响因素,实现了词语在概念空间中的有效表示,并通过对比实验证明了简明语义分析在文本分类应用中的有效性。 ③对简明语义分析的可扩展性和并行化做了深入分析。证明了简明语义分析良好的可扩展性和并行化简明语义分析的高效率,为简明语义分析在大规模数据集上的应用奠定了理论基础。 ④提出了一种可以保留词序的词串表示模型,将文本表示为概念空间中的向量串,使得形式化后的数据可以还原原文的语义流向信息。同时提出并设计了两种向量串相似度计算方法,设计了一个拟k-NN分类器,通过实验和分析证明了词串模型在分类精度上优于词袋模型。 ⑤将简明语义分析应用到手机新闻推荐系统,构建了一个具用占有网络带宽小、信息覆盖面全和可有效保护用户隐私的手机新闻推荐系统,并给出了一个原型系统。
【学位授予单位】:重庆大学
【学位级别】:博士
【学位授予年份】:2011
【分类号】:TP391.1

【参考文献】
中国期刊全文数据库 前3条
1 李荣陆,王建会,陈晓云,陶晓鹏,胡运发;使用最大熵模型进行中文文本分类[J];计算机研究与发展;2005年01期
2 黄昌宁;赵海;;中文分词十年回顾[J];中文信息学报;2007年03期
3 苏金树;张博锋;徐昕;;基于机器学习的文本分类技术研究进展[J];软件学报;2006年09期
中国博士学位论文全文数据库 前1条
1 赵晖;支持向量机分类方法及其在文本分类中的应用研究[D];大连理工大学;2006年
【共引文献】
中国期刊全文数据库 前10条
1 陶秀凤,唐诗忠,周鸣争;基于支持向量机的软测量模型及应用[J];安徽工程科技学院学报(自然科学版);2004年02期
2 李凯,黄厚宽;支持向量机增量学习算法研究[J];北方交通大学学报;2003年05期
3 徐正光,王淑盛,刘冀伟,王志良,史立峰;基于主成分分析的核Fisher判别方法在油水识别中的应用[J];北京科技大学学报;2005年01期
4 王玲;穆志纯;郭辉;;一种基于聚类的支持向量机增量学习算法[J];北京科技大学学报;2007年08期
5 吴德会;王晓红;;基于SVM的传感器动态模型辩识方法[J];传感技术学报;2006年03期
6 曾嵘,刘建成,蒋新华;一种基于支持向量机的增量学习算法[J];铁道科学与工程学报;2005年01期
7 常玉清,王福利,王小刚,吕哲;基于支持向量机的生物发酵过程软测量建模[J];东北大学学报(自然科学版);2005年11期
8 吕干云;程浩忠;郑金菊;汪晓东;;基于S变换和多级SVM的电能质量扰动检测识别[J];电工技术学报;2006年01期
9 宇缨;;支持向量机及其在自然语言处理中的应用[J];东莞理工学院学报;2007年01期
10 李亚伟;陈守煜;韩小军;;基于支持向量机SVR的黄河凌汛预报方法[J];大连理工大学学报;2006年02期
中国重要会议论文全文数据库 前10条
1 张艳宁;郑江滨;赵荣椿;;一种有效的遥感图像识别方法[A];第九届中国体视学与图像分析学术会议论文集[C];2001年
2 石培培;刘红英;;具有单个等式和界约束二次规划的新算法[A];中国运筹学会第八届学术交流会论文集[C];2006年
3 吕哲;常玉清;王福利;;生化过程软测量建模方法的研究[A];2006中国控制与决策学术年会论文集[C];2006年
4 颜根廷;马广富;朱良宽;宋斌;;一种鲁棒支持向量机算法[A];2006中国控制与决策学术年会论文集[C];2006年
5 王小刚;童振;王福利;张清知;;一种支持向量回归模型参数多目标寻优方法[A];2007中国控制与决策学术年会论文集[C];2007年
6 王晶;薛毅;;基于有效集法的改进支持向量机算法[A];2007中国控制与决策学术年会论文集[C];2007年
7 王玲;穆志纯;郭辉;;基于支持向量回归的增量建模方法[A];第25届中国控制会议论文集(上册)[C];2006年
8 沈体雁;夏帆;刘良明;王煌基;;基于MODIS数据的城市范围监测方法及其比较[A];新技术在土地调查中的应用与土地科学技术发展-2005年中国土地学会学术年会论文集[C];2005年
9 刘希玉;徐志敏;段会川;;基于支持向量机的创新分类器[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(一)[C];2005年
10 施俊;郑永平;周康源;严壮志;;骨骼肌的多参量结合研究:SVM的应用研究[A];2005年上海市生物医学工程学会学术年会论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 陆阳;二进神经网络规则提取方法研究[D];合肥工业大学;2002年
2 叶俊勇;人脸检测与识别方法研究[D];重庆大学;2002年
3 马笑潇;智能故障诊断中的机器学习新理论及其应用研究[D];重庆大学;2002年
4 夏建涛;基于机器学习的高维多光谱数据分类[D];西北工业大学;2002年
5 王亮申;图像特征提取及基于内容图像数据库检索理论和方法研究[D];大连理工大学;2002年
6 张燕平;基于商空间的构造性数据挖掘方法及应用[D];安徽大学;2003年
7 范昕炜;支持向量机算法的研究及其应用[D];浙江大学;2003年
8 吴涛;核函数的性质、方法及其在障碍检测中的应用[D];中国人民解放军国防科学技术大学;2003年
9 庾农;基于形态学理论的目标检测技术[D];中国人民解放军国防科学技术大学;2000年
10 张莉;支撑矢量机与核方法研究[D];西安电子科技大学;2002年
中国硕士学位论文全文数据库 前10条
1 纪华;支持向量机的改进及其在岩土工程反分析中的应用[D];宁夏大学;2005年
2 姜绍君;与文本有关的说话人识别方法的研究[D];大连理工大学;2001年
3 忻栋;支持向量机算法的研究及在说话人识别上的应用[D];浙江大学;2002年
4 刘学军;键盘用户身份验真与加权主分量分类器[D];南京航空航天大学;2002年
5 冯洪海;基于粗糙集和支持向量机的多值分类算法[D];河北农业大学;2002年
6 姬水旺;强噪声和类间重叠数据下支持向量机学习的研究[D];武汉科技大学;2002年
7 李春光;自适应信号处理的神经网络方法[D];电子科技大学;2002年
8 阚忠良;数字图书馆中基于结构和内容的文本信息检索技术的研究[D];黑龙江大学;2002年
9 刘占平;并行数字图书馆系统中人机交互系统的设计与实现[D];黑龙江大学;2002年
10 顾先睿;并行数字图书馆系统中数据的分布、加载和维护[D];黑龙江大学;2002年
【二级参考文献】
中国期刊全文数据库 前10条
1 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
2 董春曦,杨绍全,饶鲜,汤建龙;支持向量机推广能力估计方法比较[J];电路与系统学报;2004年04期
3 焦李成,张莉,周伟达;支撑矢量预选取的中心距离比值法[J];电子学报;2001年03期
4 林鸿飞,战学刚,姚天顺;基于概念的文本结构分析方法[J];计算机研究与发展;2000年03期
5 刘向东,陈兆乾;一种快速支持向量机分类算法的研究[J];计算机研究与发展;2004年08期
6 李荣陆,王建会,陈晓云,陶晓鹏,胡运发;使用最大熵模型进行中文文本分类[J];计算机研究与发展;2005年01期
7 都云琪,肖诗斌;基于支持向量机的中文文本自动分类研究[J];计算机工程;2002年11期
8 李晓黎,刘继敏,史忠植;基于支持向量机与无监督聚类相结合的中文网页分类器[J];计算机学报;2001年01期
9 张铃;支持向量机理论与基于规划的神经网络学习算法[J];计算机学报;2001年02期
10 张莉,周伟达,焦李成;核聚类算法[J];计算机学报;2002年06期
【相似文献】
中国期刊全文数据库 前10条
1 张小艳;宋丽平;;论文本分类中特征选择方法[J];现代情报;2009年03期
2 蒲筱哥;;Web自动文本分类技术研究综述[J];情报学报;2009年02期
3 王锦;王会珍;张俐;;基于维基百科类别的文本特征表示[J];中文信息学报;2011年02期
4 王煜;;机器学习技术在文本分析中的应用[J];华南金融电脑;2007年05期
5 高秀梅;陈芳;宋枫溪;金忠;;特征权对贝叶斯分类器文本分类性能的影响[J];计算机应用;2008年12期
6 刘海峰;王元元;姚泽清;王倩;;一种基于特征聚类的文本分类模型研究[J];情报学报;2008年02期
7 宋枫溪,郑如冰,王积忠;自动文本分类中两种文本表示方式的比较[J];计算机工程;2004年18期
8 奉国和;;自动文本分类技术研究[J];情报杂志;2007年12期
9 王海涌,郑丽英,刘丽艳;基于文本表示的特征项权值确定方法研究[J];甘肃科学学报;2005年03期
10 张华;;文本分类技术[J];电脑知识与技术;2009年24期
中国重要会议论文全文数据库 前10条
1 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
3 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
4 刘秉权;李博;孙林;王宝勋;刘远超;;标签特征和正文特征融合的SVM博客文本分类算法研究[A];第六届全国信息检索学术会议论文集[C];2010年
5 刘功申;李建华;李生红;;基于类信息的特征选择和加权方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
6 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
7 商炳章;白清源;;基于特征项权重改进的关联文本分类[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
8 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
9 黄云平;孙乐;李文波;;基于上下文图模型文本表示的文本分类研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
10 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国重要报纸全文数据库 前10条
1 上渊;新一代网络技术IPv9走向商用[N];中国高新技术产业导报;2004年
2 王萍;Web文本的知识化管理[N];计算机世界;2006年
3 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
4 高利华;传承陆游风骨 推进国际交流[N];人民日报海外版;2005年
5 记者 朱蓓宁实习生 施蜜;带合同示范文本放心出境游[N];南通日报;2007年
6 金炜周太友 见习记者 黄粒粟;“十七大报告说到我们心坎上了”[N];中华工商时报;2007年
7 林木树;反垃圾邮件有待新突破[N];人民邮电;2004年
8 希安;微软试水信息检索[N];经济日报;2004年
9 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
10 ;BI和文本分析的强强联手[N];网络世界;2007年
中国博士学位论文全文数据库 前10条
1 杨杰明;文本分类中文本表示模型和特征选择算法研究[D];吉林大学;2013年
2 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
3 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
4 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
5 单建芳;面向事件的文本表示研究[D];上海大学;2012年
6 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
7 刘伍颖;面向垃圾信息过滤的主动多域学习文本分类方法研究[D];国防科学技术大学;2011年
8 王博;文本分类中特征选择技术的研究[D];国防科学技术大学;2009年
9 冯国忠;文本分类中的贝叶斯特征选择[D];东北师范大学;2011年
10 平源;基于支持向量机的聚类及文本分类研究[D];北京邮电大学;2012年
中国硕士学位论文全文数据库 前10条
1 张桂喜;基于语义的领域相关文本分类研究[D];北京工业大学;2011年
2 张彪;文本分类中特征选择算法的分析与研究[D];中国科学技术大学;2010年
3 张保富;基于粗糙集的中文文本分类算法研究及应用[D];江苏大学;2010年
4 蒋健;文本分类中特征提取和特征加权方法研究[D];重庆大学;2010年
5 闫晨;KNN文本分类研究[D];燕山大学;2010年
6 苏小康;基于维基百科构建语义知识库及其在文本分类领域的应用研究[D];华中师范大学;2010年
7 李璇;基于坐标下降法的半监督学习算法及其在文本分类中的应用[D];华南理工大学;2010年
8 宋志理;基于LDA模型的文本分类研究[D];西安理工大学;2010年
9 郭志毅;基于EM算法的半监督文本分类方法研究[D];重庆邮电大学;2010年
10 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026