收藏本站
《国防科学技术大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

面向信息检索的文本信息组织关键技术研究

刘健  
【摘要】: 信息检索系统是人们获取信息必不可少的工具,但是随着互联网的日益发展,信息资源呈现出了爆炸式增长的趋势,对信息检索系统带来了巨大的挑战。如何高效地组织、处理和管理这些信息,并快速、准确、全面地从中获得用户所需要的信息,是亟待解决的问题。多项研究表明,合理的信息组织是解决这一系列问题的关键环节。 本文致力于综合运用文本分类/聚类技术、文本索引技术提高文本信息组织的性能与自动化程度,实现海量数据条件下的文本信息组织系统。目前,这些关键技术和方法在实际应用中还存在着很多不足之处,主要表现在:(1)现有文本聚类算法研究集中在如何提高算法的准确率与效率,忽视了聚类算法的有效性,如参数难以确定,算法仅对特定的数据分布有效等,导致算法难以满足文本主题挖掘的需求;(2)文本分类需要利用大量的有标记样本进行训练,而有标记样本在实际应用中又难以获取,这使得分类器的泛化能力较低,分类精度不能满足文本自动归类的要求;(3)文本采用向量空间模型表示使得文本向量高维且稀疏,严重影响了文本分类的效率与精度;(4)现有的索引模型都是针对西方语言设计,而中文与西方语言之间存在着较大的差异,这些索引模型都无法对中文文本建立理想的索引。 本文针对这些问题,采用理论分析、实验研究等手段,重点研究了这些关键技术中的算法与模型,并提出了相应的解决方法,取得的主要研究成果如下: (1)针对文本集主题结构挖掘中聚类算法的有效性问题,提出了一种基于动态阈值选择模型的无参数局部密度聚类算法DTSLD。该算法首先在小波去噪中分层滤波思想的启发下,建立了分层阈值选取的动态阈值选择模型,对算法参数自动选取;其次,在RDBKNN算法的基础上进行改进,为了避免全局参数对算法的影响,提高参数选择的正确性,不再使用全局统一的近邻参数k,而是利用动态阈值选择模型为每个数据点选择各自合适的近邻,形成更为自然的邻域;相对密度阈值参数δ的选择也利用动态阈值选择模型进行选取,但采取不同的策略执行;最后,在文档集主题挖掘应用中,利用多项式核函数改进了文档相似度计算方法,使之更加适合于高维文本数据的聚类应用。相关实验表明,该算法易于使用,并且对各种云状、流形数据分布都具备很好的适应能力,能够充分满足文本集主题结构挖掘提出的有效性要求。 (2)针对文本分类技术在自动文档归类应用中面临的小样本问题,提出了基于半监督学习与数据剪辑的直推式文本分类算法――Tri-ed-training-Tsvm。该算法的设计思路是将半监督学习算法与TSVM算法相结合,在初始训练样本不足时利用半监督学习算法对未标记样本的学习能力,逐步扩大训练集规模。再利用扩大后的训练集对TSVM进行训练,得到一个相对准确的分类面,从而屏蔽TSVM算法中的参数N,避免人为设置的困难与误差;然后利用TSVM算法中最大化两类样本间隔的方法,成对交换边界样本标记的以获得最佳的分类精度。此外,由于初始训练集规模较小时,半监督学习算法在扩大训练集的过程中势必会引入大量误标记和噪声数据,为弥补这一负面影响,本文引入了基于最近邻一致性约束规则的数据剪辑(data editing)技术对学习过程进行误标记样本修正、噪声数据剔除等净化操作,以提高扩大后的训练集质量。 (3)针对文本数据采用向量空间模型表示,文本向量高维稀疏导致文本分类性能降低的问题,对文本降维技术中的特征选择方法进行了研究。首先在Fisher线性判别模型的基础上,从特征选择的角度出发,经理论推导与相关定理证明,提出了一种稳定性高、特征选择能力强的FS特征选择算法。其次,通过对互信息方法的实验与理论分析,对其进行了改进,摒弃了原算法中以特征项对某个类别最高的贡献度作为最终评估值的方法,利用特征对各个类别之间贡献度的差异作为评估标准,从而使其特征选择能力得到了极大提升。最后通过相关实验,分析验证了相关算法在文档降维中的准确率与时间效率,并且证明了yang等人关于特征选择的经典论文中提出的特征文档频数与分类能力存在相关性的结论存在错误。 (4)针对现有索引模型无法建立高效中文文本索引的问题,首次提出了一种符合中文语言特点的字词混合一体化索引模型。该模型以互关联后继树索引模型为基础,利用其保存字符先后关系的特点,通过对叶节点结构的扩展,增加了词汇索引信息,实现了中文字、词一体化混合索引;同时,针对互关联后继树索引模型检索效率较低的缺陷,通过对原模型中后继树层次的扩展,将“根节点-叶节点”结构扩展为“根节点-分支节点-叶节点”结构,克服了原模型仅能顺序查找无法使用快速定位技术的缺点,极大提高了检索速度。实验表明,本文提出的一体化混合索引模型成功结合了字、词索引模型的优点,具有创建速度快、查询效率高的特点。与基于字的索引模型相比,检索速度及查准率有较大提高;与基于词的索引模型相比,在查全率方面有明显进步。 (5)综合运用本文提出的关键技术,基于流程化、组件化、层次化的先进设计理念,实现了一个面向信息检索的文本信息组织平台,并且该平台已在多项科研任务与工程实践中得到了应用。
【学位授予单位】:国防科学技术大学
【学位级别】:博士
【学位授予年份】:2009
【分类号】:TP391.3

手机知网App
【参考文献】
中国期刊全文数据库 前10条
1 蔡颖琨,谢昆青,马修军;屏蔽了输入参数敏感性的DBSCAN改进算法[J];北京大学学报(自然科学版);2004年03期
2 吴志峰,田学东;人名、机构名在基于概念的文本分类中的应用研究[J];河北大学学报(自然科学版);2004年06期
3 尚文倩;黄厚宽;刘玉玲;林永民;瞿有利;董红斌;;文本分类中基于基尼指数的特征选择算法研究[J];计算机研究与发展;2006年10期
4 张猛,王大玲,于戈;一种基于自动阈值发现的文本聚类方法[J];计算机研究与发展;2004年10期
5 李荣陆,王建会,陈晓云,陶晓鹏,胡运发;使用最大熵模型进行中文文本分类[J];计算机研究与发展;2005年01期
6 彭波;搜索引擎的混合索引技术[J];计算机工程与应用;2004年22期
7 行小帅,潘进,焦李成;基于免疫规划的K-means聚类算法[J];计算机学报;2003年05期
8 李江波;周强;陈祖舜;;汉语词典的快速查询算法研究[J];中文信息学报;2006年05期
9 黄永光;刘挺;车万翔;胡晓光;;面向变异短文本的快速聚类算法[J];中文信息学报;2007年02期
10 苏金树;张博锋;徐昕;;基于机器学习的文本分类技术研究进展[J];软件学报;2006年09期
中国博士学位论文全文数据库 前2条
1 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
2 王永恒;海量短语信息挖掘技术的研究与实现[D];国防科学技术大学;2006年
【共引文献】
中国期刊全文数据库 前10条
1 蔡颖琨,谢昆青,马修军;屏蔽了输入参数敏感性的DBSCAN改进算法[J];北京大学学报(自然科学版);2004年03期
2 王素格;彭其伟;张武;;基于遗传算法的自然语言参数阈值优化方法[J];测试技术学报;2006年01期
3 宇缨;;支持向量机及其在自然语言处理中的应用[J];东莞理工学院学报;2007年01期
4 行小帅,焦李成;数据挖掘的聚类方法[J];电路与系统学报;2003年01期
5 谷波,张永奎;文本聚类算法的分析与比较[J];电脑开发与应用;2003年11期
6 钟将,吴中福,吴开贵,欧灵;基于人工免疫网络的动态聚类算法[J];电子学报;2004年08期
7 王炜;林命週;马钦忠;赵利飞;;数据挖掘及其在地震预报中的应用前景[J];国际地震动态;2005年12期
8 李菁菁,邵培基,黄亦潇;数据挖掘在中国的现状和发展研究[J];管理工程学报;2004年03期
9 索红光;杨涛;;基于互信息的Web文档聚类方法[J];广西师范大学学报(自然科学版);2007年02期
10 史会峰,卢艳霞;基于多项式分布模型的Web文本分类[J];华北电力大学学报;2003年06期
中国重要会议论文全文数据库 前10条
1 刘希玉;徐志敏;段会川;;基于支持向量机的创新分类器[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(一)[C];2005年
2 朵春红;王翠茹;;基于取样的DBSCAN聚类算法及其遗传优化[A];第一届中国高校通信类院系学术研讨会论文集[C];2007年
3 陈庆轩;郑德权;赵铁军;;多分类器融合的文本分类技术研究[A];2008'中国信息技术与应用学术论坛论文集(二)[C];2008年
4 庞洋;李海林;郭义喜;;基于DBSCAN算法的日志信息聚类研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
5 向继;荆继武;高能;;一种自动搜索阈值的中文文本层次聚类方法[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
6 吴晶晶;荆继武;王平建;;一种基于词典的新型中文分词机制[A];全国网络与信息安全技术研讨会论文集(上册)[C];2007年
7 穆飞;李维佳;薛巍;舒继武;;一种分布式信息检索系统的设计与实现[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
8 黄文良;李石坚;刘菊新;徐从富;;大规模垃圾短信实时过滤系统的设计与实现[A];中国通信学会第五届学术年会论文集[C];2008年
9 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
10 石志伟;吴功宜;;改善朴素贝叶斯在文本分类中的稳定性[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
中国博士学位论文全文数据库 前10条
1 王占全;基于地理信息系统空间数据挖掘若干关键技术的研究[D];浙江大学;2005年
2 陈伟;数据清理关键技术及其软件平台的研究与应用[D];南京航空航天大学;2005年
3 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
4 刘广利;基于支持向量机的经济预警方法研究[D];中国农业大学;2003年
5 朱宏;异常观测数据处理及不确定大系统的鲁棒镇定[D];四川大学;2003年
6 曾海泉;时间序列挖掘与相似性查找技术研究[D];复旦大学;2003年
7 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
8 叶航军;面向大规模图像库的索引和检索机制研究[D];清华大学;2003年
9 王莉;数据挖掘中聚类方法的研究[D];天津大学;2004年
10 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
中国硕士学位论文全文数据库 前10条
1 邵锐;粗集在遥感影像聚类处理中的应用[D];武汉大学;2005年
2 宋彦坡;数据挖掘技术及其在铜转炉吹炼过程优化中的应用[D];中南大学;2005年
3 宋懿;电视节目的个性化搜索研究[D];上海交通大学;2008年
4 王珏;移动数据库中动态数据广播策略的研究[D];天津工业大学;2008年
5 尹松;高属性维稀疏数据动态抽象聚类方法研究[D];广西大学;2005年
6 胡卓颖;专题型网页搜集器关键算法的研究及实现[D];江西师范大学;2005年
7 王文利;基于数据挖掘的金融时间序列的小波理论应用[D];天津工业大学;2005年
8 苏珊;面向入侵检测的聚类算法研究[D];华中科技大学;2004年
9 郑洪英;数据挖掘聚类算法的分析和应用研究[D];重庆大学;2002年
10 孙丽华;中文文本自动分类的研究[D];哈尔滨工程大学;2002年
【同被引文献】
中国期刊全文数据库 前10条
1 王继成,萧嵘,孙正兴,张福炎;Web信息检索研究进展[J];计算机研究与发展;2001年02期
2 刘涛,吴功宜,陈正;一种高效的用于文本聚类的无监督特征选择算法[J];计算机研究与发展;2005年03期
3 罗智勇;宋柔;;现代汉语通用分词系统中歧义切分的实用技术[J];计算机研究与发展;2006年06期
4 杨俊柯;杨贯中;杨建学;;基于语义模型的信息检索机制研究[J];计算机工程;2006年12期
5 梁刚;基于机械分词与统计学的新词识别研究[J];情报理论与实践;2005年05期
6 丁晟春;李岳盟;甘利人;;基于顶层本体的领域本体综合构建方法研究[J];情报理论与实践;2007年02期
7 曹勇刚;曹羽中;金茂忠;刘超;;面向信息检索的自适应中文分词系统[J];软件学报;2006年03期
8 谈大军;以论著对信息检索理论发展的分析——对1963年~2003年信息检索著作的实证研究[J];现代情报;2004年11期
9 杨思洛;搜索引擎的排序技术研究[J];现代图书情报技术;2005年01期
10 孙铁利,杨凤芹;根据用户隐式反馈建立和更新用户兴趣模型[J];东北师大学报(自然科学版);2003年03期
中国博士学位论文全文数据库 前2条
1 张华平;语言浅层分析与句子级新信息检测研究[D];中国科学院研究生院(计算技术研究所);2005年
2 尹世群;Web文本分类关键技术研究[D];西南大学;2008年
中国硕士学位论文全文数据库 前6条
1 翟凤文;统计与字典相结合的中文分词[D];吉林大学;2005年
2 崔昇;基于网络的信息服务系统的设计与实现[D];山东大学;2006年
3 贾丽洁;基于最大熵模型的分词技术研究[D];山东师范大学;2007年
4 王卫玲;web文本分类中特征向量优化技术研究[D];山东师范大学;2007年
5 张亚平;基于粗糙集和神经网络的数据分类技术研究[D];大连理工大学;2008年
6 张龙;基于粗糙集和神经网络的中文文本分类研究与实现[D];西北大学;2008年
【二级参考文献】
中国期刊全文数据库 前10条
1 王秀坤,李政,简幼良,刘剑;基于Hash方法的机器翻译词典的组织与构造[J];大连理工大学学报;1996年03期
2 余旭;邓跃进;胡圣武;张琦;;基于GML3.1的空间数据共享研究[J];地球信息科学;2006年03期
3 李洁;高新波;焦李成;;基于特征加权的模糊聚类新算法[J];电子学报;2006年01期
4 陆玉昌,鲁明羽,李凡,周立柱;向量空间法中单词权重函数的分析和构造[J];计算机研究与发展;2002年10期
5 杨明,孙志挥,吉根林;快速挖掘全局频繁项目集[J];计算机研究与发展;2003年04期
6 李荣陆,王建会,陈晓云,陶晓鹏,胡运发;使用最大熵模型进行中文文本分类[J];计算机研究与发展;2005年01期
7 尚文倩;黄厚宽;刘玉玲;林永民;瞿有利;董红斌;;文本分类中基于基尼指数的特征选择算法研究[J];计算机研究与发展;2006年10期
8 苏伟峰,李绍滋,李堂秋;一个基于概念的中文文本分类模型[J];计算机工程与应用;2002年06期
9 马科,胡运发;一个改进的互关联后继树数据模型[J];计算机工程;2003年21期
10 王磊,潘进,焦李成;免疫规划[J];计算机学报;2000年08期
中国博士学位论文全文数据库 前3条
1 温磊;基于有向项集图的关联规则挖掘算法研究与应用[D];天津大学;2004年
2 郭秀娟;基于关联规则数据挖掘算法的研究[D];吉林大学;2004年
3 丁国栋;基于统计语言建模的信息检索及相关研究[D];中国科学院研究生院(计算技术研究所);2006年
【相似文献】
中国期刊全文数据库 前10条
1 伍玉伟;何淑娟;;信息构建理论在政府门户网站中的应用[J];现代情报;2006年04期
2 罗龙艳;杜茂康;张仿;王永;;信管专业的信息组织、存储与检索课程改革初探[J];情报探索;2008年01期
3 黄勃;王忠红;;新环境下“编目”课程教学问题的思考[J];图书情报工作;2007年01期
4 狄文凯;;Internet信息资源及其检索探讨[J];江西图书馆学刊;2011年03期
5 曹锦丹,王丽伟,齐艳丽;可视化技术在网络信息检索中的应用[J];情报杂志;2005年08期
6 李枫林;何洲芳;;面向用户潜在信息需求的检索结果组织研究[J];情报理论与实践;2011年05期
7 尹皎;郑军;;Ontology在语义信息检索中的使用[J];农业图书情报学刊;2006年12期
8 邹永利;叶繁;;美国GE Health公司信息检索系统建设的经验及启示[J];图书情报工作;2009年19期
9 李文芝;;数字图书馆信息组织中的知识产权问题刍议[J];科技情报开发与经济;2006年02期
10 付昕;;知识组织研究之聚类分析[J];现代情报;2006年12期
中国重要会议论文全文数据库 前10条
1 倪耀群;许洪波;谭婧霞;唐慧丰;程学旗;孟丹;;基于优化维汉双语词典的多语言信息检索系统[A];第六届全国信息检索学术会议论文集[C];2010年
2 林耀燊;李文捷;黄绵辉;;信息检索系统中的自然语言处理[A];复杂巨系统理论·方法·应用——中国系统工程学会第八届学术年会论文集[C];1994年
3 李洪斌;;组织网上农业信息资源为产学研开展深层次服务[A];图书馆与西部大开发[C];2002年
4 张赪军;黄红梅;王晨熙;李军;;构建智能信息检索系统[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
5 李洪斌;;组织网上农业信息资源 为产学研开展深层次服务[A];图书馆与西部大开发——陕西省图书馆学会第四次科学研讨会论文集[C];2002年
6 王菲菲;;元数据与数字图书馆的信息组织[A];2008年湘粤澳闽图书馆学(协)会学术研讨会福建省论文汇编[C];2008年
7 王菲菲;;元数据在数字图书馆的组织与索引作用[A];中国索引学会第三次全国会员代表大会暨学术论坛论文集[C];2008年
8 薛巍;李维佳;穆飞;舒继武;;PDPI:一种面向多核的可扩展并行索引算法[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
9 辛欣;李涓子;;基于Java语言全文信息检索系统的设计与实现[A];促进企业信息化进程——第十届中国Java技术及应用大会文集[C];2007年
10 孙霏;;新华社多媒体数据库大客户系统的结构设计与功能实现[A];中国新闻技术工作者联合会五届二次理事会暨学术年会论文集(下篇)[C];2010年
中国重要报纸全文数据库 前10条
1 ;整合信息资源 提升服务能力[N];中国计算机报;2005年
2 记者 刘安;“全国档案报刊文献及科技成果信息检索系统”通过鉴定[N];中国档案报;2002年
3 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;寻“宝”有术[N];计算机世界;2003年
4 李忠将;国土资源信息服务体系框架形成[N];中国矿业报;2003年
5 ;非门户网站的信息建设[N];网络世界;2001年
6 栾国鍌;当当进军C2C困难重重[N];国际商报;2006年
7 本报记者  周蕾;Google是一家什么企业[N];网络世界;2006年
8 赵左亮;靠质量塑品牌以服务赢市场[N];中国质量报;2005年
9 本报记者 武天敏包国俊 本报特约记者 郭瑞宏;在浩瀚信息海洋“导航”[N];解放军报;2007年
10 童芬芬;拼客经济“很潮很强大”[N];中华工商时报;2008年
中国博士学位论文全文数据库 前10条
1 刘健;面向信息检索的文本信息组织关键技术研究[D];国防科学技术大学;2009年
2 曲卫民;中文XML信息检索系统的研究[D];中国科学院研究生院(软件研究所);2004年
3 蔡忠亮;多媒体电子地图的信息组织及可视化机制研究[D];武汉大学;2004年
4 张毅波;史文结构化信息检索系统的研究与实现[D];中国科学院研究生院(软件研究所);2001年
5 曹锦丹;多视角信息组织模式研究[D];吉林大学;2006年
6 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
7 孙坦;数字图书馆理论与发展模式研究[D];中国科学院文献情报中心;2000年
8 杨为民;基于场论的信息检索模型的研究[D];安徽大学;2007年
9 刘涛;现代信息检索中的文本分类及图像恢复研究[D];北京邮电大学;2006年
10 熊文新;信息检索Query语言分析[D];北京语言大学;2006年
中国硕士学位论文全文数据库 前10条
1 顾鑫;个性化智能信息检索系统研究[D];哈尔滨工程大学;2004年
2 倪良胜;面向海量实时数据信息检索系统的研究与实现[D];东南大学;2004年
3 赵爽;软件测试在信息检索系统中的应用[D];西安电子科技大学;2008年
4 王宏霞;基于ONTOLOGY的信息检索系统的研究[D];河北工业大学;2005年
5 李勇;关于本体整合的研究及其在供应链管理中的应用[D];天津大学;2005年
6 陈朋;基于网络的集成化信息检索平台研究[D];武汉大学;2005年
7 彭鹏;基于本体的信息检索策略优化研究[D];吉林大学;2007年
8 陈琮;基于Jena的本体检索模型设计与实现[D];武汉大学;2005年
9 王娜;XML在信息检索系统中的应用及评价研究[D];武汉大学;2005年
10 赵鹏;高校数字图书馆网站建设的研究[D];山西大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026