收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

面向信息检索的文本信息组织关键技术研究

刘健  
【摘要】: 信息检索系统是人们获取信息必不可少的工具,但是随着互联网的日益发展,信息资源呈现出了爆炸式增长的趋势,对信息检索系统带来了巨大的挑战。如何高效地组织、处理和管理这些信息,并快速、准确、全面地从中获得用户所需要的信息,是亟待解决的问题。多项研究表明,合理的信息组织是解决这一系列问题的关键环节。 本文致力于综合运用文本分类/聚类技术、文本索引技术提高文本信息组织的性能与自动化程度,实现海量数据条件下的文本信息组织系统。目前,这些关键技术和方法在实际应用中还存在着很多不足之处,主要表现在:(1)现有文本聚类算法研究集中在如何提高算法的准确率与效率,忽视了聚类算法的有效性,如参数难以确定,算法仅对特定的数据分布有效等,导致算法难以满足文本主题挖掘的需求;(2)文本分类需要利用大量的有标记样本进行训练,而有标记样本在实际应用中又难以获取,这使得分类器的泛化能力较低,分类精度不能满足文本自动归类的要求;(3)文本采用向量空间模型表示使得文本向量高维且稀疏,严重影响了文本分类的效率与精度;(4)现有的索引模型都是针对西方语言设计,而中文与西方语言之间存在着较大的差异,这些索引模型都无法对中文文本建立理想的索引。 本文针对这些问题,采用理论分析、实验研究等手段,重点研究了这些关键技术中的算法与模型,并提出了相应的解决方法,取得的主要研究成果如下: (1)针对文本集主题结构挖掘中聚类算法的有效性问题,提出了一种基于动态阈值选择模型的无参数局部密度聚类算法DTSLD。该算法首先在小波去噪中分层滤波思想的启发下,建立了分层阈值选取的动态阈值选择模型,对算法参数自动选取;其次,在RDBKNN算法的基础上进行改进,为了避免全局参数对算法的影响,提高参数选择的正确性,不再使用全局统一的近邻参数k,而是利用动态阈值选择模型为每个数据点选择各自合适的近邻,形成更为自然的邻域;相对密度阈值参数δ的选择也利用动态阈值选择模型进行选取,但采取不同的策略执行;最后,在文档集主题挖掘应用中,利用多项式核函数改进了文档相似度计算方法,使之更加适合于高维文本数据的聚类应用。相关实验表明,该算法易于使用,并且对各种云状、流形数据分布都具备很好的适应能力,能够充分满足文本集主题结构挖掘提出的有效性要求。 (2)针对文本分类技术在自动文档归类应用中面临的小样本问题,提出了基于半监督学习与数据剪辑的直推式文本分类算法――Tri-ed-training-Tsvm。该算法的设计思路是将半监督学习算法与TSVM算法相结合,在初始训练样本不足时利用半监督学习算法对未标记样本的学习能力,逐步扩大训练集规模。再利用扩大后的训练集对TSVM进行训练,得到一个相对准确的分类面,从而屏蔽TSVM算法中的参数N,避免人为设置的困难与误差;然后利用TSVM算法中最大化两类样本间隔的方法,成对交换边界样本标记的以获得最佳的分类精度。此外,由于初始训练集规模较小时,半监督学习算法在扩大训练集的过程中势必会引入大量误标记和噪声数据,为弥补这一负面影响,本文引入了基于最近邻一致性约束规则的数据剪辑(data editing)技术对学习过程进行误标记样本修正、噪声数据剔除等净化操作,以提高扩大后的训练集质量。 (3)针对文本数据采用向量空间模型表示,文本向量高维稀疏导致文本分类性能降低的问题,对文本降维技术中的特征选择方法进行了研究。首先在Fisher线性判别模型的基础上,从特征选择的角度出发,经理论推导与相关定理证明,提出了一种稳定性高、特征选择能力强的FS特征选择算法。其次,通过对互信息方法的实验与理论分析,对其进行了改进,摒弃了原算法中以特征项对某个类别最高的贡献度作为最终评估值的方法,利用特征对各个类别之间贡献度的差异作为评估标准,从而使其特征选择能力得到了极大提升。最后通过相关实验,分析验证了相关算法在文档降维中的准确率与时间效率,并且证明了yang等人关于特征选择的经典论文中提出的特征文档频数与分类能力存在相关性的结论存在错误。 (4)针对现有索引模型无法建立高效中文文本索引的问题,首次提出了一种符合中文语言特点的字词混合一体化索引模型。该模型以互关联后继树索引模型为基础,利用其保存字符先后关系的特点,通过对叶节点结构的扩展,增加了词汇索引信息,实现了中文字、词一体化混合索引;同时,针对互关联后继树索引模型检索效率较低的缺陷,通过对原模型中后继树层次的扩展,将“根节点-叶节点”结构扩展为“根节点-分支节点-叶节点”结构,克服了原模型仅能顺序查找无法使用快速定位技术的缺点,极大提高了检索速度。实验表明,本文提出的一体化混合索引模型成功结合了字、词索引模型的优点,具有创建速度快、查询效率高的特点。与基于字的索引模型相比,检索速度及查准率有较大提高;与基于词的索引模型相比,在查全率方面有明显进步。 (5)综合运用本文提出的关键技术,基于流程化、组件化、层次化的先进设计理念,实现了一个面向信息检索的文本信息组织平台,并且该平台已在多项科研任务与工程实践中得到了应用。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 张欣欣,薛冰冰;基于数据挖掘技术的BBS的安全管理[J];洛阳工业高等专科学校学报;2003年04期
2 张婧;李珏峰;;数据挖掘技术在BBS管理中的应用[J];福建电脑;2008年04期
3 大鱼儿;;自动扩展大小的TEdit[J];软件;2001年07期
4 赵春红;刘国华;王柠;何玲玲;;外包数据库模型中文本数据的完整性检测方案[J];小型微型计算机系统;2010年09期
5 仲志平;刘渝妍;翟从鸿;;基于BWC的XML文本数据索引技术[J];安徽师范大学学报(自然科学版);2011年03期
6 仲志平;刘渝妍;孙建洪;;基于BWC的XML文本数据索引技术研究[J];昆明学院学报;2011年03期
7 杜德生;田小军;;Lucene应用中Pdf文档文本数据提取方法研究[J];自动化技术与应用;2009年03期
8 王成强;;基于不平衡数据集的文本分类技术[J];电脑知识与技术;2009年36期
9 孙开放;使用通信控件实现字节通信方式[J];微计算机信息;2002年03期
10 薛冰冰,普杰信;数据挖掘技术及其在电子邮件中的应用[J];信息技术;2003年07期
11 崔时珍;;纯文本数据在VFP中导入导出[J];电脑学习;2009年01期
12 王东兴,冷惠文;大量编程用文本数据的统一处理[J];鞍山钢铁学院学报;1997年06期
13 李文龙;保护文本数据案例的巧妙方法[J];计算机安全;2003年04期
14 ;保护文本数据安全的巧妙方法[J];电脑知识与技术;2003年13期
15 李文龙;保护文本数据安全的巧妙方法[J];网络与信息;2003年04期
16 于得海;王银;;巧借表格向Excel中导入文本数据[J];电脑迷;2006年09期
17 金凤霞;找回损坏磁盘中的文本数据[J];计算机周刊;1997年22期
18 周芝梅,陈志刚,李明山,何小巧;基于数据库的设计资料管理系统[J];南华大学学报(理工版);2001年02期
19 易树鸿;张为群;;一种基于粗集的文本数据特征信息的挖掘方法[J];计算机科学;2002年08期
20 李玉兰,黄海涛;房产图文数据管理技术[J];电脑学习;1996年02期
中国重要会议论文全文数据库 前10条
1 陈光强;杨树强;张晓辉;李润恒;贾焰;;面向海量文本数据的多任务并行调度加载技术研究与实现[A];第15届全国信息存储技术学术会议论文集[C];2008年
2 丁兆云;贾焰;周斌;;基于文本数据的多维层次式舆情计算模型的研究与实现[A];第二十五届中国数据库学术会议论文集(一)[C];2008年
3 蒋勇;陈晓静;;一种多方向手写文本行提取方法[A];第二十七届中国控制会议论文集[C];2008年
4 蔡嘉荣;印鉴;刘玉葆;黄志兰;;一种有效的文本聚类算法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
5 杨艳;李巍;玄萍;;数字图书馆中基于Ontology的文本模型[A];黑龙江省计算机学会2009年学术交流年会论文集[C];2010年
6 彭泽映;俞晓明;许洪波;;大规模短文本的不完全聚类[A];第六届全国信息检索学术会议论文集[C];2010年
7 李虎;邹鹏;贾焰;周斌;;一种基于Map Reduce的分布式文本数据过滤模型研究[A];第26次全国计算机安全学术交流会论文集[C];2011年
8 苏变萍;侯筱婷;;文本数据的非线性降维方法研究[A];2007年全国开放式分布与并行计算机学术会议论文集(下册)[C];2007年
9 张小琴;蒋秀凤;;基于句子级的领域倾向词表构建[A];第五届全国青年计算语言学研讨会论文集[C];2010年
10 张丹;王静;;水利系统档案馆信息化管理[A];第十届中国科协年会文化强省战略与科技支撑论坛文集[C];2008年
中国博士学位论文全文数据库 前10条
1 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
2 杜伟夫;文本倾向性分析中的情感词典构建技术研究[D];哈尔滨工业大学;2010年
3 刘春辰;基于本体的企业搜索优化技术研究[D];吉林大学;2012年
4 朱岩;面向文本数据的半监督学习研究[D];北京交通大学;2012年
5 崔安颀;微博热点事件的公众情感分析研究[D];清华大学;2013年
6 王秀红;文本相似度计算核函数的构造及其在分布式信息检索中的应用研究[D];江苏大学;2012年
7 卢敏;具有自然分组特性文本的分类研究[D];南开大学;2013年
8 李芳;文本挖掘若干关键技术研究[D];北京化工大学;2010年
9 布凡;文本信息度量研究[D];清华大学;2013年
10 邓莎莎;支持决策研讨的文本分析方法研究[D];上海交通大学;2013年
中国硕士学位论文全文数据库 前10条
1 朱敏;基于丰心工学的情感信息可视化与充实度分析[D];北京邮电大学;2011年
2 徐淑坦;基于改进RBF神经网络的文本情感分类研究[D];吉林大学;2011年
3 曹亚辉;非结构文本最佳近似匹配系统的研究与实现[D];东华大学;2011年
4 李正林;中文文本数据分类研究[D];上海师范大学;2004年
5 罗晖霞;网络舆情监测系统研究与开发[D];中北大学;2010年
6 陈鸿;Web网页的时态文本索引研究[D];中国科学技术大学;2011年
7 暴自强;结合LSA的文本谱聚类算法研究[D];重庆大学;2010年
8 黄文江;中文文本聚类算法分析与研究[D];上海交通大学;2010年
9 马桂香;评论文本的多方面观点挖掘研究[D];北京交通大学;2013年
10 文星;基于位置感知的Web文本搜索技术研究[D];大连海事大学;2011年
中国重要报纸全文数据库 前10条
1 曾华燊;化繁为简: 提升NGI服务质量[N];计算机世界;2006年
2 实习生 赵静记者 黄雪英;自贡馆藏文物数据库系统建立[N];自贡日报;2008年
3 Jim Goodnight;BI:演进中勾勒未来[N];网络世界;2007年
4 张耀南 杨海 韦五周 景通桥 张军强;寒区旱区数据管理平台[N];计算机世界;2006年
5 王;汇总通话、加速Web显示[N];中国计算机报;2001年
6 本报记者 谢斌鑫;视频的短板[N];中国计算机报;2004年
7 苏和;电子检务该如何推行[N];检察日报;2007年
8 ;BI的新方向[N];网络世界;2007年
9 金翔 王钰;全国文物普查通过验收[N];广元日报;2010年
10 杨前有;柞水建成土地利用现状数据库[N];商洛日报;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978