收藏本站
《复旦大学》 2004年
收藏 | 手机打开
二维码
手机客户端打开本文

文档数据库若干关键技术研究

刘永丹  
【摘要】:随着信息时代的到来和Internet的日益普及,文本信息迅速膨胀,使得文档数据库技术成为信息技术领域的一个重要研究方向。文档数据库是一个存储和管理大量结构化文档的数据库系统,它不仅提供对文档的表达、组织、存储和访问功能,还可以对文档进行诸如文本挖掘、自动文摘等深度处理。 在本文中,我们对文档数据库的一些关键技术进行了研究,具体内容包括全文检索技术、结构化文档检索、文本过滤、文本挖掘以及其它相关技术,取得的创新性成果主要体现在以下四个方面: 1) 对一种新型的全文检索模型—互关联后继树进行研究 我们在原来∑~2邻接矩阵模型研究的基础上,发展出来一种新型的数据模型—互关联后继树(IRST),这种模型充分利用了字符序列的有序性和冗余性,适用于海量全文存储和索引。论文分别对IRST的创建、查询和原文生成算法进行研究。IRST保持了∑~2邻接矩阵模型的一些优点,还具有更多的优点:可以生成原文,既是全文的索引模型,又是全文的存储模型;具有极佳的空间效率;具有领域独立性和时间无关性;具有查询的完备性:是一种多功能的数据模型,比如,根据它存储的序列信息的特点,可以用于文本序列挖掘。 2) 从IR角度对XML文档检索进行研究 提出了一种基于结构相似度的XML文档检索模型,在检索的过程中根据XML文档的结构和查询路径计算二者的相似度。还提出了一种简单的查询语言--正则路径集(RPS)。我们还采用这个检索模型建立了一个XML文档检索原型系统,并对检索模型进行了实验比较,验证了这个模型能有效地提高XML文档的结构化检索的性能。 3)基于语义分析的文本过滤方法研究 采用语义分析和统计方法相结合的策略对倾向性文本进行识别。论文提出了倾向性文本过滤的框架和过程,并给出了实验测试结果。还对非法文本中常常包 摘要 含的伪装词的构成规律进行了初步探索。如果不能有效识别这些人为设置的非正 常形式的词语,会给文本特征的选取带来障碍,进而影响文本过滤的准确性。论 文还对面向伪装词的文本特征选取方法进行了研究。 4)基于IRST的文本序列挖掘方法研究 利用仅ST的存储了文本序列的特点,论文采用琅ST作为文本挖掘的工具, 研究了琅ST进行频繁集挖掘的方法,这个方法是一个通用技术,不局限于应用 在文本的挖掘。然后又研究了将IRST用在文本序列挖掘上面,利用了IRsT可 以直接计算文本序列的支持度的特点。由工RST进行序列挖掘具有不生成候选集 的特点,具有非常好的挖掘效率,是一种具有较大潜力的文本挖掘方法。
【学位授予单位】:复旦大学
【学位级别】:博士
【学位授予年份】:2004
【分类号】:TP311.13

【引证文献】
中国期刊全文数据库 前1条
1 吕曹芳;朱岳超;;数据挖掘技术在军事情报挖掘中的应用[J];黑龙江科技信息;2010年02期
中国硕士学位论文全文数据库 前10条
1 杜尔斌;基于改进KNN的文本分类算法的设计与实现[D];上海交通大学;2010年
2 武毅;基于Lucene.Net的全文检索研究与应用[D];国防科学技术大学;2011年
3 赵爽;基于贝叶斯网络的结构化文档检索[D];河北大学;2006年
4 李兴峰;工程数据可视化系统研究[D];武汉理工大学;2007年
5 崔灵珍;Web文本摘要技术的研究与应用[D];武汉理工大学;2007年
6 刘睿;Web突发事件新闻文档的结构化表示方法研究[D];山西大学;2007年
7 肖伟;基于语义的BLOG社区文本倾向性分析[D];上海交通大学;2007年
8 曹勇;中文Web文本分类技术研究[D];厦门大学;2007年
9 蔡喁;互关联后继树全文检索模型的改进及应用研究[D];复旦大学;2009年
10 杨义传;黄页搜索引擎系统扩展技术研究与实现[D];复旦大学;2009年
【参考文献】
中国期刊全文数据库 前2条
1 曾海泉,刘永丹,宋扬,胡运发;基于互关联后继树的多时间序列关联模式挖掘[J];计算机研究与发展;2003年07期
2 刘永丹,曾海泉,李荣陆,胡运发;基于语义分析的倾向性文本过滤[J];通信学报;2004年07期
【共引文献】
中国期刊全文数据库 前10条
1 李新;;基于语义的文本信息安全过滤平台[J];信息化研究;2009年06期
2 马海兵,张成洪,张锦,胡运发;基于IS~±树模型的频繁模式挖掘[J];计算机研究与发展;2005年04期
3 冯娟;冯高峰;;基于内容的作业聚类算法[J];计算机与信息技术;2008年10期
4 骆万文;高飞;周学广;;抗中文主动干扰关键词过滤研究综述[J];吉首大学学报(自然科学版);2011年03期
5 熊静娴;李生红;;面向不良文本信息监控的概念网技术研究[J];计算机工程与应用;2006年03期
6 李凤营;赵连朋;王红雨;;一种基于遗传算法的关联规则改进方法[J];计算机工程与应用;2008年14期
7 孙志军;郑烇;袁婧;刘恒;王嵩;;基于浅层语义分析技术的语义检索[J];计算机科学;2012年06期
8 何凤英;;基于语义理解的中文博文倾向性分析[J];计算机应用;2011年08期
9 程显毅;杨天明;朱倩;蔡月红;;基于语义倾向性的文本过滤研究[J];计算机应用研究;2009年12期
10 马科,胡运发;三元互关联后继树在海量存储和全文检索中的应用[J];计算机应用与软件;2004年05期
中国重要会议论文全文数据库 前3条
1 韦向峰;张全;缪建明;池毓焕;;基于语义块的事件倾向性分析研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 覃张华;王景中;;基于语境框架的倾向性文本过滤算法[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(下)[C];2006年
3 李斌;陈小荷;;汉语褒贬词语的褒贬指向问题初探[A];第四届全国学生计算语言学研讨会会议论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
2 曾海泉;时间序列挖掘与相似性查找技术研究[D];复旦大学;2003年
3 王建会;中文信息处理中若干关键技术的研究[D];复旦大学;2004年
4 王占全;基于地理信息系统空间数据挖掘若干关键技术的研究[D];浙江大学;2005年
5 熊云波;文本信息处理的若干关键技术研究[D];复旦大学;2006年
6 杨传耀;中文信息检索索引模型及相关技术研究[D];复旦大学;2007年
7 胡佳妮;文本挖掘中若干关键问题的研究[D];北京邮电大学;2008年
8 王素格;基于Web的评论文本情感分类问题研究[D];上海大学;2008年
9 范颖捷;XML索引与查询的若干关键技术研究[D];复旦大学;2008年
10 郝秀兰;文本分类技术与应用研究[D];复旦大学;2008年
中国硕士学位论文全文数据库 前10条
1 戴霖;网络舆情信息挖掘关键技术研究与应用[D];浙江工商大学;2011年
2 张玉杰;情感词的倾向性研究[D];北京邮电大学;2011年
3 陈杰;基于Web检索的查询意图分类研究[D];华南理工大学;2011年
4 刘齐;内容审计系统的研究与实现[D];电子科技大学;2011年
5 石振梁;中文新闻情感分类系统的研究与实现[D];北京邮电大学;2011年
6 霍宗凡;基于语义的文本倾向性分析与研究[D];南京邮电大学;2011年
7 巨慧慧;针对网络舆情的情感倾向性研究[D];哈尔滨工业大学;2010年
8 单大甫;基于网络评论的文本倾向性分类技术的研究与实现[D];国防科学技术大学;2010年
9 周志伟;支持语义的视频检索技术研究[D];中国科学技术大学;2011年
10 李少波;支持语义的分布式视频检索系统的设计与实现[D];中国科学技术大学;2011年
【同被引文献】
中国期刊全文数据库 前10条
1 李炜;产品数据管理中的产品结构树的设计方法[J];安庆师范学院学报(自然科学版);2001年03期
2 李文斌,刘椿年,黄佳进;基于数据挖掘的垃圾E-mail过滤方法[J];北京工业大学学报;2003年02期
3 赵文广,李仲学,李翠平;面向工程可视化仿真的VC++,OpenGL与3DS集成技术[J];北京科技大学学报;2001年06期
4 邓芳;XML文档到数据库数据转换研究[J];北京邮电大学学报;2004年01期
5 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
6 王修力;马利平;;文本信息检索的代数模型综述[J];吉林大学学报(信息科学版);2007年05期
7 李巍;孙涛;陈建孝;罗梓恒;李雄飞;;基于加权余弦相似度的XML文档聚类研究[J];吉林大学学报(信息科学版);2010年01期
8 荆洪英;张利;闻邦椿;;基于层次分析法的产品设计质量权重分配[J];东北大学学报(自然科学版);2009年05期
9 孙茂松,邹嘉彦;汉语自动分词研究评述[J];当代语言学;2001年01期
10 刘挺;马金山;;汉语自动句法分析的理论与方法[J];当代语言学;2009年02期
中国博士学位论文全文数据库 前10条
1 李俭川;贝叶斯网络故障诊断与维修决策方法及应用研究[D];中国人民解放军国防科学技术大学;2002年
2 孙大宇;制造业柔性决策支持系统及智能技术应用约束条件研究[D];机械科学研究院;2003年
3 张少中;基于贝叶斯网络的知识发现与决策应用研究[D];大连理工大学;2003年
4 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
5 薛德军;中文文本自动分类中的关键问题研究[D];清华大学;2004年
6 朱建军;层次分析法的若干问题研究及应用[D];东北大学;2005年
7 李荣陆;文本分类及其相关技术研究[D];复旦大学;2005年
8 李晓黎;WEB信息检索与分类中的数据采掘研究[D];中国科学院研究生院(计算技术研究所);2001年
9 王煜;基于决策树和K最近邻算法的文本分类研究[D];天津大学;2006年
10 尹世群;Web文本分类关键技术研究[D];西南大学;2008年
中国硕士学位论文全文数据库 前10条
1 席敏;基于单汉字索引的全文检索系统的研究与实现[D];西安电子科技大学;2010年
2 孙良;一种分布式智能信息检索系统的研究与实现[D];浙江大学;2002年
3 钱小军;Web文本挖掘技术研究及其实现[D];浙江大学;2002年
4 孙丽华;中文文本自动分类的研究[D];哈尔滨工程大学;2002年
5 刘胜;面向中小企业的PDM的研究与开发[D];辽宁工程技术大学;2002年
6 苏伟峰;基于概念的文本自动分类研究[D];厦门大学;2002年
7 罗强;基于粗糙集理论的知识发现在web文本挖掘上的应用研究[D];广西大学;2003年
8 胡蓉;中文Web文档倾向性自动分类研究[D];四川大学;2003年
9 胡彩平;贝叶斯网络及其在范例推理中的应用研究[D];安徽大学;2004年
10 王国琴;基于语义检索的概念空间研究[D];南京理工大学;2004年
【二级引证文献】
中国期刊全文数据库 前5条
1 廖祥文;张小琴;;基于句型结构的领域倾向词表构建[J];福州大学学报(自然科学版);2011年04期
2 杜文洁;;用于化学文摘生成的压缩算法[J];计算机与应用化学;2010年02期
3 郭年琴;曹建坤;;基于Lucene.net的有色冶金信息化服务平台文献检索系统的研究与实现[J];江西理工大学学报;2013年01期
4 张永奎;张晴;王磊;;面向信息处理的突发事件新闻语料库建设与应用研究[J];山西大学学报(自然科学版);2009年04期
5 茅剑;刘晋明;曹勇;;一种基于密度的改进KNN文本分类算法[J];漳州师范学院学报(自然科学版);2012年02期
中国重要会议论文全文数据库 前1条
1 张小琴;蒋秀凤;;基于句子级的领域倾向词表构建[A];第五届全国青年计算语言学研讨会论文集[C];2010年
中国硕士学位论文全文数据库 前10条
1 付红艳;Web多文档自动文摘研究[D];哈尔滨工程大学;2010年
2 孙海虹;基于模糊粗糙集的Web文本分类研究[D];哈尔滨理工大学;2010年
3 张宁;基于语义的中文文本预处理研究[D];西安电子科技大学;2011年
4 张博;基于SVM的中文观点句抽取[D];北京邮电大学;2011年
5 巨慧慧;针对网络舆情的情感倾向性研究[D];哈尔滨工业大学;2010年
6 单大甫;基于网络评论的文本倾向性分类技术的研究与实现[D];国防科学技术大学;2010年
7 翟娜;面向图书评论的观点分析研究[D];河北大学;2011年
8 田晋坤;基于本体术语关系的SBN检索模型扩展[D];河北大学;2011年
9 张长帅;基于图的半监督学习及其应用研究[D];南京航空航天大学;2011年
10 宋江;文本分类的特征选择方法研究[D];南京航空航天大学;2010年
【相似文献】
中国期刊全文数据库 前10条
1 李广慧,王大亮,鞠林;基于有序聚类的文本结构分析方法[J];太原科技大学学报;2005年03期
2 宋东光;;MEDLINE摘要本地下载与更新及癌基因表达数据的文本挖掘(英文)[J];生物信息学;2010年03期
3 刘永丹,曾海泉,李荣陆,胡运发;基于语义分析的倾向性文本过滤[J];通信学报;2004年07期
4 王卫玲;赵秀丽;张燕红;王凤芹;;文本过滤中的特征选择[J];微计算机信息;2010年21期
5 林鸿飞;基于混合模式的文本过滤模型[J];计算机研究与发展;2001年09期
6 江宝林,刘永丹,金峰,葛家翔,胡运发;一个基于语义分析的倾向性文档过滤系统[J];计算机应用与软件;2005年01期
7 ;浅析大规模文本数据挖掘技术在媒体中的创新应用[J];中国传媒科技;2007年11期
8 赵慧勤;基于因特网的信息检索特点与发展趋势[J];情报理论与实践;2000年05期
9 崔志明,谢春丽;基于Web的文本挖掘研究[J];微电子学与计算机;2002年10期
10 胥桂仙,朴泰雄,杨丹丹,徐小博,高旭;中文文本挖掘中最长频繁序列的发现算法[J];中央民族大学学报(自然科学版);2004年01期
中国重要会议论文全文数据库 前10条
1 王继成;孙颖;张福炎;;文本挖掘-数据挖掘研究的新课题[A];第十六届全国数据库学术会议论文集[C];1999年
2 赵林;夏迎炬;黄萱菁;吴立德;;基于Winnow算法的文本过滤[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
3 蒋子海;周斌;吴泉源;;基于UIMA AS的文本挖掘系统的性能分析与评估[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
4 黄萱菁;夏迎炬;吴立德;;基于向量空间模型的文本过滤系统[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
5 李振星;徐泽平;;基于兴趣模型的WEB信息预测采集过滤方法[A];第一届学生计算语言学研讨会论文集[C];2002年
6 陈林;王晓华;李殿赟;文俊浩;;基于自增模式的文本挖掘研究[A];’2004计算机应用技术交流会议论文集[C];2004年
7 陈林;王晓华;李殿赟;文俊浩;;基于Web的自增模式文本挖掘研究[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
8 ;前言[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
9 吴立德;黄萱菁;;文本检索会议简介[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
10 朱祥玉;侯德文;陈希;;基于双重评估函数的文本特征提取方法[A];山东省计算机学会2005年信息技术与信息化研讨会论文集(二)[C];2005年
中国重要报纸全文数据库 前10条
1 本报记者 施鹏;非结构信息和文本挖掘[N];21世纪经济报道;2009年
2 周青 编译;文本挖掘工具实现非结构化数据价值[N];计算机世界;2004年
3 ;SAS公司收购Teragram 强化BI领域地位[N];计算机世界;2008年
4 本报记者 张晶;怎样挖掘专家的活的经验和智慧[N];科技日报;2011年
5 汪洋 编译;BI平民化[N];计算机世界;2004年
6 靳辉;垂直搜索:呼叫经济发展的核心动力[N];通信产业报;2007年
7 缪其浩记者 江世亮;非官方信息源担当应急预警器[N];文汇报;2008年
8 ;用挖掘技术使学术资源利用效益最大化[N];中国计算机报;2007年
9 张德政;信息挖掘商业智能之“芯”[N];中国计算机报;2002年
10 司静辉;直击数字环境下情报技术发展动向[N];科技日报;2007年
中国博士学位论文全文数据库 前10条
1 刘永丹;文档数据库若干关键技术研究[D];复旦大学;2004年
2 夏迎炬;文本过滤关键技术研究[D];复旦大学;2003年
3 李芳;文本挖掘若干关键技术研究[D];北京化工大学;2010年
4 朱振方;基于微粒群和遗传优化的文本过滤关键技术研究[D];山东师范大学;2012年
5 陈伟;基于时序文本挖掘的新闻内容理解与推荐技术研究[D];浙江大学;2010年
6 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
7 文翰;面向信息检索的Web文本挖掘方法研究[D];华南理工大学;2012年
8 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
9 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
10 周雪忠;文本挖掘在中医药中的若干应用研究[D];浙江大学;2004年
中国硕士学位论文全文数据库 前10条
1 刘明岩;面向语义关系发现的文本挖掘研究[D];南京理工大学;2010年
2 李钝;基于粗糙集理论的文本挖掘技术研究[D];山西大学;2003年
3 程春惠;公安犯罪案件文本挖掘关键技术研究[D];浙江大学;2010年
4 徐爱华;面向文本分类的中文文本挖掘技术研究及实现[D];武汉理工大学;2004年
5 刘岩;基于Web的文本挖掘技术的研究[D];哈尔滨工程大学;2004年
6 姚继伟;基于XML的Web文本挖掘的研究[D];吉林大学;2010年
7 易高翔;Web文本挖掘研究与实现[D];武汉科技大学;2004年
8 杨斌;中文文本数据挖掘研究[D];湘潭大学;2002年
9 杨瑞峰;WEB上基于文本挖掘的个性化检索系统的设计与实现[D];电子科技大学;2003年
10 赵天雪;潜在语义分析在答疑系统中的应用研究[D];吉林大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026