收藏本站
《南京农业大学》 2002年
收藏 | 手机打开
二维码
手机客户端打开本文

基于文本层次模型的Web概念挖掘研究

章成志  
【摘要】: 本论文针对目前Web文本挖掘工具的不足之处,综合运用文献信息自动标引和自动分类技术、数据挖掘技术、模式识别技术、数据库技术,数理统计知识,构建了一个简单易行的信息提取模型,即文本层次模型,针对因特网上三种结构类型数据,进行了基于知识库,即基于概念语义网络的自动标引和自动分类研究。本项目研究具有如下意义:使分类知识库建设系统化和流程化;提供因特网页面和普通文本的标引源选择方案及主题提取时的权重方案;提高同义词的识别能力;增强未登录词挖掘能力。 文本分类知识库的构建主要是利用了数据挖掘技术,数理统计知识,在进行关键词与分类号的相关度度量时,我们为了克服以前度量方法的缺陷,引入了Dice测度的方法。为了确定知识库的规模,我们对Web概念挖掘系统的实际运行结果,进行抽样分析,选择了一个整体性能较好的分类知识库,另外还引入篇名知识来进一步完善分类知识库。 在进行Web文本的主题提取时,为了区分网页不同标引源的主题表达能力,本文根据一定规模的数据调查结果,确定了具有文献依据的权重方案,对文本不同标引源的测试,获得了页面和普通文本的标引源选择方案,随后还对文本多主题挖掘进行了初步的研究。 在同义词的识别上,首次引入《同义词词林》,作为语义体系,提出了基于《同义词词林》语义体系的同义词识别算法,利用词汇间的语义相似度度量,来进行同义词识别,提高了同义词识别系统的识别性能。此外,在进行文本的自动分类时,将语义相似度匹配代替了字面相似度匹配,提高了文本的自动分类能力。 为了解决未登录的挖掘问题,提出了基于字词正向扩展的未登录词识别方法,不同于N-Gram模型的是,本方法不需庞大的语料库,利用局部统计信息即可识别出具有检索意义的未登录词。 本文最后给出了系统的实际测评结果,证明整个系统的可行性。 Web概念挖掘系统采用Borland Delphi6.0,Nicrosoft Visual C++6.0以及Microsoft Visual Foxpro6.0开发。
【学位授予单位】:南京农业大学
【学位级别】:硕士
【学位授予年份】:2002
【分类号】:TP393

手机知网App
【相似文献】
中国期刊全文数据库 前10条
1 刘志强;欧阳清;;基于HOOPS的舰艇层次模型建立的研究[J];舰船电子工程;2009年10期
2 侯小燕;王国忠;;基于模糊综合评判的装备合同商服务质量评估[J];兵工自动化;2009年12期
3 陈伯成,李英杰,张竟丹,许朝军,王迅;用JAVA编制离散事件系统模拟软件原型[J];清华大学学报(自然科学版);2000年07期
4 吴开超;沈志宏;周园春;阎保平;;信息系统访问控制的层次模型[J];计算机工程与设计;2009年01期
5 邹承明;汤智勇;;结合二维算法的三维快速碰撞检测算法[J];软件导刊;2009年04期
6 赵章界;;网络访问控制的层次模型[J];信息安全与通信保密;2010年07期
7 黄成;李太君;;层次分析模型在网络课程评价系统中的应用研究[J];海南师范大学学报(自然科学版);2010年03期
8 高东怀;沈霞娟;宁玉文;张迎;;高校信息化教学环境层次模型的设计与应用[J];现代教育技术;2011年02期
9 刘实;基于RDBMS建立层次数据模型[J];计算机系统应用;1996年11期
10 黄汝维,苏德富;网格信息服务模型的研究[J];计算机工程与科学;2004年11期
中国重要会议论文全文数据库 前10条
1 张根明;段辉敏;;基于层次模型的高新区主导产业选择研究[A];第三届(2008)中国管理学年会论文集[C];2008年
2 陈美爱;姚本先;;大学生课堂学业情绪研究[A];中国社会心理学会2008年全国学术大会论文摘要集[C];2008年
3 陶继忠;周战强;罗存康;;零件信息层次模型[A];中国工程物理研究院科技年报(1998)[C];1998年
4 刘昊扬;孙飞飞;沈祖炎;顾祥林;;基于知识的钢筋砼结构图形仿真方法[A];第七届全国结构工程学术会议论文集(第Ⅰ卷)[C];1998年
5 李军辉;周国栋;朱巧明;钱培德;;基于层次模型的中文句法分析[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
6 杨志;郭兵;邓仁明;;一类异构工控系统群的无缝集成[A];全国冶金企业计控网络化研讨会论文集[C];2003年
7 陶伯华;;创新思维概论——《思维科学概论》第五篇[A];中国思维科学研究论文选2011年专辑[C];2012年
8 鲁耀斌;陈晓亮;;网上信任影响因素层次模型分类研究[A];第10届计算机模拟与信息技术会议论文集[C];2005年
9 陈继宏;;电信网络信息安全的体系结构[A];中国航海学会通信导航专业委员会2004学术年会论文集[C];2004年
10 周耿;;建立特殊教育专业思想教育的层次模型的尝试[A];中国心理卫生协会残疾人心理卫生分会成立大会暨首届学术交流会论文集[C];1996年
中国重要报纸全文数据库 前10条
1 杨景;NGN 许网络一个未来[N];中国计算机报;2003年
2 卢强;渠道进化论[N];计算机世界;2005年
3 关振胜;不同的信任模型[N];计算机世界;2006年
4 王琳 金文德;浙江电力实时数据库管理系统通过验收[N];中国电力报;2007年
5 王育琨;“答案永远在现场”[N];上海证券报;2008年
6 ;三大步迈向NGeN[N];中国计算机报;2005年
7 蔡涛 金刚 胡汉平;动画驱动靠“动力”[N];计算机世界;2002年
8 黄岳钧;人才招聘技术中的定量分析[N];中国人事报;2007年
9 ;构建一体化校园网络[N];网络世界;2001年
10 ;中联集团非结构化内容管理系统[N];电脑商报;2005年
中国博士学位论文全文数据库 前10条
1 戴永长;协作产品开发过程管理技术研究[D];清华大学;2005年
2 邱莉;教师课堂情绪调节能力的研究[D];上海师范大学;2007年
3 刘国军;基于可移动拍摄大场景下的人体运动跟踪关键技术的研究与应用[D];哈尔滨工业大学;2009年
4 陈海林;基于判别学习的图像目标分类研究[D];中国科学技术大学;2009年
5 苏哲文;手写汉字图像动态信息恢复方法研究[D];华中科技大学;2009年
6 张建英;多根层次数据分布模型研究[D];大连理工大学;2011年
7 李雅洁;基于CORBA的多维QoS技术研究[D];西北工业大学;2002年
8 付永刚;桌面环境下的三维用户界面和三维交互技术研究[D];中国科学院研究生院(软件研究所);2005年
9 李传栋;大电网快速稳定分析关键基础技术研究[D];天津大学;2007年
10 艾斯卡尔;红外搜寻与跟踪系统关键技术研究[D];电子科技大学;2003年
中国硕士学位论文全文数据库 前10条
1 章成志;基于文本层次模型的Web概念挖掘研究[D];南京农业大学;2002年
2 周月明;保险索赔系统的协同容错层次模型研究[D];山东科技大学;2010年
3 邹宏勇;CSI方法在房地产市场调查中的应用研究[D];河海大学;2005年
4 姚培娟;Web缓存层次模型研究与代价分析[D];郑州大学;2012年
5 吕家将;基于RCM分析的电厂风机状态检修系统研究[D];武汉大学;2005年
6 张乐;嵌入式系统开发平台硬件抽象层的设计与实现[D];青岛大学;2007年
7 罗朝宇;基于网格技术的电力企业信息资源整合方案研究[D];天津大学;2008年
8 徐玲玲;质量激励机制的研究[D];河北工业大学;2007年
9 冯汀;基于ITIL的业务支撑系统运维管理研究[D];北京邮电大学;2008年
10 谢招犇;基于Agent与本体的网格信息互操作应用研究[D];广东工业大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026