收藏本站
收藏 | 论文排版

基于领域知识和信息抽取的个性化Web查询系统

杨文柱  
【摘要】: Web从1991年出现以来,经过短短的几年时间已发展成为一个巨大的、全球化的信息空间。Web信息的海量性、分布性、动态性及现有查询工具的低效性,使得在Web上查找感兴趣的资料成为一件累人的事情。因此,如何对Web信息进行准确有效地查询并实现个性化以及对查询结果进行再利用,是Web查询系统需要进一步解决的问题。 本文设计实现了一个“基于领域知识和信息抽取的个性化Web查询系统”来尝试解决上述问题。该系统首先将Web信息按模式和风格划分为不同领域,建立领域知识库,以便对用户的查询进行导航并缩小查询范围;然后利用现有的搜索引擎实现关键词查询,利用浏览功能寻找感兴趣的网页,对找到的网页根据其内容建立自定义的用户概念模式;利用概念模式对网页进行标记,使概念模式中的字段与网页中的信息块对应起来,建立对应关系并传给学习模块以形成抽取规则并存入规则库;抽取模块根据规则库中的抽取规则进行信息抽取并将抽取到的信息按用户定义的概念模式形成记录,按领域分类存储于Cache库中以备用户查询;最后,用户利用查询功能实现个性化查询。该系统界面友好,易于操作,功能强大,既可以利用现有搜索引擎查询Web,也可以利用信息抽取技术对感兴趣网页进行信息抽取,抽取结果存入Cache库以备后用,避免了重复查询Web。 系统是由我们数据库小组共同完成,本文侧重于系统的整体实现及领域知识库、Cache库、规则库的构造与应用,不涉及学习与信息抽取的细节。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 李向阳;苗壮;肖江;;无结构文本信息抽取综述[J];军事通信技术;2004年02期
2 张涛;胡正华;夏明星;;远洋运输业业务邮件信息抽取系统的设计及实现[J];电脑知识与技术;2010年01期
3 周纯;;垂直搜索引擎技术进展[J];知识经济;2011年09期
4 马静;倪辉峰;;基于模式匹配抽取技术的网上产品情报获取[J];情报理论与实践;2007年02期
5 谢红薇;周慧;李娟莉;;基于应急案例本体的信息抽取的模型及应用[J];电脑开发与应用;2006年02期
6 刘启贤;何伟;樊磊;于在洋;;基于本体的自然语言信息抽取在软件测试中的应用[J];中央民族大学学报(自然科学版);2008年03期
7 陆科进,李新颖;基于Ontology的文本信息抽取[J];计算机应用研究;2003年07期
8 刘华;;网页信息抽取及建库系统C#实现[J];计算机工程;2006年16期
9 贺令亚;柳佳刚;;基于Web的包装器技术的现状与发展[J];电脑开发与应用;2007年06期
10 张春明;;Web挖掘技术研究[J];廊坊师范学院学报(自然科学版);2008年05期
11 张岩;;基于本体的信息抽取技术研究[J];科技信息(学术研究);2008年36期
12 邹荣;;对垂直搜索技术的分析[J];福建电脑;2009年02期
13 吴芳;郑君;刘金亮;宗克玄;;基于GATE框架的中文信息抽取技术的研究[J];电脑知识与技术;2009年24期
14 于薇;;包装器的自动生成方法介绍[J];才智;2009年28期
15 朱青;吕晓旭;;基于机器学习的HTML标题抽取[J];微计算机信息;2010年09期
16 祝伟华;卢熠;刘斌斌;;基于HMM的Web信息抽取算法的研究与应用[J];计算机科学;2010年02期
17 胡致涌;胡迎松;;基于领域本体的信息抽取系统的设计与实现[J];价值工程;2010年14期
18 王立建;尹四清;;基于Web页面有效信息抽取的分类方法[J];电脑开发与应用;2010年06期
19 丁君军;郑彦宁;化柏林;;国内外属性抽取研究综述[J];情报科学;2011年05期
20 于成龙;;中文网页信息抽取技术及分类算法研究[J];山东理工大学学报(自然科学版);2011年03期
中国重要会议论文全文数据库 前10条
1 崔欣辰;曲宁;陈青华;;隐马尔可夫模型在Web信息抽取中的几点改进[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
2 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
3 陈静;朱巧明;贡正仙;李培锋;;特定本体指导的信息抽取技术研究[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
4 裴利芳;;领域知识与自我解释策略间关系的实验研究[A];第八届全国心理学学术会议文摘选集[C];1997年
5 吴雪军;朱靖波;王会珍;叶娜;张宇新;;Co-Training的机器学习方法在中文机构名识别中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
6 郑鹏凌;易笃友;陈卫国;卢俊;唐认学;;个性化鼻腔填塞在鼻内镜术后的应用[A];2010全国耳鼻咽喉头颈外科中青年学术会议论文汇编[C];2010年
7 肖学胜;;做大做强气象科技产业之我见[A];2004年湖北省气象学会年会学术论文详细摘要集[C];2004年
8 乔群;赵茹;柳成等;;多种术式再造个性化乳房[A];全国乳腺疾病诊治防高级研修班讲义[C];2004年
9 胡金凤;;“粗放化、个性化”的语文课堂教学评价——新课程改革背景下课堂教学评价的一点思考[A];江苏省教育学会2005年小学语文优秀论文集[C];2005年
10 罗伟;李陶深;;一种基于本体的个性化搜索引擎模型[A];广西计算机学会2006年年会论文集[C];2006年
中国博士学位论文全文数据库 前10条
1 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
2 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
3 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
4 李欢;问答系统中的文本信息抽取研究与应用[D];中国科学技术大学;2009年
5 高田;基于领域知识的旅游突发事件状态评估与演化研究[D];北京邮电大学;2011年
6 张奇;信息抽取中实体关系识别研究[D];中国科学技术大学;2010年
7 陆铭;WEB2.0网络热点发现与个性化检索研究[D];中国科学技术大学;2012年
8 胡国平;基于超大规模问答对库和语音界面的非受限领域自动问答系统研究[D];中国科学技术大学;2007年
9 杨立;基于领域知识的知识发现研究[D];中国科学院研究生院(软件研究所);2005年
10 张乃洲;实体搜索爬虫和信息抽取研究[D];武汉大学;2011年
中国硕士学位论文全文数据库 前10条
1 杨文柱;基于领域知识和信息抽取的个性化Web查询系统[D];河北大学;2002年
2 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
3 杨柱;基于DIV标签树的网页主题信息抽取方法[D];湖南大学;2010年
4 田红;表格信息抽取引擎的设计与实现[D];西北师范大学;2004年
5 张志强;Web信息抽取技术研究与基于Web service的实现[D];河北大学;2004年
6 陈兰;基于ontology的信息抽取系统的研究与实现[D];电子科技大学;2004年
7 孟令谦;基于ontology的中文信息抽取系统的研究与实现[D];电子科技大学;2004年
8 王花;Web信息抽取技术研究[D];西北农林科技大学;2010年
9 杨秀丽;基于网页内容分析的Web信息抽取技术及其应用[D];河北科技大学;2010年
10 廉成洋;基于树结构的Web信息抽取技术研究[D];南京航空航天大学;2010年
中国重要报纸全文数据库 前10条
1 史小敏;前景广阔的信息抽取技术[N];解放军报;2004年
2 本报记者 张倩;经销商为消费者订购轿车汽车个性化订购的缓兵之计[N];机电商报;2005年
3 本报通讯员  石丹;古城邮花别样红[N];中国邮政报;2006年
4 王流;“两大”成功赚钱思路[N];经理日报;2007年
5 本报记者 赵春秋 通讯员 赵宏;“牛城”个性化邮票咋这么“牛”[N];中国邮政报;2003年
6 陈伟贤;常州局个性化邮票收入突破 200万[N];中国邮政报;2004年
7 钱进;乌鲁木齐 婚庆个性化邮票受关注[N];中国邮政报;2007年
8 易凡;高清产业个性化渐行渐近 康佳欲推顶级高清[N];电子资讯时报;2007年
9 刘英子 作者系海口广播电视台一级播音员,全国百佳新闻工作者;主持人“个性化”与媒介“品牌化”[N];中国新闻出版报;2007年
10 本报记者 游婕;穿衣个性化 彰显生活魅力[N];中国消费者报;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978