收藏本站
《内蒙古农业大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

企业信息搜索引擎的设计与关键技术的研究

李巍  
【摘要】:垂直搜索引擎技术逐渐在用户生活中占有举足轻重的地位,用户对搜索行业信息的需求逐渐细化,而支持企业信息的垂直搜索引擎并没有得到完善。通过对企业信息搜索引擎的需求分析、系统设计并对其中关键技术的研究,建立了一个企业信息搜索引擎,为用户提供与企业信息相关的信息搜索服务。 1.对基于隐马尔可夫模型(HMM)的Web信息抽取进行了系统的研究。建立了企业信息的隐马尔可夫模型,利用隐马尔可夫模型的主要算法来解决模型的训练及解码问题,进而对信息进行抽取。对已形成的模型参数进行优化,再次进行信息抽取。实验结果表明优化后的隐马尔可夫模型进行抽取的效果更好。 2.对于企业信息搜索引擎的中文分词技术进行了研究。基于正向最大匹配分词算法,对中文分词的词典机制进行优化,设计了双字双层和独立长词表的词典机制,在占用空间与查询时间及词典维护三方面与其它词典机制进行比较评价,并根据此机制建立了企业信息专业词典,应用于企业信息搜索引擎。 3.在开源架构的基础上,利用文中研究的信息抽取及中文分词部分利用所研究的两个关键技术进行改造,建立了企业信息搜索引擎。实验表明改进后的企业信息搜索引擎能更好地满足用户对企业信息搜索服务的需求。
【关键词】:垂直搜索引擎 HMM Web信息抽取 中文分词 词典机制 企业信息搜索引擎
【学位授予单位】:内蒙古农业大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:TP391.3
【目录】:
  • 摘要3-4
  • Abstract4-8
  • 1 绪论8-11
  • 1.1 问题的提出及研究的意义8
  • 1.2 国内外研究现状8-10
  • 1.2.1 国内研究现状8-9
  • 1.2.2 国外研究现状9-10
  • 1.3 论文的组织结构10-11
  • 2 垂直搜索引擎概述11-15
  • 2.1 垂直搜索引擎简述11
  • 2.2 垂直搜索引擎的系统结构11-12
  • 2.3 垂直搜索引擎的关键技术12-14
  • 2.3.1 面向主题的Web 信息提取技术12-13
  • 2.3.2 垂直搜索引擎的中文分词技术13-14
  • 2.4 本章小结14-15
  • 3 面向企业信息的HMM 信息抽取算法15-28
  • 3.1 隐马尔可夫模型概述15-19
  • 3.1.1 隐马尔可夫模型介绍15-16
  • 3.1.2 隐马尔可夫模型的经典算法16-19
  • 3.2 Web 信息抽取概述19-21
  • 3.3 面向企业信息的HMM 信息抽取算法21-25
  • 3.3.1 隐马尔可夫模型的构建21-23
  • 3.3.2 HMM 信息抽取算法描述23-25
  • 3.4 改进的HMM 信息抽取算法25-26
  • 3.5 实验及分析26-27
  • 3.6 本章小结27-28
  • 4 面向企业信息的中文分词词典的设计28-42
  • 4.1 中文分词概述28-32
  • 4.1.1 中文分词算法介绍28-29
  • 4.1.2 中文分词词典机制介绍29-32
  • 4.2 双字双层及独立长词表的分词词典机制32-39
  • 4.2.1 词典的设计32-33
  • 4.2.2 词典的结构33-35
  • 4.2.3 词典的匹配算法35-38
  • 4.2.4 词典的匹配实例38-39
  • 4.3 实验及分析39-41
  • 4.4 本章小结41-42
  • 5 企业信息搜索引擎的设计与实现42-49
  • 5.1 企业信息搜索引擎的总体设计42-44
  • 5.2 企业信息搜索引擎的开源架构44-45
  • 5.3 企业信息搜索引擎的测试45-46
  • 5.3.1 测试环境45
  • 5.3.2 评价标准45-46
  • 5.4 实验及分析46-48
  • 5.5 本章小结48-49
  • 6 总结与展望49-50
  • 6.1 全文总结49
  • 6.2 工作展望49-50
  • 致谢50-51
  • 参考文献51-53
  • 作者简介53

【参考文献】
中国期刊全文数据库 前10条
1 李振星,徐泽平,唐卫清,唐荣锡;全二分最大匹配快速分词算法[J];计算机工程与应用;2002年11期
2 陈平;刘晓霞;李亚军;;基于字典和统计的分词方法[J];计算机工程与应用;2008年10期
3 于江德;樊孝忠;尹继豪;顾益军;;基于隐马尔可夫模型的中文科研论文信息抽取[J];计算机工程;2007年19期
4 马玉春,宋瀚涛;Web中文文本分词技术研究[J];计算机应用;2004年04期
5 邹海山,吴勇,吴月珠,陈阵;中文搜索引擎中的中文信息处理技术[J];计算机应用研究;2000年12期
6 孙茂松,左正平,黄昌宁;汉语自动分词词典机制的实验研究[J];中文信息学报;2000年01期
7 王思力;张华平;王斌;;双数组Trie树算法优化及其应用研究[J];中文信息学报;2006年05期
8 陈新颜;垂直搜索引擎辨析[J];现代情报;2004年09期
9 郭兴;柯鹏;徐媛;李宗荣;;论垂直搜索引擎中的信息抽取技术的选用[J];医学信息;2006年12期
10 殷杰;董佳蓉;;论自然语言处理的发展趋势[J];自然辩证法研究;2008年03期
中国硕士学位论文全文数据库 前8条
1 卢鸣;HMM基本原理及其在聚类中的应用[D];江南大学;2007年
2 王宇宁;隐马尔可夫模型在信息抽取中的应用研究[D];大连理工大学;2007年
3 王硕;适用于化工专业搜索引擎的中文分词系统的研究与实现[D];北京化工大学;2008年
4 刘斌斌;基于HMM模型的Web信息抽取方法的研究与改进[D];重庆大学;2008年
5 徐海;基于Lucene垂直搜索引擎的研究与实现[D];西安科技大学;2009年
6 刘海峰;垂直搜索引擎的研究与实现[D];大连理工大学;2009年
7 李亚;垂直搜索引擎的研究与设计[D];武汉理工大学;2010年
8 褚敬年;面向企业信息检索的中文分词系统的研究与实现[D];东北大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 杜道流;指称、陈述理论及其对上古语法研究的意义[J];安徽大学学报;2004年01期
2 姜红;;具体名词和抽象名词的不对称现象[J];安徽大学学报(哲学社会科学版);2009年02期
3 施发笔;试论《水浒传》介词避复的技巧[J];安徽教育学院学报;2002年04期
4 阮绪和;形名偏正结构的语法功能[J];安徽教育学院学报;2003年02期
5 陶振伟;;“拿”的语法化[J];安徽教育学院学报;2006年04期
6 樊友新;;从“被就业”看“被”的语用功能[J];合肥师范学院学报;2010年02期
7 冯鸣;英语表持续时段的for短语和汉语时量词语的比较[J];安徽广播电视大学学报;2001年02期
8 王有卫;;语素文字说质疑[J];安徽广播电视大学学报;2010年03期
9 王正;陆余良;刘金红;施凡;;基于Lucene的互联网文献信息检索系统的研究[J];安徽大学学报(自然科学版);2009年05期
10 柳国栋;;《论语》重叠词略论[J];安徽职业技术学院学报;2008年02期
中国重要会议论文全文数据库 前10条
1 王红霞;田国会;李晓磊;卜范骞;;基于地标信息融合的家庭环境机器人组合导航[A];第二十六届中国控制会议论文集[C];2007年
2 曹爱增;陈月婷;魏军;李金屏;;一种基于EDAs和聚类分析的杂合进化算法[A];第二十六届中国控制会议论文集[C];2007年
3 李鑫;李力争;;基于模板匹配的固态流体流速检测算法[A];第二十七届中国控制会议论文集[C];2008年
4 李潮潮;迟凯;付芳萍;车文刚;赵庆江;;基于模糊聚类的证券价格对公共信息的反应强度划分[A];第二十九届中国控制会议论文集[C];2010年
5 赵庆江;迟凯;付芳萍;李潮潮;车文刚;;基于FCM的模糊时间序列模型及人民币汇率预测[A];第二十九届中国控制会议论文集[C];2010年
6 李影;付莉;;韩国中小学生“是”的错序偏误分析[A];语言与文化研究(第四辑)[C];2009年
7 刘涛;陈浩文;王书宏;黎湘;;基于红外多光谱的空间点目标识别方法研究[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年
8 汤广富;马春实;刘欢;付强;;模糊聚类快速实用方法[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年
9 曾莱蓓;孙星明;向凌云;罗纲;;基于虚词变换的文本隐藏信息检测方法研究[A];第八届全国信息隐藏与多媒体安全学术大会湖南省计算机学会第十一届学术年会论文集[C];2009年
10 沈焕生;朱磊;;基于信息内容的关键词抽取研究[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(上册)[C];2008年
中国博士学位论文全文数据库 前10条
1 陈佳;论英汉运动事件表达中“路径”单位的“空间界态”概念语义及其句法—语义接口功能[D];上海外国语大学;2010年
2 张海涛;自律计算系统的自律可信性评估研究[D];哈尔滨工程大学;2010年
3 李桃迎;交通领域中的聚类分析方法研究[D];大连海事大学;2010年
4 易吉良;基于S变换的电能质量扰动分析[D];湖南大学;2010年
5 陈韶斌;基于知识推理和视觉机理的遥感图像目标识别方法研究[D];华中科技大学;2010年
6 宋清昆;自适应结构优化神经网络控制研究[D];哈尔滨理工大学;2009年
7 郭红;基于第二语言教学的汉语语气范畴若干问题研究[D];南开大学;2010年
8 高杰;基于过渡金属的超分子光化学传感器识别生物功能性检测物[D];华东理工大学;2010年
9 杨先明;0-5岁汉语儿童语言发展的认知研究[D];武汉大学;2010年
10 彭懿;英汉肤觉形容词的认知语义研究[D];湖南师范大学;2010年
中国硕士学位论文全文数据库 前10条
1 陈晓慧;空间信息服务管理平台的设计与实现[D];山东科技大学;2010年
2 黄雪;俄汉语词汇理据性对比研究[D];哈尔滨师范大学;2010年
3 马晶晶;表人名词类词缀“X手”、“X者”、“X员”分析比较[D];辽宁师范大学;2010年
4 乌晓丽;“X+—N比—N+VP”表义功能新探[D];辽宁师范大学;2010年
5 刘婧一;元代笔记分词理论与实践[D];广西师范学院;2010年
6 曹萍;府城官话研究[D];广西师范学院;2010年
7 李朋勇;基于全矢高阶谱的故障诊断方法及其应用研究[D];郑州大学;2010年
8 旷金辉;汉英名词前置修饰语语序对比研究[D];上海外国语大学;2010年
9 陶胜妃;现代汉语谓词修饰词前后位置比较研究[D];上海外国语大学;2010年
10 严伟剑;疑问代词“怎么”“怎样”“怎么样”对比研究[D];上海外国语大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 龚汉明,周长胜;汉语分词技术综述[J];北京机械工业学院学报;2004年03期
2 贺前华,陆以勤,韦岗;一种新的HMM训练方法[J];电子学报;2000年09期
3 林亚平,刘云中,周顺先,陈治平,蔡立军;基于最大熵的隐马尔可夫模型文本信息抽取[J];电子学报;2005年02期
4 张君;李保秀;;垂直搜索引擎中网络蜘蛛的设计[J];福建电脑;2008年04期
5 蔡猷花,张岐山;数据挖掘技术及其应用[J];管理科学文摘;2003年02期
6 李广丽;刘觉夫;;面向URL的网络机器人软件模型的研究与实现[J];华东交通大学学报;2007年01期
7 刘挺,吴岩,王开铸;最大概率分词问题及其解法[J];哈尔滨工业大学学报;1998年06期
8 吴岩,李秀坤,刘挺,王开铸;中文自动校对系统的研究与实现[J];哈尔滨工业大学学报;2001年01期
9 张书江;;基于超链接分析搜索引擎页面排序算法的剖析[J];安徽理工大学学报(自然科学版);2008年02期
10 蒋斌;杨超;赵欢;;基于二字词位图表的汉语自动分词词典机制[J];湖南大学学报(自然科学版);2006年01期
中国重要会议论文全文数据库 前1条
1 赵妍妍;王啸吟;秦兵;车万翔;刘挺;;中文事件抽取中事件类别的自动识别[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前1条
1 由丽萍;构建现代汉语框架语义知识库技术研究[D];上海师范大学;2006年
中国硕士学位论文全文数据库 前9条
1 常晓燕;基于Java的新闻搜索引擎的设计与实现[D];西南交通大学;2004年
2 徐永红;基于专题信息服务的智能搜索引擎技术研究[D];国防科学技术大学;2004年
3 王骏;基于垂直搜索引擎技术的房源信息分析系统的设计与实现[D];苏州大学;2006年
4 刘玮玮;搜索引擎中主题爬虫的研究与实现[D];南京理工大学;2006年
5 姜华;基于Lucene面向主题搜索引擎的研究与设计[D];华东师范大学;2007年
6 颜学优;网络信息挖掘在电子商务中的应用研究[D];吉林大学;2007年
7 李文泽;个性化垂直搜索引擎研究[D];河南大学;2007年
8 姚琪;垂直搜索引擎系统的研究与设计[D];上海交通大学;2008年
9 卢虹宇;Web结构挖掘中HITS算法的研究[D];西南交通大学;2008年
【相似文献】
中国期刊全文数据库 前10条
1 ;关键词搜索[J];每周电脑报;2000年38期
2 陈冰;;饿狼一样的网站提交工具——“提交饿狼”[J];科学之友;2000年07期
3 许斗;从Google看新一代搜索引擎的发展趋向[J];芜湖职业技术学院学报;2001年01期
4 周毅华;从搜索引擎的分类看其应用技巧[J];图书馆理论与实践;2002年06期
5 邹小筑;搜索引擎的选择与使用技巧[J];图书馆学研究;2002年05期
6 林燕;Google搜索引擎的搜索功能与使用技巧[J];河北科技图苑;2003年05期
7 林中;GOOGLE搜索引擎的关键词检索[J];中国信息导报;2003年03期
8 封剑待封喉;吸星大法“搜”天下 笑傲网络任我行——搜索引擎绝对专题[J];网络与信息;2003年07期
9 闫凡蕾;建设站内搜索的好帮手——Search Engine Maker[J];少年电世界;2003年08期
10 凤元杰,刘正春,王坚毅;搜索引擎主要性能评价指标体系研究[J];情报学报;2004年01期
中国重要会议论文全文数据库 前10条
1 彭轲;廖闻剑;;浅析搜索引擎[A];中国通信学会第五届学术年会论文集[C];2008年
2 李丹;;如何利用搜索引擎查找中医药信息[A];中国中医药信息研究会第二届理事大会暨学术交流会议论文汇编[C];2003年
3 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
4 维尼拉·木沙江;吐尔洪·吾司曼;;维、哈、柯文搜索引擎中网页爬行器的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
5 倪俊峰;;基于黄页搜索引擎的关键字排名广告系统的设计与实现[A];2005年中国索引学会年会暨学术研讨会论文集[C];2005年
6 汤薇;曾艳;;构建校园网搜索引擎必要性分析[A];广西计算机学会2008年年会论文集[C];2008年
7 姚树宇;赵少东;;一种使用分布式技术的搜索引擎[A];2005年全国开放式分布与并行计算学术会议论文集[C];2005年
8 张怡;查贵庭;;SEO在信息服务中的应用研究[A];2010年中国索引学会年会暨学术研讨会论文集[C];2010年
9 陈援非;何哲;朱珍民;;基于普适计算的个性化搜索技术[A];第二届和谐人机环境联合学术会议(HHME2006)——第2届中国普适计算学术会议(PCC'06)论文集[C];2006年
10 杨萌;李春丽;朱明;;网络搜索技术下的编辑工作[A];学报编辑论丛(第十一集)[C];2003年
中国重要报纸全文数据库 前10条
1 记者 林雨;网络黄页异军突起[N];民营经济报;2005年
2 李一鑫;搜索排名的红与黑[N];财经时报;2007年
3 周文林;搜狗3.0能否撼动搜索市场[N];经济参考报;2007年
4 惠正一;比尔·盖茨:微软不怕Google[N];第一财经日报;2005年
5 赛迪顾问股份有限公司互联网与电子商务咨询中心 常燕杰;搜索,还是门户[N];中国计算机报;2005年
6 陈珊;浙江移动推出手机搜索引擎服务[N];人民邮电;2005年
7 赵法忠;搜索引擎还需悠着点[N];中国经营报;2005年
8 金朝力;搜索引擎火拼搜索质量[N];北京商报;2006年
9 本报记者  赵晓辉 孟昭丽;搜索引擎驶入“避风港”[N];中国证券报;2006年
10 孙琎;搜索引擎惊喜侵权官司止于“避风港”?[N];第一财经日报;2006年
中国博士学位论文全文数据库 前10条
1 岑荣伟;基于用户行为分析的搜索引擎评价研究[D];清华大学;2010年
2 李群;主题搜索引擎聚类算法的研究[D];北京林业大学;2011年
3 苏君华;面向搜索引擎的技术接受模型研究[D];南京大学;2011年
4 刘佐达;分布协作式搜索引擎模型及算法研究[D];清华大学;2011年
5 陈旭毅;基于索引云的企业搜索引擎实现研究[D];武汉大学;2011年
6 郭眈;中文互联网视频搜索引擎系统策略研究[D];北京交通大学;2012年
7 王镠璞;基于用户体验的互联网搜索引擎医学信息检索可用性评估研究[D];吉林大学;2010年
8 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
9 白玉琪;空间信息搜索引擎研究[D];中国科学院研究生院(遥感应用研究所);2003年
10 费巍;搜索引擎检索功能的性能评价研究[D];武汉大学;2010年
中国硕士学位论文全文数据库 前10条
1 薛云;Internet上元搜索引擎的研究与设计[D];太原理工大学;2003年
2 王春花;基于Nutch的农业搜索引擎检索结果排序策略的研究[D];西北农林科技大学;2010年
3 李雷;基于Nutch的农业信息搜索引擎实现和优化[D];吉林大学;2011年
4 董晨;基于模糊聚类的个性化搜索引擎的研究[D];福州大学;2005年
5 封俊;基于Hadoop的分布式搜索引擎研究与实现[D];太原理工大学;2010年
6 李浩;分布式教育网信息检索系统的研究和实现[D];华南理工大学;2010年
7 尉建兴;基于Lucene搜索引擎的研究与应用[D];太原理工大学;2011年
8 李建平;智能化WEB信息搜索引擎的研究与实现[D];大庆石油学院;2003年
9 田生伟;基于涉农词典的搜索引擎的研究与实践[D];新疆大学;2004年
10 欧建斌;基于Web挖掘与信息分类的个性化搜索引擎研究[D];暨南大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026