收藏本站
《吉林大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

自然语言处理及搜索引擎的研究

周吉  
【摘要】: 本文的研究内容主要是自然语言处理的方法和目前该领域的理论、技术。详细的阐述了搜索引擎的原理,搜索引擎的基本结构以及搜索引擎的检索功能。深入研究了相关的分析包括词法分析以及句法分析。对常用的各种自动分词算法做了比较研究,改进了MM方法,提高了切词效率。通过对句法理论中各种文法特点的比较,找出最适合于描写自然语言的文法,给出了其相关算法。
【关键词】:自然语言处理 搜索引擎 词法分析 句法分析
【学位授予单位】:吉林大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP391.1
【目录】:
  • 提要4-8
  • 第一章 绪论8-15
  • 1.1 自然语言理解概述8-11
  • 1.2 论文研究背景11-14
  • 1.3 本文研究内容14-15
  • 第二章 搜索引擎原理15-25
  • 2.1 搜索引擎的基本结构15-20
  • 2.1.1 搜索引擎的数据采集机制16-18
  • 2.1.2 搜索引擎对网页的标引处理18-19
  • 2.1.3 搜索引擎的数据组织和用户检索机制19-20
  • 2.2 网络信息检索工具的类型20-21
  • 2.3 搜索引擎的检索功能21-23
  • 2.3.1 基本检索功能21-22
  • 2.3.2 高级检索功能22-23
  • 2.4 智能搜索引擎体系结构23-25
  • 第三章 相关分析25-44
  • 3.1 词法分析25-34
  • 3.1.1 自动分词概述25-27
  • 3.1.2 自动分词算法27-34
  • 3.2 句法分析34-43
  • 3.2.1 形式语言理论34-41
  • 3.2.2 句法分析策略41-43
  • 3.3 语义分析43-44
  • 第四章 智能搜索引擎模型的设计44-56
  • 4.1 知识库的组成44-45
  • 4.2 自然语言处理器的各应用模块及其功能45-50
  • 4.2.1 概念提取45
  • 4.2.2 查询扩展45-46
  • 4.2.3 个性化处理46-47
  • 4.2.4 文档处理47-49
  • 4.2.5 自动文摘49-50
  • 4.3 信息检索50-54
  • 4.3.1 索引模块的功能50
  • 4.3.2 查询向量的生成50-51
  • 4.3.3 索引向量的生成51-52
  • 4.3.4 相似度排序52-53
  • 4.3.5 查询修正53-54
  • 4.4 模型定性分析54-56
  • 第五章 结语56-58
  • 参考文献58-60
  • 摘要60-63
  • ABSTRACT63-67
  • 致谢67

【参考文献】
中国期刊全文数据库 前10条
1 周明,黄昌宁,张敏,白栓虎,吴升;统计与规则并举的汉语句法分析模型[J];计算机研究与发展;1994年02期
2 解冲锋,李星;并行式Meta Search系统的设计与实现[J];计算机工程与应用;1999年02期
3 朱靖波,姚天顺;面向数据的句法分析技术[J];中文信息学报;1998年01期
4 周强,黄昌宁;汉语句法规则的自动构造方法研究[J];中文信息学报;1998年03期
5 张瑞岭;一种特殊的上下文无关文法及其语法分析[J];软件学报;1998年12期
6 周强,黄昌宁;基于局部优先的汉语句法分析方法[J];软件学报;1999年01期
7 陆建平;;论搜索引擎的原理和检索特性[J];图书馆杂志;1999年09期
8 黄崑,符绍宏;自动分词技术及其在信息检索中应用的研究[J];现代图书情报技术;2001年03期
9 姜恩波;搜索引擎的信息过滤技术[J];现代图书情报技术;2001年03期
10 尹锋;汉语自动分词研究的现状与新思维[J];现代图书情报技术;1998年04期
【共引文献】
中国期刊全文数据库 前10条
1 薛宏伟;芜湖电厂给水控制和主汽温控制改造[J];安徽电气工程职业技术学院学报;2005年03期
2 张润梅,龚剑,章曙光;机器人足球队的结构设计研究[J];安徽建筑工业学院学报(自然科学版);2003年01期
3 龚剑;关于高校开展机器人足球比赛的思考[J];安徽建筑工业学院学报(自然科学版);2005年04期
4 高朋;黄世祥;;地区现代化水平BP人工神经网络评价方法初探[J];安徽农业大学学报(社会科学版);2006年03期
5 陈红琳;;基于MAS的农产品供应链可追溯系统研究[J];安徽农业科学;2011年35期
6 曹永涛 ,陈海清 ,周开基 ,郑生全;电磁兼容专家系统框架研究[J];安全与电磁兼容;2004年01期
7 郑虹;杨鸿雁;;Rough知识发现在焊接领域中的应用[J];鞍山师范学院学报;2006年04期
8 胡毅亭,陈网桦,彭金华,刘荣海;关于建立火炸药安全数据库的探讨[J];火炸药学报;1999年03期
9 张琦;廖捷;吴建军;刘玉;;基于FTA的通用装备电子系统故障诊断专家系统设计[J];兵工学报;2008年02期
10 李英姿;10kV以下供配电设计专家系统[J];北京建筑工程学院学报;1997年03期
中国重要会议论文全文数据库 前10条
1 沈霖;吴蕙;张帆;张芸;;提高有限元网格自动剖分成功率的研究[A];首届中国CAE工程分析技术年会暨2005全国计算机辅助工程(CAE)技术与应用高级研讨会论文集[C];2005年
2 鲍林江;贾世发;;电网经济运行实时分析监测系统的研究[A];2003中国电机工程学会电力系统自动化专委会供用电管理自动化分专业委员会成立暨第一届学术交流会议论文集[C];2003年
3 张影;;基于Oracle的空间碎片减缓设计专家数据库系统[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(上册)[C];2008年
4 刘海芳;陈正军;潘小勇;张海荣;胡国林;;Al方法在梭式窑温度控制中的应用[A];中国硅酸盐学会陶瓷分会2009年年会论文集(一)[C];2009年
5 索雪松;索雪峰;李阳;张曙光;;漏水声波数据可信度的模糊推理过程[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
6 王敏;陈中治;董继恩;;基于事例的桥梁设计专家系统初探[A];中国公路学会计算机应用分会2010年学术年会论文集[C];2010年
7 叶红军;;城市规划决策支持系统的原理及应用初探[A];2010年湖南省优秀城乡规划论文集[C];2010年
8 王明艳;李萍;薛克敏;;基于面向对象的规则专家系统的研究[A];2008年安徽省科协年会机械工程分年会论文集[C];2008年
9 迟嘉昱;孙翎;;决策支持系统研究新进展[A];信息经济与国民经济增长方式的转变——中国信息经济学会2006年学术年会论文集[C];2006年
10 高威斯;;基于边缘重组交叉算子的改进遗传算法在TSP问题中的应用[A];第十六届全国青年通信学术会议论文集(上)[C];2011年
中国博士学位论文全文数据库 前10条
1 姚文琳;汉语依存句法分析方法的研究与实现[D];中国海洋大学;2009年
2 陈韶斌;基于知识推理和视觉机理的遥感图像目标识别方法研究[D];华中科技大学;2010年
3 吴修国;面向目标的迁移工作流建模方法研究[D];山东大学;2010年
4 张彩珍;太阳能级硅(SOG-Si)光伏电池中多孔硅吸杂工艺及其神经网络分析方法研究[D];兰州大学;2011年
5 斯·劳格劳;现代蒙古语依存句法自动分析研究[D];内蒙古大学;2011年
6 陈佳林;柔性逻辑的健全性研究与应用[D];北京邮电大学;2011年
7 郑书朋;飞行模拟器的计算机系统实时调度与通信关键技术研究[D];哈尔滨工业大学;2011年
8 王葳;基于项目群组合模型的南水北调工程建设数字化决策分析研究[D];天津大学;2012年
9 黄松林;电磁半连铸工艺参数智能优化与智能控制的研究[D];东北大学;2009年
10 李勤超;基于本体的地理信息语义转换模型与方法研究[D];解放军信息工程大学;2011年
中国硕士学位论文全文数据库 前10条
1 岳广飞;基于二次搜索的搜索引擎技术研究[D];山东科技大学;2010年
2 王洋;基于潜在语义分析的智能搜索技术研究[D];哈尔滨工程大学;2010年
3 林华云;蒸汽发生器检修机械臂的视觉测量研究[D];哈尔滨工程大学;2010年
4 刘洋;基于本体的医保审计知识库构建研究[D];哈尔滨工程大学;2010年
5 王东阳;多智能体调度优化算法研究[D];哈尔滨工程大学;2010年
6 马稳;基于支持向量机的模拟电路故障诊断研究[D];大连理工大学;2010年
7 杨旭;基于模糊控制的变频变压供水系统的研究与应用[D];辽宁工程技术大学;2009年
8 祝文娟;基于遗传模糊神经网络的建筑工程造价估算模型[D];河南理工大学;2010年
9 徐旭;基于决策树的Web应用系统个性化身份验证研究[D];合肥工业大学;2010年
10 李天瑞;基于Agent的建筑图纸识别[D];长春工业大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 梁南元;书面汉语自动分词综述[J];计算机应用与软件;1987年03期
2 揭春雨 ,刘源 ,梁南元;论汉语自动分词方法[J];中文信息学报;1989年01期
3 何克抗,徐辉,孙波;书面汉语自动分词专家系统设计原理[J];中文信息学报;1991年02期
4 周强,俞士汶;汉语短语标注标记集的确定[J];中文信息学报;1996年04期
5 尹锋,林亚平;情报神经网络的设计与应用[J];情报学报;1996年03期
6 亢临生,张翠英;自然语言理解在科技文献数据库建设中的应用[J];情报学报;1996年06期
7 尹锋,林亚平;汉语自动分词技术的现状及发展趋势[J];软件世界;1996年12期
8 尹锋,林亚平;神经网络汉语自动分词技术[J];软件世界;1996年12期
9 张琪玉;我国情报语言20年来的进步与向21世纪前进的目标[J];图书馆;1999年04期
10 黄昌宁;中文信息处理中的分词问题[J];语言文字应用;1997年01期
【相似文献】
中国期刊全文数据库 前10条
1 詹卫东;;自然语言的自动分析与生成简介[J];术语标准化与信息技术;2010年04期
2 闫琪,张志伟,宁洪;用户搜索请求中限定成分的识别及提取[J];计算机工程与科学;2000年03期
3 左远清,周洞汝,王波;自然语言处理在搜索引擎信息检索中的应用[J];现代计算机;2002年07期
4 刘亚军,徐易,高莉莎;提高IQAS查询速度的一种方法[J];计算机工程与应用;2004年11期
5 杜波,田怀凤,王立,陆汝占;基于多策略的专业领域术语抽取器的设计[J];计算机工程;2005年14期
6 傅立云;刘新;;基于词典的汉语自动分词算法的改进[J];情报杂志;2006年01期
7 卢志茂;刘挺;李生;;统计词义消歧的研究进展[J];电子学报;2006年02期
8 贾君枝;邰杨芳;;FrameNet的语义类型研究[J];情报理论与实践;2007年05期
9 张莉;刘雅举;李东明;侯晨伟;;中文问句分类系统的分析[J];科技情报开发与经济;2007年25期
10 程彩虹;王惠临;解国栋;;基于潜在语义分析的自动词法学习技术[J];情报理论与实践;2008年05期
中国重要会议论文全文数据库 前10条
1 支流;段慧明;朱学锋;俞士汶;;中文缩略语知识库建设[A];第三届学生计算语言学研讨会论文集[C];2006年
2 白刚;张铮;丁宗尧;朱毅;;中文文本聚类在互联网搜索的研究与应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
3 刘群;张浩;白硕;;中文信息处理开放平台的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
4 支流;朱学锋;段慧明;俞士汶;;中文缩略语还原技术初探[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
5 刘开瑛;由丽萍;;汉语框架语义知识库构建工程[A];中文信息处理前沿进展——中国中文信息学会二十五周年学术会议论文集[C];2006年
6 郑家恒;谭红叶;王兴义;;基于模式匹配的中文专有名词识别[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
7 葛诗利;陈潇潇;;中国EFL学习者自动作文评分探索[A];第三届学生计算语言学研讨会论文集[C];2006年
8 宋柔;;自然语言处理中语言知识的基础性地位[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
9 杨丽鹏;林世平;;基于关联规则和自然语言处理技术的概念间非分类关系的抽取[A];2008通信理论与技术新进展——第十三届全国青年通信学术会议论文集(上)[C];2008年
10 孙玉芳;;中文信息处理与国家信息化建设[A];面向21世纪的科技进步与社会经济发展(上册)[C];1999年
中国重要报纸全文数据库 前10条
1 本报记者 姜靖;张全:给网络装上“电子眼”[N];科技日报;2009年
2 本报记者 祝蕾 见习记者 许凯;李晓戈:努力缩小国内外数字“鸿沟”[N];济南日报;2010年
3 金利;东北大学自然语言处理实验室形成特色[N];科技日报;2007年
4 小柯;张全:网络环境“清洁师”[N];广东科技报;2009年
5 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
6 沈建缘;洪小文:时尚科学家[N];经济观察报;2009年
7 记者 刘传书;微软在深圳设实验室[N];科技日报;2006年
8 郑昊;数据挖掘加工海量数据[N];中国计算机报;2007年
9 ;开天辟地第一回[N];计算机世界;2002年
10 刘洁;SAS分析产品链增添“新成员”[N];科技日报;2008年
中国博士学位论文全文数据库 前10条
1 卢延鑫;基于自然语言处理技术的循证医学信息提取研究[D];复旦大学;2011年
2 李良炎;基于词联接的自然语言处理技术及其应用研究[D];重庆大学;2004年
3 代印唐;基于语义网络的知识协作关键技术研究[D];复旦大学;2009年
4 王立欣;翻译标准自动量化方法研究[D];上海外国语大学;2007年
5 李莎莎;面向搜索引擎的自然语言处理关键技术研究[D];国防科学技术大学;2011年
6 周雅倩;最大熵方法及其在自然语言处理中的应用[D];复旦大学;2005年
7 易勇;计算机辅助诗词创作中的风格辨析及联语应对研究[D];重庆大学;2005年
8 谢学敏;基于动态流通语料库(DCC)的流行语释义信息自动提取研究[D];北京语言大学;2006年
9 屈刚;英汉双语短语对齐[D];上海交通大学;2007年
10 方宁;基于认知的文本语境生成和度量研究[D];上海大学;2009年
中国硕士学位论文全文数据库 前10条
1 全昌勤;基于语料库的汉语词义消歧方法研究[D];华中师范大学;2005年
2 张峰;基于自然语言处理的自动文摘系统[D];电子科技大学;2006年
3 丁卓冶;中文命名实体识别的研究[D];大连理工大学;2008年
4 孙继明;基于知网的汉语词义消歧研究[D];国防科学技术大学;2007年
5 孙广庆;基于语义范畴扩展的词义消歧的研究[D];哈尔滨工程大学;2008年
6 侯丽敏;基于网络的智能答疑系统的研究与实现[D];河南大学;2005年
7 崔昌利;俄语简单句述谓VP的模式化及自动识别[D];黑龙江大学;2005年
8 赵城利;基于Web的信息智能感知技术及应用[D];国防科学技术大学;2004年
9 张学;EBMT系统中翻译模板的抽取与匹配[D];大连理工大学;2006年
10 巩晓婷;基于文本的信息隐藏技术研究[D];福州大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026