收藏本站
《哈尔滨工业大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Web的领域词典构建技术研究

高锐  
【摘要】:领域术语是反映领域特征的词语,可以从一定规模的语料中自动抽取。领域术语自动抽取是自然语言处理中的一项重要任务,可以应用到领域本体构建、专业搜索、文本分类、类语言建模等诸多领域。同时,互联网上特定领域的文本资源非常丰富,因此,如何利用互联网上大规模的特定领域语料来构建领域词典就成为一个既有挑战性又有实际价值的课题。 本文系统阐述并实现了一套WEB领域词典构建技术。通过对系统功能的分析,我们把系统分成了WEB领域文本收集、语料预处理、领域新词发现和领域特征词抽取四部分。 与传统的领域术语抽取不同,我们首先需要收集WEB领域文本。该部分采用广度优先的算法获取特定类型的网页,我们针对其中的关键点快速的主题过滤算法展开了相关研究,设计并实现了一个基于向量空间模型的主题过滤模块。 在语料的预处理部分,我们采用了一种基于统计的网页正文抽取方法,首先对网页进行规范化处理表示为一棵DOM树,然后统计各节点的内容信息进行正文抽取,该方法实现简单,通用性好,在准确性和速度上基本都能满足系统的需要。 在领域新词发现部分,我们采用了基于统计和规则相结合的方法识别新词,在词频统计的基础上通过添加独立成词概率等层层过滤候选词。目前该模块综合F值可达70%以上。 在领域特征词抽取部分,我们使用基于正规化分布熵的领域词汇抽取策略,并且将位置成词概率引入该方法中,取得了不错的效果。 总之,通过对实验观察和结果分析,本课题实现了WEB领域文本收集、语料预处理、领域新词发现和领域特征词提取的关键技术,并在研究的基础上提出并实现了一套面向互联网领域词典构建的技术方案。
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:TP391.1

手机知网App
【引证文献】
中国硕士学位论文全文数据库 前2条
1 江磊;领域词典的构建及其在语法分析中的应用[D];南京邮电大学;2011年
2 石凯华;基于领域词典的汉语语块分析的研究[D];南京邮电大学;2011年
【参考文献】
中国期刊全文数据库 前10条
1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
2 刘桃;刘秉权;徐志明;王晓龙;;领域术语自动抽取及其在文本分类中的应用[J];电子学报;2007年02期
3 崔世起;刘群;孟遥;于浩;西野文人;;基于大规模语料库的新词检测[J];计算机研究与发展;2006年05期
4 郑家恒,杜永萍,刘昌钰;基于语料的动态获取专业词汇方法初探[J];计算机工程;2002年05期
5 刘建舟,何婷婷,骆昌日;基于语料库和网络的新词自动识别[J];计算机应用;2004年07期
6 朱靖波,姚天顺;基于FIFA算法的文本分类[J];中文信息学报;2002年03期
7 孙承杰,关毅;基于统计的网页正文信息抽取方法的研究[J];中文信息学报;2004年05期
8 邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇;面向Internet的中文新词语检测[J];中文信息学报;2004年06期
9 邢红兵;信息领域汉英术语的特征及其在语料中的分布规律[J];术语标准化与信息技术;2000年03期
10 王强军,李芸,张普;信息技术领域术语提取的初步研究[J];术语标准化与信息技术;2003年01期
【共引文献】
中国期刊全文数据库 前10条
1 梁峰;金莹;;基于Agent技术的语义网服务模型[J];安徽广播电视大学学报;2008年01期
2 陶皖,李平,廖述梅;当前基于本体的语义标注工具的分析[J];安徽工程科技学院学报(自然科学版);2005年02期
3 赵秀芳;;基于本体的农业信息检索[J];安徽农业科学;2006年10期
4 蔡曈;徐惠;吴群;;土壤质量聚类分析——以封丘县为例[J];安徽农业科学;2008年25期
5 周琼;黄河;;基于百度百科的农业专业词汇自动获取方法研究[J];安徽农业科学;2009年14期
6 薛荟;谭三清;;林业应用系统本体知识模型的构建方法研究[J];现代农业科技;2011年07期
7 李善飞;鲁延京;杨克巍;谭跃进;;武器装备体系能力形式化描述研究[J];兵工自动化;2010年02期
8 高博;朱东华;韩士雄;;一种智能化的信息采集系统的研究与实现[J];兵工学报;2009年S1期
9 黄洪;刘增良;余达太;周绍华;;一种具有免疫特征的智能数据分类分级模型[J];兵工学报;2010年12期
10 黄洪;刘增良;余达太;;一种智能化的数据分类、分级及保护模型[J];北京工业大学学报;2011年06期
中国重要会议论文全文数据库 前10条
1 李贵;张兆鑫;李征宇;韩子洋;;WEB环境下基于领域本体的语义匹配技术研究[A];科学发展与社会责任(A卷)——第五届沈阳科学学术年会文集[C];2008年
2 匡海波;李斌;王嘉灵;王帅;陈小荷;;汉英词汇隐喻属性的对比分析与互增益技术[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 李伟刚;张克亮;王慧兰;;基于航空领域本体知识库的语义检索研究[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 王建州;李廉;汪映海;;面向Ontology的电力信息系统的研究[A];2005年信息与通信领域博士后学术会议论文集[C];2005年
5 胡飞;;一种Web页面的主题区域搜索方法[A];2008年计算机应用技术交流会论文集[C];2008年
6 郑笈;李思昆;陆筱霞;;大规模场景绘制的存储数据调度组织研究[A];节能环保 和谐发展——2007中国科协年会论文集(一)[C];2007年
7 杨昆;王军;彭双云;;基于Ontology的空间信息互操作初步研究[A];中国地理信息系统协会第八届年会论文集[C];2004年
8 周蕾;李培峰;朱巧明;杨季文;;碎片分词与词结合提取的未登录词识别方法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
9 范志煜;肖兵;沈薇薇;;基于概率本体的态势估计应用研究[A];中国自动化学会中南六省(区)2010年第28届年会·论文集[C];2010年
10 贾凌燕;陆一平;;浅谈ontology方法及其发展[A];全国先进制造技术高层论坛暨制造业自动化、信息化技术研讨会论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 卜志国;海洋生态环境监测系统数据集成与应用研究[D];中国海洋大学;2010年
2 熊晶;海洋生态本体的建模方法研究及应用[D];中国海洋大学;2010年
3 张俐;面向概念设计方案选择的协同决策方法研究[D];华中科技大学;2010年
4 韩赟;高技术虚拟企业(HTVE)知识管理模式研究[D];哈尔滨理工大学;2009年
5 王亚萍;需求驱动的个性化产品配置设计方法研究[D];哈尔滨理工大学;2010年
6 游颖;客车信息集成控制系统配置设计中的分解技术研究[D];武汉理工大学;2010年
7 连莉;本体中非分类关系的理论体系研究[D];山东大学;2010年
8 魏巍;定制产品智能重组设计关键技术与方法研究及其应用[D];浙江大学;2010年
9 陈曦;基于子串的文本分割与主题标注研究[D];武汉大学;2009年
10 王德鑫;四路摄像头协同多重触控技术研究与实现[D];国防科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 厉颖;基于本体的服装领域知识表示的建模研究[D];山东科技大学;2010年
2 吕媛媛;基于本体的物流信息集成系统的研究[D];山东科技大学;2010年
3 许坤;基于本体的应急信息管理系统的研究与设计[D];郑州大学;2010年
4 王洋;基于潜在语义分析的智能搜索技术研究[D];哈尔滨工程大学;2010年
5 刘洋;基于本体的医保审计知识库构建研究[D];哈尔滨工程大学;2010年
6 刘海娇;基于魔力平台的需求分析系统的研究与实现[D];哈尔滨工程大学;2010年
7 杜娟;基于语义网格的知识地图资源组织研究与应用[D];哈尔滨工程大学;2010年
8 王乐超;Web环境下文献信息的提取与匹配研究[D];大连理工大学;2010年
9 卫剑平;基于本体的可定制用户界面研究与实现[D];大连理工大学;2010年
10 程波波;基于文本的茶学本体学习方法研究[D];安徽农业大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 李志辉;智能答疑系统中概念词典的设计与应用[J];重庆科技学院学报;2005年02期
2 孙宏林,俞士汶;浅层句法分析方法概述[J];当代语言学;2000年02期
3 郑伟发;;一种基于上下文的隐马尔可夫模型的汉语句法分析模型的实现[J];福建电脑;2009年07期
4 冯柳平;句法分析中的知识表示[J];桂林电子工业学院学报;1999年02期
5 昝红英,俞士汶;CCD及其应用[J];广西师范大学学报(自然科学版);2003年01期
6 赵军,黄昌宁;结合句法组成模板识别汉语基本名词短语的概率模型[J];计算机研究与发展;1999年11期
7 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
8 李珩,朱靖波,姚天顺;基于Stacking算法的组合分类器及其应用于中文组块分析[J];计算机研究与发展;2005年05期
9 焦慧;刘迁;贾惠波;;一种基于词编码的中文文档格式[J];计算机科学;2008年10期
10 周强,孙茂松,黄昌宁;汉语句子的组块分析体系[J];计算机学报;1999年11期
中国博士学位论文全文数据库 前3条
1 蔺旭东;基于语义的XML查询及规范化研究[D];北京交通大学;2010年
2 张春霞;领域文本知识获取方法研究及其在考古领域中的应用[D];中国科学院研究生院(计算技术研究所);2005年
3 李卫;领域知识的获取[D];北京邮电大学;2008年
中国硕士学位论文全文数据库 前10条
1 王霞;汉语动宾搭配自动识别研究[D];北京语言文化大学;2003年
2 孟静;面向句法分析的语块划分体系的研究[D];山西大学;2005年
3 罗恒;应用条件随机场进行汉语词法分析、语块分析研究[D];兰州理工大学;2006年
4 毋琳;特定领域问答系统中通用语义理解框架的设计与实现[D];河南大学;2007年
5 汪锦绣;从两部词典看词类标注[D];安徽大学;2007年
6 罗雪兵;汉语组块识别的研究[D];大连理工大学;2007年
7 邹文科;基于本体技术的语义检索及其语义相似度研究[D];北京邮电大学;2008年
8 于静;汉语句子的组块识别研究[D];大连理工大学;2008年
9 王朝晖;基于J2EE的民航应用词典系统开发[D];中国民航大学;2009年
10 史燕;基于HNC的汉语句子相似度算法的研究[D];江苏大学;2009年
【二级参考文献】
中国期刊全文数据库 前10条
1 张德鑫;“水至清则无鱼”——我的新生词语规范观[J];北京大学学报(哲学社会科学版);2000年05期
2 张绍华,徐林昊,杨文柱,薛文玲,李天柱;基于样本实例的Web信息抽取[J];河北大学学报(自然科学版);2001年04期
3 李晓黎,刘继敏,史忠植;概念推理网及其在文本分类中的应用[J];计算机研究与发展;2000年09期
4 高军 ,王腾蛟 ,杨冬青 ,唐世渭;基于Ontology的Web内容二阶段半自动提取方法[J];计算机学报;2004年03期
5 韩客松,王永成,陈桂林;无词典高频字串快速提取和统计算法研究[J];中文信息学报;2001年02期
6 周正宇,李宗葛;一种新的基于统计的词典扩展方法[J];中文信息学报;2001年05期
7 宋睿华,马少平,陈刚,李景阳;一种提高中文搜索引擎检索质量的HTML解析方法[J];中文信息学报;2003年04期
8 孙茂松,黄昌宁,高海燕,方捷;中文姓名的自动辨识[J];中文信息学报;1995年02期
9 刘挺,吴岩,王开铸;串频统计和词形匹配相结合的汉语自动分词系统[J];中文信息学报;1998年01期
10 黄萱菁;吴立德;王文欣;叶丹瑾;;基于机器学习的无需人工编制词典的切词系统[J];模式识别与人工智能;1996年04期
中国重要会议论文全文数据库 前4条
1 张普;;流通度在IT术语识别中的应用分析——关于术语、术语学、术语数据库的研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
2 李芸;王强军;张普;;信息技术领域术语自动提取和动态更新研究[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
3 朱凯;周杰;何婷婷;;因特网语料自动下载分析软件的设计[A];第一届学生计算语言学研讨会论文集[C];2002年
4 陈文亮;朱靖波;姚天顺;张宇新;;基于Bootstrapping的领域词汇自动获取[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
【相似文献】
中国期刊全文数据库 前10条
1 ;中国术语学建设书系[J];中文信息学报;2011年04期
2 张金忠,郑述谱;"神五"飞天引发的术语学思考[J];术语标准化与信息技术;2004年03期
3 ;第二届术语学、标准化与技术传播国际学术会议将在北京举行[J];术语标准化与信息技术;1997年02期
4 蔺荪;香港术语学会正式成立[J];术语标准化与信息技术;1999年04期
5 ;李忠海赴维也纳参加韦斯特奖授奖仪式[J];术语标准化与信息技术;2006年02期
6 ;维也纳第十四期术语学夏日学校简况[J];术语标准化与信息技术;1997年03期
7 于喜海;术语学手册(8)[J];术语标准化与信息技术;1996年01期
8 ;消息动态[J];术语标准化与信息技术;2005年03期
9 ;术语学、术语标准化高级培训及研讨班将在京举办[J];术语标准化与信息技术;1997年02期
10 粟武宾;术语学──本地化不可或缺的基础理论[J];术语标准化与信息技术;1998年01期
中国重要会议论文全文数据库 前10条
1 ;哈尔滨工业大学[A];2005'全国微波毫米波会议论文集(第一册)[C];2006年
2 ;第25届中国控制会议[A];第25届中国控制会议论文集(上册)[C];2006年
3 王宇;;哈尔滨工业大学建筑学院博士学位研究生论文目录(1991-2001)[A];建筑史论文集(第16辑)[C];2002年
4 刘暾;;杂感[A];哈尔滨工业大学首届“老有所为”论坛论文集[C];2006年
5 ;哈尔滨工业大学复合材料与结构研究所[A];庆祝中国力学学会成立50周年暨中国力学学会学术大会’2007论文摘要集(上)[C];2007年
6 ;河南工业大学粮油食品学院[A];2009年中国农业工程学会农产品加工及贮藏工程分会学术年会论文集[C];2009年
7 朱逊;杨维;;哈尔滨城市冰雪景观研究[A];中国城市规划学会2001年会论文集[C];2001年
8 ;启事[A];中国钢协钢-混凝土组合结构协会第八次年会论文集[C];2001年
9 ;合影[A];庆贺刘锡良教授执教五十周年暨第一届全国现代结构工程学术报告会论文集[C];2001年
10 ;第三届电子测量与仪器学报编辑委员会[A];第20届测控、计量、仪器仪表学术年会论文集[C];2010年
中国重要报纸全文数据库 前10条
1 通讯员  黄超;向西追寻梦想 奉献星火燎原[N];中国教育报;2006年
2 本报记者  朱伟光 通讯员  黄超;从“双层管理”到“三者耦合”[N];光明日报;2006年
3 高天赋;哈尔滨工业大学生源基地达128个[N];黑龙江日报;2006年
4 通讯员  高继慧 黄超;在科研一线激情燃烧的恒星[N];中国教育报;2006年
5 关轶男 屈兵 记者 郭铭华;哈尔滨海关与哈工大合作规范科教用品通关行为[N];黑龙江日报;2008年
6 陈华;推进新型航天防热陶瓷复合材料应用[N];科技日报;2007年
7 张志强;贫困学子开学前一天 干警又将学费送到家[N];北方法制报;2006年
8 黄超 记者  李笑冰;博士生把科技送到生产一线[N];中国教育报;2006年
9 付比兴 本报记者 李兵;“开学在即,我还在为学费发愁”[N];锦州日报;2006年
10 见习记者 孙晶晶;工大首创实际控制人生变[N];中国证券报;2008年
中国博士学位论文全文数据库 前10条
1 叶其松;术语学核心术语研究[D];黑龙江大学;2010年
2 吕冰海;陶瓷球双转盘研磨方式及成球机理的研究[D];哈尔滨工业大学;2007年
3 周浪;中文术语抽取若干问题研究[D];南京理工大学;2010年
4 任雪昆;非可加测度与模糊Riemann-Stieltjes积分[D];哈尔滨工业大学;2008年
5 于英;城市空间形态维度的复杂循环研究[D];哈尔滨工业大学;2009年
6 李丽双;领域本体学习中术语及关系抽取方法的研究[D];大连理工大学;2013年
7 刘扬;足球视频场景分析与三维重建的关键技术研究[D];哈尔滨工业大学;2006年
8 邵兵;激光星间通信终端精瞄微定位系统关键技术的研究[D];哈尔滨工业大学;2006年
9 刘长运;先减压式油田注水恒流堵塞器动力学和可靠性的研究[D];哈尔滨工业大学;2007年
10 苏统华;脱机中文手写识别—从孤立汉字到真实文本[D];哈尔滨工业大学;2008年
中国硕士学位论文全文数据库 前10条
1 高锐;基于Web的领域词典构建技术研究[D];哈尔滨工业大学;2008年
2 刘利刚;中文名实体识别与新词发现技术研究[D];哈尔滨工业大学;2007年
3 罗敏鹏;基于TMS320F2812的气动伺服控制器的研制[D];哈尔滨工业大学;2006年
4 刘威;基于小波方法的水锤偏微分方程组数值模拟[D];哈尔滨工业大学;2006年
5 朱青;数字激光测距机回波采集和处理电路设计[D];哈尔滨工业大学;2007年
6 高俊生;PXI总线嵌入式控制器研制[D];哈尔滨工业大学;2006年
7 李萌;直驱式六自由度运动平台单通道装置研制[D];哈尔滨工业大学;2006年
8 王蔡健;光电式锥螺纹检测系统的研究[D];哈尔滨工业大学;2006年
9 王亚丽;基于DSP的高速图像采集及处理系统设计[D];哈尔滨工业大学;2007年
10 陈远洋;PCI总线GJB289A仿真卡的研制[D];哈尔滨工业大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026