收藏本站
《大连理工大学》 2005年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Internet的信息抽取技术研究

李跃进  
【摘要】:随着Internet上信息的迅猛增长,网络已成为最为重要的知识库,人们对高效率的信息获取技术的需求越来越迫切。因此,应用信息抽取技术,从网页中自动地抽取有用信息是的智能信息处理的一个重要研究课题。信息抽取系统从Internet上抽取的信息不仅可以直接提供给用户,还可以作为构建智能查询系统和数据挖掘系统的基础,有着广阔的应用前景。目前,信息抽取技术的研究已成为国际上自然语言处理领域的研究热点之一。 本文首先介绍了信息抽取技术的发展历程、关键技术、困难问题和评价标准,回顾了信息抽取技术研究的进展,对几种典型的Web信息抽取技术进行了综合比较。 本文提出一种改进的Wrapper归纳方法,半自动地生成Wrapper程序,提供一个很友好的可视化的交互式用户界面,让用户以可视化、交互式的方式对样本页面中的信息进行标记,用户既不需要手工地转换HTML文档,也不需要更多相关语言学知识,只需要直接在浏览器显示的样本页面中对文本做出标记。系统通过学习用户标记的信息集,实现包装器的自动生成,对同类网页进行信息抽取。 考虑到中文处理的特点和信息抽取的目标要求,本文利用基于最大熵模型的中文组块分析方法,对文本进行浅层句法分析。文中明确了中文组块的定义,列出了模型中所有的组块类型及组块标注符号,然后讨论了模型中组块的划分识别及特征选取,给出了相关的特征选择过程和算法。本文引入基于聚类的模式生成方法自动生成抽取模式,采用模式匹配的方法,实现中文自由文本信息的自动抽取。本文利用数据库与XML相结合的方式组织信息库,实现信息的Web表示。 在此基础上,本文设计并实现了一个基于Internet的军事演习信息抽取系统,并就信息获取、信息抽取、信息库组织及用户查询进行详细介绍,最后给出了实验结果和系统分析。
【学位授予单位】:大连理工大学
【学位级别】:硕士
【学位授予年份】:2005
【分类号】:TP393.09

免费申请
【引证文献】
中国期刊全文数据库 前5条
1 余承健;;基于表格语义的Web信息抽取方法的研究[J];电脑知识与技术;2008年12期
2 何振华;李兴;;电信市场竞争对手信息搜集系统开发[J];电脑知识与技术;2010年17期
3 程风刚;;基于智能Agent的个性化信息服务模型的构建[J];计算机时代;2009年10期
4 马静;倪辉峰;;基于模式匹配抽取技术的网上产品情报获取[J];情报理论与实践;2007年02期
5 冯硕;李书琴;杨会君;;基于Web挖掘的化学物质信息提取应用研究[J];计算机工程与设计;2012年08期
中国硕士学位论文全文数据库 前10条
1 郭伟;互联网环境下企业竞争情报系统研究[D];江苏科技大学;2011年
2 霍焰;基于非结构化文档数据的抽取与分析系统的信息抽取[D];天津大学;2012年
3 石宇;基于XML的Web信息抽取与集成技术的研究[D];大连海事大学;2006年
4 郭峰;面向行业搜索引擎的WEB文本挖掘技术研究[D];兰州大学;2006年
5 何莉;基于Web信息抽取的个性化信息服务研究与实现[D];华东师范大学;2007年
6 程书红;基于XML的Web信息抽取设计与实现[D];重庆大学;2007年
7 那宝贵;面向合作伙伴选择的中文WEB信息获取系统研究[D];辽宁工程技术大学;2007年
8 张涛;基于WEB文本挖掘的企业竞争情报收集系统[D];辽宁工程技术大学;2008年
9 张沛强;未成年人上网内容过滤系统的设计与实现[D];华东师范大学;2008年
10 苗圣法;搜索引擎和数据仓库在校友资源管理中的应用与研究[D];兰州大学;2009年
【共引文献】
中国期刊全文数据库 前10条
1 张世海,刘晓燕,欧进萍;高层结构智能选型知识发现及方法比较[J];四川建筑科学研究;2005年05期
2 潘洁珠;半结构化数据及其数据模型[J];安徽教育学院学报;2003年06期
3 赵鹏,倪志伟,贾瑞玉;基于数据挖掘技术的范例库维护[J];安徽大学学报(自然科学版);2003年02期
4 梁佩佩,杨丽萍;基于模糊关系数据库的聚类算法研究[J];安徽职业技术学院学报;2004年01期
5 章曙光;耿焕同;;一种改进的基于聚类的范例添加删除维护模型[J];安徽建筑工业学院学报(自然科学版);2006年01期
6 李永森;潘若愚;李传军;;公共设施选址优化研究[J];安徽建筑工业学院学报(自然科学版);2009年06期
7 李红梅;贺小扬;王雪冬;;粗糙集理论在农业知识发现中的应用研究[J];安徽农业科学;2008年06期
8 唐超礼;魏圆圆;;基于数据挖掘的植保预测系统[J];安徽农业科学;2008年12期
9 耿焕同,陈少军;一种基于传统VSM和词共现概念的中文文本聚类的研究[J];安徽师范大学学报(自然科学版);2005年01期
10 吴昊;耿焕同;吴祥;;一种基于聚类分析的BBS主题发现算法研究[J];安徽师范大学学报(自然科学版);2009年01期
中国重要会议论文全文数据库 前10条
1 陈红兵;;基于XML的电子政务信息集成框架[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 章曙光;;基于CBR的电力负荷预测系统的研究与实现[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
3 查星云;;一种钢铁企业金属损耗平衡分析方法[A];全国冶金自动化信息网2012年年会论文集[C];2012年
4 通拉嘎;赵小兵;;论蒙古语词素切分的实现[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
5 汤广富;马春实;刘欢;付强;;模糊聚类快速实用方法[A];第十四届全国信号处理学术年会(CCSP-2009)论文集[C];2009年
6 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
7 由立真;穆志纯;;基于GHSOM网络预测客户欺诈行为[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
8 韦艳艳;李陶深;;基于Stacking框架的学习机制研究[A];广西计算机学会2004年学术年会论文集[C];2004年
9 令狐大智;李陶深;;一种面向混合数据的自反馈模糊聚类分析算法[A];广西计算机学会2007年年会论文集[C];2007年
10 姚正;;关于决策树分类模型的评分函数研究[A];第11届海峡两岸信息管理发展策略研讨会论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 王杰;基于人工智能的乒乓球比赛技战术诊断与评估研究[D];上海体育学院;2010年
2 牟向伟;模糊语义个性化推荐系统在电子政务中的应用研究[D];大连海事大学;2010年
3 全惠敏;电能质量相关信号的S变换检测算法及应用研究[D];湖南大学;2010年
4 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
5 戴小鹏;知识网格及其在农业生物灾害预警中关键技术研究[D];湖南农业大学;2010年
6 管红波;食品连锁经营中的有效客户反应研究[D];东华大学;2010年
7 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
8 陈进杰;城市轨道交通项目广义全寿命周期成本理论与应用研究[D];北京交通大学;2011年
9 张小平;主题模型及其在中医临床诊疗中的应用研究[D];北京交通大学;2011年
10 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
3 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
4 吴香庭;基于遗传算法的K-means聚类方法的研究[D];山东科技大学;2010年
5 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
6 刘洋;基于本体的医保审计知识库构建研究[D];哈尔滨工程大学;2010年
7 冯为军;基于粗糙集理论的数据挖掘算法的研究[D];哈尔滨工程大学;2010年
8 孙原;基于酉变换的权威页面挖掘算法研究[D];哈尔滨工程大学;2010年
9 刘洁;基于关联挖掘的深层网络接口模式匹配方法的研究[D];哈尔滨工程大学;2010年
10 李晓光;数据挖掘技术在高校招生和教务管理中的应用[D];哈尔滨工程大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 邱怀姗,朱群雄;基于MS Analysis Services的OLAP分析系统的设计与实现[J];北京化工大学学报(自然科学版);2004年01期
2 王茹,宋瀚涛,陆玉昌;基于树自动机的网页数据抽取[J];北京理工大学学报;2004年09期
3 吴晓伟,陶仁泉,谢春讯;我国企业竞争情报系统的现状及其发展思路[J];商业研究;2004年17期
4 李纪;孙颖;;企业竞争情报系统绩效评价指标体系的研究[J];商业研究;2006年16期
5 朱靖波,姚天顺;中文信息自动抽取[J];东北大学学报;1998年01期
6 高立敏;李俊;肖艳芹;;基于Web的网络信息挖掘技术研究[J];电脑知识与技术;2010年16期
7 杨梁彬;文本检索的潜在语义索引法初探[J];大学图书馆学报;2003年06期
8 刘永明;董彩凤;;异构数据库系统集成的应用研究[J];电子商务;2007年11期
9 林亚平,刘云中,周顺先,陈治平,蔡立军;基于最大熵的隐马尔可夫模型文本信息抽取[J];电子学报;2005年02期
10 周俊生;戴新宇;尹存燕;陈家骏;;基于层叠条件随机场模型的中文机构名自动识别[J];电子学报;2006年05期
中国博士学位论文全文数据库 前2条
1 聂培尧;基于XML的半结构数据管理及数据集成问题研究[D];西北工业大学;2002年
2 滕伟;面向Web信息集成的Web信息抽取中若干关键问题的研究[D];上海交通大学;2007年
中国硕士学位论文全文数据库 前10条
1 任豪栋;基于Web日志挖掘的原型系统研究与实现[D];西华大学;2011年
2 陈小宁;Web信息资源获取技术的研究与实现[D];暨南大学;2001年
3 张绍华;基于实例的Web信息抽取[D];河北大学;2001年
4 唐飞龙;Internet信息获取技术的研究[D];合肥工业大学;2002年
5 冶红;基于数据挖掘的Web挖掘系统的研究[D];大连理工大学;2003年
6 李钝;基于粗糙集理论的文本挖掘技术研究[D];山西大学;2003年
7 张承明;基于Web的数据挖掘研究[D];山东科技大学;2003年
8 陈少飞;Web信息抽取规则的优化及规则的XQuery表达[D];河北大学;2003年
9 王维花;WEB挖掘研究和基于多层次数据库的智能化WEB挖掘引擎系统的实现[D];西安理工大学;2004年
10 鲍峰;构建企业竞争情报系统的研究[D];南京航空航天大学;2004年
【二级引证文献】
中国期刊全文数据库 前9条
1 邓箴;;基于二维关联边条件随机场的Web信息抽取[J];价值工程;2010年34期
2 李娜;吴清强;侯丽;;情报分析中五项新技术的应用解析[J];情报科学;2008年05期
3 熊回香;陈姗;许颖颖;;基于Web 3.0的个性化信息聚合技术研究[J];情报理论与实践;2011年08期
4 代文征;;Web用户兴趣模型研究[J];软件导刊(教育技术);2011年06期
5 李艳;;我国技术竞争情报的理论与实践研究[J];图书情报工作;2008年10期
6 肖斌;;基于智能代理的数字图书馆主动信息服务[J];图书馆学刊;2012年10期
7 许鑫;郭金龙;姚占雷;;基于Web文本挖掘的行业态势分析——以2011上海车展为例[J];图书情报工作;2012年16期
8 靳小川;刘万军;赵雷;;基于正则表达式的企业主页信息抽取[J];计算机系统应用;2010年08期
9 珠杰;罗潘;;基于HTML Parser的网页信息提取技术研究[J];西藏大学学报(自然科学版);2010年01期
中国硕士学位论文全文数据库 前10条
1 任昌;基于多特征融合的网页对象自动定位技术研究[D];中北大学;2011年
2 吴华;基于SOA架构的法院档案管理信息系统研究[D];天津大学;2012年
3 陈建国;基于特征的传统科技论文结构化析取关键技术研究[D];湖南大学;2011年
4 王婷;面向授权管理的动态网页资源描述与搜集技术研究[D];解放军信息工程大学;2007年
5 王芳;基于FCA的产品信息提取和结构化显示方法[D];河南大学;2008年
6 轩艳艳;基于XML的Web信息抽取研究与实现[D];武汉理工大学;2008年
7 孔莉;基于神经网络的Deep Web数据合并技术的研究[D];苏州大学;2008年
8 杨建锋;虚拟学习社区中学习资源自动生成系统的设计与实现[D];西北大学;2009年
9 张净;Web信息自动抽取技术的研究与实现[D];武汉理工大学;2009年
10 戴婕;面向公共服务的化学化工情报研究[D];华东师范大学;2009年
【相似文献】
中国期刊全文数据库 前10条
1 张云冬;徐和祥;胡运发;邓河;;基于个性化图书馆的Deep Web Crawler研究与实现[J];计算机应用与软件;2009年04期
2 李跃进;赵晶;林鸿飞;;基于Internet的军事演习信息抽取系统[J];计算机工程与应用;2006年14期
3 贾美英;杨炳儒;郑德权;曹鸿强;杨靖;张练;;基于模式匹配的军事演习情报信息抽取[J];现代图书情报技术;2009年09期
4 李胜利;李昌清;袁平鹏;刘英书;;基于Web的电子期刊元数据信息抽取方法[J];华中科技大学学报(自然科学版);2007年12期
5 郑彦宁;化柏林;张新民;;信息检索与信息抽取差异性探析[J];图书情报工作;2007年10期
6 邓擘;郑彦宁;樊孝忠;;信息抽取中实体关系模式的可信度评估[J];情报理论与实践;2009年12期
7 王胜,朱明;基于最大熵马尔可夫模型的地址信息抽取[J];计算机工程与应用;2005年21期
8 黄锋;吴华瑞;;一种自适应的Web信息抽取规则自动生成方法[J];广西师范大学学报(自然科学版);2010年01期
9 马静;倪辉峰;;基于模式匹配抽取技术的网上产品情报获取[J];情报理论与实践;2007年02期
10 徐健;张智雄;吴振新;;实体关系抽取的技术方法综述[J];现代图书情报技术;2008年08期
中国重要会议论文全文数据库 前10条
1 崔欣辰;曲宁;陈青华;;隐马尔可夫模型在Web信息抽取中的几点改进[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
2 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
3 吴雪军;朱靖波;王会珍;叶娜;张宇新;;Co-Training的机器学习方法在中文机构名识别中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
4 姜吉发;王树西;;一种自举的二元关系获取方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
5 朱江涛;蔡东风;张桂平;;一种基于网络的英文缩略语信息的自动抽取方法[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
6 徐林昊;杨文柱;陈少飞;郝亚南;李天柱;;基于XPath的Web信息抽取[A];第十九届全国数据库学术会议论文集(研究报告篇)[C];2002年
7 乔春庚;肖诗斌;孙丽华;施水才;;规则与统计相结合的案件名称识别[A];第三届学生计算语言学研讨会论文集[C];2006年
8 夏云庆;黄锦辉;;中文网络非正规语言处理的方法与实践[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
9 周国栋;孔芳;朱巧明;;指代消解:国内外研究现状及趋势[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
10 徐云风;蒋文蓉;;Web页面信息抽取的分析与研究[A];IT服务促进企业信息化——第十一届中国Java技术及应用交流大会文集[C];2008年
中国重要报纸全文数据库 前10条
1 史小敏;前景广阔的信息抽取技术[N];解放军报;2004年
2 彭芳;搜索也专业[N];中国计算机报;2004年
3 本报记者 王翌;8848:优化EC流程[N];计算机世界;2004年
4 上海交通大学APEX数据和知识管理实验室 王昊奋俞勇;语义Web推动下一代搜索[N];计算机世界;2007年
5 司静辉;直击数字环境下情报技术发展动向[N];科技日报;2007年
6 董振东;到用户中去[N];中国计算机报;2003年
7 本报记者 边歆;泥上指爪印深痕[N];网络世界;2005年
8 陈胜权;综合分析引擎提升UTM性能[N];中国计算机报;2007年
9 中国物流联盟网总经理 张铎;基于Internet的综合物流代理系统[N];国际商报;2000年
10 天津塘沽海军后勤学院计算机中心 董翔英;基于Internet的现代远程教学交互方式[N];网络世界;2001年
中国博士学位论文全文数据库 前10条
1 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
2 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
3 李传席;基于本体的自适应Web信息抽取方法研究[D];中国科学技术大学;2012年
4 黄健斌;基于条件概率图模型的Deep Web数据抽取与集成研究[D];西安电子科技大学;2007年
5 张奇;信息抽取中实体关系识别研究[D];中国科学技术大学;2010年
6 胡国平;基于超大规模问答对库和语音界面的非受限领域自动问答系统研究[D];中国科学技术大学;2007年
7 张乃洲;实体搜索爬虫和信息抽取研究[D];武汉大学;2011年
8 余传明;基于本体的语义信息系统研究[D];武汉大学;2005年
9 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年
10 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
中国硕士学位论文全文数据库 前10条
1 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
2 杨柱;基于DIV标签树的网页主题信息抽取方法[D];湖南大学;2010年
3 田红;表格信息抽取引擎的设计与实现[D];西北师范大学;2004年
4 杨文柱;基于领域知识和信息抽取的个性化Web查询系统[D];河北大学;2002年
5 张志强;Web信息抽取技术研究与基于Web service的实现[D];河北大学;2004年
6 陈兰;基于ontology的信息抽取系统的研究与实现[D];电子科技大学;2004年
7 孟令谦;基于ontology的中文信息抽取系统的研究与实现[D];电子科技大学;2004年
8 王花;Web信息抽取技术研究[D];西北农林科技大学;2010年
9 杨秀丽;基于网页内容分析的Web信息抽取技术及其应用[D];河北科技大学;2010年
10 廉成洋;基于树结构的Web信息抽取技术研究[D];南京航空航天大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026