收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

DynamicView中信息抽取系统的设计与实现

何娟  
【摘要】: 万维网(WWW)技术的不断发展促进了Web信息检索(Web Information Retrieval,WIR)和Web信息抽取技术(Web Information Extraction,WIE)的迅猛发展,如何从Web中抽取相关信息引起了人们的广泛关注。 Web信息检索可用于从Web上的海量页面中找到相关信息所在的页面地址。与Web信息检索不同,Web信息抽取可以从一个具体的Web页面中抽取出相关信息,并以结构化的形式描述。 现有的Web信息抽取算法可以分为以下两类:一是基于页面半结构化特征的信息抽取,例如html页面结构文法推断(Grammar Inference)和页面分段(Page Segmentation);二是基于自然语言文本特征的抽取,例如模版-槽填充(Template Filling)。与自然语言文本(Free Text)信息抽取相比,Web上某个具体领域中已标记的页面数量较少,因此如何在减少手工工作量的基础上保证较高的信息抽取系统的精度和召回率是有待解决的重要问题之一。 本文在分析现有信息抽取算法的基础上,从DynamicView项目中信息抽取面临的问题出发,以准确探测研究员主页中的研究兴趣为目的,设计了基于列表页面导航特性和结构模版规则参数学习的研究员主页发现算法和基于页面分段技术的研究兴趣信息抽取算法。前者用于获取研究员的姓名及其主页地址,它将Web信息检索技术和Web信息抽取技术结合,能够高精度地获取具有相同特征的页面集合的问题。后者通过基于分隔符的页面分段算法过滤无关数据,并根据本体表示的领域知识从相关段落中抽取研究兴趣。本文将这两种方法运用到DynamicView系统中,实验结果证明这种方法是高效的、可靠的。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 吕建;徐家福;;软件自动化的智能化途径[J];科学通报;1993年02期
2 胡俊翘,胡友兰,李德群;改进的基因遗传算法在专家系统机器学习中的应用[J];计算机辅助工程;1994年01期
3 阎明印,栾江南,杨叔子;具有学习功能的机械设备智能诊断系统[J];沈阳工业学院学报;1997年04期
4 高阳;周志华;孙晨;陈兆乾;陈世福;;从FTART网络中抽取if-then规则[J];模式识别与人工智能;1999年04期
5 吴艳;刘建波;;电子邮件自动处理的用户模型设计[J];沈阳化工学院学报;2005年04期
6 胡彩霞;;利用决策树获取搜索结果页面中的匹配数[J];科技咨询导报;2007年06期
7 刘星毅;农国才;;几种不同缺失值填充方法的比较[J];南宁师范高等专科学校学报;2007年03期
8 鲁晓南;接标;;一种基于个性化邮件特征的反垃圾邮件系统[J];计算机技术与发展;2009年08期
9 王存睿;文晋;;基于人脸检测的教室信息智能采集系统[J];大连民族学院学报;2009年05期
10 阎巍;;基于决策树的软件项目估算方法[J];计算机工程与科学;2009年08期
11 王厚峰;;计算语言学歧义消解研究——兼介绍北京大学计算语言学教育部重点实验室[J];术语标准化与信息技术;2010年03期
12 苏剑波;;第3届IEEE机器学习与控制论国际会议[J];国际学术动态;2005年02期
13 陈可佳;;社会网络分析中的机器学习技术综述[J];南京邮电大学学报(自然科学版);2011年03期
14 朱程辉,王建平,熊范纶,顾绳谷;基于归纳的自动知识获取系统[J];安徽工学院学报;1994年04期
15 王继成,吕维雪;一种基于符号神经网络的知识获取方法[J];计算机学报;1995年12期
16 张家重,段会川,范绍军,江志超;机器学习与问题求解[J];山东师大学报(自然科学版);1995年01期
17 李军,王鑫,常荣清;基于机器学习的兼类词词性标注[J];信息技术;1999年12期
18 杨清,杨岳湘,翟国平;层次分类中的机器学习方法研究[J];现代计算机;1999年08期
19 谷强,汪叔淳;智能制造系统中机器学习的研究[J];计算机工程与科学;2000年01期
20 何佳洲;周志华;尹旭日;陈世福;;一种通用的故障诊断系统设计方法[J];模式识别与人工智能;2000年04期
中国重要会议论文全文数据库 前10条
1 徐礼胜;李乃民;王宽全;张冬雨;耿斌;姜晓睿;陈超海;罗贵存;;机器学习在中医计算机诊断识别系统中的应用思考[A];第一届全国中西医结合诊断学术会议论文选集[C];2006年
2 李月伦;常宝宝;;基于最大间隔马尔可夫网模型的汉语分词方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
3 谢世朋;胡茂林;;基于局部仿射区域对稀疏纹理分类的研究[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
4 夏诏杰;郭力;李晓霞;;化学主题网络爬虫的研究[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
5 张郴;;基于神经网络集成的旅游需求预测模型[A];中国地理学会百年庆典学术论文摘要集[C];2009年
6 吴宪祥;于培松;万旻;倪伟;郭宝龙;;RoboCup中智能体的参数优化和学习[A];马斯特杯2003年中国机器人大赛及研讨会论文集[C];2003年
7 杜晓凤;丁友东;;FloatBag选择性神经网络集成及其在人脸检测中的应用[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
8 杨磊;黎志成;胡斌;;基于人工神经网络的调度规则确定专家系统[A];第七届计算机模拟与信息技术学术会议论文集[C];1999年
9 张燕;张付志;;跨系统个性化服务方法和用户模型研究[A];第三届和谐人机环境联合学术会议(HHME2007)论文集[C];2007年
10 陈时敏;韩心慧;;基于机器学习的网页木马识别方法研究[A];第26次全国计算机安全学术交流会论文集[C];2011年
中国博士学位论文全文数据库 前10条
1 何斌;基于可拓逻辑的机器学习理论与方法[D];华南理工大学;2005年
2 王国胜;支持向量机的理论与算法研究[D];北京邮电大学;2008年
3 胡崇海;基于图的半监督机器学习[D];浙江大学;2008年
4 刘长安;基于实例归纳的工艺规划方法及集成CAPP系统研究[D];山东大学;2003年
5 李忠伟;支持向量机学习算法研究[D];哈尔滨工程大学;2006年
6 钟志;基于异常行为辨识的智能监控技术研究[D];上海交通大学;2008年
7 易勇;计算机辅助诗词创作中的风格辨析及联语应对研究[D];重庆大学;2005年
8 徐海祥;基于支持向量机方法的图像分割与目标分类[D];华中科技大学;2005年
9 牛晓太;多模式智能谈判支持系统的理论与方法研究[D];武汉大学;2004年
10 赵玉鹏;机器学习的哲学探索[D];大连理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 何娟;DynamicView中信息抽取系统的设计与实现[D];东南大学;2006年
2 刘孟旭;基于EP的多分类器表决分类算法[D];郑州大学;2004年
3 向光;基于机器学习和数据挖掘的入侵检测技术研究[D];东北大学;2005年
4 亢华爱;入侵检测系统中基于代价敏感分类算法的研究[D];太原理工大学;2005年
5 张金伟;基于Agent网络答疑系统的设计与实现[D];华东师范大学;2006年
6 王晶;支持向量机及其在癌症诊断中的应用研究[D];东北师范大学;2006年
7 万辉;自主载体语义级环境建模和规划的研究与实现[D];沈阳工业大学;2006年
8 黄际洲;聊天机器人知识库自动抽取算法的研究与实现[D];重庆大学;2006年
9 孟祥山;工作流流程优化技术的应用研究[D];国防科学技术大学;2004年
10 芦明;语义网服务中基于机器学习的本体映射研究[D];大连海事大学;2008年
中国重要报纸全文数据库 前10条
1 本报记者 余建斌;机器学习与互联网搜索[N];人民日报;2011年
2 黎骊/文 [美] Tom M.Mitchell 著;机器学习与智能化社会[N];中国邮政报;2003年
3 记者 何边;网络化激活人工智能[N];计算机世界;2001年
4 本报记者 张晔通讯员 李玮;周志华:永不墨守成规[N];科技日报;2008年
5 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
6 傅秋瑛;默默耕耘数十载 自主创新结硕果[N];科技日报;2006年
7 王育昕吴红梅;高水平原创性科技成果大量涌现[N];新华日报;2008年
8 冯卫东;科技将这样改变我们的生活[N];科技日报;2008年
9 杰逊;微软的第一个搜索技术掌门[N];中国计算机报;2006年
10 阮光尘朱元春;多层构建邮件免疫机能[N];中国计算机报;2007年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978