DynamicView中信息抽取系统的设计与实现
【摘要】:
万维网(WWW)技术的不断发展促进了Web信息检索(Web Information Retrieval,WIR)和Web信息抽取技术(Web Information Extraction,WIE)的迅猛发展,如何从Web中抽取相关信息引起了人们的广泛关注。
Web信息检索可用于从Web上的海量页面中找到相关信息所在的页面地址。与Web信息检索不同,Web信息抽取可以从一个具体的Web页面中抽取出相关信息,并以结构化的形式描述。
现有的Web信息抽取算法可以分为以下两类:一是基于页面半结构化特征的信息抽取,例如html页面结构文法推断(Grammar Inference)和页面分段(Page Segmentation);二是基于自然语言文本特征的抽取,例如模版-槽填充(Template Filling)。与自然语言文本(Free Text)信息抽取相比,Web上某个具体领域中已标记的页面数量较少,因此如何在减少手工工作量的基础上保证较高的信息抽取系统的精度和召回率是有待解决的重要问题之一。
本文在分析现有信息抽取算法的基础上,从DynamicView项目中信息抽取面临的问题出发,以准确探测研究员主页中的研究兴趣为目的,设计了基于列表页面导航特性和结构模版规则参数学习的研究员主页发现算法和基于页面分段技术的研究兴趣信息抽取算法。前者用于获取研究员的姓名及其主页地址,它将Web信息检索技术和Web信息抽取技术结合,能够高精度地获取具有相同特征的页面集合的问题。后者通过基于分隔符的页面分段算法过滤无关数据,并根据本体表示的领域知识从相关段落中抽取研究兴趣。本文将这两种方法运用到DynamicView系统中,实验结果证明这种方法是高效的、可靠的。
|
|
|
|
1 |
吕建;徐家福;;软件自动化的智能化途径[J];科学通报;1993年02期 |
2 |
胡俊翘,胡友兰,李德群;改进的基因遗传算法在专家系统机器学习中的应用[J];计算机辅助工程;1994年01期 |
3 |
阎明印,栾江南,杨叔子;具有学习功能的机械设备智能诊断系统[J];沈阳工业学院学报;1997年04期 |
4 |
高阳;周志华;孙晨;陈兆乾;陈世福;;从FTART网络中抽取if-then规则[J];模式识别与人工智能;1999年04期 |
5 |
吴艳;刘建波;;电子邮件自动处理的用户模型设计[J];沈阳化工学院学报;2005年04期 |
6 |
胡彩霞;;利用决策树获取搜索结果页面中的匹配数[J];科技咨询导报;2007年06期 |
7 |
刘星毅;农国才;;几种不同缺失值填充方法的比较[J];南宁师范高等专科学校学报;2007年03期 |
8 |
鲁晓南;接标;;一种基于个性化邮件特征的反垃圾邮件系统[J];计算机技术与发展;2009年08期 |
9 |
王存睿;文晋;;基于人脸检测的教室信息智能采集系统[J];大连民族学院学报;2009年05期 |
10 |
阎巍;;基于决策树的软件项目估算方法[J];计算机工程与科学;2009年08期 |
11 |
王厚峰;;计算语言学歧义消解研究——兼介绍北京大学计算语言学教育部重点实验室[J];术语标准化与信息技术;2010年03期 |
12 |
苏剑波;;第3届IEEE机器学习与控制论国际会议[J];国际学术动态;2005年02期 |
13 |
陈可佳;;社会网络分析中的机器学习技术综述[J];南京邮电大学学报(自然科学版);2011年03期 |
14 |
朱程辉,王建平,熊范纶,顾绳谷;基于归纳的自动知识获取系统[J];安徽工学院学报;1994年04期 |
15 |
王继成,吕维雪;一种基于符号神经网络的知识获取方法[J];计算机学报;1995年12期 |
16 |
张家重,段会川,范绍军,江志超;机器学习与问题求解[J];山东师大学报(自然科学版);1995年01期 |
17 |
李军,王鑫,常荣清;基于机器学习的兼类词词性标注[J];信息技术;1999年12期 |
18 |
杨清,杨岳湘,翟国平;层次分类中的机器学习方法研究[J];现代计算机;1999年08期 |
19 |
谷强,汪叔淳;智能制造系统中机器学习的研究[J];计算机工程与科学;2000年01期 |
20 |
何佳洲;周志华;尹旭日;陈世福;;一种通用的故障诊断系统设计方法[J];模式识别与人工智能;2000年04期 |
|