收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

基于表格结构的Web信息提取技术研究

刘慧  
【摘要】: 表格结构作为一种简洁有效的数据信息表达方式,在各种领域的Web页中都得到了广泛的应用。但因其形式及功能的多样性,给基于表格结构的Web信息提取带来了巨大的挑战,主要体现在基于表格结构的Web信息的理解、定位及提取上。 本文从标记和视觉特征的角度出发,将基于表格结构的Web信息划分为列表和表格,然后针对不同结构分别研究出一种具有领域独立性的信息提取方法。 首先,针对具有各种不同标记的列表信息定位困难与单条列表信息提取繁琐问题,提出了基于HTML结构树的一体化解决方案。该方案集列表信息的定位与提取于一个统一的算法中,易于实现。 其次,提出了一种基于特征向量机器学习算法的Web表格识别方法,重点研究了表格特征的构建。针对各种数据对特征的表征能力不同及特征向量维数过高等问题,提出了利用统计计算的方法仅从布局和内容结构方面构建表格的特征。 最后,针对传统的二维条件随机场模型难以处理标注元素间复杂依赖关系的问题,结合表格的结构特征,提出一种融合多阶的二维条件随机场模型,并给出了适合该模型的计算公式及训练算法。将该模型应用于Web表格信息的提取中,实现对表格单元格粒度的标注。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 凌祺,樊孝忠;领域词汇自动获取的研究[J];微机发展;2005年08期
2 汪建伟;杨冬青;高军;王腾蛟;;一种基于分类算法的网页信息提取方法[J];计算机科学;2008年03期
3 吕建;徐家福;;软件自动化的智能化途径[J];科学通报;1993年02期
4 胡俊翘,胡友兰,李德群;改进的基因遗传算法在专家系统机器学习中的应用[J];计算机辅助工程;1994年01期
5 阎明印,栾江南,杨叔子;具有学习功能的机械设备智能诊断系统[J];沈阳工业学院学报;1997年04期
6 高阳;周志华;孙晨;陈兆乾;陈世福;;从FTART网络中抽取if-then规则[J];模式识别与人工智能;1999年04期
7 吴艳;刘建波;;电子邮件自动处理的用户模型设计[J];沈阳化工学院学报;2005年04期
8 胡彩霞;;利用决策树获取搜索结果页面中的匹配数[J];科技咨询导报;2007年06期
9 刘星毅;农国才;;几种不同缺失值填充方法的比较[J];南宁师范高等专科学校学报;2007年03期
10 鲁晓南;接标;;一种基于个性化邮件特征的反垃圾邮件系统[J];计算机技术与发展;2009年08期
11 王存睿;文晋;;基于人脸检测的教室信息智能采集系统[J];大连民族学院学报;2009年05期
12 阎巍;;基于决策树的软件项目估算方法[J];计算机工程与科学;2009年08期
13 王厚峰;;计算语言学歧义消解研究——兼介绍北京大学计算语言学教育部重点实验室[J];术语标准化与信息技术;2010年03期
14 苏剑波;;第3届IEEE机器学习与控制论国际会议[J];国际学术动态;2005年02期
15 陈可佳;;社会网络分析中的机器学习技术综述[J];南京邮电大学学报(自然科学版);2011年03期
16 朱程辉,王建平,熊范纶,顾绳谷;基于归纳的自动知识获取系统[J];安徽工学院学报;1994年04期
17 王继成,吕维雪;一种基于符号神经网络的知识获取方法[J];计算机学报;1995年12期
18 张家重,段会川,范绍军,江志超;机器学习与问题求解[J];山东师大学报(自然科学版);1995年01期
19 李军,王鑫,常荣清;基于机器学习的兼类词词性标注[J];信息技术;1999年12期
20 杨清,杨岳湘,翟国平;层次分类中的机器学习方法研究[J];现代计算机;1999年08期
中国重要会议论文全文数据库 前10条
1 徐礼胜;李乃民;王宽全;张冬雨;耿斌;姜晓睿;陈超海;罗贵存;;机器学习在中医计算机诊断识别系统中的应用思考[A];第一届全国中西医结合诊断学术会议论文选集[C];2006年
2 李月伦;常宝宝;;基于最大间隔马尔可夫网模型的汉语分词方法[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
3 谢世朋;胡茂林;;基于局部仿射区域对稀疏纹理分类的研究[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
4 夏诏杰;郭力;李晓霞;;化学主题网络爬虫的研究[A];第十届全国计算(机)化学学术会议论文摘要集[C];2009年
5 张郴;;基于神经网络集成的旅游需求预测模型[A];中国地理学会百年庆典学术论文摘要集[C];2009年
6 邢莉新;许惠平;;卫星遥感数据信息提取新方法研究[A];西部大开发 科教先行与可持续发展——中国科协2000年学术年会文集[C];2000年
7 吴宪祥;于培松;万旻;倪伟;郭宝龙;;RoboCup中智能体的参数优化和学习[A];马斯特杯2003年中国机器人大赛及研讨会论文集[C];2003年
8 彭天强;邵美珍;;基于神经网络的K-L变换方法研究[A];中国图象图形学会第十届全国图像图形学术会议(CIG’2001)和第一届全国虚拟现实技术研讨会(CVR’2001)论文集[C];2001年
9 蔡建峰;;基于管理层次的信息供给策略[A];2002年中国管理科学学术会议论文集[C];2002年
10 刘振民;李四海;韩震;;HY-1卫星资料悬浮泥沙浓度信息提取应用系统的研制[A];第十五届全国遥感技术学术交流会论文摘要集[C];2005年
中国博士学位论文全文数据库 前10条
1 何斌;基于可拓逻辑的机器学习理论与方法[D];华南理工大学;2005年
2 王国胜;支持向量机的理论与算法研究[D];北京邮电大学;2008年
3 胡崇海;基于图的半监督机器学习[D];浙江大学;2008年
4 刘长安;基于实例归纳的工艺规划方法及集成CAPP系统研究[D];山东大学;2003年
5 李忠伟;支持向量机学习算法研究[D];哈尔滨工程大学;2006年
6 钟志;基于异常行为辨识的智能监控技术研究[D];上海交通大学;2008年
7 易勇;计算机辅助诗词创作中的风格辨析及联语应对研究[D];重庆大学;2005年
8 徐海祥;基于支持向量机方法的图像分割与目标分类[D];华中科技大学;2005年
9 牛晓太;多模式智能谈判支持系统的理论与方法研究[D];武汉大学;2004年
10 赵玉鹏;机器学习的哲学探索[D];大连理工大学;2010年
中国硕士学位论文全文数据库 前10条
1 刘慧;基于表格结构的Web信息提取技术研究[D];燕山大学;2009年
2 刘孟旭;基于EP的多分类器表决分类算法[D];郑州大学;2004年
3 向光;基于机器学习和数据挖掘的入侵检测技术研究[D];东北大学;2005年
4 亢华爱;入侵检测系统中基于代价敏感分类算法的研究[D];太原理工大学;2005年
5 张金伟;基于Agent网络答疑系统的设计与实现[D];华东师范大学;2006年
6 王晶;支持向量机及其在癌症诊断中的应用研究[D];东北师范大学;2006年
7 万辉;自主载体语义级环境建模和规划的研究与实现[D];沈阳工业大学;2006年
8 黄际洲;聊天机器人知识库自动抽取算法的研究与实现[D];重庆大学;2006年
9 孟祥山;工作流流程优化技术的应用研究[D];国防科学技术大学;2004年
10 芦明;语义网服务中基于机器学习的本体映射研究[D];大连海事大学;2008年
中国重要报纸全文数据库 前10条
1 本报记者 余建斌;机器学习与互联网搜索[N];人民日报;2011年
2 黎骊/文 [美] Tom M.Mitchell 著;机器学习与智能化社会[N];中国邮政报;2003年
3 陈永清 颜廷杰;金属矿产快速评价预测系统完成[N];地质勘查导报;2006年
4 邱阳;基于信息提取计算的路网动态交通分析技术[N];科技日报;2007年
5 本报记者 张晔通讯员 李玮;周志华:永不墨守成规[N];科技日报;2008年
6 记者 何边;网络化激活人工智能[N];计算机世界;2001年
7 沈占锋;遥感影像信息提取与分析[N];计算机世界;2006年
8 记者 李为民 通讯员 顾宸宇;民盟陕西省委建议加速“数字陕西”建设[N];人民政协报;2003年
9 何清 史忠植 王伟;搜索引擎的前沿技术[N];计算机世界;2006年
10 傅秋瑛;默默耕耘数十载 自主创新结硕果[N];科技日报;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978