收藏本站
《中南大学》 2009年
收藏 | 手机打开
二维码
手机客户端打开本文

Deep Web集成查询接口生成技术研究

金灵芝  
【摘要】: 随着网络的发展,网上蕴藏着越来越多的信息,而更多的信息被隐藏在网络深处,称之为Deep Web,俗称深网。为了挖掘Deep Web中的信息,Deep Web数据集成的研究成为当务之急。而其中一个非常重要的方面就Deep Web查询接口的集成。 查询接口是Deep Web的唯一入口,而查询接口通常以表单的形式表示。在本文中表单是主要的研究对象,所以在前面部分首先对表单的基本知识做了介绍,然后列举了一些常用的分类算法。 本文主要做了两个部分的工作:第一个工作就是Deep Web查询接口识别,将Web网页中的表单作为研究对象,利用一定的规则提取表单特征,构成表单特征向量,而后利用C4.5分类算法识别DeepWeb查询接口,也就是找到深网的入口。在实验中利用Weka平台对几种常见的分类算法进行了比较,验证了C4.5分类算法的优越性。 找到深网入口后,接着对Deep Web查询接口进行分类,确定查询接口属于哪个领域,如:音乐,商业,新闻等,这部分工作的主要研究对象也是表单,提取表单的文本特征,以向量空间模型表示。然后利用朴素贝叶斯分类算法对Deep Web查询接口进行分类,以确定查询接口属于哪个领域。在这部分也通过实验对几种分类算法进行了比较(如:SVM,C4.5,NB),最后发现朴素贝叶斯分类算法精确度最高。
【学位授予单位】:中南大学
【学位级别】:硕士
【学位授予年份】:2009
【分类号】:TP393.09

【引证文献】
中国硕士学位论文全文数据库 前1条
1 王桦;基于广度优先的主题爬虫的设计与实现[D];复旦大学;2011年
【参考文献】
中国期刊全文数据库 前10条
1 申德荣;聂铁铮;余恩运;寇月;于戈;;支持Web深层数据库网格的部分关键技术的研究[J];计算机科学;2007年08期
2 郑冬冬;崔志明;;Deep Web查询接口选择[J];计算机应用;2006年09期
3 王兵;王轲;;Deep Web数据源聚类与分类[J];计算机与现代化;2007年08期
4 黄晓冬;Invisible Web研究综述[J];情报科学;2004年09期
5 郑冬冬,赵朋朋,崔志明;Deep Web爬虫研究与设计[J];清华大学学报(自然科学版);2005年S1期
6 郑冬冬;崔志明;;Deep Web爬虫爬行策略研究[J];计算机工程与设计;2006年17期
7 高岭;赵朋朋;崔志明;;Deep Web查询接口的自动判定[J];计算机技术与发展;2007年05期
8 赵朋朋;高岭;崔志明;;基于查询接口特征的Deep Web数据源自动分类[J];微电子学与计算机;2006年10期
9 方巍;胡鹏昱;赵朋朋;崔志明;;基于语义的Deep Web数据源自动发现技术[J];微电子学与计算机;2007年09期
10 陈娟;王贤;黄青松;;通过查询模式聚类结构化的Deep Web资源[J];现代计算机;2006年09期
中国硕士学位论文全文数据库 前2条
1 陈涛;深层网络信息资源分析与获取策略研究[D];东北师范大学;2005年
2 郑冬冬;DeepWeb信息集成系统关键技术研究[D];苏州大学;2006年
【共引文献】
中国期刊全文数据库 前10条
1 干娟;;基于决策树算法的学生综合测评系统的设计[J];安徽电子信息职业技术学院学报;2011年04期
2 李玲玲;辛浩;;FCM算法及其有效性度量方法[J];安徽电子信息职业技术学院学报;2011年05期
3 郭有强;胡学钢;;基于项目增长法高效求解最大频繁项集[J];安徽科技学院学报;2006年06期
4 赵靖;王侨文;管马周;单传佳;;自动提取布局结构相似网页的结构化信息[J];安徽科技学院学报;2010年06期
5 张友志;钱萌;程玉胜;;基于关联规则web日志挖掘方法的研究[J];安庆师范学院学报(自然科学版);2006年01期
6 曹丹阳;李晋宏;魏金强;张艳芳;;基于决策树的英语四级成绩分析[J];北方工业大学学报;2007年01期
7 钟雁;郭雨松;;数据挖掘技术在铁路货运客户细分中的应用[J];北京交通大学学报;2008年03期
8 黄江涛,刘自伟,黄晓芳;用于数据挖掘的多维数据可视化技术[J];兵工自动化;2005年03期
9 万雅奇;侯亚荣;王勇;张书杰;;教育考试数据挖掘系统研究与实现[J];北京工业大学学报;2009年05期
10 张伟;;数据挖掘领域的文献计量学研究[J];图书与情报;2005年06期
中国重要会议论文全文数据库 前10条
1 周炎涛;唐剑波;王家琴;;基于信息熵的改进TFIDF特征选择算法[A];第二十六届中国控制会议论文集[C];2007年
2 赵云鹏;石丽;刘莹;;基于数据挖掘的高校规模分析及应用研究[A];第九届全国信息获取与处理学术会议论文集Ⅰ[C];2011年
3 舒宁;陶建斌;;面向土地利用分类的多源遥感数据混合贝叶斯网络分类器[A];全国农业遥感技术研讨会论文集[C];2009年
4 王皓;曹永锋;孙洪;;基于流域变换的聚类分析[A];第十二届全国信号处理学术年会(CCSP-2005)论文集[C];2005年
5 吴栋;张京华;王玉成;胡伍生;;前兆信息模型在地震预测中的应用[A];数字测绘与GIS技术应用研讨交流会论文集[C];2008年
6 孟少朋;骆红云;李盛;;基于数据挖掘的汽车可靠性分析方法研究[A];2007年全国失效分析学术会议论文集[C];2007年
7 杨纪军;朱培栋;;关联规则挖掘技术在蜜罐系统中的应用[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
8 朱攀;陈跃新;;Apriori算法在参保人信用度评价中的应用[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
9 张敏;陆向艳;周敏;潘林琳;农冬冬;王彬彬;陈晓江;;数据挖掘在智能题库系统中的应用[A];广西计算机学会2004年学术年会论文集[C];2004年
10 郑东健;卢兆辉;;基于时间序列相似性的坝基测压孔水位性态分析[A];全国大坝安全监测技术信息网2008年度技术信息交流会暨全国大坝安全监测技术应用和发展研讨会论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 孟宇龙;基于本体的多源异构安全数据聚合[D];哈尔滨工程大学;2010年
2 张慧斌;Deep Web查询接口及查询结果抽取研究[D];南开大学;2010年
3 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
4 田建伟;面向领域的高质量Deep Web数据集成技术研究[D];武汉大学;2010年
5 王冬丽;基于可扩展的支持向量机分类算法及在信用评级中的应用[D];东华大学;2011年
6 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
7 魏小涛;在线自适应网络异常检测系统模型与相关算法研究[D];北京交通大学;2009年
8 祁瑞华;不完整数据分类知识发现算法研究[D];大连理工大学;2011年
9 梁建宁;特征选择与图像匹配[D];复旦大学;2011年
10 金海浩;五行相生间接补法古代应用规律研究[D];南京中医药大学;2011年
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 蔡浩;基于Web使用挖掘的协同过滤推荐算法研究[D];浙江理工大学;2010年
3 李翠;基于车辆自动识别的智能计重监控系统的研究与设计[D];郑州大学;2010年
4 刘春燕;教学网络DIDS数据分析方法的研究与改进[D];郑州大学;2010年
5 史文财;省级政务网安全检测系统的设计与实现[D];哈尔滨工程大学;2010年
6 尹丽玲;基于人工免疫算法的Web文本挖掘研究[D];哈尔滨工程大学;2010年
7 刘富江;网络数据源模式识别方法及策略研究[D];哈尔滨工程大学;2010年
8 李晓光;数据挖掘技术在高校招生和教务管理中的应用[D];哈尔滨工程大学;2010年
9 姜雪飞;基于SNMP的网络安全态势可视化技术[D];哈尔滨工程大学;2010年
10 周东海;基于记账凭证的高校教育成本数据挖掘研究[D];哈尔滨工程大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 陶磊;莫倩;;基于CSS选择器的深网结果页抽取方法[J];北京工商大学学报(自然科学版);2009年02期
2 李敏;赵君;;垂直搜索引擎爬虫系统的设计[J];长江大学学报(自然科学版)理工卷;2010年03期
3 张炜;;网络机器人研究与发展分析[J];机器人技术与应用;2010年01期
4 李学勇,欧阳柳波,李国徽,钟敏娟;网络蜘蛛搜索策略比较研究[J];计算机工程与应用;2004年04期
5 王锋;王伟;张璟;罗作民;;基于Linux的网络爬虫系统[J];计算机工程;2010年01期
6 范轩苗;郑宁;范渊;;一种基于Ajax的爬虫模型的设计与实现[J];计算机应用与软件;2010年01期
7 张红斌;李广丽;刘觉夫;;网络机器人多线程爬行的研究与实现[J];计算机应用与软件;2010年01期
8 池勇敏;郝泳涛;;分布式主题爬虫的设计与实现[J];计算机应用与软件;2010年12期
9 周模;张建宇;代亚非;;可扩展的DHT网络爬虫设计和优化[J];中国科学:信息科学;2010年09期
10 肖秀珍;徐昕;曾伟忠;;深网内容和美国BrightPlanet深网分析[J];情报探索;2007年01期
中国硕士学位论文全文数据库 前4条
1 匡桂娟;广度优先搜索算法在互连网络通信中的应用[D];青岛大学;2005年
2 高岭;Deep Web分类搜索引擎关键技术研究[D];苏州大学;2007年
3 刘喜亮;面向主题的网络爬虫设计与实现[D];湖南大学;2009年
4 李玉华;面向主题的舆情采集搜索爬虫的设计与实现[D];山东大学;2009年
【二级引证文献】
中国硕士学位论文全文数据库 前2条
1 徐兴元;Web时空数据挖掘及其地图信息服务[D];华东师范大学;2013年
2 吴曜宏;基于策略的网络信息提取技术的研究[D];电子科技大学;2013年
【二级参考文献】
中国期刊全文数据库 前4条
1 郑冬冬;崔志明;;Deep Web查询接口选择[J];计算机应用;2006年09期
2 黄晓冬;Invisible Web研究综述[J];情报科学;2004年09期
3 马费成,张婷;获取看不见的网络信息资源的有效途径[J];情报理论与实践;2004年04期
4 吴志强,严贝妮;从隐蔽网络到国际互联网信息资源控制计划[J];图书情报工作;2004年03期
【相似文献】
中国期刊全文数据库 前10条
1 侯毅;;基于Deep Web的主题搜索引擎的系统设计[J];数字技术与应用;2011年02期
2 苏晓珂;赵磊;黄青松;;Deep Web中基于迭代的查询方式[J];云南民族大学学报(自然科学版);2007年01期
3 段晓飞;张素智;马红;;基于Deep Web的模式匹配算法研究[J];郑州轻工业学院学报(自然科学版);2008年03期
4 金灵芝;王小玲;朱守中;;Deep Web数据源自动分类[J];微计算机信息;2009年12期
5 金库;聂培尧;林培光;;一种Web数据库大小估算新方法[J];信息技术与信息化;2010年02期
6 王贤;苏晓珂;黄青松;;基于Zipf Estimator的Deep Web最佳查询词选择[J];计算机技术与发展;2007年03期
7 方丽;李锡辉;;基于Deep Web挖掘的搜索策略[J];福建电脑;2008年03期
8 藕军;任明仑;左春荣;章成志;;中文Deep Web的大小、质量及分布[J];情报学报;2008年02期
9 张玉峰;吴金红;王翠波;;面向Deep Web的动态竞争情报智能采集策略[J];情报学报;2008年04期
10 茅琴娇;冯博琴;潘善亮;;Deep web站点查询界面的潜在语义分析(英文)[J];Journal of Southeast University(English Edition);2008年03期
中国重要会议论文全文数据库 前10条
1 余伟;李石君;洪辉;田建伟;;基于覆盖关系的Deep Web数据源排名[A];第二十四届中国数据库学术会议论文集(研究报告篇)[C];2007年
2 王上;于海;王钲旋;;Deep Web垂直搜索引擎设计与实现[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
3 梁浩;左万利;任斐;赫枫龄;;基于启发式信息的Deep Web查询接口属性抽取[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
4 王英;左万利;王鑫;彭涛;;Deep Web查询转换研究[A];第六届全国信息检索学术会议论文集[C];2010年
5 闫中敏;李庆忠;彭朝晖;董永权;丁艳辉;张永新;徐秀星;;DWDIS:面向分析的Deep Web数据集成系统[A];NDBC2010第27届中国数据库学术会议论文集(B辑)[C];2010年
6 王英;左万利;王鑫;彭涛;;基于多分类器的Deep Web入口发现[A];第六届全国信息检索学术会议论文集[C];2010年
7 王英;左万利;彭涛;赫枫龄;彭钊;;应用领域本体知识库自动填充Deep Web入口表单[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
8 陶然;江锦华;吴羽;陈刚;;基于树合并的Deep Web查询接口集成[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
9 朱命冬;申德荣;寇月;聂铁铮;于戈;;一种应用于Deep Web环境下的重复记录识别模型[A];第26届中国数据库学术会议论文集(B辑)[C];2009年
10 艾静;王仲远;孟小峰;;C-Rank:一种Deep Web数据记录可信度评估方法[A];第26届中国数据库学术会议论文集(A辑)[C];2009年
中国博士学位论文全文数据库 前10条
1 闫中敏;Deep Web数据获取问题研究[D];山东大学;2010年
2 田建伟;面向领域的高质量Deep Web数据集成技术研究[D];武汉大学;2010年
3 潘鹏;Deep Web查询中的不确定性问题研究[D];山东大学;2010年
4 王英;Deep Web数据集成关键技术研究[D];吉林大学;2010年
5 吴春明;Deep Web数据集成关键技术及其在农业领域的应用[D];西南大学;2011年
6 董永权;Deep Web数据集成关键问题研究[D];山东大学;2010年
7 张慧斌;Deep Web查询接口及查询结果抽取研究[D];南开大学;2010年
8 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
9 寇月;Deep Web实体搜索的关键技术研究[D];东北大学;2009年
10 梁浩;Deep Web信息集成架构及相关问题研究[D];吉林大学;2010年
中国硕士学位论文全文数据库 前10条
1 刘冬兰;Deep Web数据抽取中自适应包装器问题研究[D];山东大学;2013年
2 陈文;Deep Web入口识别和个性化搜索研究与设计[D];江苏大学;2010年
3 李秀兰;基于结果模式的Deep Web语义标注研究[D];兰州理工大学;2011年
4 王培正;基于Deep Web的网络信息抽取技术研究[D];华南理工大学;2010年
5 邓烨;面向特定领域的Deep Web数据自动抽取[D];中国海洋大学;2012年
6 马也;Deep Web环境下查询松弛技术的研究[D];东北大学;2008年
7 刘凯;Deep Web数据集成关键技术研究[D];长春工业大学;2012年
8 蔡欣宝;Deep Web数据获取方法研究[D];苏州大学;2010年
9 张旭;面向Deep Web响应页面的模式识别的研究[D];东北大学;2008年
10 李三义;基于模型匹配的Deep Web数据库分类[D];吉林大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026