收藏本站
《武汉科技大学》 2004年
收藏 | 手机打开
二维码
手机客户端打开本文

Web文本挖掘研究与实现

易高翔  
【摘要】:web网络上凝聚了人类无穷的智慧,但由于它数据的无结构化和无索引特点,使我们充分利用这丰富的信息变得越来越困难了,但是,我们对信息的检索速度和准确性却要求越来越高。面对这一矛盾,以人工智能为基础的数据挖掘技术,如关联规则挖掘、分类、聚类迅速发展,给这一问题解决带来了希望。Web挖掘的概念应运而生。本文主要研究web文本挖掘技术。 首先,文章介绍了web文本挖掘的重要意义。应用文本挖掘可以更好地组织搜索引擎的返回结果,可以进一步提高信息检索速度。 接着,介绍了web挖掘的背景知识—数据挖掘的概念、发展历史、应用领域和主要方法。分析指出未来数据挖掘方向是Web挖掘。Web挖掘根据挖掘的数据可以分为web内容挖掘、web结构挖掘和web使用挖掘。Web文本挖掘是web内容挖掘的一部分。 介绍了web挖掘相关知识后,文章重点讨论了web文本挖掘技术。详细阐述了web文本分类技术、web文本聚类技术和关联规则挖掘技术。同时,在研究web文本挖掘技术基础上,设计了web文本挖掘框架,并实现了web页面自动下载、web页面自动分类功能模块,应用实验数据,运行效果良好。 最后,对文章进行了总结,提出了作者对未来工作的建议。
【学位授予单位】:武汉科技大学
【学位级别】:硕士
【学位授予年份】:2004
【分类号】:TP393.092

【引证文献】
中国期刊全文数据库 前2条
1 冷悦;;BP神经元网络在Web文本分类中的应用[J];科技信息;2010年05期
2 申丽君;孟凡荣;;基于XML的Web文本挖掘模型的研究与设计[J];计算机工程与设计;2007年10期
中国博士学位论文全文数据库 前1条
1 王芳;基于本体的广域农业信息服务系统关键技术研究[D];河北农业大学;2012年
中国硕士学位论文全文数据库 前10条
1 刘欣;基于结构信息的中文网页自动分类技术研究[D];南京航空航天大学;2010年
2 林炎钟;基于决策树分类算法的Web文本分类研究[D];江苏科技大学;2011年
3 柯慧燕;Web文本分类研究及应用[D];武汉理工大学;2006年
4 郭峰;面向行业搜索引擎的WEB文本挖掘技术研究[D];兰州大学;2006年
5 刘磊;中文Web文本自动分类的研究与实现[D];长春理工大学;2007年
6 姜琳;基于XML的WEB挖掘系统的应用研究[D];西安建筑科技大学;2008年
7 米晓芳;一种潜在语义索引差异模型及其应用[D];烟台大学;2007年
8 王娟;基于粗糙集与支持向量机的Web文本分类[D];厦门大学;2008年
9 李仁;关联规则在文本分类中的研究[D];南昌大学;2008年
10 聂璐;WEB文本自动分类的设计与实现[D];西北大学;2009年
【参考文献】
中国期刊全文数据库 前10条
1 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
2 孟小峰;Web数据管理研究综述[J];计算机研究与发展;2001年04期
3 韩家炜,孟小峰,王静,李盛恩;Web挖掘研究[J];计算机研究与发展;2001年04期
4 林鸿飞;基于混合模式的文本过滤模型[J];计算机研究与发展;2001年09期
5 邹涛,王继成,朱华宇,金翔宇,张福炎;WWW上的信息挖掘技术及实现[J];计算机研究与发展;1999年08期
6 谢丹夏;Web上的数据挖掘技术和工具设计[J];计算机工程与应用;2001年06期
7 阳小华;Web站点的超链结构挖掘[J];计算机工程与应用;2001年08期
8 邓英,李明;Web数据挖掘技术及工具研究[J];计算机工程与应用;2001年20期
9 林士敏;田凤占;陆玉昌;;用于数据采掘的贝叶斯分类器研究[J];计算机科学;2000年10期
10 张卫丰;徐宝文;周晓宇;许蕾;李东;;Web搜索引擎综述[J];计算机科学;2001年09期
【共引文献】
中国期刊全文数据库 前10条
1 钱立三;WEB日志挖掘在远程开放教育中的应用[J];安徽广播电视大学学报;2005年03期
2 钟晓旭;胡学钢;;基于数据挖掘的Web招聘信息相关性分析[J];安徽建筑工业学院学报(自然科学版);2010年04期
3 宁小红;;Web Usage Mining在电子商务中的应用[J];安徽农业科学;2007年13期
4 朱力平,丰国炳;用基于内容的Web图像搜索引擎设计消防电子化道路水源手册[J];安全与环境学报;2004年03期
5 武旭,须德;基于向量空间模型的文本自动分类系统的研究与实现[J];北方交通大学学报;2003年02期
6 李娜;;贝叶斯分类器的应用[J];北京工业职业技术学院学报;2008年02期
7 高博;朱东华;韩士雄;;一种智能化的信息采集系统的研究与实现[J];兵工学报;2009年S1期
8 刘椿年,宋霞;基于Boosting的半结构化信息抽取[J];北京工业大学学报;2005年02期
9 张克君;杨炳儒;赵耿;曲文龙;李欣;;一种分布式Web使用模式挖掘模型及算法[J];北京科技大学学报;2006年09期
10 胡健;杨炳儒;宋泽锋;钱榕;;基于非结构化数据挖掘结构模型的Web文本聚类算法[J];北京科技大学学报;2008年02期
中国重要会议论文全文数据库 前10条
1 代广珍;徐超;;基于Web的数据挖掘研究综述[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 陈红兵;;基于XML的电子政务信息集成框架[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
3 程泽凯;泰锋;;贝叶斯网络分类器结构学习:基于启发式的G2算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
4 雷育生;甘仞初;杨军;;一种基于用户偏好的虚拟网站信息结构自适应调整算法[A];2007年全国第十一届企业信息化与工业工程学术会议论文集[C];2007年
5 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
6 师伟;廖闻剑;;数据挖掘在Web上的研究与应用[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
7 胥永康;岳筱玲;;浅谈网络信息挖掘应用技术[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
8 钟福金;穆斌;;语义Web挖掘研究[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
9 栾悉道;谢毓湘;文军;吴玲达;;基于知识库的主动式专题搜索引擎[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
10 蒋子海;周斌;吴泉源;;基于UIMA AS的文本挖掘系统的性能分析与评估[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
中国博士学位论文全文数据库 前10条
1 牟向伟;模糊语义个性化推荐系统在电子政务中的应用研究[D];大连海事大学;2010年
2 张慧斌;Deep Web查询接口及查询结果抽取研究[D];南开大学;2010年
3 邓斌;B2C在线评论中的客户知识管理研究[D];电子科技大学;2010年
4 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
5 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
6 熊回香;面向Web3.0的大众分类研究[D];华中师范大学;2011年
7 黎方正;关系数据库的关键词检索技术研究[D];中南大学;2010年
8 梁成军;网球技战术决策支持系统研究与应用[D];上海体育学院;2011年
9 杨瑞龙;基于短语特征的Web文档聚类方法研究[D];重庆大学;2010年
10 龙华;定义问答检索关键技术研究[D];重庆大学;2010年
中国硕士学位论文全文数据库 前10条
1 樊敬川;Deep Web数据库的选择研究[D];河北大学;2009年
2 王强;基于演示编程的遥感图像元数据提取方法研究[D];山东科技大学;2010年
3 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
4 吕晨;搜索竞价广告关键词优化问题研究[D];山东科技大学;2010年
5 范丹;Web检索中的查询扩展及结果聚类技术研究[D];辽宁师范大学;2010年
6 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
7 雷斌;基于Java技术的智能化搜索引擎的研究与设计[D];哈尔滨工程大学;2010年
8 孙原;基于酉变换的权威页面挖掘算法研究[D];哈尔滨工程大学;2010年
9 李媛;电子商务个性化推荐关键技术研究[D];哈尔滨工程大学;2010年
10 景向永;电子资源使用统计标准化研究[D];大连理工大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
2 樊孝忠,李宏乔,李良富,叶江;银行领域汉语自动问答系统BAQS的研究与实现[J];北京理工大学学报;2004年06期
3 范亚芹,刘颖,李兴男;Web数据挖掘原理及实现[J];吉林大学学报(信息科学版);2003年04期
4 雷升锴;何嘉;;C4.5算法与粗糙集在数据挖掘中的研究[J];成都信息工程学院学报;2009年01期
5 行小帅,焦李成;数据挖掘的聚类方法[J];电路与系统学报;2003年01期
6 施建强,刘晓平;基于遗传算法的数据挖掘技术的研究[J];电脑与信息技术;2003年01期
7 关冰核;基于XML的WEB数据挖掘技术系统框架的设计[J];电脑知识与技术;2004年23期
8 李健;;Web的数据挖掘[J];电脑知识与技术;2006年32期
9 胡艳波;崔新春;路青;;基于SKOS的知识管理研究[J];电子技术;2011年11期
10 叶东毅;Jelonek属性约简算法的一个改进[J];电子学报;2000年12期
中国博士学位论文全文数据库 前10条
1 程军;基于统计的文本分类技术研究[D];中国科学院研究生院(文献情报中心);2003年
2 宋枫溪;自动文本分类若干基本问题研究[D];南京理工大学;2004年
3 马海兵;频繁模式挖掘相关技术研究[D];复旦大学;2005年
4 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
5 刘文军;基于粗糙集的数据挖掘算法研究[D];北京师范大学;2004年
6 王煜;基于决策树和K最近邻算法的文本分类研究[D];天津大学;2006年
7 钱铁云;关联文本分类关键技术研究[D];华中科技大学;2006年
8 郝秀兰;文本分类技术与应用研究[D];复旦大学;2008年
9 李欢;问答系统中的文本信息抽取研究与应用[D];中国科学技术大学;2009年
10 宋万鹏;短文本相似度计算在用户交互式问答系统中的应用[D];中国科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 常卫丽;领域本体在中文命名实体识别中的应用研究[D];武汉理工大学;2011年
2 周春波;面向WI输入法的新词发现技术研究与实现[D];哈尔滨工业大学;2011年
3 王永芳;面向农民的问答系统设计与实现[D];山西大学;2011年
4 陈小宁;Web信息资源获取技术的研究与实现[D];暨南大学;2001年
5 张春雨;中国枣网上智能专家系统[D];河北农业大学;2002年
6 杨昂;文本分类算法研究[D];湖南大学;2002年
7 冶红;基于数据挖掘的Web挖掘系统的研究[D];大连理工大学;2003年
8 张海燕;基于分词的中文文本自动分类研究与实现[D];湖南大学;2002年
9 罗强;基于粗糙集理论的知识发现在web文本挖掘上的应用研究[D];广西大学;2003年
10 李钝;基于粗糙集理论的文本挖掘技术研究[D];山西大学;2003年
【二级引证文献】
中国期刊全文数据库 前10条
1 钱同海;彭显刚;焦悦东;;基于Web数据挖掘的节电降耗实时分析系统设计[J];电力科学与工程;2011年08期
2 徐春雨;;基于RBF神经网络的Web文本分类的研究[J];电脑知识与技术;2011年13期
3 王娟;;Web文本分类技术研究[J];福建电脑;2008年09期
4 郭宇;;Web数据挖掘及其在人才引进方面的应用[J];硅谷;2011年24期
5 王春雨;王芳;;基于条件随机场的农业命名实体识别研究[J];河北农业大学学报;2014年01期
6 陈新元;;近年来我国分类检索语言研究热点综述[J];科技情报开发与经济;2009年20期
7 陈娜;;基于分类技术的Blog用户兴趣挖掘[J];科学之友;2010年03期
8 李明;;在文本挖掘中引入数据清洗技术的前景探析[J];情报探索;2009年05期
9 宋华;;本体向量文献检索模型研究[J];情报探索;2010年11期
10 李元俊;陈俊杰;赵涓涓;;基于Web页面链接和标签的聚类方法[J];计算机工程与设计;2009年18期
中国硕士学位论文全文数据库 前10条
1 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
2 聂小芳;模糊粗糙集与支持向量机在煤与瓦斯突出预测中的应用研究[D];辽宁工程技术大学;2009年
3 刘辉;基于KNN算法的中文Web文本分类技术研究[D];辽宁工程技术大学;2010年
4 罗亚平;面向网络舆情的中文评论文本情感倾向分析研究[D];东北财经大学;2010年
5 荣建文;基于RS-SVM的Web中文文本自动分类研究[D];东北财经大学;2010年
6 李兆雄;基于图模型的中文小样本文本分类研究[D];西安电子科技大学;2009年
7 张宁;基于语义的中文文本预处理研究[D];西安电子科技大学;2011年
8 吴倩;基于关联规则的零售业CRM的设计和实现[D];华东师范大学;2011年
9 杨阳;基于数据挖掘的泌尿外科临床决策支持系统研究[D];重庆大学;2011年
10 陶敏;基于支持向量机的中文客户评论情感文本分类研究[D];武汉纺织大学;2011年
【二级参考文献】
中国期刊全文数据库 前10条
1 林鸿飞,李业丽,姚天顺;中文文本过滤的信息分流机制[J];计算机研究与发展;2000年04期
2 王继成,潘金贵,张福炎;Web文本挖掘技术研究[J];计算机研究与发展;2000年05期
3 林鸿飞;战学刚;姚天顺;;基于概念扩充的中文文本过滤模型[J];计算机科学;2000年02期
4 刘明吉;王秀峰;黄亚楼;;数据挖掘中的数据预处理[J];计算机科学;2000年04期
5 杨继国,杨冬青,唐世渭;数据库与超文本系统的连接[J];计算机应用;1997年05期
6 叶笑欣;内容服务:国内ISP经营的真正主题[J];情报理论与实践;1999年05期
7 赵丹群;超文本系统的检索能力评析[J];情报理论与实践;1999年02期
8 郎诵真,朱晓峰,李雪;ISP——我国情报机构在新形势下的必然选择[J];情报理论与实践;1999年02期
9 邹涛,王继成,张福炎;基于WWW的资料搜集系统的设计与实现[J];情报学报;1999年03期
10 林鸿飞,战学刚,姚天顺;文本结构分析与基于示例的文本过滤[J];小型微型计算机系统;2000年04期
【相似文献】
中国期刊全文数据库 前10条
1 ;浅析大规模文本数据挖掘技术在媒体中的创新应用[J];中国传媒科技;2007年11期
2 赵慧勤;基于因特网的信息检索特点与发展趋势[J];情报理论与实践;2000年05期
3 崔志明,谢春丽;基于Web的文本挖掘研究[J];微电子学与计算机;2002年10期
4 胥桂仙,朴泰雄,杨丹丹,徐小博,高旭;中文文本挖掘中最长频繁序列的发现算法[J];中央民族大学学报(自然科学版);2004年01期
5 渡部勇;;文本挖掘技术应用于专利检索分析[J];微电脑世界;2007年12期
6 苏芳仲,林世平;Web文本挖掘中的一种中文分词算法研究及其实现[J];福州大学学报(自然科学版);2004年S1期
7 付国瑜;;Web文本分类挖掘[J];科学咨询(决策管理);2008年03期
8 曹丽君;刘西印;杨燕萍;;WEB页面文本挖掘的价值与未来探究[J];商场现代化;2008年09期
9 韩洁;;Web文本挖掘技术在信息生产领域的应用研究[J];硅谷;2010年08期
10 胥桂仙,杨丹丹,高旭,陈立新;中文文本挖掘中姓名特征提取技术的研究[J];中央民族大学学报(自然科学版);2003年04期
中国重要会议论文全文数据库 前10条
1 王继成;孙颖;张福炎;;文本挖掘-数据挖掘研究的新课题[A];第十六届全国数据库学术会议论文集[C];1999年
2 蒋子海;周斌;吴泉源;;基于UIMA AS的文本挖掘系统的性能分析与评估[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
3 陈林;王晓华;李殿赟;文俊浩;;基于自增模式的文本挖掘研究[A];’2004计算机应用技术交流会议论文集[C];2004年
4 陈林;王晓华;李殿赟;文俊浩;;基于Web的自增模式文本挖掘研究[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
5 李彦鹏;杨志豪;林鸿飞;;基于条件随机域的生物医学命名实体识别[A];第三届学生计算语言学研讨会论文集[C];2006年
6 ;TRS搜索引擎和文本挖掘系统[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年
7 王波;王厚峰;;基于自学习策略的产品特征自动识别(英文)[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
8 杨志豪;林鸿飞;;生物医学文献中的隐含知识发现[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
9 樊延平;马亚龙;袁野;;军事想定数据挖掘技术研究[A];中国系统仿真学会第五次全国会员代表大会暨2006年全国学术年会论文集[C];2006年
10 王巍;杨武;张乐君;郑军;;支持网络话题管理的文本挖掘算法分析[A];全国网络与信息安全技术研讨会论文集(下册)[C];2007年
中国重要报纸全文数据库 前10条
1 本报记者 施鹏;非结构信息和文本挖掘[N];21世纪经济报道;2009年
2 周青 编译;文本挖掘工具实现非结构化数据价值[N];计算机世界;2004年
3 ;SAS公司收购Teragram 强化BI领域地位[N];计算机世界;2008年
4 本报记者 张晶;怎样挖掘专家的活的经验和智慧[N];科技日报;2011年
5 汪洋 编译;BI平民化[N];计算机世界;2004年
6 靳辉;垂直搜索:呼叫经济发展的核心动力[N];通信产业报;2007年
7 缪其浩记者 江世亮;非官方信息源担当应急预警器[N];文汇报;2008年
8 张德政;信息挖掘商业智能之“芯”[N];中国计算机报;2002年
9 本报记者 张承东;挖潜无极限[N];网络世界;2006年
10 ;用挖掘技术使学术资源利用效益最大化[N];中国计算机报;2007年
中国博士学位论文全文数据库 前10条
1 李芳;文本挖掘若干关键技术研究[D];北京化工大学;2010年
2 陈伟;基于时序文本挖掘的新闻内容理解与推荐技术研究[D];浙江大学;2010年
3 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
4 文翰;面向信息检索的Web文本挖掘方法研究[D];华南理工大学;2012年
5 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
6 周雪忠;文本挖掘在中医药中的若干应用研究[D];浙江大学;2004年
7 刘永丹;文档数据库若干关键技术研究[D];复旦大学;2004年
8 黄定轩;企业核心能力智能挖掘应用基础研究[D];西南交通大学;2005年
9 黄九鸣;面向舆情分析和属性发现的网络文本挖掘技术研究[D];国防科学技术大学;2011年
10 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
中国硕士学位论文全文数据库 前10条
1 刘明岩;面向语义关系发现的文本挖掘研究[D];南京理工大学;2010年
2 李钝;基于粗糙集理论的文本挖掘技术研究[D];山西大学;2003年
3 程春惠;公安犯罪案件文本挖掘关键技术研究[D];浙江大学;2010年
4 徐爱华;面向文本分类的中文文本挖掘技术研究及实现[D];武汉理工大学;2004年
5 刘岩;基于Web的文本挖掘技术的研究[D];哈尔滨工程大学;2004年
6 姚继伟;基于XML的Web文本挖掘的研究[D];吉林大学;2010年
7 易高翔;Web文本挖掘研究与实现[D];武汉科技大学;2004年
8 杨斌;中文文本数据挖掘研究[D];湘潭大学;2002年
9 杨瑞峰;WEB上基于文本挖掘的个性化检索系统的设计与实现[D];电子科技大学;2003年
10 赵天雪;潜在语义分析在答疑系统中的应用研究[D];吉林大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026