收藏本站
《哈尔滨工程大学》 2004年
收藏 | 手机打开
二维码
手机客户端打开本文

基于Web的文本挖掘技术的研究

刘岩  
【摘要】:如何让Internet更好地为人类服务,是未来几年的一个真正挑战。一方面是人们对快速、准确而全面获取信息的渴望,而另一方面却是Internet上信息的纷繁芜杂,在这两者之间架设一座桥梁的确是一个巨大的挑战。作为从浩瀚的Web信息资源中发现潜在的有价值知识的一种有效技术,Web挖掘正悄然兴起,倍受关注。目前Web挖掘的研究正处于发展阶段,尚无统一的结论,需要国内外学者在理论上开展更多的讨论。同时,Web挖掘系统的开发对其研究也将起到很大推进作用。 本文对Web挖掘的有关理论进行了论述,着重讨论了Web文本挖掘系统的结构和技术。本文的主要内容包括:首先,探讨了Web挖掘的有关理论;其次,在研究Web文本挖掘技术的基础上,介绍了一种Web文本挖掘系统的体系结构;再次,具体讨论了Web信息的自动获取的总体设计思想,并对获取信息的预处理工作进行了研究;第四,为了将遗传算法应用到本文设计的算法中,对遗传算法进行了详尽的分析;最后,在对传统的遗传算法进行改进后,提出了一种基于遗传算法的特征提取算法。实验表明,该方法是可行的。
【学位授予单位】:哈尔滨工程大学
【学位级别】:硕士
【学位授予年份】:2004
【分类号】:TP393.092

【引证文献】
中国硕士学位论文全文数据库 前2条
1 李远方;基于云计算的Web结构挖掘算法研究[D];云南大学;2011年
2 郭峰;面向行业搜索引擎的WEB文本挖掘技术研究[D];兰州大学;2006年
【参考文献】
中国期刊全文数据库 前10条
1 张红云,石阳,马垣;数据挖掘中聚类算法比较研究[J];鞍山钢铁学院学报;2001年05期
2 王继成,萧嵘,孙正兴,张福炎;Web信息检索研究进展[J];计算机研究与发展;2001年02期
3 韩家炜,孟小峰,王静,李盛恩;Web挖掘研究[J];计算机研究与发展;2001年04期
4 王爱华,张铭,杨冬青,唐世渭;PCCS部分聚类分类:一种快速的Web文档聚类方法[J];计算机研究与发展;2001年04期
5 杨文峰,李星;基于PAT TREE统计语言模型与关键词自动提取[J];计算机工程与应用;2001年15期
6 张晓滨,宋擒豹,沈钧毅;一种基于语义特征的Web文档检索方法[J];计算机工程与应用;2001年20期
7 殷建平;汉语自动分词方法[J];计算机工程与科学;1998年03期
8 金燕,李建华,杨宇航;WWW上的全文信息检索技术[J];计算机应用研究;1999年01期
9 钟晓;马少平;张钹;俞瑞钊;;数据挖掘综述[J];模式识别与人工智能;2001年01期
10 王涛,孙河山;Web挖掘技术在搜索引擎中的应用[J];情报理论与实践;2002年04期
【共引文献】
中国期刊全文数据库 前10条
1 张安勤;数据挖掘与进化算法[J];安徽教育学院学报;2002年03期
2 钱立三;WEB日志挖掘在远程开放教育中的应用[J];安徽广播电视大学学报;2005年03期
3 刘金红,夏阳,陆余良;基于Ontology的网络元数据抽取系统的研究与实现[J];安徽电子信息职业技术学院学报;2004年Z1期
4 陈键;;浅析常用聚类分析算法[J];安徽电子信息职业技术学院学报;2007年01期
5 宁小红;;Web Usage Mining在电子商务中的应用[J];安徽农业科学;2007年13期
6 赵晓凡;胡顺义;;基于正向最大匹配的汉语分词[J];安阳师范学院学报;2010年05期
7 张克君;杨炳儒;赵耿;曲文龙;李欣;;一种分布式Web使用模式挖掘模型及算法[J];北京科技大学学报;2006年09期
8 文庭孝;汉语自动分词研究进展[J];图书与情报;2005年05期
9 金玮;张克君;杨炳儒;;一种高效挖掘关联规则的算法研究[J];北京工商大学学报(自然科学版);2006年06期
10 万红新,彭云,聂承启;基于模糊集和粗糙集的关联规则挖掘策略[J];江西师范大学学报(自然科学版);2005年01期
中国重要会议论文全文数据库 前10条
1 代广珍;徐超;;基于Web的数据挖掘研究综述[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 师伟;廖闻剑;;数据挖掘在Web上的研究与应用[A];中国电子学会第十六届信息论学术年会论文集[C];2009年
3 赵雪岩;胡发宗;;Mimics——连接断层扫描图像与三维工程应用的坚实桥梁[A];全国射线数字成像与CT新技术研讨会论文集[C];2009年
4 陈震;陈维默;;浅谈数据挖掘技术[A];福建省科协第五届学术年会数字化制造及其它先进制造技术专题学术年会论文集[C];2005年
5 钟福金;穆斌;;语义Web挖掘研究[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
6 栾悉道;谢毓湘;文军;吴玲达;;基于知识库的主动式专题搜索引擎[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
7 詹宇斌;殷建平;周文兰;;基于概率关联图挖掘Web日志中有趣关联规则[A];2006年全国理论计算机科学学术年会论文集[C];2006年
8 汤志伟;王菁;;面向公众的电子政务个性化信息服务体系的构建[A];中国信息经济学会2007年学术年会论文集[C];2007年
9 张艳;周国祥;;Web挖掘在个性化信息检索中的应用[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
10 李雪竹;周国祥;;基于本体的语义网技术在信息检索中的研究[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
中国博士学位论文全文数据库 前10条
1 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
2 何因;排序学习中基于直接优化信息检索评价准则算法的理论分析[D];中国科学技术大学;2010年
3 吴羽;面向时间敏感对象的垂直搜索引擎关键技术研究[D];浙江大学;2011年
4 杨剑锋;适合并行的无干预文档聚类算法研究[D];武汉大学;2010年
5 韦福如;基于图模型多文档自动文摘研究[D];武汉大学;2009年
6 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
7 高联雄;智能公交系统数据挖掘研究与应用[D];北京邮电大学;2011年
8 陈劲光;基于云模型的中文面向查询多文档自动文摘研究[D];华中师范大学;2011年
9 马俊;信息技术嵌入的物流企业服务能力研究[D];武汉理工大学;2011年
10 李广建;个性化网络信息检索系统的研究与实现[D];中国科学院研究生院(文献情报中心);2002年
中国硕士学位论文全文数据库 前10条
1 徐财应;基于Lucene的搜索引擎技术的研究与改进[D];长春理工大学;2010年
2 孙原;基于酉变换的权威页面挖掘算法研究[D];哈尔滨工程大学;2010年
3 李媛;电子商务个性化推荐关键技术研究[D];哈尔滨工程大学;2010年
4 景向永;电子资源使用统计标准化研究[D];大连理工大学;2010年
5 胡志敏;互联网文本自动文摘技术的研究[D];湘潭大学;2010年
6 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年
7 张峰;基于数据挖掘技术的教学管理应用研究[D];合肥工业大学;2010年
8 方少卿;Web就业信息抽取系统的实现研究[D];合肥工业大学;2010年
9 徐旭;基于决策树的Web应用系统个性化身份验证研究[D];合肥工业大学;2010年
10 年爱华;数据挖掘在职校普通话等级考试成绩分析中的应用[D];兰州大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 陈涛;;云计算理论及技术研究[J];重庆交通大学学报(社会科学版);2009年04期
2 刘军;王小玲;唐全;;基于Web结构挖掘的HITS算法研究[J];电脑知识与技术;2008年20期
3 李艳华;;云计算技术研究现状综述[J];电脑知识与技术;2009年22期
4 黄德才;戚华春;;PageRank算法研究[J];计算机工程;2006年04期
5 田甜;倪林;;基于PageRank算法的权威值不均衡分配问题[J];计算机工程;2007年18期
6 杨劲松;凌培亮;;搜索引擎PageRank算法的改进[J];计算机工程;2009年22期
7 栾亚建;黄翀民;龚高晟;赵铁柱;;Hadoop平台的性能优化研究[J];计算机工程;2010年14期
8 王德广;周志刚;梁旭;;PageRank算法的分析及其改进[J];计算机工程;2010年22期
9 陈全;邓倩妮;;云计算及其关键技术[J];计算机应用;2009年09期
10 陈康;郑纬民;;云计算:系统实例与研究现状[J];软件学报;2009年05期
中国硕士学位论文全文数据库 前10条
1 陈小宁;Web信息资源获取技术的研究与实现[D];暨南大学;2001年
2 冶红;基于数据挖掘的Web挖掘系统的研究[D];大连理工大学;2003年
3 李钝;基于粗糙集理论的文本挖掘技术研究[D];山西大学;2003年
4 王维花;WEB挖掘研究和基于多层次数据库的智能化WEB挖掘引擎系统的实现[D];西安理工大学;2004年
5 谢振亮;基于WEB挖掘技术的网页自动分类和聚类的研究[D];天津大学;2004年
6 徐爱华;面向文本分类的中文文本挖掘技术研究及实现[D];武汉理工大学;2004年
7 易高翔;Web文本挖掘研究与实现[D];武汉科技大学;2004年
8 田红;表格信息抽取引擎的设计与实现[D];西北师范大学;2004年
9 徐华;基于支持向量机的Web文本挖掘研究[D];哈尔滨工程大学;2004年
10 李跃进;基于Internet的信息抽取技术研究[D];大连理工大学;2005年
【二级参考文献】
中国期刊全文数据库 前10条
1 王继成,萧嵘,孙正兴,张福炎;Web信息检索研究进展[J];计算机研究与发展;2001年02期
2 孟卫一,吴宗寰;集成搜索引擎的文本数据库选择[J];计算机研究与发展;2001年04期
3 韩家炜,孟小峰,王静,李盛恩;Web挖掘研究[J];计算机研究与发展;2001年04期
4 欧阳为民,蔡庆生;一种在数据库中发现偏离模式的线性算法[J];计算机研究与发展;1998年10期
5 欧阳为民,蔡庆生;在大型数据库中多层序贯模式的发现[J];计算机研究与发展;1998年10期
6 周斌,吴泉源,高洪奎;用户访问模式数据挖掘的模型与算法研究[J];计算机研究与发展;1999年07期
7 铁治欣,陈奇,俞瑞钊;采掘关联规则的高效并行算法[J];计算机研究与发展;1999年08期
8 朱廷劭;高文;;KDD:数据库中的知识发现[J];计算机科学;1997年06期
9 邹涛;王继成;杨文清;张福炎;;文本信息检索技术[J];计算机科学;1999年09期
10 韩世欣,王开铸;基于短语结构文法的分词研究[J];中文信息学报;1992年03期
【相似文献】
中国期刊全文数据库 前10条
1 余燕芳;;基于改进遗传算法的Web文本挖掘系统[J];微电子学与计算机;2010年04期
2 王明春,王正欧;基于粗集与遗传算法相结合的文本模糊聚类方法[J];电子与信息学报;2005年04期
3 石福斌;;一种基于多Agent技术的Web挖掘模型及应用[J];信息技术;2007年06期
4 邹国平;彭梅香;黄国兵;;基于GA和信息熵的文本分类规则抽取方法[J];微计算机信息;2008年27期
5 杨小云;数字图书馆中数据挖掘研究[J];延安教育学院学报;2005年02期
6 王圆;孙铁利;李杨;;Web文本挖掘中的特征表示和特征提取[J];电脑知识与技术(学术交流);2006年14期
7 许高建;;基于Web的文本挖掘技术研究[J];计算机技术与发展;2007年06期
8 高茂庭;陆鹏;;基于投影寻踪降维的文本特征可视化[J];计算机应用;2008年06期
9 黄鲁成;赵盼;;关于采用Web挖掘方法分析技术发展趋势的思考[J];科技管理研究;2010年21期
10 符保龙;黄崇争;;基于免疫遗传退火算法的Web关联规则挖掘方法[J];计算机应用研究;2009年02期
中国重要会议论文全文数据库 前10条
1 周海清;王恭先;陈正汉;;基于面向对象遗传算法的抗滑桩优化设计程序的研制[A];中国土木工程学会第九届土力学及岩土工程学术会议论文集(下册)[C];2003年
2 吴建生;金龙;;基于实数编码的遗传算法神经网络预报建模研究[A];推进气象科技创新加快气象事业发展——中国气象学会2004年年会论文集(下册)[C];2004年
3 申元霞;张翠芳;;GA-BP算法在系统辨识中的应用[A];中国自动化学会、中国仪器仪表学会2004年西南三省一市自动化与仪器仪表学术年会论文集[C];2004年
4 刘辙;彭亮;崔广才;吴学礼;;混合遗传算法在车间调度中的应用[A];中国自动化学会全国第九届自动化新技术学术交流会论文集[C];2004年
5 曹春红;李文辉;张永坚;;遗传蚂蚁算法在几何约束求解中的应用[A];中国仪器仪表学会第六届青年学术会议论文集[C];2004年
6 姜楠;张春森;;遗传算法在图像模板匹配中的应用[A];高精度几何量光电测量与校准技术研讨会论文集[C];2008年
7 朱秀娥;周宝焜;;振动筛设计的遗传算法[A];福建省科协第三届学术年会装备制造业专题学术年会论文集[C];2003年
8 何奉道;梁向阳;;基于遗传算法的机车周转图优化编制方法[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
9 刘忠凯;薛正辉;任武;李伟明;高本庆;;用遗传算法优化八木天线[A];2005'全国微波毫米波会议论文集(第二册)[C];2006年
10 汝勇;杨树强;;遗传算法在历史性约束组合优化问题中的应用[A];2010通信理论与技术新发展——第十五届全国青年通信学术会议论文集(上册)[C];2010年
中国重要报纸全文数据库 前10条
1 本报记者 施鹏;非结构信息和文本挖掘[N];21世纪经济报道;2009年
2 周青 编译;文本挖掘工具实现非结构化数据价值[N];计算机世界;2004年
3 林京;《神经网络和遗传算法在水科学领域的应用》将面市[N];中国水利报;2002年
4 ;SAS公司收购Teragram 强化BI领域地位[N];计算机世界;2008年
5 本报记者 张晶;怎样挖掘专家的活的经验和智慧[N];科技日报;2011年
6 张德政;信息挖掘商业智能之“芯”[N];中国计算机报;2002年
7 汪洋 编译;BI平民化[N];计算机世界;2004年
8 靳辉;垂直搜索:呼叫经济发展的核心动力[N];通信产业报;2007年
9 王培森;从Web挖到竞争情报[N];中国计算机报;2003年
10 缪其浩记者 江世亮;非官方信息源担当应急预警器[N];文汇报;2008年
中国博士学位论文全文数据库 前10条
1 张旭;具有拓扑结构布局优化的理论及算法[D];大连理工大学;2004年
2 廖平;基于遗传算法的形状误差计算研究[D];中南大学;2002年
3 周明;高新技术产业投资环境系统研究[D];西北工业大学;2006年
4 张需溥;小型化微带天线的设计与数值分析[D];上海大学;2004年
5 杨春成;空间数据挖掘中聚类分析算法的研究[D];解放军信息工程大学;2004年
6 方娟;基于移动代理的网格资源监控技术的研究[D];北京工业大学;2005年
7 崔晓芳;箱型结构焊接变形预测、控制及应用[D];大连交通大学;2005年
8 张材;薄带坯铸轧板形智能识别与控制系统研究[D];中南大学;2004年
9 田方;遗传算法的改进研究及其在压缩机性能分析与优化中的应用[D];东北大学;2006年
10 谷峰;柔性作业车间调度中的优化算法研究[D];中国科学技术大学;2006年
中国硕士学位论文全文数据库 前10条
1 刘岩;基于Web的文本挖掘技术的研究[D];哈尔滨工程大学;2004年
2 易高翔;Web文本挖掘研究与实现[D];武汉科技大学;2004年
3 徐华;基于支持向量机的Web文本挖掘研究[D];哈尔滨工程大学;2004年
4 崔鹏;一种基于支持向量机的直推式WEB挖掘[D];大连海事大学;2006年
5 王会芬;基于Web的网页聚类系统的研究与实现[D];天津大学;2005年
6 刘静;基于Web文本挖掘的SVM网页文本分类研究[D];东北财经大学;2006年
7 朱奉梅;遗传算法在高校排课系统中的研究与应用[D];东北大学;2009年
8 孙晓丽;基于遗传算法的既有线平面及纵断面整正优化设计[D];中南大学;2010年
9 冯秋霞;解最小生成树问题的新的遗传算法[D];西安电子科技大学;2010年
10 郭佳;基于遗传算法的认知无线网络资源分配技术研究[D];西安电子科技大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026