收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

面向领域的Web文本采集与分类

卫莉莉  
【摘要】:随着互联网的大规模普及和各行业信息化程度的提高,与行业领域相关的Web文本信息快速积累,如何从这些海量信息中定向提取符合要求的知识,是当前信息处理领域的研究热点。 本文以陕西省教育厅专项科研项目“面向特定领域需求的概念设计方案自动生成方法研究”为课题研究背景,通过网络信息采集和分类技术,对领域相关主题网络资源发现与采集、采集到的网页文本信息预处理与分类这两方面的问题进行研究,主要研究工作如下: (1)对主题描述方法进行研究,将专业词库与特征选择相结合,在专家给出的有限专业词库基础上,对已有的领域代表性文本和通过网络采集到的主题相关文本进行特征提取和特征选择,筛选主题特征词,扩充专业词库,通过由主题特征词构成的向量来明确表示主题; (2)鉴于主题爬虫网页采集的不确定性,对一般网页的结构特点进行分析,采用基于行块分布函数的方法抽取网页正文,去掉干扰主题相关度判断与文本分类的广告、导航等无用文本信息,取得了较好的网页去噪效果,且具有通用性。 (3)采用综合价值评价的主题爬虫搜索策略,综合考虑网页内容分析和链接分析两方面的因素,结合PageRank算法,计算网页的综合链接价值,筛选出与主题相关的URL。 (4)对采集到的网页提取出标题和网页正文,保存为文本文档并进行预处理,根据现有的机械主题类别信息,采用基于KNN的机械主题文本分类算法对文档集合进行多子类分类,并对该分类算法进行了实验分析。 最后,结合以上研究内容,以机械领域挖掘机为主题,实现了一个机械领域Web文本采集与挖掘原型系统。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 彭禾;浅谈DOS 7 EDIT_COM文本剪接功能[J];电脑编程技巧与维护;1996年08期
2 王圆;孙铁利;李杨;;Web文本挖掘中的特征表示和特征提取[J];电脑知识与技术(学术交流);2006年14期
3 赵超;方向忠;;基于文字混合特征的视频文本定位研究[J];微计算机信息;2009年18期
4 张升;中文Word97操作技巧[J];电脑学习;2000年05期
5 三月阳光;Flash MX设计中的快捷键技巧[J];电脑知识与技术;2003年31期
6 张国强;;信息化教学资源中的文本信息设计[J];教育实践与研究(小学版);2008年06期
7 周源远,王继成,郑刚,张福炎;Web页面清洗技术的研究与实现[J];计算机工程;2002年09期
8 余健;中文Windows技术讲座[J];电脑知识与技术;1996年03期
9 常桂英;WORD使用技巧点滴[J];内蒙古科技与经济;2002年06期
10 曾峰,刘长松,丁晓青;利用名片文本图像版面信息的辅助分类方法[J];电视技术;2004年08期
11 胡德玉;问与答[J];桌面出版与设计;1998年05期
12 麻会东;刘国华;李旭;梁鹏;刘春辉;张凌宇;;基于提取关键词的中文文档复制检测研究[J];计算机工程与科学;2007年10期
13 邹永强;钟志农;;一种高效的新闻网页噪声过滤方法[J];微型机与应用;2011年16期
14 李霞;视图中插入文本块的编程方法[J];广州大学学报(自然科学版);2002年04期
15 李旭;刘国华;余靖;王蕾;;一种面向文档复制检测的特征提取方法[J];小型微型计算机系统;2008年05期
16 彭禾;浅谈DOS EDIT的文本块选择[J];电脑爱好者;1994年08期
17 陈冰;FreeHand 10使用技巧(四)[J];电脑技术;2002年04期
18 程传鹏;;一种改进的X~2统计量方法[J];中原工学院学报;2010年06期
19 西贝;;巧选纵向Word文本[J];电脑校园;2002年11期
20 杨洁;程传鹏;;搜索引擎上的自动分类技术研究[J];中原工学院学报;2007年06期
中国重要会议论文全文数据库 前10条
1 黄旭;朱艳琴;罗喜召;;重复串特征提取算法在不良信息检测中的应用[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
2 林土胜;赖声礼;;视网膜血管特征提取的拆支跟踪法[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
3 钱小聪;郑宝玉;穆明鑫;;神经网络联机手写签名验证[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
4 张羽;汪源源;王威琪;余建国;林继耕;;狭窄血管多普勒信号特征提取的实验研究[A];21世纪医学工程学术研讨会论文摘要汇编[C];2001年
5 柳林霞;陈杰;窦丽华;;不变矩理论及其在目标识别中的应用[A];2002中国控制与决策学术年会论文集[C];2002年
6 范海宁;郭英;吴剑锋;陈志武;;基于小波包分解的声信号特征提取方法[A];信号与信息处理技术第三届信号与信息处理全国联合学术会议论文集[C];2004年
7 杨日杰;施建礼;林洪文;;一种雷达视频回波特征提取方法研究[A];中国航空学会信号与信息处理专业全国第八届学术会议论文集[C];2004年
8 代克杰;张红梅;盛赛斌;;基于BP网络的故障特征提取方法研究[A];2004中国控制与决策学术年会论文集[C];2004年
9 郗长青;郑建明;李言;罗杰;;基于小波包分解的钻头磨损特征提取[A];制造技术自动化学术会议论文集[C];2004年
10 何新;史迎春;周献中;;一种基于独立分量分析的音频分类方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
中国博士学位论文全文数据库 前10条
1 王振;数字视频中文本的提取方法研究[D];中国海洋大学;2011年
2 黄晓冬;基于特征融合的视频文本获取研究[D];北京邮电大学;2010年
3 李丽洁;视频中文本信息提取技术研究[D];哈尔滨工程大学;2012年
4 张旗;基于属性的图像分类研究[D];大连海事大学;2005年
5 张立福;通用光谱模式分解算法及植被指数的建立[D];武汉大学;2005年
6 苏彩红;墙地砖质量自动检测技术的研究[D];华南理工大学;2004年
7 宋余庆;医学图像数据挖掘若干技术研究[D];东南大学;2005年
8 宋晴;基于液滴分析技术和液滴指纹图的液体识别方法的研究[D];天津大学;2005年
9 吴婷;自发脑电脑机接口模式识别关键技术与实验研究[D];上海交通大学;2008年
10 孙真真;基于光学区雷达目标二维像的目标散射特征提取的理论及方法研究[D];中国人民解放军国防科学技术大学;2001年
中国硕士学位论文全文数据库 前10条
1 卫莉莉;面向领域的Web文本采集与分类[D];西安建筑科技大学;2011年
2 屠辉;中文重复网页的检测算法研究[D];北京邮电大学;2010年
3 陈瑜芳;主题爬虫系统的研究[D];武汉理工大学;2010年
4 史晶晶;基于CRF的Web机构实体信息抽取系统[D];吉林大学;2011年
5 于成龙;中文网页分类及存储系统设计与实现[D];哈尔滨工业大学;2007年
6 李旭;基于串匹配方法的文档复制检测系统研究[D];燕山大学;2006年
7 王洋;基于主题词同现图的网页相关度研究[D];华南理工大学;2010年
8 黄伟光;网页木马的防御与检测技术研究[D];北京交通大学;2011年
9 易方昶;基于网页后门木马监测系统的研究和设计[D];北京化工大学;2010年
10 徐立新;互联网文本视频过滤技术研究与应用[D];电子科技大学;2010年
中国重要报纸全文数据库 前10条
1 湖北 冯晓玲;快速调用记事本编辑网页文件[N];电脑报;2003年
2 燕海霞;王忆勤;李福凤;脉象信号研究日渐深入[N];中国医药报;2005年
3 王晓峰;随时更新的校园信息板[N];中国电脑教育报;2003年
4 海浪轻风;一二三说变就变[N];中国电脑教育报;2005年
5 天涯;利用卡巴斯基删除顽固文件[N];电脑报;2007年
6 邹本堃;“磁碟机”与“熊猫烧香”谁比谁更毒[N];中国消费者报;2008年
7 刘成富;编辑网页有妙法[N];计算机世界;2004年
8 ;网站安全必不可少的保护神[N];中国计算机报;2005年
9 沈占锋;遥感影像信息提取与分析[N];计算机世界;2006年
10 本报记者  刘志伟 通讯员  万学才;网监警方智破“熊猫烧香”案[N];科技日报;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978