收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

汉语文本数据挖掘

郝立丽  
【摘要】: 随着信息技术和计算机网络的飞速发展,各行各业每天产生并积累大量数据,从海量数据中发现有价值信息的数据挖掘已经成为迫切而富有挑战性的研究课题.本文从市长公开电话的实际需要出发,研究了以下几个方面内容: 众多市民在某一短暂的时间内对某一问题的集中投诉,称为热点问题,这类问题产生速度快、数量大,如不及时处理势必会产生严重的负面影响,甚至出现集体上访、阻塞交通、罢工等恶劣事件的发生.如何从海量文本数据中挖掘出热点问题?若采用文档聚类方法直接提取热点问题,会由于文档向量空间的维数过高导致聚类效果很差,因此本文将提取热点问题转化为先求热点词,然后通过热点词进行变量聚类,使反映同一主题的热点词汇聚在一起,画出聚类树,最后根据聚类树提取热点问题.本文论述了提取热点问题的具体实现方法,给出了此方法在市长公开电话数据上的实际应用结果分析,并与人工提取的结果进行了对比,结果表明本文提出的方法效果非常好,既准确又能节省大量的人力. 根据市长公开电话数据的季节性特点,设计了基于时序数据的朴素贝叶斯分类器.首先对分类类别与时间进行独立性检验,然后将与时间不独立的类别用核回归函数估计其在不同时间段上的先验概率,从而构建基于时序数据的朴素贝叶斯分类器.鉴于朴素贝叶斯条件独立性假设约束对分类性能的影响,又提出了一种加权朴素贝叶斯分类器,其加权参数作用于类别节点上,先用朴素贝叶斯分类器计算出各类别的后验概率后,通过二次加权调整后验概率,再完成分类,调整系数根据属于不同类别的投诉样本在不同时间内分布情况进行确定. 面对海量数据,本文提出了基于任务驱动的并行算法,并应用于决策树学习和贝叶斯多网学习中,取得了成功;将市长公开电话数据按月份分成12个数据子集,并在每一个数据子集上构建支持向量机,经实践,训练时间得到显著降低,能够完成白天分类夜间学习的需要,而且正确率也有很大提高.另外,还设计了基于二项检验的特征词提取和基于词频的特征词词组提取方法,再利用获得的决策树信息、贝叶斯多网信息,提出了一种基于规则的得分法文本分类器.


知网文化
【相似文献】
中国期刊全文数据库 前10条
1 李淑鹏;;基于神经网络算法的文本分类器研究[J];软件导刊;2007年23期
2 邵乐;于红;刘溪婧;綦孝姬;梁晓娜;;基于朴素贝叶斯的渔业文本分类器研究[J];大连水产学院学报;2010年01期
3 杨喜权;孙娜;张野;孔德冉;;DocOnto——一种基于本体的文本分类器[J];计算机应用;2008年S2期
4 张素莉;潘欣;;一种新颖的基于马氏距离的文本分类方法的研究[J];长春工程学院学报(自然科学版);2011年02期
5 武子英;基于模糊模式识别的中文文本分类器的设计与实现[J];科技情报开发与经济;2005年16期
6 赫枫龄;左万利;于海龙;;用改进的1-DNF算法获取最强反例集合的方法[J];计算机工程;2007年09期
7 朱明;李香;郑烇;;基于多学习策略的网页信息抽取方法[J];计算机应用与软件;2008年12期
8 覃晓;元昌安;彭昱忠;丁超;;基于基因表达式编程的Web文本分类研究[J];网络安全技术与应用;2009年03期
9 李新;;基于语义的文本信息安全过滤平台[J];信息化研究;2009年06期
10 赵金海;;SE4SEE的体系结构研究[J];图书馆建设;2008年07期
中国硕士学位论文全文数据库 前2条
1 王银利;基于启发式规则和文本分类的信息过滤技术[D];北京交通大学;2007年
2 吴红娟;XML Engine安全网关语义过滤的研究与实现[D];电子科技大学;2009年
中国知网广告投放
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978