收藏本站
《浙江大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

基于公安业务信息的文本挖掘技术研究与实现

徐亚娟  
【摘要】: 随着计算机的普及以及互联网技术的飞速发展,公安领域的文本信息量越来越庞大,不论是现有的文本数据库,还是网页实时更新的文本信息,这使公安部门迫切需要一些自动化的工具,以帮助业务人员在海量的信息中快速有效的获取所需要的案件信息,从而使犯罪信息的文本挖掘技术成为数据挖掘中一个研究的热点课题。 目前在文本挖掘领域,对自由文本的处理上,主要的技术大部分都集中在中文分词、文本特征提取、分类、聚类算法上,系统地将这些方法融合在一起应用于实际领域的研究还比较欠缺。本文在分析了文本挖掘各种技术的基础上,提出了一种基于案例相似性计算的文本信息挖掘模型,该模型能够有效地解决传统的文本挖掘系统抽取特征语义信息缺乏、表达能力薄弱等问题。 该文本挖掘模型主要由案件相似性判别以及文本聚类两部分组成。在案件相似性计算中,模型借助改进的中文分词算法,提出了一种基于案件分解的知识匹配方法,该方法通过对案件文本信息的关键词抽取以及匹配计算,有效地增强了相似案件匹配语义分析能力,提高了系统的准确率。该方法不仅增强了单一案例的知识表达能力,大大减少了案件库中相似案件的数量,同时也增强了案件知识库的学习能力。在文本聚类中,模型主要是在分析网页案件信息的基础上,实现了K-Means算法的应用。该方法按照文本信息的关键字聚类,有效地实现了相似网页信息的归并。
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:TP311.13

【相似文献】
中国期刊全文数据库 前10条
1 屈志毅;李一伟;张延堂;杨曙光;张菲菲;;一种基于关键重复语义的最大熵文本分类[J];广西师范大学学报(自然科学版);2007年04期
2 冯晋,李春平;基于统计学和语义信息的中文文本主题识别技术[J];清华大学学报(自然科学版);2005年S1期
3 ;浅析大规模文本数据挖掘技术在媒体中的创新应用[J];中国传媒科技;2007年11期
4 赵慧勤;基于因特网的信息检索特点与发展趋势[J];情报理论与实践;2000年05期
5 崔志明,谢春丽;基于Web的文本挖掘研究[J];微电子学与计算机;2002年10期
6 胥桂仙,朴泰雄,杨丹丹,徐小博,高旭;中文文本挖掘中最长频繁序列的发现算法[J];中央民族大学学报(自然科学版);2004年01期
7 渡部勇;;文本挖掘技术应用于专利检索分析[J];微电脑世界;2007年12期
8 苏芳仲,林世平;Web文本挖掘中的一种中文分词算法研究及其实现[J];福州大学学报(自然科学版);2004年S1期
9 付国瑜;;Web文本分类挖掘[J];科学咨询(决策管理);2008年03期
10 曹丽君;刘西印;杨燕萍;;WEB页面文本挖掘的价值与未来探究[J];商场现代化;2008年09期
中国重要会议论文全文数据库 前10条
1 王继成;孙颖;张福炎;;文本挖掘-数据挖掘研究的新课题[A];第十六届全国数据库学术会议论文集[C];1999年
2 蒋子海;周斌;吴泉源;;基于UIMA AS的文本挖掘系统的性能分析与评估[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
3 黄明初;陆旭安;潘雄伟;钟威;;中文分词技术在档案智能搜索中的应用[A];广西计算机学会2010年学术年会论文集[C];2010年
4 陈林;王晓华;李殿赟;文俊浩;;基于Web的自增模式文本挖掘研究[A];第一届全国Web信息系统及其应用会议(WISA2004)论文集[C];2004年
5 陈林;王晓华;李殿赟;文俊浩;;基于自增模式的文本挖掘研究[A];’2004计算机应用技术交流会议论文集[C];2004年
6 李彦鹏;杨志豪;林鸿飞;;基于条件随机域的生物医学命名实体识别[A];第三届学生计算语言学研讨会论文集[C];2006年
7 ;TRS搜索引擎和文本挖掘系统[A];中国中文信息学会第六次全国会员代表大会暨成立二十五周年学术会议中文信息处理重大成果汇报展资料汇编[C];2006年
8 王波;王厚峰;;基于自学习策略的产品特征自动识别(英文)[A];内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C];2007年
9 杨志豪;林鸿飞;;生物医学文献中的隐含知识发现[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
10 樊延平;马亚龙;袁野;;军事想定数据挖掘技术研究[A];中国系统仿真学会第五次全国会员代表大会暨2006年全国学术年会论文集[C];2006年
中国重要报纸全文数据库 前10条
1 本报记者 施鹏;非结构信息和文本挖掘[N];21世纪经济报道;2009年
2 周青 编译;文本挖掘工具实现非结构化数据价值[N];计算机世界;2004年
3 李瀛寰;雅虎中文搜索从分词开始[N];中国计算机报;2006年
4 ;SAS公司收购Teragram 强化BI领域地位[N];计算机世界;2008年
5 本报记者 张晶;怎样挖掘专家的活的经验和智慧[N];科技日报;2011年
6 汪洋 编译;BI平民化[N];计算机世界;2004年
7 靳辉;垂直搜索:呼叫经济发展的核心动力[N];通信产业报;2007年
8 张利;下一代搜索轮廓初现Autonomy力挺中文搜[N];中国企业报;2006年
9 记者 蒋隽;百度将推地图搜索抗衡google[N];民营经济报;2005年
10 缪其浩记者 江世亮;非官方信息源担当应急预警器[N];文汇报;2008年
中国博士学位论文全文数据库 前10条
1 李芳;文本挖掘若干关键技术研究[D];北京化工大学;2010年
2 陈伟;基于时序文本挖掘的新闻内容理解与推荐技术研究[D];浙江大学;2010年
3 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
4 文翰;面向信息检索的Web文本挖掘方法研究[D];华南理工大学;2012年
5 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
6 周雪忠;文本挖掘在中医药中的若干应用研究[D];浙江大学;2004年
7 刘永丹;文档数据库若干关键技术研究[D];复旦大学;2004年
8 黄定轩;企业核心能力智能挖掘应用基础研究[D];西南交通大学;2005年
9 黄九鸣;面向舆情分析和属性发现的网络文本挖掘技术研究[D];国防科学技术大学;2011年
10 陈晓云;文本挖掘若干关键技术研究[D];复旦大学;2005年
中国硕士学位论文全文数据库 前10条
1 刘明岩;面向语义关系发现的文本挖掘研究[D];南京理工大学;2010年
2 李钝;基于粗糙集理论的文本挖掘技术研究[D];山西大学;2003年
3 程春惠;公安犯罪案件文本挖掘关键技术研究[D];浙江大学;2010年
4 徐爱华;面向文本分类的中文文本挖掘技术研究及实现[D];武汉理工大学;2004年
5 刘岩;基于Web的文本挖掘技术的研究[D];哈尔滨工程大学;2004年
6 姚继伟;基于XML的Web文本挖掘的研究[D];吉林大学;2010年
7 易高翔;Web文本挖掘研究与实现[D];武汉科技大学;2004年
8 司红娜;文本挖掘技术研究及其在CRM系统中的应用[D];南昌大学;2010年
9 杨斌;中文文本数据挖掘研究[D];湘潭大学;2002年
10 杨瑞峰;WEB上基于文本挖掘的个性化检索系统的设计与实现[D];电子科技大学;2003年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026