收藏本站
《浙江大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

公安犯罪案件文本挖掘关键技术研究

程春惠  
【摘要】: 由于信息技术的快速发展,公安信息系统中积累了海量的业务信息。面对着日益庞大的公安信息量,迫切需要应用人工智能的相关技术,对数据进行深层次的分析并研究各类信息的规律和关系,以更好地打击犯罪、防控犯罪。因此,将数据挖掘技术有效地应用于犯罪分析是目前公安工作的迫切需要。文本挖掘技术是近几年来数据挖掘领域的一个新兴的分支。而在海量案件信息中,除了规范化程度很强的数据库数据外,还有大量的案件叙述性文本描述。对这些大量的案件文本进行相关文本挖掘技术研究和应用是非常有意义的。 本文主要针对公安领域中大量的犯罪案件文本信息,对其中的案情文本挖掘相关技术进行研究和应用。本文论文的工作包括以下几点: (1)在文本预处理方面。结合实际应用需要,对公安业务中的一些术语建立专业词库;同时针对案件文本的特征,提出了具有针对性的特殊预处理方法。 (2)在案件特征选择方面。根据实际应用的需求,研究了六种特征选择算法,并通过比较六种特征选择算法,确定了对案情文文本挖掘有利的特征选择算法。 (3)在案件分类挖掘方面。提出了案件属性信息抽取方法和同义词语义分析方法,并在此基础上提出了改进的案件相似度计算方法;根据犯罪案件文本类别不均衡的特征,改进了朴素贝叶斯中的多变量贝努里模型,提出了面向不均衡类别的改进朴素贝叶斯案件文本分类方法。 (4)在应用系统设计方面。设计和实现了一个典型三层C/S结构的犯罪案件文本挖掘系统,实现了相似犯罪案件文本检索模块和犯罪案件文本分类模块。
【学位授予单位】:浙江大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP391.1

【引证文献】
中国硕士学位论文全文数据库 前3条
1 简璐瑶;基于领域本体的公安案情文本挖掘研究[D];南昌大学;2012年
2 苏挺;中山市公安局情报信息系统的设计与实现[D];电子科技大学;2013年
3 王海如;警用互联网情报采集编辑系统的设计与实现[D];上海交通大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 余战秋;中文分词技术及其应用初探[J];电脑知识与技术;2004年32期
2 刘莉;;数据挖掘技术在《公安科技信息》数据库中的运用[J];中国人民公安大学学报(自然科学版);2006年01期
3 王维娜;康耀红;伍小芹;;文本分类中特征选择方法研究[J];信息技术;2008年12期
4 孙铁利;刘延吉;;中文分词技术的研究现状与困难[J];信息技术;2009年07期
5 刘群,张华平,俞鸿魁,程学旗;基于层叠隐马模型的汉语词法分析[J];计算机研究与发展;2004年08期
6 周雪忠;吴朝晖;;文本知识发现:基于信息抽取的文本挖掘[J];计算机科学;2003年01期
7 杨莉莉;杨永川;;基于社会网络的犯罪组织关系挖掘[J];计算机工程;2009年15期
8 徐冰;郭绍忠;黄永忠;;基于朴素贝叶斯分类算法的活跃网络结构挖掘[J];计算机应用;2007年06期
9 袁军鹏;朱东华;李毅;李连宏;黄进;;文本挖掘技术研究进展[J];计算机应用研究;2006年02期
10 王卫平 ,郭长旺;文本挖掘在科技情报中的应用[J];中国科技产业;2004年12期
中国博士学位论文全文数据库 前1条
1 杨志豪;面向生物医学领域的文本挖掘技术研究[D];大连理工大学;2008年
中国硕士学位论文全文数据库 前1条
1 徐亚娟;基于公安业务信息的文本挖掘技术研究与实现[D];浙江大学;2008年
【共引文献】
中国期刊全文数据库 前10条
1 钟晓旭;胡学钢;;基于数据挖掘的Web招聘信息相关性分析[J];安徽建筑工业学院学报(自然科学版);2010年04期
2 于江德;王希杰;;词位标注汉语分词技术详解[J];安阳师范学院学报;2010年05期
3 董妍汝;;中文分词技术在搜索引擎中的应用[J];办公自动化;2010年04期
4 蒋宗礼;李宪雷;徐学可;;基于主题Hub值的元搜索[J];北京工业大学学报;2009年03期
5 蔡华利;刘鲁;王理;;突发事件Web新闻多层次自动分类方法[J];北京工业大学学报;2011年06期
6 马志强;周长胜;丁维;杨娜;;校园网搜索引擎的研究与实现[J];北京机械工业学院学报;2007年01期
7 高影繁;马润波;刘玉树;;一种快速文本归类算法的设计与实现[J];北京理工大学学报;2006年12期
8 杜鹃;冯艳春;;知识发现在数字图书馆中的应用[J];才智;2010年28期
9 朱颢东;周姝;钟勇;;结合ODF和辨识集的特征选择[J];重庆邮电大学学报(自然科学版);2010年01期
10 张兢;候旭东;吕和胜;;基于朴素贝叶斯和支持向量机的短信智能分析系统设计[J];重庆理工大学学报(自然科学版);2010年01期
中国重要会议论文全文数据库 前10条
1 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 余骁捷;邵阳;吴及;王侠;;基于SVM和MMR融和的自动文摘方法[A];第十一届全国人机语音通讯学术会议论文集(一)[C];2011年
3 董学春;胡学钢;谢飞;吴共庆;;基于词向量空间模型的文本分类方法[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
4 武洪萍;周国祥;;Web文本挖掘研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
5 俞鸿魁;张华平;刘群;吕学强;施水才;;基于层叠隐马尔可夫模型的中文命名实体识别[A];全国网络与信息安全技术研讨会'2005论文集(下册)[C];2005年
6 宋柔;;自然语言处理中语言知识的基础性地位[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
7 王芳;万常选;;基于可信度的中文完整词自动识别[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
8 靖红芳;王斌;杨雅辉;;基于类别分布的特征选择框架[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
9 赵纪元;罗霄;;面向中图法的学术文献自动分类研究[A];中国计算机语言学研究前沿进展(2007-2009)[C];2009年
10 李恒训;张华平;秦鹏;于满泉;刘金刚;;基于主题词的网络热点话题发现[A];第五届全国信息检索学术会议论文集[C];2009年
中国博士学位论文全文数据库 前10条
1 孙晓华;基于聚类的文本机会发现关键问题研究[D];哈尔滨工程大学;2010年
2 张翔;文本挖掘技术研究及其在综合风险信息网络中的应用[D];西北大学;2011年
3 杨抒;基于WEB的林产品信息资源整合方法研究[D];北京林业大学;2011年
4 刘朝涛;中文问答系统中的句型理论及其应用研究[D];重庆大学;2010年
5 代劲;云模型在文本挖掘应用中的关键问题研究[D];重庆大学;2011年
6 朱锁玲;命名实体识别在方志内容挖掘中的应用研究[D];南京农业大学;2011年
7 郑立斌;联合式制造资源发现与集成方法的研究[D];江苏大学;2011年
8 朱振方;基于微粒群和遗传优化的文本过滤关键技术研究[D];山东师范大学;2012年
9 余传明;基于本体的语义信息系统研究[D];武汉大学;2005年
10 刘云峰;基于潜在语义分析的中文概念检索研究[D];华中科技大学;2005年
中国硕士学位论文全文数据库 前10条
1 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
2 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
3 张燕丽;基于Winnow算法和CAPTCHA的垃圾短信过滤研究[D];郑州大学;2010年
4 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年
5 井志强;基于扩展的VSM中文文本分类方法[D];哈尔滨工程大学;2010年
6 孔胜;文本资源的知识抽取研究[D];大连理工大学;2010年
7 程波波;基于文本的茶学本体学习方法研究[D];安徽农业大学;2010年
8 陈旭;地理编码引擎的设计与实现[D];辽宁工程技术大学;2009年
9 汪政;基于支持向量机的改进的密度聚类算法研究[D];辽宁工程技术大学;2010年
10 刘伟丽;基于粒子群算法和支持向量机的中文文本分类研究[D];河南工业大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 张文秀;朱庆华;;领域本体的构建方法研究[J];图书与情报;2011年01期
2 张超;闫宏印;;多线程网络爬虫的设计与实现[J];电脑开发与应用;2012年06期
3 余战秋;中文分词技术及其应用初探[J];电脑知识与技术;2004年32期
4 孙立伟;何国辉;吴礼发;;网络爬虫技术的研究[J];电脑知识与技术;2010年15期
5 高锦柳;新形势下加强刑事情报基础建设之我见[J];福建公安高等专科学校学报(社会公共安全研究);2002年05期
6 李春华;;违反治安管理行为的理解与认定[J];公安教育;2006年02期
7 崔平;关于改进和强化公安情报信息工作的思考[J];辽宁公安司法管理干部学院学报;2001年02期
8 谭鲁生;围绕稳定 大力加强公安情报信息工作[J];公安研究;2003年05期
9 朱得旭;;我国公安情报工作的现状及发展趋势研究[J];贵州警官职业学院学报(公安法治研究);2006年04期
10 朱明;用系统论来分析“金盾工程”的实施[J];公安大学学报(自然科学版);2002年06期
中国博士学位论文全文数据库 前1条
1 万源;基于语义统计分析的网络舆情挖掘技术研究[D];武汉理工大学;2012年
中国硕士学位论文全文数据库 前10条
1 张伟;网络舆情监控系统的研究与实现[D];天津大学;2011年
2 邓爽;基于本体的文本分类模型研究[D];西华大学;2007年
3 陈佳;基于XML的Web信息抽取技术的应用研究[D];武汉理工大学;2007年
4 吕刚;犯罪情报信息的数据挖掘技术研究及应用实现[D];同济大学;2007年
5 代永卫;数据挖掘在公安国保信息系统中的研究与应用[D];解放军信息工程大学;2007年
6 陈德华;基于案例推理的突发案件辅助决策系统研究[D];上海交通大学;2007年
7 王磊;公安网络舆情分析系统的研究[D];北京交通大学;2008年
8 沈勤中;基于条件随机场的汉语分词研究[D];苏州大学;2008年
9 张浩明;数据挖掘在公安情报系统中的研究与应用[D];同济大学;2008年
10 陈光辉;基于本体的文本特征选取和加权方法研究[D];河北大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 唐菁;Web文本挖掘系统及聚类算法的研究[J];电信建设;2004年02期
2 林鸿飞,战学刚,姚天顺;中文文本挖掘的特征导航机制[J];东北大学学报;2000年03期
3 孙宏林,俞士汶;浅层句法分析方法概述[J];当代语言学;2000年02期
4 石晶,龚震宇,裘杭萍;基于Web使用挖掘的个性化服务系统[J];电子科技大学学报;2002年04期
5 宋东风;张志浩;;短文本数据的自动分类[J];电脑与信息技术;2007年01期
6 刘利东;基于组合度的汉语分词决策算法研究[J];德州学院学报(自然科学版);2003年02期
7 吴应良,韦岗,李海洲;一种基于N-gram模型和机器学习的汉语分词算法[J];电子与信息学报;2001年11期
8 周雪忠,吴朝晖,刘保延;生物医学文献知识发现研究探讨及展望[J];复杂系统与复杂性科学;2004年03期
9 史磊,王永成;英文文献自动摘要系统的研制与开发[J];高技术通讯;1999年11期
10 马颖华,王永成,苏贵洋,韩客松,赵海;自动标引中基于概念层次树的主题词轮排选择的算法实现[J];高技术通讯;2003年06期
中国重要会议论文全文数据库 前1条
1 高山;张艳;徐波;宗成庆;韩兆兵;;基于三元统计模型的汉语分词及标注一体化研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国硕士学位论文全文数据库 前1条
1 唐飞龙;Internet信息获取技术的研究[D];合肥工业大学;2002年
【相似文献】
中国期刊全文数据库 前10条
1 崔志明,谢春丽;基于Web的文本挖掘研究[J];微电子学与计算机;2002年10期
2 黄迎春;李晓晔;邓文新;;文本挖掘技术的研究[J];齐齐哈尔大学学报;2006年03期
3 胡冰;胡东军;马文超;;文本挖掘研究及发展[J];电脑知识与技术;2008年31期
4 杨霞;黄陈英;;文本挖掘综述[J];科技信息;2009年33期
5 余燕芳;;基于改进遗传算法的Web文本挖掘系统[J];微电子学与计算机;2010年04期
6 郭玉滨;;Web文本挖掘技术及其应用的研究[J];电脑知识与技术(学术交流);2006年08期
7 谢冬;刘宏申;;文本挖掘中若干关键问题的研究[J];电脑知识与技术;2009年18期
8 吴岳芬;刘洪辉;;WEB文本挖掘的研究[J];电脑知识与技术(学术交流);2006年11期
9 许高建;;基于Web的文本挖掘技术研究[J];计算机技术与发展;2007年06期
10 屈志毅;李一伟;张延堂;杨曙光;张菲菲;;一种基于关键重复语义的最大熵文本分类[J];广西师范大学学报(自然科学版);2007年04期
中国重要会议论文全文数据库 前10条
1 陈克利;宗成庆;王霞;;基于大规模真实文本的平衡语料分析与文本分类方法[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
2 杜长海;吉根林;;模糊聚类的最大树法在文本分类中的应用研究[A];第二十二届中国数据库学术会议论文集(研究报告篇)[C];2005年
3 刘秉权;李博;孙林;王宝勋;刘远超;;标签特征和正文特征融合的SVM博客文本分类算法研究[A];第六届全国信息检索学术会议论文集[C];2010年
4 海丽且木·艾沙;维尼拉·木沙江;;Web文本分类及其维、哈、柯多文种信息检索中的应用研究[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
5 商炳章;白清源;;基于特征项权重改进的关联文本分类[A];第二十五届中国数据库学术会议论文集(二)[C];2008年
6 胡俊;黄厚宽;;一种基于SVM的可视化文本分类的方法[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年
7 朱慕华;陈文亮;朱靖波;;词聚类在文本分类中的应用[A];第二届全国学生计算语言学研讨会论文集[C];2004年
8 杜志文;曾文华;;网格计算在文本分类中的应用[A];2006年全国开放式分布与并行计算机学术会议论文集(三)[C];2006年
9 王小华;陆蓓;张国煊;;文本自动分类的模糊方法[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
10 庞剑锋;程学旗;;反馈方法在文本分类系统中的应用[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
中国重要报纸全文数据库 前10条
1 本报记者 施鹏;非结构信息和文本挖掘[N];21世纪经济报道;2009年
2 周青 编译;文本挖掘工具实现非结构化数据价值[N];计算机世界;2004年
3 ;SAS公司收购Teragram 强化BI领域地位[N];计算机世界;2008年
4 本报记者 张晶;怎样挖掘专家的活的经验和智慧[N];科技日报;2011年
5 记者 辛明 夏天;当科学技术进入公安领域……[N];西部法制报;2009年
6 汪洋 编译;BI平民化[N];计算机世界;2004年
7 靳辉;垂直搜索:呼叫经济发展的核心动力[N];通信产业报;2007年
8 缪其浩记者 江世亮;非官方信息源担当应急预警器[N];文汇报;2008年
9 ;用挖掘技术使学术资源利用效益最大化[N];中国计算机报;2007年
10 张德政;信息挖掘商业智能之“芯”[N];中国计算机报;2002年
中国博士学位论文全文数据库 前10条
1 徐建锁;知识管理和文本挖掘的若干问题研究[D];天津大学;2004年
2 章舜仲;文本分类中词共现关系的研究及其应用[D];南京理工大学;2010年
3 廖一星;文本分类及其特征降维研究[D];浙江大学;2012年
4 李芳;文本挖掘若干关键技术研究[D];北京化工大学;2010年
5 郑文斌;基于正则化线性统计模型的文本分类研究[D];浙江大学;2012年
6 孟佳娜;迁移学习在文本分类中的应用研究[D];大连理工大学;2011年
7 王占一;Web文本挖掘中若干问题的研究[D];北京邮电大学;2012年
8 程文娟;基于文本挖掘的定向性信息分析研究[D];合肥工业大学;2012年
9 檀敬东;文本挖掘的若干关键算法研究[D];中国科学技术大学;2010年
10 李智星;用于文本分类的简明语义分析技术研究[D];重庆大学;2011年
中国硕士学位论文全文数据库 前10条
1 程春惠;公安犯罪案件文本挖掘关键技术研究[D];浙江大学;2010年
2 徐爱华;面向文本分类的中文文本挖掘技术研究及实现[D];武汉理工大学;2004年
3 易高翔;Web文本挖掘研究与实现[D];武汉科技大学;2004年
4 唐明;文本挖掘及其在多文化交流平台中的应用[D];西南大学;2006年
5 陶小波;电子就业文本挖掘系统关键技术研究与应用[D];浙江工商大学;2011年
6 崔鹏;一种基于支持向量机的直推式WEB挖掘[D];大连海事大学;2006年
7 徐华;基于支持向量机的Web文本挖掘研究[D];哈尔滨工程大学;2004年
8 李春玲;文本挖掘在垃圾邮件过滤中的应用研究[D];中国人民大学;2008年
9 郭飞;文本挖掘方法探讨及应用[D];成都理工大学;2006年
10 杜圣东;基于多类支持向量机的文本分类研究[D];重庆大学;2007年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026