收藏本站
《南京师范大学》 2011年
收藏 | 手机打开
二维码
手机客户端打开本文

刑事案件文本信息抽取研究

陈慧炜  
【摘要】:信息抽取是为了满足信息爆炸时代从海量信息中快速有效获取所需信息而出现的一种研究方向。目前,信息抽取在医学、经济、图书等多个领域都得到了成功的运用,而涉足公安领域信息抽取的研究还比较鲜见。 目前在公安领域,案件信息急剧增长,虽然公安办公逐步实现了信息化,但仍存在相当一部分的案件信息,以自由文本形式存在,需要信息抽取技术从中抽取结构化信息,进而存入数据库中供后续的数据挖掘研究。 本文在对案件文本特点进行分析的基础上,以刑事类案件文本为对象进行了信息抽取研究。研究内容主要包括:命名实体识别、刑事案件框架体系构建、案件中原子事件的信息抽取等三个方面。基于领域特点,我们在实验中主要采用知识表辅助机器学习的方法,统计模型选用了条件随机场(CRF)。 命名实体识别是信息抽取的基础。根据公安领域实际需要,我们定义了人名、性别、年龄、籍贯、住址、案件名、货币金额、时间、地点、机构、方式、频次、人数等13种命名实体,根据领域用字特点制作“刑事案件文本常用词表”,帮助快速识别实体或定位实体边界。基于文本特点将实体识别任务分为两层:先识别基本实体,再在此基础上识别案件名实体。 在框架理论的指导下,我们为刑事案件文本构建了框架体系,将案件文本分为基本信息模块和事件信息模块,且事件分化为各种类型的原子事件,为案件文本信息的结构化表示提供了数据结构的支持。 原子事件的信息抽取主要分两步实现:事件类型的识别和事件元素的识别。定义破案事件、抓获事件、报案事件三类原子事件为研究对象。通过人工抽取和《同义词词林》扩展获得的“触发词——事件类型对照表”,过滤得候选事件集,以此辅助CRF模型进行事件类型的识别。为每类事件构造事件模板,分别训练分类器,进行事件元素的识别。 此外,本文整合三方面研究内容,开发了一个刑事案件文本信息抽取原型系统,其以自由形式的刑事案件文本作为输入,输出最终的结构化信息,并保留中间成果以供今后的研究和改进。
【学位授予单位】:南京师范大学
【学位级别】:硕士
【学位授予年份】:2011
【分类号】:G353.1

【参考文献】
中国期刊全文数据库 前10条
1 冯元勇;孙乐;张大鲲;李文波;;基于小规模尾字特征的中文命名实体识别研究[J];电子学报;2008年09期
2 张玥杰;徐智婷;薛向阳;;融合多特征的最大熵汉语命名实体识别模型[J];计算机研究与发展;2008年06期
3 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
4 石倩;陈荣;鲁明羽;;基于规则归纳的信息抽取系统实现[J];计算机工程与应用;2008年21期
5 胡雪琴;周昌乐;李绍滋;;中医医案数据库的数据基础研究[J];计算机工程与应用;2008年35期
6 胡文博;都云程;吕学强;施水才;;基于多层条件随机场的中文命名实体识别[J];计算机工程与应用;2009年01期
7 周法国;王映龙;杨炳儒;宋泽锋;;非结构化信息抽取关键技术研究探讨[J];计算机工程与应用;2009年14期
8 周俊生;戴新宇;尹存燕;陈家骏;;自然语言信息抽取中的机器学习方法研究[J];计算机科学;2005年03期
9 周文;刘宗田;孔庆苹;;基于事件的知识处理研究综述[J];计算机科学;2008年02期
10 于江德;樊孝忠;庞文博;;事件信息抽取中语义角色标注研究[J];计算机科学;2008年03期
中国重要会议论文全文数据库 前1条
1 赵妍妍;王啸吟;秦兵;车万翔;刘挺;;中文事件抽取中事件类别的自动识别[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前4条
1 杨尔弘;突发事件信息提取研究[D];北京语言大学;2005年
2 姜吉发;自由文本的信息抽取模式获取的研究[D];中国科学院研究生院(计算技术研究所);2004年
3 张素香;信息抽取中关键技术的研究[D];北京邮电大学;2007年
4 谭红叶;中文事件抽取关键技术研究[D];哈尔滨工业大学;2008年
中国硕士学位论文全文数据库 前10条
1 孟迎;基于统计的机器学习的中文命名实体识别[D];昆明理工大学;2004年
2 吴平博;基于事件框架的主题相关文档智能检索的初步研究[D];清华大学;2004年
3 叶娜;面向信息抽取的文本预处理和规则自动学习技术研究[D];东北大学;2005年
4 吴雪军;面向信息抽取的命名实体识别与模板获取技术研究[D];东北大学;2005年
5 廖先桃;中文命名实体识别方法研究[D];哈尔滨工业大学;2006年
6 冯礼;基于事件框架的突发事件信息抽取[D];上海交通大学;2008年
7 徐亚娟;基于公安业务信息的文本挖掘技术研究与实现[D];浙江大学;2008年
8 陈川波;基于半结构化文本信息抽取的简历识别系统[D];北京邮电大学;2008年
9 杨永贵;中文信息抽取关键技术研究与实现[D];北京邮电大学;2008年
10 赵妍妍;中文事件抽取的相关技术研究[D];哈尔滨工业大学;2007年
【共引文献】
中国期刊全文数据库 前10条
1 曹恒;张茜;;农作物信息垂直搜索引擎的研究[J];安徽农业科学;2012年19期
2 葛文英;吕靖;;基于条件随机场的中文人名识别[J];安阳师范学院学报;2010年05期
3 李畅;王永良;冯晓洁;聂峰;;作战文书关键信息抽取方法[J];兵工自动化;2011年05期
4 王伟;赵东岩;赵伟;;中文新闻关键事件的主题句识别[J];北京大学学报(自然科学版);2011年05期
5 李蕾;周延泉;王菁华;;基于全信息的中文信息抽取系统及应用[J];北京邮电大学学报;2005年06期
6 傅骞;温晓辉;;开放式Web信息抽取系统研究与实现[J];北京师范大学学报(自然科学版);2005年06期
7 史永刚;左志宏;;决策树在中文姓名信息提取中的应用研究[J];成都信息工程学院学报;2006年02期
8 高程熙;赵博;;中医古籍数据库建设研究进展及展望[J];成都中医药大学学报;2012年01期
9 袁鸿雁;;基于本体的HTML表格识别技术的研究[J];长春工程学院学报(自然科学版);2010年01期
10 窦嵘;加羊吉;黄伟;;统计与规则相结合的藏文人名自动识别研究[J];长春工程学院学报(自然科学版);2010年02期
中国重要会议论文全文数据库 前10条
1 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 曾青青;杨尔弘;;事件词驱动的文本事件信息结构初探[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
3 孟雷;丁效;秦兵;刘挺;;基于依存句法和短语结构句法结合的金融领域事件元素抽取[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
4 刘晓东;朱翊;柳棽;;基于突发事件的空间信息定位匹配方法研究[A];中国测绘学会九届三次理事会暨2007年“信息化测绘论坛”学术年会论文集[C];2007年
5 李帅;黄玺瑛;董家瑞;;一种基于神经网络的特定文本信息提取方法[A];第十届中国科协年会论文集(一)[C];2008年
6 向晓雯;史晓东;曾华琳;;一个统计与规则相结合的中文命名实体识别系统[A];第六届汉语词汇语义学研讨会论文集[C];2005年
7 周蕾;李培峰;朱巧明;杨季文;;碎片分词与词结合提取的未登录词识别方法[A];第六届汉语词汇语义学研讨会论文集[C];2005年
8 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
9 侯敏;侯敞;;汉英机译系统译文质量的评测[A];世纪之交的中国应用语言学研究——第二届全国语言文字应用学术研讨会论文集[C];1998年
10 张佳宝;周斌;吴泉源;;基于Hadoop的并行化命名实体识别技术研究与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
中国博士学位论文全文数据库 前10条
1 姚文琳;汉语依存句法分析方法的研究与实现[D];中国海洋大学;2009年
2 侯锋;中文报业出版的文字质量智能辅助控制技术研究[D];国防科学技术大学;2010年
3 孙静宇;基于CBR的协同Web搜索研究[D];太原理工大学;2010年
4 荆涛;面向领域网页的语义标注若干问题研究[D];吉林大学;2011年
5 蔡盈芳;基于本体的航空产品知识库构建研究[D];北京交通大学;2011年
6 王涛;突发公共事件元事件模型及事件演化研究[D];大连理工大学;2011年
7 张海军;基于大规模语料的中文新词识别技术研究[D];中国科学技术大学;2011年
8 杜萍;基于本体的中国行政区划地名识别与抽取研究[D];兰州大学;2011年
9 舒江波;面向中文信息处理的复句关系词自动标识研究[D];华中师范大学;2011年
10 仲兆满;事件本体及其在查询扩展中的应用[D];上海大学;2011年
中国硕士学位论文全文数据库 前10条
1 孙岭;一种基于前缀表达式的Web信息抽取方法的关键问题的实现[D];山东科技大学;2010年
2 白冰;基于数据处理中心的企业竞争情报系统研究[D];山东科技大学;2010年
3 王东亮;基于条件随机场模型的中文人名识别的研究[D];大连理工大学;2010年
4 安波;基于蛋白质关系网络的蛋白质络合物抽取研究[D];大连理工大学;2010年
5 廖文平;基于CRF的中文地名识别研究[D];大连理工大学;2010年
6 红霞;基于层叠条件随机场的中文机构名识别的研究[D];大连理工大学;2010年
7 王玉丹;基于SVM的汉语依存句法分析研究[D];中国海洋大学;2010年
8 李小红;基于自举的弱指导中文语义关系抽取研究[D];苏州大学;2010年
9 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
10 季元叶;语言学特征在中文命名实体间语义关系抽取中的应用研究[D];苏州大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 钟义信;自然语言理解的全信息方法论[J];北京邮电大学学报;2004年04期
2 李蕾;周延泉;王菁华;;基于全信息的中文信息抽取系统及应用[J];北京邮电大学学报;2005年06期
3 钟义信;面向智能研究的全信息理论——纪念Shannon信息论50周年[J];北京邮电大学学报;1998年04期
4 朱靖波,姚天顺;中文信息自动抽取[J];东北大学学报;1998年01期
5 秦洪武;第三人称代词在深层回指中的应用分析[J];当代语言学;2001年01期
6 宋东风;张志浩;;短文本数据的自动分类[J];电脑与信息技术;2007年01期
7 袁颖芬 ,张玥杰;英汉机译中未登录词的识别[J];电子技术;2004年02期
8 王建勇,谢正茂,雷鸣,李晓明;近似镜像网页检测算法的研究与评价[J];电子学报;2000年S1期
9 林亚平,刘云中,周顺先,陈治平,蔡立军;基于最大熵的隐马尔可夫模型文本信息抽取[J];电子学报;2005年02期
10 卢志茂;刘挺;李生;;统计词义消歧的研究进展[J];电子学报;2006年02期
中国重要会议论文全文数据库 前5条
1 季姮;罗振声;;基于反比概率模型和规则的中文姓名自动辨识系统[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
2 王洋;秦兵;郑实福;;句子相似度计算在FAQ中的应用[A];第一届学生计算语言学研讨会论文集[C];2002年
3 车万翔;刘挺;李生;;实体关系自动抽取[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
4 刘怀军;车万翔;刘挺;;中文语义角色标注的特征工程[A];第三届学生计算语言学研讨会论文集[C];2006年
5 赵妍妍;王啸吟;秦兵;车万翔;刘挺;;中文事件抽取中事件类别的自动识别[A];第三届学生计算语言学研讨会论文集[C];2006年
中国博士学位论文全文数据库 前2条
1 王强军;基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究[D];北京语言文化大学;2003年
2 姜吉发;自由文本的信息抽取模式获取的研究[D];中国科学院研究生院(计算技术研究所);2004年
中国硕士学位论文全文数据库 前8条
1 吴平博;基于事件框架的主题相关文档智能检索的初步研究[D];清华大学;2004年
2 王昀;金融领域中汉语时间信息抽取的研究[D];清华大学;2004年
3 乔羽;基于最大熵模型的中文人名识别方法研究[D];山西大学;2005年
4 陈晴;基于条件随机场的自动分词技术的研究[D];东北大学;2005年
5 徐超;基于种子自扩展的命名实体关系抽取方法的研究[D];华中师范大学;2006年
6 王志强;基于条件随机域的中文命名实体识别研究[D];南京理工大学;2006年
7 郭家清;基于条件随机场的命名实体识别研究[D];沈阳航空工业学院;2007年
8 陈静;基于本体的信息抽取研究[D];苏州大学;2007年
【相似文献】
中国期刊全文数据库 前10条
1 周法国;王映龙;杨炳儒;宋泽锋;;非结构化信息抽取关键技术研究探讨[J];计算机工程与应用;2009年14期
2 胡致涌;胡迎松;;基于领域本体的信息抽取系统的设计与实现[J];价值工程;2010年14期
3 马续补;郭菊娥;;基于GATE的任务信息抽取研究[J];情报杂志;2010年01期
4 韩普;姜杰;;HMM在自然语言处理领域中的应用研究[J];计算机技术与发展;2010年02期
5 周俊生;戴新宇;尹存燕;陈家骏;;自然语言信息抽取中的机器学习方法研究[J];计算机科学;2005年03期
6 何召卫;陈俊亮;;基于本体关系匹配的信息抽取[J];计算机工程;2007年21期
7 郑彦宁;化柏林;张新民;;信息检索与信息抽取差异性探析[J];图书情报工作;2007年10期
8 帅训波;马书南;;基于决策树的现代汉语中任职关系抽取研究[J];昆明理工大学学报(理工版);2009年04期
9 孙镇;王惠临;;命名实体识别研究进展综述[J];现代图书情报技术;2010年06期
10 董旻;方曙;;Deep Web信息抽取研究[J];图书情报工作;2007年10期
中国重要会议论文全文数据库 前10条
1 崔欣辰;曲宁;陈青华;;隐马尔可夫模型在Web信息抽取中的几点改进[A];全国第4届信号和智能信息处理与应用学术会议论文集[C];2010年
2 姜吉发;王树西;;一种自举的二元关系获取方法[A];NCIRCS2004第一届全国信息检索与内容安全学术会议论文集[C];2004年
3 李纪华;夏薇;;基于XML的web信息提取方法研究[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
4 乔春庚;肖诗斌;孙丽华;施水才;;规则与统计相结合的案件名称识别[A];第三届学生计算语言学研讨会论文集[C];2006年
5 丁晟春;刘逶迤;熊霞;梅健;;基于领域本体和语块分析的信息抽取的研究与实现[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
6 吴雪军;朱靖波;王会珍;叶娜;张宇新;;Co-Training的机器学习方法在中文机构名识别中的应用[A];语言计算与基于内容的文本处理——全国第七届计算语言学联合学术会议论文集[C];2003年
7 钱跃良;刘开瑛;;农作物模板自动生成的技术研究[A];自然语言理解与机器翻译——全国第六届计算语言学联合学术会议论文集[C];2001年
8 吕国英;冯艳;李茹;;基于中文框架语义的信息抽取研究[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
9 郭宏蕾;郭志立;;基于模型组合训练机制的特定领域名词性实体识别[A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集[C];2005年
10 钟涛;陈群秀;;基于层式有限状态自动机的灾难事件抽取系统[A];第三届全国信息检索与内容安全学术会议论文集[C];2007年
中国重要报纸全文数据库 前10条
1 史小敏;前景广阔的信息抽取技术[N];解放军报;2004年
2 彭芳;搜索也专业[N];中国计算机报;2004年
3 中国人民大学法学院教授 莫纪宏;从宪法文本看公民概念的百年发展[N];北京日报;2010年
4 陆建松;“诊疗”博物馆展览工程管理之展览文本[N];中国文物报;2005年
5 刘福旺;让文本动起来[N];中国电脑教育报;2002年
6 宋成剑;文本、对话、实践的有机统一[N];社会科学报;2001年
7 刘戈;文本的价值与意义[N];文艺报;2001年
8 朱志美;满文本《三国志演义》[N];人民日报海外版;2008年
9 江苏省锡山高级中学 曹菊华;探寻创作意图 深入解读文本[N];江苏教育报;2010年
10 田华;莫让文本式管理束缚学校和教师[N];天津教育报;2010年
中国博士学位论文全文数据库 前10条
1 刘亚清;开放式环境中的本体演化及其在信息抽取的应用研究[D];大连海事大学;2011年
2 刘娜;文本自动摘要和信息抽取方法及其应用研究[D];大连海事大学;2012年
3 钱伟中;基于判别式模型的蛋白质互作用文本挖掘技术研究[D];电子科技大学;2011年
4 张奇;信息抽取中实体关系识别研究[D];中国科学技术大学;2010年
5 胡国平;基于超大规模问答对库和语音界面的非受限领域自动问答系统研究[D];中国科学技术大学;2007年
6 张乃洲;实体搜索爬虫和信息抽取研究[D];武汉大学;2011年
7 余传明;基于本体的语义信息系统研究[D];武汉大学;2005年
8 陈治平;智能搜索引擎理论与应用研究[D];湖南大学;2003年
9 滕伟;面向Web信息集成的Web信息抽取中若干关键问题的研究[D];上海交通大学;2007年
10 何召卫;受限本体相似[D];北京邮电大学;2008年
中国硕士学位论文全文数据库 前10条
1 金璐钰;基于框架的事件抽取关键技术研究[D];苏州大学;2010年
2 杨柱;基于DIV标签树的网页主题信息抽取方法[D];湖南大学;2010年
3 田红;表格信息抽取引擎的设计与实现[D];西北师范大学;2004年
4 杨文柱;基于领域知识和信息抽取的个性化Web查询系统[D];河北大学;2002年
5 张志强;Web信息抽取技术研究与基于Web service的实现[D];河北大学;2004年
6 陈兰;基于ontology的信息抽取系统的研究与实现[D];电子科技大学;2004年
7 孟令谦;基于ontology的中文信息抽取系统的研究与实现[D];电子科技大学;2004年
8 王花;Web信息抽取技术研究[D];西北农林科技大学;2010年
9 杨秀丽;基于网页内容分析的Web信息抽取技术及其应用[D];河北科技大学;2010年
10 廉成洋;基于树结构的Web信息抽取技术研究[D];南京航空航天大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026