收藏本站
《北京邮电大学》 2008年
收藏 | 手机打开
二维码
手机客户端打开本文

基于半结构化文本信息抽取的简历识别系统

陈川波  
【摘要】: 在日常生活中,简历是一类常见文本。从功能上看,简历是其作者介绍自己,推销自己,最终达到有效沟通的重要手段;从行文结构上看,它是一种半结构化文本。该类文本应用广泛、数目众多,因此,高效、准确的实现其信息抽取成为一个迫切的需求。在本文中,将就如何实现简历信息抽取进行研究。 一方面,从信息抽取效率上看,人工读取显然已经不能满足现实需求,而必须要利用计算机相关技术;另一方面,从准确抽取的可行性上看,根据半结构化文本的特征和文本信息抽取技术,如正则表达式匹配、关联性分析、统计等方法可以使抽取结果满足实际需要,即实现机器智能化识别是可行的。 本文的主要研究对象是简历,主要任务是针对以简历文本为代表的半结构化文本进行信息抽取的研究工作,主要研究成果包括三个方面:第一,提出了一种可广泛应用于各类半结构化文本的信息抽取思路;第二,设计了一套切实可用的简历信息抽取算法;第三,实现了一个可用的简历识别系统。 从本文的内容结构上看,论文主要分为五章:首先,绪论介绍论文半结构化文本在实际情况中的应用、进行信息抽取研究的必要性及可行性和项目的主要成果;其次,在第二章中根据实际项目需求,阐述了半结构化文本的定义,描述了该类文本的特点,提出了实现有效信息抽取的方案;再次,在第三、四中具体介绍简历信息抽取系统。该系统描述主要包括两个方面:系统设计和算法研究。前者主要是从工程应用上对系统进行描述,后者则是从算法实现上阐述系统的运作原理;最后,在第五章中对本文所论述的内容进行总结。
【关键词】:半结构化文本 正则匹配 关联性 统计 分割 循环控制
【学位授予单位】:北京邮电大学
【学位级别】:硕士
【学位授予年份】:2008
【分类号】:TP391.1
【目录】:
  • 摘要4-5
  • ABSTRACT5-7
  • 1 第一章 绪论7-11
  • 1.1 课题背景7
  • 1.2 基于结构的文本分类7-8
  • 1.3 本课题研究的意义8
  • 1.4 本课题主要工作及成果8-11
  • 1.4.1 课题研究对象8-9
  • 1.4.2 课题主要工作9-10
  • 1.4.3 课题主要成果10
  • 1.4.4 本文结构简介10-11
  • 2 第二章 半结构化文本定义11-20
  • 2.1 半结构化文本定义11-14
  • 2.2 半结构化文本特征14-18
  • 2.2.1 元14-15
  • 2.2.2 项15-17
  • 2.2.3 标识性17-18
  • 2.3 半结构化文本举例18-20
  • 3 第三章 智能简历分析系统20-33
  • 3.1 研究目标20
  • 3.2 系统描述20-31
  • 3.2.1 类集合设计21-22
  • 3.2.2 算法设计22-25
  • 3.2.3 系统设计25-31
  • 3.3 系统支持技术31-33
  • 4 第四章 识别算法研究33-54
  • 4.1 算法概要介绍33-34
  • 4.2 算法模块之间的关联34-35
  • 4.3 算法详解35-52
  • 4.3.1 分割算法模块35-42
  • 4.3.2 识别算法模块42-51
  • 4.3.3 循环控制算法模块51-52
  • 4.4 半结构化文本信息抽取基本思路52-54
  • 5 第五章 总结及展望54-57
  • 6 参考文献57-59
  • 7 致谢59-60
  • 8 作者在攻读学位期间发表的学术论文60

【相似文献】
中国期刊全文数据库 前10条
1 张花国;魏平;;同步多用户长码直扩信号的盲解扩[J];电子与信息学报;2011年07期
2 ;[J];;年期
3 ;[J];;年期
4 ;[J];;年期
5 ;[J];;年期
6 ;[J];;年期
7 ;[J];;年期
8 ;[J];;年期
9 ;[J];;年期
10 ;[J];;年期
中国重要会议论文全文数据库 前9条
1 李志龙;;非线性泛函分析随机序集一般原理[A];2006“数学技术应用科学”[C];2006年
2 林梓;尤树军;;混合混沌伪随机序列的实现及特性分析[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
3 李小五;;协调性质与无穷逻辑几个公理化系统的完全性[A];1993年逻辑研究专辑[C];1993年
4 马晓民;;多卜勒测流仪中短序列信号分析[A];2004年船舶仪器仪表学术年会论文集[C];2004年
5 薛长斌;汪大星;;空基遥科学实验平台遥控译码单元的研制[A];中国空间科学学会空间探测专业委员会第十七次学术会议论文集[C];2004年
6 贺瑞良;赵宇红;;基于蓝牙服务发现协议的数据包解析[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(上册)[C];2008年
7 刘聪;陈景春;曾家智;;新型网络体系下SSL协议的分析与实现框架[A];第九届全国青年通信学术会议论文集[C];2004年
8 马晓民;顾建松;王越;;多卜勒测流仪中短序列信号应用研究[A];中国声学学会2005年青年学术会议[CYCA'05]论文集[C];2005年
9 管玉娟;王淑晴;关泽群;;纹理分析的条件模式谱方法[A];第十四届全国遥感技术学术交流会论文摘要集[C];2003年
中国硕士学位论文全文数据库 前9条
1 陈川波;基于半结构化文本信息抽取的简历识别系统[D];北京邮电大学;2008年
2 江志祥;智能简历解析系统的研究与实现[D];北京邮电大学;2009年
3 孙鹏;江豚MHC-DQB座位第二外元序列变异分析[D];南京师范大学;2006年
4 于华;Banach空间上的随机加权和的收敛性[D];浙江大学;2003年
5 王学武;随机变量(元)阵列加权和的完全收敛性[D];杭州师范学院;2006年
6 郭欣欣;基于差分集相关及四元序列的同步算法研究[D];燕山大学;2011年
7 王敏会;相依随机变量的移动平均过程的完全收敛性[D];吉林大学;2004年
8 张海艳;基于Legendre和Jacobi序列的研究[D];上海交通大学;2008年
9 郝永新;肉鸡鹦鹉热衣原体病病原的分离与鉴定[D];中国农业大学;2005年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026