收藏本站
《河北农业大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

基于SVM的中文电子邮件作者性别识别技术研究

杨静  
【摘要】: 随着科技的飞速发展,网络成为人们交换、获取信息的新平台,其中电子邮件以其快捷、经济的特点,改变了传统的通信方式,成为人们重要的通信手段。电子邮件给人们带来便利的同时,也给人们提出了许多新问题,如垃圾邮件、病毒邮件、诈骗邮件、反动邮件等非法邮件泛滥的问题。这些非法邮件给社会造成的危害越来越大,如何有效遏制非法邮件的传播,惩治非法邮件的制作者已成为社会关注的热点。但要找到邮件的原始制作者,并向法庭提供有效证据,使之得到应有惩罚并不容易。因为邮件制作者可利用网络和电子邮件的特点,隐匿真实身份,通过匿名服务器发送邮件或伪造地址、更改姓名。因此,由邮件头部信息确定邮件作者的真实身份的工作很难实现。所以需要研究一种邮件作者身份的识别方法,确定邮件作者的真实身份,并为计算机取证提供依据,从而达到控制非法邮件传播的目的。如何确定邮件作者的真实身份呢?人的身份是由其个性身份特征组成的,如年龄、性别、职业、教育程度等等,所以确定邮件作者的真实身份,就要确定其个性身份特征,这样才能有效锁定邮件作者,并达到取证的目的。 目前,对邮件作者身份的识别研究已有开展,并取得初步研究成果,但对作者的个性身份特征的识别还鲜有涉及。因性别是确定人身份的重要特征,且识别判定作者的性别后,可有效缩小识别范围,进一步提高邮件作者身份识别效率,为计算机取证提供技术支持,所以,本文选择识别中文电子邮件作者的性别这一研究热点,在国内外的相关研究基础上进行了研究和探索。 本文首先对与本研究相关的电子邮件身份识别、作者性别识别等研究领域的国内外现状进行了论述,探讨了现有研究技术和方法。并从理论和技术的角度探讨了中文电子邮件作者性别识别的基本问题和任务模型。在详细分析中文邮件正文中性别语言差异的基础上,提出了可用于识别中文电子邮件作者性别的特征模式;在借鉴已有研究成果的基础上,对特征提取方法以及权值确定方法的进行了探讨;分析研究了利用支持向量机算法识别邮件作者性别的方法。为了验证所提出的模式和方法的正确性与可行性,本研究对有限数据集进行了实验研究。分别采用不同的特征、不同的特征组合以及综合特征等方法进行了实验。实验结果表明本研究提出的方法是可行的,但识别效果还远达不到计算机取证的要求,需进一步提高。
【学位授予单位】:河北农业大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:TP391.4

【引证文献】
中国博士学位论文全文数据库 前1条
1 王芳;基于本体的广域农业信息服务系统关键技术研究[D];河北农业大学;2012年
中国硕士学位论文全文数据库 前2条
1 杜一鸣;社会关系网络构建方法研究[D];河北农业大学;2010年
2 孙启干;面向Web文本检索的归一化向量分类算法[D];重庆大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 王志家,王相臣,林红;电子打印文件个人言语特征的同一认定[J];江苏公安专科学校学报;2002年04期
2 刘惠华;电子邮件语言的性质和文体[J];广东外语外贸大学学报;2004年02期
3 钱进;语言性别差异研究综述[J];甘肃社会科学;2004年06期
4 覃鸿怀;试谈谈Forensic Linguistics[J];广州师院学报(社会科学版);1997年01期
5 张自忠;运用概率论研究笔迹同一认定理论[J];河北大学学报(自然科学版);1995年01期
6 卢信朝;;言语交际中的汉语性别语言结构差异[J];淮北煤炭师范学院学报(哲学社会科学版);2006年03期
7 叶俊勇,汪同庆,杨波,彭健;基于支持向量机的人脸检测算法[J];计算机工程;2003年02期
8 刘丽珍,宋瀚涛;文本分类中的特征选取[J];计算机工程;2004年04期
9 侯风雷,王炳锡;基于说话人聚类和支持向量机的说话人确认研究[J];计算机应用;2002年10期
10 申红;吕宝粮;内山将夫;井佐原均;;文本分类的特征提取方法比较与改进[J];计算机仿真;2006年03期
【共引文献】
中国期刊全文数据库 前10条
1 胡开宝;试论文体学原理在综合英语教学中的应用[J];安徽教育学院学报(哲学社会科学版);1998年02期
2 王永梅;胡学钢;;决策树中ID3算法的研究[J];安徽大学学报(自然科学版);2011年03期
3 叶明全;;数据挖掘在医疗数据中的应用[J];安徽工程科技学院学报(自然科学版);2007年03期
4 任静明;科技论文英文摘要的规范化[J];安徽建筑工业学院学报(自然科学版);2004年03期
5 刘文捷;关于《大学英语·听力》教材的几点思考[J];安徽农业大学学报(社会科学版);2001年02期
6 刘明珠;仿拟在广告英语中的应用[J];安徽农业大学学报(社会科学版);2002年04期
7 徐佳;;汉英语言性别歧视的比较研究[J];安徽农业大学学报(社会科学版);2008年05期
8 贾泽露;;基于GIS与SDM集成的农用地定级专家系统[J];安徽农业科学;2008年14期
9 时雷;虎晓红;席磊;段其国;;集成学习技术在农业中的应用[J];安徽农业科学;2008年26期
10 时雷;席磊;虎晓红;段其国;;基于支持向量机的农业数据分类研究[J];安徽农业科学;2009年05期
中国重要会议论文全文数据库 前10条
1 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 韩露;余正涛;邓锦辉;章程;毛存礼;郭剑毅;;领域知识关系对领域文本分类的影响[A];第二十七届中国控制会议论文集[C];2008年
3 ;Learning Algorithm of Decision Tree Generation for Continuous-valued Attribute[A];第二十九届中国控制会议论文集[C];2010年
4 王琦;;基于贝叶斯决策树算法的垃圾邮件识别机制[A];2011年通信与信息技术新进展——第八届中国通信学会学术年会论文集[C];2011年
5 王亚峰;;涉外旅游宣传的语言诉求应用[A];语言与文化研究(第四辑)[C];2009年
6 鲁松;;英文介词短语归并歧义的RMBL分类器消解[A];2005年信息与通信领域博士后学术会议论文集[C];2005年
7 刘海霞;钟晓妮;周燕荣;田考聪;;决策树在居民就诊卫生服务利用影响因素研究中的应用[A];重庆市预防医学会2010年论文集[C];2011年
8 汪云亮;吕久明;刘孝刚;;基于信息熵的辐射源属性分类方法[A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上)[C];2006年
9 沈焕生;朱磊;;基于信息内容的关键词抽取研究[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(上册)[C];2008年
10 叶中行;陆青;余敏杰;;计算智能在银行信贷信用分类中的应用[A];中国电子学会第十五届信息论学术年会暨第一届全国网络编码学术年会论文集(下册)[C];2008年
中国博士学位论文全文数据库 前10条
1 贾丹;反思法视角下的口译课堂教学教师发展研究[D];上海外国语大学;2010年
2 冯军;论外宣翻译中语义与风格的趋同及筛选机制[D];上海外国语大学;2010年
3 赵莹;半监督支持向量机学习算法研究[D];哈尔滨工程大学;2010年
4 杨宁;计算机辅助卷烟配方设计关键技术研究[D];中国海洋大学;2010年
5 任广波;基于半监督学习的遥感影像分类技术研究[D];中国海洋大学;2010年
6 张明;电能质量扰动相关问题研究[D];华中科技大学;2010年
7 卢建平;基于拓扑学和统计学的无字库汉字智能造字研究[D];华南理工大学;2010年
8 王艳红;美国黑人英语汉译研究[D];南开大学;2010年
9 赵玉凤;图像检索中自动标注技术的研究[D];北京交通大学;2009年
10 渠瑜;基于SVM的高不平衡分类技术研究及其在电信业的应用[D];浙江大学;2010年
中国硕士学位论文全文数据库 前10条
1 崔建明;从词汇与句法角度看法律英语翻译[D];河北大学;2009年
2 王丽敬;地理案例的空间相似性计算[D];山东科技大学;2010年
3 焦晴;从顺应论角度看双关广告语的翻译[D];山东科技大学;2010年
4 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
5 岳海亮;信息论在粗糙集连续属性离散化中的应用[D];辽宁师范大学;2010年
6 张燕丽;基于Winnow算法和CAPTCHA的垃圾短信过滤研究[D];郑州大学;2010年
7 潘志娟;从语域分析的角度看《卖花女》中人物语言的风格再现[D];上海外国语大学;2010年
8 张琪;以《六人行》为例探讨话轮转换的性别差异[D];上海外国语大学;2010年
9 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年
10 武国英;词汇丰富性与大学英语作文质量关系研究[D];哈尔滨工程大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 邓志鸿,唐世渭,张铭,杨冬青,陈捷;Ontology研究综述[J];北京大学学报(自然科学版);2002年05期
2 樊孝忠,李宏乔,李良富,叶江;银行领域汉语自动问答系统BAQS的研究与实现[J];北京理工大学学报;2004年06期
3 孟佳娜;林鸿飞;李彦鹏;;基于特征贡献度的特征选择方法在文本分类中应用[J];大连理工大学学报;2011年04期
4 胡艳波;崔新春;路青;;基于SKOS的知识管理研究[J];电子技术;2011年11期
5 周俊生;戴新宇;尹存燕;陈家骏;;基于层叠条件随机场模型的中文机构名自动识别[J];电子学报;2006年05期
6 戴新宇;田宝明;周俊生;陈家骏;;一种基于潜在语义分析和直推式谱图算法的文本分类方法LSASGT[J];电子学报;2008年08期
7 解(亻刍);汪小帆;;复杂网络中的社团结构分析算法研究综述[J];复杂系统与复杂性科学;2005年03期
8 邸楠;姚从磊;李晓明;;基于中文Web社会网络的提取、测量与分析[J];广西师范大学学报(自然科学版);2007年02期
9 熊大红;;知识服务模型和农业知识服务平台设计研究[J];湖南农业科学;2009年06期
10 邱江涛;唐常杰;曾涛;刘胤田;;关联文本分类的规则修正策略[J];计算机研究与发展;2009年04期
中国博士学位论文全文数据库 前4条
1 于满泉;面向人物追踪的知识挖掘研究[D];中国科学院研究生院(计算技术研究所);2006年
2 李欢;问答系统中的文本信息抽取研究与应用[D];中国科学技术大学;2009年
3 宋万鹏;短文本相似度计算在用户交互式问答系统中的应用[D];中国科学技术大学;2010年
4 马建斌;中文Web信息作者同一认定技术研究[D];河北农业大学;2010年
中国硕士学位论文全文数据库 前10条
1 常卫丽;领域本体在中文命名实体识别中的应用研究[D];武汉理工大学;2011年
2 周春波;面向WI输入法的新词发现技术研究与实现[D];哈尔滨工业大学;2011年
3 王永芳;面向农民的问答系统设计与实现[D];山西大学;2011年
4 张春雨;中国枣网上智能专家系统[D];河北农业大学;2002年
5 王丁;基于中文文本分类的自动诊病系统[D];哈尔滨理工大学;2003年
6 黄辉宇;基于神经网络的不良信息实时监测系统研究[D];燕山大学;2003年
7 马建斌;基于SVM的中文电子邮件作者身份挖掘技术研究[D];河北农业大学;2004年
8 梅胜;基于SVM的多层次大类别数文本分类系统(HJ-TCM)的设计与实现[D];南京理工大学;2004年
9 黄春娟;网络环境下个性化信息服务及其响应系统研究[D];南京理工大学;2004年
10 易高翔;Web文本挖掘研究与实现[D];武汉科技大学;2004年
【二级引证文献】
中国期刊全文数据库 前2条
1 王春雨;王芳;;基于条件随机场的农业命名实体识别研究[J];河北农业大学学报;2014年01期
2 王聪;周沫;;Web信息检索及应用设计优化技术研究[J];信息通信;2013年05期
中国硕士学位论文全文数据库 前2条
1 刘小利;社会关系网络的关系构建方法研究[D];河北农业大学;2012年
2 仇钧;基于微博社会网络的用户兴趣模型研究[D];上海交通大学;2013年
【二级参考文献】
中国期刊全文数据库 前10条
1 潘予翎;评Tannen博士《你怎么就是不明白》一书[J];国外语言学;1996年04期
2 JanetHolmes ,李悦娥;《女性、男性与礼貌》简介[J];当代语言学;2001年01期
3 董晓波;英汉语言性别歧视现象的社会历史文化透视[J];妇女研究论丛;2004年02期
4 王灏,黄厚宽,田盛丰;文本分类实现技术[J];广西师范大学学报(自然科学版);2003年01期
5 白解红;语义多层面上的性别差异[J];湖南师范大学社会科学学报;2000年04期
6 吕婧,胡志清;语言中的性别差异研究[J];华中科技大学学报(社会科学版);2001年04期
7 李经伟;西方语言与性别研究述评[J];解放军外国语学院学报;2001年01期
8 秦进,陈笑蓉,汪维家,陆汝占;文本分类中的特征抽取[J];计算机应用;2003年02期
9 阮绩智;电子邮件的文体特征探析[J];中国科技翻译;2002年03期
10 李昕辉;女性语言风格特色简析[J];莱阳农学院学报(社会科学版);1999年02期
【相似文献】
中国期刊全文数据库 前10条
1 宁朝;基于SVM技术的英文字符识别方法[J];大众科技;2005年08期
2 王清翔;仲婷;潘金贵;;基于SVM的日文网页分类[J];广西师范大学学报(自然科学版);2007年02期
3 赵书河,冯学智,都金康,林广发;基于支持向量机的SPIN-2影像与SPOT-4多光谱影像融合研究[J];遥感学报;2003年05期
4 张键;于忠党;栾海滢;;基于SVM的教师评价系统研究[J];教育信息化;2006年03期
5 薄丽玲;;基于SVM的数字图像水印检测算法设计[J];科技情报开发与经济;2007年33期
6 黄秀丽;王蔚;;SVM在非平衡数据集中的应用[J];计算机技术与发展;2009年06期
7 刘晓亮;丁世飞;朱红;张力文;;SVM用于文本分类的适用性[J];计算机工程与科学;2010年06期
8 任俊旭;;基于SVM的企业信息化能力成熟度测度模型研究[J];商业文化(下半月);2011年04期
9 吴春辉;陈洪生;;基于内容的音频分类技术综述[J];现代计算机(专业版);2011年05期
10 毛伟;;基于支持向量机的回归应用研究[J];科技资讯;2011年12期
中国重要会议论文全文数据库 前10条
1 ;A Tool Wear Predictive Model Based on SVM[A];Proceedings of 2010 Chinese Control and Decision Conference[C];2010年
2 ;A CDMA Signal Receiver Based on LS-SVM[A];第二十六届中国控制会议论文集[C];2007年
3 司爱威;冯辅周;江鹏程;饶国强;王建;;基于可变风险SVM模型的故障识别方法研究[A];第十届全国振动理论及应用学术会议论文集(2011)上册[C];2011年
4 王红伟;董慧;;一种提高SVM分类精度的调制信号识别方法[A];2010年西南三省一市自动化与仪器仪表学术年会论文集[C];2010年
5 ;Improved Particle Swarm Optimized SVM for Short-term Traffic Flow Predication[A];第二十六届中国控制会议论文集[C];2007年
6 宋鑫颖;周志逵;;一种基于SVM的主动学习文本分类方法[A];第二十三届中国数据库学术会议论文集(技术报告篇)[C];2006年
7 邵杰;叶宁;容亦夏;;基于SVM的多波束测深数据滤波[A];第二十九届中国控制会议论文集[C];2010年
8 于湘涛;周峰;张兰;魏超;;基于SVM和田口方法的石英挠性加速度计健壮性设计[A];质量——持续发展的源动力:中国质量学术与创新论坛论文集(下)[C];2010年
9 ;Adaptive Control of Nonlinear System Based on SVM Online Algorithm[A];中国自动化学会控制理论专业委员会D卷[C];2011年
10 张睿;陈雪;马建文;;基于递归SVM的高光谱数据特征选择算法研究[A];第八届成像光谱技术与应用研讨会暨交叉学科论坛文集[C];2010年
中国重要报纸全文数据库 前6条
1 郭涛;利用SVM虚拟化技术实现容灾[N];中国计算机报;2008年
2 本报记者 韩露;乱军之中智者胜[N];证券时报;2000年
3 ;基于网络层的存储虚拟化是主流[N];中国计算机报;2008年
4 本报记者 郭平;LSI发布新存储虚拟化管理器[N];计算机世界;2008年
5 王琨月;存储虚拟化市场的博弈[N];网络世界;2008年
6 刘;LSI Engenio 7900存储面向中端客户[N];电脑商报;2008年
中国博士学位论文全文数据库 前10条
1 渠瑜;基于SVM的高不平衡分类技术研究及其在电信业的应用[D];浙江大学;2010年
2 申丰山;样例权重估计及在此基础上的SVM[D];西安电子科技大学;2011年
3 宋国明;基于提升小波及SVM优化的模拟电路智能故障诊断方法研究[D];电子科技大学;2010年
4 张婧;基于SVM的肺结节自动识别方法研究[D];华南理工大学;2011年
5 胡振邦;基于Latent SVM的人体目标检测与跟踪方法研究[D];中国地质大学;2013年
6 龙艳花;基于SVM的话者确认关键技术研究[D];中国科学技术大学;2011年
7 许敏强;基于话者统计特征和SVM的文本无关话者确认研究[D];中国科学技术大学;2011年
8 李欣;基于HMM-SVM的磁流变自抑振智能镗杆颤振在线预报理论和方法研究[D];浙江大学;2013年
9 曹志坤;制冷陈列柜性能仿真SVM方法的研究及应用[D];上海交通大学;2010年
10 王金林;基于混沌时间序列和SVM的入侵检测系统研究[D];天津大学;2010年
中国硕士学位论文全文数据库 前10条
1 严会霞;基于SVM的眼动轨迹解读思维状态的研究[D];太原理工大学;2010年
2 吴迪;基于SVM分类器的分步定位算法研究[D];哈尔滨工业大学;2010年
3 杨焕;基于Basic-N-Units特征的SVM方法预测MicroRNA[D];吉林大学;2010年
4 曾玉祥;盲抽取与SVM方法在地球化学异常下限提取中的应用[D];成都理工大学;2010年
5 曹云生;基于支持向量机(SVM)的森林生态系统健康评价及预警[D];河北农业大学;2011年
6 张汉女;基于SVM的海岸线提取方法研究[D];东北师范大学;2010年
7 姚玉;基于GA-SVM算法的细胞色素酶P450突变预测[D];上海交通大学;2011年
8 陈燃燃;基于SVM算法的web分类研究与实现[D];北京邮电大学;2010年
9 陈卓;基于聚类和SVM主动反馈的图像检索方法[D];重庆大学;2010年
10 冯青;基因微阵列数据的SVM分类器优化方法[D];东北师范大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026