收藏本站
《哈尔滨工业大学》 2007年
收藏 | 手机打开
二维码
手机客户端打开本文

无监督关系抽取方法研究

张志田  
【摘要】: 实体关系抽取是信息抽取领域内的重要研究课题。同时,实体关系的识别对于篇章理解、信息检索、问答系统和机器翻译等方面的研究都有非常重要的意义。随着信息呈海量趋势,关系抽取已经成为一个热门的研究方向。 自从关系抽取的概念被提出以来,在实体关系抽取方面的工作绝大多数都集中在有监督的机器学习方法。这些方法虽然有较好的准确性,但是需要标注大规模的语料,而这通常需要耗费大量的人力、物力。近年,弱监督与无监督方法相继被提出来。这些方法虽然能够解决有监督方法需要标注大量训练语料的缺陷,但是仍然存在特征获取不准和精度低等问题。 本文提出了一个从大规模语料中提取实体关系的无监督的方法。该方法基于具有相同关系的命名实体对具有相似的上下文这一假设。在此假设之下,抽取关系的过程就可以转化为计算实体对上下文相似度的过程。本文的工作主要体现在三个方面:首先,引入了一个在文本处理领域把文本特征转换为数字特征的经典的向量空间模型,该模型表示方法是在关系的上下文中提取其特征项,并以某种方式对特征项赋予一定的权重构造特征向量,再依据各个特征对聚类的贡献对每个特征进行选择的方法;其次,为了提取向量化的实体对数据内存在的关系提出了一个改进的聚类算法,该算法不但能够显著地提高原有算法的准确率,而且运行的效率没有明显的下降;最后,提出了一个基于分类特征识别的方法来对实体对关系进行标记。 为了验证提出的命名实体关系抽取方法的可行性与有效性,在ACE语料上的EMP-ORG、GPE-AFF、PHYS这几大类关系上进行了实验,从结果上可以看出本文提出的方法在这几个数据集上的效果都有一定的提高。同时,也与Hasgawa算法的结果进行了对比,本文的算法在效率与结果的准确性上都有一定的优势。实验表明,本文提出的基于聚类的无监督关系抽取方法对于本文所用的语料是有效的。
【学位授予单位】:哈尔滨工业大学
【学位级别】:硕士
【学位授予年份】:2007
【分类号】:F203;F224

手机知网App
【引证文献】
中国期刊全文数据库 前1条
1 刘方驰;钟志农;雷霖;吴烨;;基于机器学习的实体关系抽取方法[J];兵工自动化;2013年09期
中国硕士学位论文全文数据库 前5条
1 宁海燕;实体关系自动抽取技术的比较研究[D];哈尔滨工业大学;2010年
2 蒋方玲;地名本体实体与关系抽取研究[D];天津大学;2012年
3 王晶;无监督的中文实体关系抽取研究[D];华东师范大学;2012年
4 杨小玲;基于新浪微博的企业实体关系抽取[D];华东师范大学;2013年
5 郑珊珊;基于中文语法特征的开放领域实体关系抽取[D];华东师范大学;2013年
【参考文献】
中国期刊全文数据库 前10条
1 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
2 张晓艳;王挺;陈火旺;;命名实体识别研究[J];计算机科学;2005年04期
3 何婷婷;徐超;李晶;赵君喆;;基于种子自扩展的命名实体关系抽取方法[J];计算机工程;2006年21期
4 鲁松,白硕;自然语言处理中词语上下文有效范围的定量描述[J];计算机学报;2001年07期
5 鲁松,李晓黎,白硕,王实;文档中词语权重计算方法的改进[J];中文信息学报;2000年06期
6 周茜,赵明生,扈旻;中文文本分类中的特征选择研究[J];中文信息学报;2004年03期
7 车万翔,刘挺,李生;实体关系自动抽取[J];中文信息学报;2005年02期
8 焦玉英;宋晓晴;;基于VSM的文档信息检索改进[J];情报理论与实践;2007年01期
9 石云平;辛大欣;;基于K-means聚类算法的分析及应用[J];西安工业大学学报;2006年01期
10 陶跃华;基于向量的相似度计算方案[J];云南师范大学学报(自然科学版);2001年05期
中国博士学位论文全文数据库 前1条
1 杨小兵;聚类分析中若干关键技术的研究[D];浙江大学;2005年
【共引文献】
中国期刊全文数据库 前10条
1 李爱军,罗四维,刘蕴辉,黄华;信息理论框架下的神经网络构建[J];北京交通大学学报;2005年02期
2 王宇晖;业宁;沈丽容;;单翼分解下的纯度函数失效分析[J];北京交通大学学报;2009年06期
3 李玉鑑;操卫平;周兰珍;;结构化向量空间模型及其在Web信息检索中的应用[J];北京工业大学学报;2008年04期
4 蒋宗礼;李宪雷;徐学可;;基于主题Hub值的元搜索[J];北京工业大学学报;2009年03期
5 冯志新;蔡玉俊;黎振;潘鑫;;基于k-均值聚类算法的模具型腔曲面分片加工研究[J];北京工业大学学报;2012年05期
6 宋涛;施水才;房祥;吕学强;;基于改进的潜在语义分析的文本聚类[J];北京信息科技大学学报(自然科学版);2012年03期
7 王瑜;穆志纯;徐正光;骆佳佳;;基于核典型相关分析的姿态人耳、人脸多模态识别[J];北京科技大学学报;2008年10期
8 敖成龙,苏英,龚元明;基于相似度的复杂数据对象比较[J];北京理工大学学报;2003年05期
9 高影繁;马润波;刘玉树;;一种快速文本归类算法的设计与实现[J];北京理工大学学报;2006年12期
10 裴晓梅;郑崇勋;;基于Adaboost技术的大脑运动意识任务分类[J];北京生物医学工程;2008年05期
中国重要会议论文全文数据库 前10条
1 于江德;王希杰;樊孝忠;;汉语词法分析中上文和下文孰重孰轻[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
2 林达真;李绍滋;;基于模式分类的汉语时态确定方法研究[A];第六届汉语词汇语义学研讨会论文集[C];2005年
3 董俊林;聂伟;杨君英;张春炉;;命名实体识别与提取分析[A];逻辑学及其应用研究——第四届全国逻辑系统、智能科学与信息科学学术会议论文集[C];2008年
4 卫颖奇;彭进业;;一种基于混合模型的特征提取方法[A];第三届全国嵌入式技术和信息处理联合学术会议论文集[C];2009年
5 张佳宝;周斌;吴泉源;;基于Hadoop的并行化命名实体识别技术研究与实现[A];全国计算机安全学术交流会论文集·第二十五卷[C];2010年
6 赵敬华;高慧颖;魏军;;基于本体的商品信息查询系统与算法研究[A];中国企业运筹学[C];2009年
7 王松;杨沐昀;赵铁军;;基于统计的命名实体翻译[A];黑龙江省计算机学会2007年学术交流年会论文集[C];2007年
8 卢卫雄;;一种基于支持向量机的多国语言文本分类平台[A];第十六届全国青年通信学术会议论文集(上)[C];2011年
9 景晖;黄美发;钟艳如;;基于模糊C均值聚类算法的三维模型检索[A];中国仪器仪表学会第九届青年学术会议论文集[C];2007年
10 董学春;胡学钢;谢飞;吴共庆;;基于词向量空间模型的文本分类方法[A];计算机技术与应用进展——全国第17届计算机科学与技术应用(CACIS)学术会议论文集(上册)[C];2006年
中国博士学位论文全文数据库 前10条
1 徐悦竹;机会发现算法及其应用研究[D];哈尔滨工程大学;2010年
2 时长江;豆科类杂草种子图像识别系统研究[D];中国海洋大学;2009年
3 李一啸;基于复杂网络和演化博弈理论的社会[D];浙江大学;2010年
4 商秀芹;新型进化计算方法及其在炼铁烧结过程建模与优化中的应用[D];浙江大学;2010年
5 罗向阳;数字图像隐写检测关键问题研究[D];解放军信息工程大学;2010年
6 杜萍;基于本体的中国行政区划地名识别与抽取研究[D];兰州大学;2011年
7 吴承荣;骨干通道上的网络论坛通信信息监测和分析的关键技术研究[D];复旦大学;2011年
8 彭建芬;P2P流量识别关键技术研究[D];北京邮电大学;2011年
9 谭文波;资源基础型城市群创新体系构建动力及模式研究[D];中国矿业大学(北京);2011年
10 薛洋;基于单个加速度传感器的人体运动模式识别[D];华南理工大学;2011年
中国硕士学位论文全文数据库 前10条
1 岳海鸥;基于Ajax和Soap Service的应用框架及实现方法研究[D];山东科技大学;2010年
2 韩晓峰;高斯混合模型及在探测网络社区结构中的应用[D];山东科技大学;2010年
3 刘文昊;基于模糊聚类和纹版辅助的织物疵点检测算法研究[D];浙江理工大学;2010年
4 郭明;基于文本分类技术的文本情感倾向性研究[D];郑州大学;2010年
5 王林吉;基于CIELAB均匀颜色空间和聚类算法的混纺测色研究[D];浙江理工大学;2010年
6 左维松;规则和统计相结合的篇章情感倾向性分析研究[D];郑州大学;2010年
7 于洪霞;基于SVM的中文垃圾邮件过滤[D];哈尔滨工程大学;2009年
8 杨海陆;公路收费系统数据分析与挖掘[D];哈尔滨工程大学;2010年
9 程国斌;基于指示词语义扩展的词义识别方法的研究[D];哈尔滨工程大学;2010年
10 井志强;基于扩展的VSM中文文本分类方法[D];哈尔滨工程大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 刘挺;马金山;;汉语自动句法分析的理论与方法[J];当代语言学;2009年02期
2 周俊生;戴新宇;尹存燕;陈家骏;;基于层叠条件随机场模型的中文机构名自动识别[J];电子学报;2006年05期
3 刘桃;刘秉权;徐志明;王晓龙;;领域术语自动抽取及其在文本分类中的应用[J];电子学报;2007年02期
4 李维刚;刘挺;李生;;基于网络挖掘的实体关系元组自动获取[J];电子学报;2007年11期
5 黄晨;;语义关系抽取发展现状及抽取方法的研究[J];福建电脑;2009年06期
6 刘克彬;李芳;刘磊;韩颖;;基于核函数中文关系自动抽取系统的实现[J];计算机研究与发展;2007年08期
7 贾美英;杨炳儒;郑德权;杨靖;;采用CRF技术的军事情报术语自动抽取研究[J];计算机工程与应用;2009年32期
8 周世兵;徐振源;唐旭清;;新的K-均值算法最佳聚类数确定方法[J];计算机工程与应用;2010年16期
9 蒋方玲;王文俊;杨鹏;徐佳佳;;中文地名本体模型研究[J];计算机工程与应用;2011年25期
10 何中市;刘里;;基于上下文关系的文本分类特征描述方法[J];计算机科学;2007年05期
中国博士学位论文全文数据库 前4条
1 赵恒;数据挖掘中聚类若干问题研究[D];西安电子科技大学;2005年
2 张榕;术语定义抽取、聚类与术语识别研究[D];北京语言大学;2006年
3 钱龙华;命名实体间语义关系抽取研究[D];苏州大学;2009年
4 张奇;信息抽取中实体关系识别研究[D];中国科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 季元叶;语言学特征在中文命名实体间语义关系抽取中的应用研究[D];苏州大学;2010年
2 宁海燕;实体关系自动抽取技术的比较研究[D];哈尔滨工业大学;2010年
3 毛小丽;基于特征向量的实体间语义关系抽取研究[D];重庆大学;2011年
4 李晶;基于网络抱团发现的命名实体关系抽取[D];华中师范大学;2006年
5 赵宇;关系抽取中学习算法的研究[D];哈尔滨工业大学;2006年
6 廖先桃;中文命名实体识别方法研究[D];哈尔滨工业大学;2006年
7 奚斌;基于弱指导学习的实体间语义关系抽取研究[D];苏州大学;2008年
8 黄鑫;基于特征向量的中文实体间语义关系抽取研究[D];苏州大学;2009年
9 王苑;基于依存树的中文命名实体语义关系抽取的研究[D];中南大学;2009年
10 彭毅;基于潜在语义索引的文本分类及其在科技信息检索中的研究[D];中南大学;2009年
【二级引证文献】
中国硕士学位论文全文数据库 前4条
1 王晶;无监督的中文实体关系抽取研究[D];华东师范大学;2012年
2 杨小玲;基于新浪微博的企业实体关系抽取[D];华东师范大学;2013年
3 郑珊珊;基于中文语法特征的开放领域实体关系抽取[D];华东师范大学;2013年
4 廉营;基于语义角色标注的微博人物关系抽取[D];哈尔滨工业大学;2013年
【二级参考文献】
中国期刊全文数据库 前10条
1 吕安民,林宗坚,李成名;数据挖掘和知识发现的技术方法[J];测绘科学;2000年04期
2 沈红斌,王士同,吴小俊;离群模糊切换回归模型研究[J];华东船舶工业学院学报(自然科学版);2003年03期
3 于剑,程乾生;模糊聚类方法中的最佳聚类数的搜索范围[J];中国科学E辑:技术科学;2002年02期
4 吕安民,李成名,林宗坚,王家耀;基于统计归纳学习的GIS属性数据挖掘[J];测绘学院学报;2001年04期
5 于剑;论模糊C均值算法的模糊指标[J];计算机学报;2003年08期
6 雷景生;基于多层向量空间模型的Web信息检索方法[J];计算机应用;2004年04期
7 荣秋生,颜君彪,郭国强;基于DBSCAN聚类算法的研究与实现[J];计算机应用;2004年04期
8 刘斌,黄铁军,程军,高文;一种新的基于统计的自动文本分类方法[J];中文信息学报;2002年06期
9 胡玉锁;陈宗海;;基于混合遗传算法的聚类分析[J];模式识别与人工智能;2001年03期
10 张自然,金燕;知识检索与信息检索的检索效率比较[J];情报科学;2005年04期
中国硕士学位论文全文数据库 前2条
1 刘红星;分布式系统中的文本信息检索技术研究[D];清华大学;2004年
2 杭月芹;基于文档查询信息的检索系统研究与实现[D];扬州大学;2005年
【相似文献】
中国期刊全文数据库 前10条
1 查东辉;;复杂背景下车牌字符的分割与识别[J];沿海企业与科技;2008年05期
2 谭元戎;孙剑平;;聚类模型在客户关系管理中的应用以及对特征提取的探讨[J];技术经济;2007年05期
3 祁巍;李一军;李英来;谢伟全;;智能化企业电子邮件分类管理模型研究[J];中国软科学;2007年08期
4 狄明明;孙德山;;聚类分析和支持向量机在股票研究中的应用[J];计算机技术与发展;2009年06期
5 鲍正祥;;浅谈人脸识别技术[J];科技创新导报;2008年31期
6 裴方芳,翟忠和;聚类分析在我国科研经费筹集中的应用[J];哈尔滨理工大学学报;2001年01期
7 安建华;;农村居民家庭纯收入来源统计分析[J];科技信息;2006年01期
8 王雪青;王颜;;基于主成分分析法的城市建设投资及其评价[J];内蒙古农业大学学报(社会科学版);2007年04期
9 李树明;刘庆峰;张艳荣;;甘肃省农民用水协会对农民增收影响的聚类分析[J];广东农业科学;2007年11期
10 杨柳;;多元统计在主要行业综合经济实力排名的应用[J];科技信息(学术研究);2008年18期
中国重要会议论文全文数据库 前10条
1 马骁;王晓龙;王轩;卜永忠;;基于网页信息结构的网页体裁聚类分析[A];第四届全国信息检索与内容安全学术会议论文集(上)[C];2008年
2 武洪萍;周国祥;;Web文本挖掘研究[A];计算机技术与应用进展·2007——全国第18届计算机技术与应用(CACIS)学术会议论文集[C];2007年
3 牛强;王志晓;陈岱;夏士雄;;基于支持向量机的Web文本分类方法[A];2006年全国开放式分布与并行计算学术会议论文集(一)[C];2006年
4 林土胜;赖声礼;;视网膜血管特征提取的拆支跟踪法[A];1999年中国神经网络与信号处理学术会议论文集[C];1999年
5 钱小聪;郑宝玉;穆明鑫;;神经网络联机手写签名验证[A];第十届全国信号处理学术年会(CCSP-2001)论文集[C];2001年
6 张羽;汪源源;王威琪;余建国;林继耕;;狭窄血管多普勒信号特征提取的实验研究[A];21世纪医学工程学术研讨会论文摘要汇编[C];2001年
7 柳林霞;陈杰;窦丽华;;不变矩理论及其在目标识别中的应用[A];2002中国控制与决策学术年会论文集[C];2002年
8 杨日杰;施建礼;林洪文;;一种雷达视频回波特征提取方法研究[A];中国航空学会信号与信息处理专业全国第八届学术会议论文集[C];2004年
9 代克杰;张红梅;盛赛斌;;基于BP网络的故障特征提取方法研究[A];2004中国控制与决策学术年会论文集[C];2004年
10 何新;史迎春;周献中;;一种基于独立分量分析的音频分类方法[A];第一届建立和谐人机环境联合学术会议(HHME2005)论文集[C];2005年
中国重要报纸全文数据库 前10条
1 ;聚类分析在自身免疫病基因表达谱研究中的初步应用[N];中国医药报;2003年
2 燕海霞;王忆勤;李福凤;脉象信号研究日渐深入[N];中国医药报;2005年
3 清华大学计算机系智能技术与系统国家重点实验室 张敏 金奕江;寻“宝”有术[N];计算机世界;2003年
4 沈占锋;遥感影像信息提取与分析[N];计算机世界;2006年
5 王竣;深入开发CAD系统对疾病诊断有重要意义[N];中国医药报;2007年
6 中国科学院计算技术研究所 王 斌;内容为王[N];计算机世界;2004年
7 中谷期货 杨静;期货公司客户信用风险评级体系研究[N];期货日报;2007年
8 YMG记者 孙长波;烟台经济增速全球第三[N];烟台日报;2008年
9 符信;30个指标评价社会发展水平[N];南方日报;2005年
10 雨文;全国专家聚云财大研讨区域经济学[N];云南日报;2006年
中国博士学位论文全文数据库 前10条
1 宋余庆;医学图像数据挖掘若干技术研究[D];东南大学;2005年
2 张旗;基于属性的图像分类研究[D];大连海事大学;2005年
3 张立福;通用光谱模式分解算法及植被指数的建立[D];武汉大学;2005年
4 苏彩红;墙地砖质量自动检测技术的研究[D];华南理工大学;2004年
5 宋晴;基于液滴分析技术和液滴指纹图的液体识别方法的研究[D];天津大学;2005年
6 吴婷;自发脑电脑机接口模式识别关键技术与实验研究[D];上海交通大学;2008年
7 孙真真;基于光学区雷达目标二维像的目标散射特征提取的理论及方法研究[D];中国人民解放军国防科学技术大学;2001年
8 武子玉;矿物近红外光谱信息提取及应用研究[D];吉林大学;2005年
9 王承;基于神经网络的模拟电路故障诊断方法研究[D];电子科技大学;2005年
10 孙蕾;医学图像智能挖掘关键技术研究[D];西北大学;2005年
中国硕士学位论文全文数据库 前10条
1 张志田;无监督关系抽取方法研究[D];哈尔滨工业大学;2007年
2 杨生友;聚类分析在医学图像中的应用[D];兰州大学;2009年
3 赵文鹏;基于自组织特征映射的海洋文献聚类分析的研究与实现[D];中国海洋大学;2009年
4 沈贺丹;核心能力评价系统的分类模块研究[D];辽宁工程技术大学;2006年
5 李立志;基于聚类分析的图像分割和识别[D];湖南大学;2005年
6 易鑫;纹理图像的特征提取和聚类算法研究[D];电子科技大学;2008年
7 杨硕;基于VSM文本分类系统的设计与实现[D];大连理工大学;2006年
8 林少波;中文文本分类特征提取方法的研究与实现[D];重庆大学;2011年
9 江超男;面向社会网络应用的关系抽取研究[D];南京理工大学;2010年
10 乔素娟;基于SVM的中文垃圾邮件的识别研究[D];山西财经大学;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026