收藏本站
《山东大学》 2012年
收藏 | 手机打开
二维码
手机客户端打开本文

Web个人信息集成问题研究

曹鲁慧  
【摘要】:Web个人信息指存在于网页中与一个人相关的信息,依照存在方式不同,可分为以结构化形式表达的个人直观属性和隐藏在非结构化文本中的非直观信息。随着网络技术成熟和网络应用深入发展,互联网网站数量呈爆炸式增长,其上个人信息资源数量也很惊人,内容丰富,涵盖了人们生活和工作的各个领域,根据Web查询统计,约11%-17%的查询包括人名,约4%的Web查询只包括人名,说明了从互联网上获取与个人相关信息已成为最常见的用户行为之一。 基于信息检索技术的搜索引擎为用户提供查找与个人相关网页的途径,能够将与需求相匹配的网页链接返回给用户,并且可以按照一定排名规则对网页进行排序,但是,对于网页中需要文本深入分析的丰富的个人信息获取却无能为力。为了突破搜索引擎在互联网个人信息处理中的限制,实现对蕴含其中个人信息的获取利用,业界和学术界开始从个人信息组织角度对互联网个人信息进行研究。 互联网是分布式的、动态的、异构的,包含个人信息网站的内容并不一致,信息表达方式也不统一,对个人信息组织并非易事。虽然,国内外学者在信息组织角度对互联网上个人信息进行的研究取得了一定进展,仍存在许多问题有待解决。(1)个人页面的正确识别。互联网中与个人信息相关网页的相同人名对应不同的人物个体,这些网页中的个人信息属于不同的同名人。面对同名人网页混杂一起的现象,要对一个人的信息进行集成,首先必须将同名人网页按照不同的人物个体区分,为进一步的信息抽取和分析做准备。(2)人物实体模式的不完备。来自不同数据源的数据在展现内容和数据模式等方面存在差异,相同的人物属性,在不同的网站表现形式是不一致的。信息的不一致给人们应用这些异构信息带来不便。为了有助于对各数据源的有效应用,可以依据数据源间不同的表现形式和表现内容,为人物实体建立融合在一起的全面的数据模式,为进一步从新的数据源对人物实体识别、抽取和集成提供指导。(3)人物实体活动的提取。人物实体活动是存在于网页无结构文本中的一种信息,与网页中结构化信息提取相比,无结构化文本中信息提取更加困难,而用户对其关注度远远高于对结构化信息关注度,因为这些信息更能够刻画一个人的生活状态、工作状态和态度立场等。然而,这些信息都存在于无结构和半结构化的文本中,由于先天的自然语言理解困难性,要对这些信息进行梳理,实现对这些信息的有效抽取是前提。 Web信息集成是面向互联网环境,在信息集成技术基础上发展起来的研究,目的是对不同网站间异构数据进行分析、筛选和合并,为用户提供统一知识视图和访问方式,其实质就是对互联网信息的一种重新理解和组织。本文利用Web信息集成相关技术对互联网中庞大且凌乱的个人信息重新组织进行深入研究。 本文研究的目的是获取互联网这个公开信息源上丰富与个人相关的网页,抽取出网页中个人的直观属性和非直观信息,建立个人信息的全貌。研究内容包括三方面,第一个内容是Web人名消歧,这是个人信息重组的基础,只有利用网页中人物个体的属性特征,将包含同名人信息的网页分类,才能降低同名不同人的人物个体网页噪音,从中选择出与信息重组特定人物个体最相关网页。第二个内容是人物实体的全局模式构建。Web数据源的数据模式和数据内容各不相同,人物实体全局模式的构建可以为人物实体新数据源发现、新数据源模式构建和数据提取提供指导,可以为人物实体统一视图的建立提供依据。第三个内容是人物实体活动抽取,将网页中个人活动组织起来,能清晰看到其生活和工作的轨迹。 本文贡献主要包括以下三个方面:(1)采用了人物特征属性和层次凝聚聚类方法解决Web网页人名消歧问题。提出的基于搜索引擎的通用人名消歧框架,能够避免需要巨大精力和巨大投资的新的个人信息网页搜索工具开发,可以充分利用搜索引擎的优势,在系统消耗很低的情况下,得到高性能的人物实体数据集。多角度人物实体特征属性选取,突破了单一人物实体特征属性选择,也不同于以文本特性代替人物实体特征的方法,基于此的网页相似度计算比基于TF/IDF和向量空间模型的计算方法更加简便合理。(2)采用渐进式方法进行人物实体全局模式的动态构建。提出的基于人物实体结构化信息网页进行人物实体全局模式构建的方法,即缩小了构建对象范围,又能保证足够实体实例用于构建,给出的人物实体结构化信息网页判定方法抓住了人物实体结构化信息的几个关键特性,既能保证人物实体结构化网页选取的准确性,又能提高选取的效率。本文提出的人物实体全局模式动态构建,突破了事先对人物实体模式进行定义,只能抽取固定属性的限制,又避免了一次性构建人物实体全局模式的弊端,能够及时将新的数据模式融合到全局模式中,适应数据源的动态性,从而保证全局模式的完整性。(3)采用条件随机场模型进行人物实体活动的抽取。由于自然语言处理的复杂性,人物实体非直观信息的抽取一直是研究的难点,而人物实体活动本身又是传统信息抽取很少考虑的一种信息类型。本文对人物实体活动的研究是对Web实体信息抽取研究的完善,给出的人物实体活动形式化定义不仅包括人物实体作为主体的活动,而且包括人物实体作为客体的活动,对人物实体生活和工作轨迹的把握更加全面。在利用条件随机场进行活动要素标注过程中,除了常用的词性特征,还增加了一个词在句子中的位置特征和命名实体特征,实验证明这两个特征的增加提高了实体活动抽取的准确度。
【学位授予单位】:山东大学
【学位级别】:博士
【学位授予年份】:2012
【分类号】:TP391.3;TP393.092

【引证文献】
中国硕士学位论文全文数据库 前1条
1 皮珊;Web信息抽取系统的设计与实现[D];浙江工业大学;2013年
【参考文献】
中国期刊全文数据库 前10条
1 郎君;秦兵;宋巍;刘龙;刘挺;李生;;基于社会网络的人名检索结果重名消解[J];计算机学报;2009年07期
2 丁艳辉;李庆忠;董永权;彭朝晖;;基于集成学习和二维关联边条件随机场的Web数据语义标注方法[J];计算机学报;2010年02期
3 胡燕;张颂扬;;基于Google Web API的中文训练库自动获取方法研究[J];计算机与数字工程;2008年05期
4 杨欣欣;李培峰;朱巧明;王英帅;;一种基于改进的K-means算法的人名消歧系统的设计与实现[J];计算机与数字工程;2010年08期
5 龚永恩;袁春风;武港山;;基于语义的词义消歧算法初探[J];计算机应用研究;2006年03期
6 孟小峰;Web信息集成技术研究[J];计算机应用与软件;2003年11期
7 王英帅;李培峰;朱巧明;;一种基于LDA和上下文摘要的Web人名消歧方法[J];计算机应用与软件;2011年07期
8 赵军;;命名实体识别、排歧和跨语言关联[J];中文信息学报;2009年02期
9 陈晨;王厚峰;;基于社会网络的跨文本同名消歧[J];中文信息学报;2011年05期
10 张学工;关于统计学习理论与支持向量机[J];自动化学报;2000年01期
中国博士学位论文全文数据库 前1条
1 于满泉;面向人物追踪的知识挖掘研究[D];中国科学院研究生院(计算技术研究所);2006年
中国硕士学位论文全文数据库 前1条
1 徐秀星;Web数据集成中全局模式构建方法研究[D];山东大学;2011年
【共引文献】
中国期刊全文数据库 前10条
1 王东霞;张楠;路晓丽;;基于育种算法的SVM参数优化[J];安徽大学学报(自然科学版);2009年04期
2 陶秀凤,唐诗忠,周鸣争;基于支持向量机的软测量模型及应用[J];安徽工程科技学院学报(自然科学版);2004年02期
3 程伟;张燕平;赵姝;;支持向量机在粮食产量预测中的应用[J];安徽农业科学;2009年08期
4 武素华;;基于最小二乘支持向量机的土壤含水量检测的研究与分析[J];安徽农业科学;2009年09期
5 陈念;沈佐民;;基于化学成分检测和SVM分类的茶叶品质鉴定[J];安徽农业科学;2010年15期
6 黄远顺;;矫直机的自动故障预报技术[J];安徽冶金;2012年01期
7 林春丽;齐欣;王克成;;SVM-KNN分类器在异常行为检测中的应用[J];辽宁科技大学学报;2010年05期
8 王亮;胡静涛;;基于LS-SVM的光刻过程R2R预测控制方法[J];半导体技术;2012年06期
9 梁万路;;代价敏感支持向量机的投影次梯度求解方法[J];兵工自动化;2011年04期
10 高学金;王普;孙崇正;易建强;张亚庭;张会清;;一种建立发酵过程模型的新方法[J];北京工业大学学报;2006年05期
中国重要会议论文全文数据库 前10条
1 宋海鹰;桂卫华;阳春华;;基于核偏最小二乘的简约最小二乘支持向量机及其应用研究[A];第二十六届中国控制会议论文集[C];2007年
2 顾小军;杨世锡;钱苏翔;;基于支持向量机的旋转机械多类故障识别研究[A];第二十六届中国控制会议论文集[C];2007年
3 吕蓬;柳亦兵;马强;魏于凡;;支持向量机在齿轮智能故障诊断中的应用研究[A];第二十六届中国控制会议论文集[C];2007年
4 姜明辉;袁绪川;;基于GA优化的个人信用评估SVM模型[A];第二十六届中国控制会议论文集[C];2007年
5 韩露;余正涛;邓锦辉;章程;毛存礼;郭剑毅;;领域知识关系对领域文本分类的影响[A];第二十七届中国控制会议论文集[C];2008年
6 吴静珠;刘翠玲;孙晓容;;支持向量机在近红外光谱检测技术中的应用研究[A];第二十九届中国控制会议论文集[C];2010年
7 尹钟;张建华;;基于支持向量机方法的过程操作员功能状态分类[A];中国自动化学会控制理论专业委员会A卷[C];2011年
8 杨坤;纪志成;;基于峰值识别的改进SVM用电需求预测[A];中国自动化学会控制理论专业委员会B卷[C];2011年
9 晋朝勃;胡刚强;史广智;李玉阳;;一种采用支持向量机的水中目标识别方法[A];中国声学学会水声学分会2011年全国水声学学术会议论文集[C];2011年
10 郭玮;李智勇;朱晟;孙慧;;支持向量机在变压器油溶解气体检测中的应用[A];第一届电力安全论坛优秀论文集[C];2008年
中国博士学位论文全文数据库 前10条
1 母丽华;煤矿安全预警系统的方法研究[D];哈尔滨工程大学;2010年
2 朱广平;混响干扰中的信号检测技术研究[D];哈尔滨工程大学;2009年
3 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
4 郑大腾;柔性坐标测量机空间误差模型及最佳测量区研究[D];合肥工业大学;2010年
5 王晓明;基于统计学习的模式识别几个问题及其应用研究[D];江南大学;2010年
6 李先锋;基于特征优化和多特征融合的杂草识别方法研究[D];江苏大学;2010年
7 刘卫红;垃圾邮件检测与过滤关键技术研究[D];华南理工大学;2010年
8 汪春梅;癫痫脑电信号特征提取与自动检测方法研究[D];华东理工大学;2011年
9 张目;高技术企业信用风险影响因素及评价方法研究[D];电子科技大学;2010年
10 向国齐;支持向量回归机代理模型设计优化及应用研究[D];电子科技大学;2010年
中国硕士学位论文全文数据库 前10条
1 展慧;基于多源信息融合技术的板栗分级检测方法研究[D];华中农业大学;2010年
2 杜二玲;拟概率空间上等均值噪声下统计学习理论的理论基础[D];河北大学;2007年
3 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
4 安文娟;Fisher和支持向量综合分类器[D];辽宁师范大学;2010年
5 姜成玉;基于支持向量机的时间序列预测[D];辽宁师范大学;2010年
6 姜念;区间自适应粒子群算法研究及其应用[D];郑州大学;2010年
7 李朋勇;基于全矢高阶谱的故障诊断方法及其应用研究[D];郑州大学;2010年
8 辛保兵;既有预应力混凝土梁桥剩余承载力评估方法研究[D];郑州大学;2010年
9 王巧立;微生物发酵过程的建模与优化控制研究[D];郑州大学;2010年
10 刘松;基于OCSVM和主动学习的DDOS攻击分布式检测系统[D];郑州大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 田原;唐铸文;;XML和数据库之比较与转换[J];电脑知识与技术;2005年35期
2 倪彬彬;;XML技术应用于数据集成的探讨[J];福建电脑;2010年01期
3 杨玚;;深入理解gtest:C/C++单元测试经验谈[J];信息安全与技术;2011年01期
4 朱华;;浅议如何管理网络信息资源[J];河北科技图苑;2006年01期
5 岳惠明;李峻林;曹万华;;基于XML的舰用文电处理系统的设计[J];舰船电子工程;2007年04期
6 陈静;;试论数字化图书馆的检索工具[J];今日科苑;2007年08期
7 董婧;;对关系数据库与XML数据库的比较研究[J];今日科苑;2010年08期
8 陈佳;胡燕;轩艳艳;;一种基于XML的Web信息抽取方法[J];计算机与数字工程;2007年06期
9 周超;杜冬高;;Linux守护进程的研究[J];焦作大学学报;2008年01期
10 杨海涛;;网络信息检索的困境及发展趋势[J];科技情报开发与经济;2008年11期
中国博士学位论文全文数据库 前2条
1 王占一;Web文本挖掘中若干问题的研究[D];北京邮电大学;2012年
2 杨志;基于本体的语义互操作研究[D];北京邮电大学;2012年
【二级参考文献】
中国期刊全文数据库 前10条
1 吴振慧;;Web信息抽取的研究[J];电脑知识与技术;2006年35期
2 陈少飞,郝亚南,李天柱,徐林昊,杨文柱;Web信息抽取技术研究进展[J];河北大学学报(自然科学版);2003年01期
3 杨尔弘,张国清,张永奎;基于义原同现频率的汉语词义排歧方法[J];计算机研究与发展;2001年07期
4 马红妹,王挺,陈火旺;汉语篇章时间短语的分析与时制验算[J];计算机研究与发展;2002年10期
5 胡东东,孟小峰;一种基于树结构的Web数据自动抽取方法[J];计算机研究与发展;2004年10期
6 李保利,陈玉忠,俞士汶;信息抽取研究综述[J];计算机工程与应用;2003年10期
7 李晶;陈恩红;;Web信息抽取[J];计算机科学;2003年06期
8 李振星,徐泽平,唐卫清,唐荣锡;网页多词元快速聚类算法[J];计算机工程;2003年02期
9 陈永超;刘贵全;;一种基于命名实体的搜索结果聚类算法[J];计算机工程;2009年07期
10 王厚峰,何婷婷;汉语中人称代词的消解研究[J];计算机学报;2001年02期
中国博士学位论文全文数据库 前2条
1 王强军;基于动态流通语料库(DCC)的信息技术领域新术语自动提取研究[D];北京语言文化大学;2003年
2 丁艳辉;面向Web数据集成的数据抽取问题研究[D];山东大学;2010年
中国硕士学位论文全文数据库 前2条
1 孙丽华;中文文本自动分类的研究[D];哈尔滨工程大学;2002年
2 刘卓;基于KNN算法的中文文本自动分类[D];吉林大学;2004年
【相似文献】
中国期刊全文数据库 前10条
1 刘献忠,杨莹;基于Web的综合信息集成系统设计[J];计算机与现代化;2002年09期
2 费洪晓,雷军环,康松林;基于CORBA和Web技术的PDM系统[J];长沙铁道学院学报;2002年01期
3 倪炎榕,时奇海,马登哲,金烨;支持制造服务的公共数据中心的建设[J];机械科学与技术;2002年04期
4 何杰,孙庆鸿,陈南,毛海军,陈新;基于WEB的机床设计CAD/CAE信息集成系统研究[J];制造业自动化;2001年03期
5 严彩梅;Web智能信息检索体系结构的研究[J];计算机应用研究;2002年11期
6 乔永春;利用web实现供应链信息集成[J];石家庄铁路职业技术学院学报;2005年03期
7 刘莹;CIMS在PCB企业中的应用研究[J];计算机与数字工程;2001年01期
8 李方敏;CGI的安全编程[J];计算机工程与应用;1999年06期
9 宋如顺,姜乃松;基于Web的远程考试系统设计与实现[J];计算机工程;1999年06期
10 王红霞,姚家亮;利用ASP构建新型信息系统的方法与实现[J];计算机应用;1999年09期
中国重要会议论文全文数据库 前10条
1 李贵;张兆鑫;李征宇;韩子洋;;WEB环境下基于领域本体的语义匹配技术研究[A];科学发展与社会责任(A卷)——第五届沈阳科学学术年会文集[C];2008年
2 石晶;龚震宇;裘杭萍;;基于Web挖掘的个性化服务技术[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
3 李利波;刘明利;;一种改进的无回溯反向Web服务动态组合方法[A];2011年全国通信安全学术会议论文集[C];2011年
4 游争光;刘建勋;唐明董;;分布式Web服务测试系统的设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
5 殷华蓓;李通;唐常杰;张天庆;左志松;;从Web文件中挖掘个性化导航知识[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
6 ;基于广义对话的Web用户的聚类(英文)[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
7 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
8 ;WTCA:A Web Text Clustering Algorithm Based on DFSSM[A];第二十七届中国控制会议论文集[C];2008年
9 胡建强;周斌;尹刚;邹鹏;;基于角色的Web服务访问控制技术研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
10 黄建波;丁扬;方芳;;基于代理服务器的Web加速的实现[A];2010通信理论与技术新发展——第十五届全国青年通信学术会议论文集(上册)[C];2010年
中国重要报纸全文数据库 前10条
1 彭敏;从应用Web2.0开始超越[N];电脑商报;2008年
2 赵晓涛;Web安全 服务为王[N];网络世界;2008年
3 本报记者 赵晓涛;Web安全:历史的命题[N];网络世界;2008年
4 彭敏;企业级Web2.0迎来应用高潮[N];电脑商报;2009年
5 本报记者 毛江华;安启华联手赛门铁克 掘金Web安全[N];计算机世界;2009年
6 闫冰;“推”出Web交付新天地[N];网络世界;2009年
7 赵晓涛;中国成全球Web安全新看点[N];网络世界;2009年
8 边歆;动态阻断Web2.0威胁[N];网络世界;2009年
9 泰乐公司首席技术官兼执行副总裁Vikram Saksena;学习Web 3.0 做聪明的“管道工”[N];通信产业报;2009年
10 ;Web2.0工具使用须谨慎[N];网络世界;2009年
中国博士学位论文全文数据库 前10条
1 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年
2 张俊三;Web中相关实体发现研究[D];北京交通大学;2013年
3 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
4 魏登萍;语义Web服务发现中匹配策略的研究与实现[D];国防科学技术大学;2011年
5 张建武;面向Web应用的安全评测技术研究[D];北京邮电大学;2012年
6 黄雪娟;语义Web服务及其合成方法的研究[D];武汉大学;2009年
7 朱俊武;基于本体的Web服务语义支撑技术研究[D];南京航空航天大学;2008年
8 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年
9 杨卉;Web文本观点挖掘及隐含情感倾向的研究[D];吉林大学;2011年
10 王秀峰;Web导航中用户认知特征及行为研究[D];南京大学;2013年
中国硕士学位论文全文数据库 前10条
1 赵钢;基于Web服务的服装企业信息管理系统设计与实现[D];天津大学;2010年
2 唐黎;Deep Web页面结构分析与核心内容提取研究[D];重庆大学;2011年
3 吴新勇;基于需求群组的Web服务调度模型研究[D];上海交通大学;2011年
4 徐卫;Web新闻热点发现系统的设计与实现[D];华中科技大学;2011年
5 姜本臣;基于嵌入式Web服务器应用技术的研究[D];沈阳工业大学;2012年
6 温梨梨;基于零拷贝的Web服务器技术研究[D];中国海洋大学;2011年
7 焦燕廷;一种基于领域本体的语义Web服务匹配和组合方法[D];山东科技大学;2011年
8 黄亮;Web漏洞扫描系统中的智能爬虫技术研究[D];杭州电子科技大学;2012年
9 王俊人;Web信息集成中实体统一与模式匹配互促进的研究[D];山东大学;2010年
10 赵春娟;Web服务组合方法的研究与实现[D];天津理工大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026