收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

Web个人信息集成问题研究

曹鲁慧  
【摘要】:Web个人信息指存在于网页中与一个人相关的信息,依照存在方式不同,可分为以结构化形式表达的个人直观属性和隐藏在非结构化文本中的非直观信息。随着网络技术成熟和网络应用深入发展,互联网网站数量呈爆炸式增长,其上个人信息资源数量也很惊人,内容丰富,涵盖了人们生活和工作的各个领域,根据Web查询统计,约11%-17%的查询包括人名,约4%的Web查询只包括人名,说明了从互联网上获取与个人相关信息已成为最常见的用户行为之一。 基于信息检索技术的搜索引擎为用户提供查找与个人相关网页的途径,能够将与需求相匹配的网页链接返回给用户,并且可以按照一定排名规则对网页进行排序,但是,对于网页中需要文本深入分析的丰富的个人信息获取却无能为力。为了突破搜索引擎在互联网个人信息处理中的限制,实现对蕴含其中个人信息的获取利用,业界和学术界开始从个人信息组织角度对互联网个人信息进行研究。 互联网是分布式的、动态的、异构的,包含个人信息网站的内容并不一致,信息表达方式也不统一,对个人信息组织并非易事。虽然,国内外学者在信息组织角度对互联网上个人信息进行的研究取得了一定进展,仍存在许多问题有待解决。(1)个人页面的正确识别。互联网中与个人信息相关网页的相同人名对应不同的人物个体,这些网页中的个人信息属于不同的同名人。面对同名人网页混杂一起的现象,要对一个人的信息进行集成,首先必须将同名人网页按照不同的人物个体区分,为进一步的信息抽取和分析做准备。(2)人物实体模式的不完备。来自不同数据源的数据在展现内容和数据模式等方面存在差异,相同的人物属性,在不同的网站表现形式是不一致的。信息的不一致给人们应用这些异构信息带来不便。为了有助于对各数据源的有效应用,可以依据数据源间不同的表现形式和表现内容,为人物实体建立融合在一起的全面的数据模式,为进一步从新的数据源对人物实体识别、抽取和集成提供指导。(3)人物实体活动的提取。人物实体活动是存在于网页无结构文本中的一种信息,与网页中结构化信息提取相比,无结构化文本中信息提取更加困难,而用户对其关注度远远高于对结构化信息关注度,因为这些信息更能够刻画一个人的生活状态、工作状态和态度立场等。然而,这些信息都存在于无结构和半结构化的文本中,由于先天的自然语言理解困难性,要对这些信息进行梳理,实现对这些信息的有效抽取是前提。 Web信息集成是面向互联网环境,在信息集成技术基础上发展起来的研究,目的是对不同网站间异构数据进行分析、筛选和合并,为用户提供统一知识视图和访问方式,其实质就是对互联网信息的一种重新理解和组织。本文利用Web信息集成相关技术对互联网中庞大且凌乱的个人信息重新组织进行深入研究。 本文研究的目的是获取互联网这个公开信息源上丰富与个人相关的网页,抽取出网页中个人的直观属性和非直观信息,建立个人信息的全貌。研究内容包括三方面,第一个内容是Web人名消歧,这是个人信息重组的基础,只有利用网页中人物个体的属性特征,将包含同名人信息的网页分类,才能降低同名不同人的人物个体网页噪音,从中选择出与信息重组特定人物个体最相关网页。第二个内容是人物实体的全局模式构建。Web数据源的数据模式和数据内容各不相同,人物实体全局模式的构建可以为人物实体新数据源发现、新数据源模式构建和数据提取提供指导,可以为人物实体统一视图的建立提供依据。第三个内容是人物实体活动抽取,将网页中个人活动组织起来,能清晰看到其生活和工作的轨迹。 本文贡献主要包括以下三个方面:(1)采用了人物特征属性和层次凝聚聚类方法解决Web网页人名消歧问题。提出的基于搜索引擎的通用人名消歧框架,能够避免需要巨大精力和巨大投资的新的个人信息网页搜索工具开发,可以充分利用搜索引擎的优势,在系统消耗很低的情况下,得到高性能的人物实体数据集。多角度人物实体特征属性选取,突破了单一人物实体特征属性选择,也不同于以文本特性代替人物实体特征的方法,基于此的网页相似度计算比基于TF/IDF和向量空间模型的计算方法更加简便合理。(2)采用渐进式方法进行人物实体全局模式的动态构建。提出的基于人物实体结构化信息网页进行人物实体全局模式构建的方法,即缩小了构建对象范围,又能保证足够实体实例用于构建,给出的人物实体结构化信息网页判定方法抓住了人物实体结构化信息的几个关键特性,既能保证人物实体结构化网页选取的准确性,又能提高选取的效率。本文提出的人物实体全局模式动态构建,突破了事先对人物实体模式进行定义,只能抽取固定属性的限制,又避免了一次性构建人物实体全局模式的弊端,能够及时将新的数据模式融合到全局模式中,适应数据源的动态性,从而保证全局模式的完整性。(3)采用条件随机场模型进行人物实体活动的抽取。由于自然语言处理的复杂性,人物实体非直观信息的抽取一直是研究的难点,而人物实体活动本身又是传统信息抽取很少考虑的一种信息类型。本文对人物实体活动的研究是对Web实体信息抽取研究的完善,给出的人物实体活动形式化定义不仅包括人物实体作为主体的活动,而且包括人物实体作为客体的活动,对人物实体生活和工作轨迹的把握更加全面。在利用条件随机场进行活动要素标注过程中,除了常用的词性特征,还增加了一个词在句子中的位置特征和命名实体特征,实验证明这两个特征的增加提高了实体活动抽取的准确度。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 刘献忠,杨莹;基于Web的综合信息集成系统设计[J];计算机与现代化;2002年09期
2 费洪晓,雷军环,康松林;基于CORBA和Web技术的PDM系统[J];长沙铁道学院学报;2002年01期
3 倪炎榕,时奇海,马登哲,金烨;支持制造服务的公共数据中心的建设[J];机械科学与技术;2002年04期
4 何杰,孙庆鸿,陈南,毛海军,陈新;基于WEB的机床设计CAD/CAE信息集成系统研究[J];制造业自动化;2001年03期
5 严彩梅;Web智能信息检索体系结构的研究[J];计算机应用研究;2002年11期
6 乔永春;利用web实现供应链信息集成[J];石家庄铁路职业技术学院学报;2005年03期
7 刘莹;CIMS在PCB企业中的应用研究[J];计算机与数字工程;2001年01期
8 李方敏;CGI的安全编程[J];计算机工程与应用;1999年06期
9 宋如顺,姜乃松;基于Web的远程考试系统设计与实现[J];计算机工程;1999年06期
10 王红霞,姚家亮;利用ASP构建新型信息系统的方法与实现[J];计算机应用;1999年09期
11 邓劲生,张银福;面向对象的多媒体信息WEB发布[J];计算机应用研究;1999年09期
12 刁兴春,李赤红;Intranet环境下事务处理的理论研究和实现[J];小型微型计算机系统;1999年06期
13 高昆;基于ASP的WEB站点开发技术分析[J];北华大学学报(社会科学版);1999年05期
14 王清心,胡建华;经贸数据库的WEB集成发布[J];昆明理工大学学报;1999年02期
15 李晶,朱秋萍;Web页制作中的动态表现技术[J];计算机工程;2000年06期
16 刘波,代亚非,杜跃进;远程协同教学系统中课程搜索子系统设计[J];计算机应用;2000年06期
17 武庄,刘友丹;基于Web的企业内部质量审核系统设计与实现[J];计算机应用研究;2000年05期
18 梁开健,刘新民;基于ASP的图书馆Web数据库开发[J];高校图书馆工作;2000年04期
19 张睿光,黄玉超;基于ASP技术的气象信息系统软件设计[J];河南气象;2000年01期
20 张少敏,王保义;基于Web的管理信息系统方案及其安全性[J];华北电力大学学报;2001年01期
中国重要会议论文全文数据库 前10条
1 李贵;张兆鑫;李征宇;韩子洋;;WEB环境下基于领域本体的语义匹配技术研究[A];科学发展与社会责任(A卷)——第五届沈阳科学学术年会文集[C];2008年
2 石晶;龚震宇;裘杭萍;;基于Web挖掘的个性化服务技术[A];第十九届全国数据库学术会议论文集(技术报告篇)[C];2002年
3 李利波;刘明利;;一种改进的无回溯反向Web服务动态组合方法[A];2011年全国通信安全学术会议论文集[C];2011年
4 游争光;刘建勋;唐明董;;分布式Web服务测试系统的设计与实现[A];CCF NCSC 2011——第二届中国计算机学会服务计算学术会议论文集[C];2011年
5 殷华蓓;李通;唐常杰;张天庆;左志松;;从Web文件中挖掘个性化导航知识[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
6 ;基于广义对话的Web用户的聚类(英文)[A];第十七届全国数据库学术会议论文集(研究报告篇)[C];2000年
7 邓长寿;郭景峰;杨焱林;邓安远;;下一代Web搜索引擎初探[A];第十八届全国数据库学术会议论文集(研究报告篇)[C];2001年
8 ;WTCA:A Web Text Clustering Algorithm Based on DFSSM[A];第二十七届中国控制会议论文集[C];2008年
9 胡建强;周斌;尹刚;邹鹏;;基于角色的Web服务访问控制技术研究[A];第二十届全国数据库学术会议论文集(技术报告篇)[C];2003年
10 黄建波;丁扬;方芳;;基于代理服务器的Web加速的实现[A];2010通信理论与技术新发展——第十五届全国青年通信学术会议论文集(上册)[C];2010年
中国博士学位论文全文数据库 前10条
1 曹鲁慧;Web个人信息集成问题研究[D];山东大学;2012年
2 张俊三;Web中相关实体发现研究[D];北京交通大学;2013年
3 李常宝;基于索引的web服务发现研究[D];北京邮电大学;2011年
4 魏登萍;语义Web服务发现中匹配策略的研究与实现[D];国防科学技术大学;2011年
5 张建武;面向Web应用的安全评测技术研究[D];北京邮电大学;2012年
6 黄雪娟;语义Web服务及其合成方法的研究[D];武汉大学;2009年
7 朱俊武;基于本体的Web服务语义支撑技术研究[D];南京航空航天大学;2008年
8 许笑;分布式Web信息采集关键技术研究[D];哈尔滨工业大学;2011年
9 杨卉;Web文本观点挖掘及隐含情感倾向的研究[D];吉林大学;2011年
10 王秀峰;Web导航中用户认知特征及行为研究[D];南京大学;2013年
中国硕士学位论文全文数据库 前10条
1 赵钢;基于Web服务的服装企业信息管理系统设计与实现[D];天津大学;2010年
2 唐黎;Deep Web页面结构分析与核心内容提取研究[D];重庆大学;2011年
3 吴新勇;基于需求群组的Web服务调度模型研究[D];上海交通大学;2011年
4 徐卫;Web新闻热点发现系统的设计与实现[D];华中科技大学;2011年
5 姜本臣;基于嵌入式Web服务器应用技术的研究[D];沈阳工业大学;2012年
6 温梨梨;基于零拷贝的Web服务器技术研究[D];中国海洋大学;2011年
7 焦燕廷;一种基于领域本体的语义Web服务匹配和组合方法[D];山东科技大学;2011年
8 黄亮;Web漏洞扫描系统中的智能爬虫技术研究[D];杭州电子科技大学;2012年
9 王俊人;Web信息集成中实体统一与模式匹配互促进的研究[D];山东大学;2010年
10 赵春娟;Web服务组合方法的研究与实现[D];天津理工大学;2011年
中国重要报纸全文数据库 前10条
1 彭敏;从应用Web2.0开始超越[N];电脑商报;2008年
2 赵晓涛;Web安全 服务为王[N];网络世界;2008年
3 本报记者 赵晓涛;Web安全:历史的命题[N];网络世界;2008年
4 彭敏;企业级Web2.0迎来应用高潮[N];电脑商报;2009年
5 本报记者 毛江华;安启华联手赛门铁克 掘金Web安全[N];计算机世界;2009年
6 闫冰;“推”出Web交付新天地[N];网络世界;2009年
7 赵晓涛;中国成全球Web安全新看点[N];网络世界;2009年
8 边歆;动态阻断Web2.0威胁[N];网络世界;2009年
9 泰乐公司首席技术官兼执行副总裁Vikram Saksena;学习Web 3.0 做聪明的“管道工”[N];通信产业报;2009年
10 ;Web2.0工具使用须谨慎[N];网络世界;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978