收藏本站
《山东大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

语言网络研究

梁伟  
【摘要】: 复杂网络是对某些复杂系统的抽象和描述.任何一个网络都可以看作是由一些节点按照某种方式连接在一起而构成的一个系统,其中节点代表真实系统中的个体,而边表示个体间的相互联系.现实世界中大量的复杂系统都可以看成是复杂网络,它们广泛存在于社会、经济、生物等众多领域,例如万维网和互联网[1,2,3,4,5]、生物网[6,7,8]、科学家合作网[9,10]、交通网[11,12].近年来,国内外网络科学发展迅速,它已经成为一门广泛交叉的科学,为众多领域的复杂系统研究提供了新思想和新手段[13,14]. 实际网络的图表示方法可以追溯到18世纪伟大的数学家欧拉对著名的"Konigsberg七桥问题”的研究.该研究开辟了数学的一个分支一图论.很长一段时间内图论并未得到很大的发展,直到1960年由匈牙利数学家Erdos和Renyi建立了ER随机图[15]:假设图中有N个节点,每对节点之间以概率p连接,则约有pN(N-1)/2条边,这样就构成了一个ER模型.研究发现随机图的许多性质都是突然涌现的,也就是说,对于任一给定的概率p,要么几乎每一个图都具有某个性质,要么几乎每一个图都不具有该性质.在20世纪的后40年里,随机图理论一直是人们研究复杂网络结构的基本理论.由于大多数实际的复杂网络并不是随机的,因而ER模型作为复杂网络的基本模型,无疑存在较大缺陷.因此人们不断对ER模型进行改进以使其更接近于真实网络[16]. 几乎与此同时,人们还开展了对“小世界”效应的实验研究.社会心理学家Milgram曾经做过一个著名的实验[17,18],实验要求参与者把一封信通过熟人传送给指定的某个人,借此探明熟人关系网络中路径长度的分布.虽然实验中大多数信被丢弃了,但是仍有四分之一的信被送达目标人.根据最终到达目标者手中的信件的统计分析发现,从一个志愿者到目标对象的平均距离为6,这就是著名的“六度分离”推断.实验结果在某种程度上反映了人际关系的“小世界”特性.1998年Watts和Strogatz将小世界模型引入到了复杂网络的实际研究当中,建立了WS小世界网络模型[19],以描述从完全规则网络到完全随机网络的转变.稍后Newman和Watts对WS模型进行了改进,建立了NW小世界网络模型[20].WS小世界模型和NW小世界模型本质上是一样的,它们都反映了实际复杂网络的一个性质:大部分节点只与它们的邻近节点相连,同时某些节点也可以与其非邻近节点直接相连.WS模型和NW模型的度分布近似为Poisson分布:其中λ0为参数,p(κ)为网络中随机选取一个节点其度恰好为κ的概率.然而近几年的大量研究表明许多实际网络的度分布明显地不同于Poisson分布,而是更接近幂律分布:其中γ为正常数.由于幂律分布没有明显的特征长度,该类网络又被称为无标度网络.为了解释幂律分布产生的机理,1999年Barabasi和Albert建立了BA无标度网络模型[21].研究发现网络规模的不断增加和网络中存在优先连接导致了网络的度分布服从幂律分布,并且存在少量度相对很高的节点,但绝大多数节点的度相对很低(即存在“胖尾”).另外,研究表明等级组织[22]、聚合和节点的重建[23,24,25]、拷贝节点[26,27]也可以导致网络具有无标度特性. 语言是语言学、心理学、生物学等领域共同研究的对象,是人类文明的结晶,是一个经过漫长演化而来的复杂系统[28].Sole认为语言在各个层次上都体现了复杂网络的性质,包括语音、句法和语义[29].国内外已经在词同现网络、句法网络、语义网络等方面开展了相应的研究. 英语网络的研究已经取得了非常丰硕的成果.例如2001年Cancho和Sole在规模为107个词的英语国家语料库的基础上建立了两个词同现网络[30],研究发现两个网络都具有小世界特性和无标度特性,并且在每个网络的度分布中都存在两个幂律指数1.5和2.7.2002年Motter和Moura等人基于在线英语词典,该词典含有3000多个概念,根据单词之间概念的相似性构建了英语的概念网[31].该网络也具有小世界特性和无标度特性.2002年Sigman等人基于Wordnet上规模为66025个名词之间的语义关系,例如反义词,建立了英语的语义网,研究发现该网络具有小世界特性和无标度特性[32]. 汉语语言网络的研究已取得一些研究成果.韦洛霞等人根据一个基本词语集,构造了词法网络(如果两个词语包含同一个汉字,则认为其问存在连接,例如“法治”和“法网”)[33,34].2006年唐璐等人在两个大型网络HowNet和WordNet的基础上,构建了两个语义网络[35].2007年刘知远等人在《人民日报》(1998年上半年)1300万字左右的人工分词语料库和国语委5000万字左右的人工分词语料库的基础上,建立了四个词同现网络[36].2008年周水庚等人基于大型语料库PFR1.0建立了两个词同现网络[37].研究发现上述网络都具有小世界特性和无标度特性. 近年来,人们对其它语言网络也展开了相应的研究.例如2004年Cancho等人基于捷克语、德语、罗马尼亚语构建了句法网,研究发现该网络也具有小世界特性和无标度特性[38].2006年Markosova等人根据互联网上的大量文本建立了斯洛伐克语的两个词同现网络,研究发现它们都具有小世界特性[39]. 中文中的句子是由字和词构成的,而英文中的句子却是由词构成.因而与词同现网络的构造方式一样,我们也可以建立中文字同现网络.然而除了我们的会议论文[40]之外,没有其它文献对中文字网络进行过研究.另外,在现有的文献中,前人的工作是将大量文章合在一起建立一个网络,而这些文章来源于数据库、WordNet、英语在线词典等等.每篇中文文章可以建立一个字同现网络和一个词同现网络,每篇英文文章可以建立一个词同现网络.那么每篇文章建立的网络是否仍然具有小世界特性和无标度特性呢?另外,通过对两种或多种语言所对应网络的统计参数的比较,能否得到一些有用的信息呢?为了回答这些问题,我们在53篇现代中文文章(包括四类文体:散文、小说、科普和新闻),以及每种类型文章合一后得到的4篇文章的基础上建立了114个字、词同现网络[40].研究发现中文字同现网络与词同现网络在结构上是等价的,也就是说,它们都同时具有小世界特性和无标度特性. 目前正在使用的主要语言有6800多种[41],其中汉语和英语是使用最多的两种语言.那么从复杂网络的角度来看中、英文之间有何异同?在同种语言下四类文章:散文、小说、科普和新闻之间又有何异同?中华民族历史悠久,文化源远流长.从复杂网络的角度来看,不同时期的汉语之间有何相同之处和不同之处呢?在现有的文献中,我们还没有发现这方面的研究成果. 在语言演化网络模型方面,2001年Dorogovtsev和Mendes为了对文献[30]中的度分布进行理论分析,通过在BA模型的基础上增加了第t时刻在已有节点中产生ct(c为常数)条新边的方式建立了DM模型,得到核心词典所在区域的幂律指数为3,而其它词所在区域的幂律指数为1.5[42].2007年Markosova[43]在DM模型的基础上增加了改变边来更好的模拟了文献[30]中的度分布.2008年Yu等人根据中文字或短语之间的包含关系构建了网络,并据此建立了只包括增长和择优的网络模型[44].中华文化经历了5000多年的漫长发展变化.如何建立网络模型来刻画汉语的演化呢?据我们所知,到目前为止,除了文献[42,43,44]之外,我们还没有发现其它用来分析语言演化特别是汉语演化的网络模型. 本文分为四章,分别对中、英文之间的异同,中国不同时期的汉语之间的异同进行了研究.最后,依据汉语发展变化的特点建立了语言演化网络模型,并且给出了汉语不同时期单篇文章所对应字同现网络度分布图的计算机仿真. 在第一章中,我们主要介绍了复杂网络中几个基本概念,包括平均最短路径、聚类系数、度分布等. 在第二章中,我们从复杂网络的角度研究了中、英文之间的异同,以及在同种语言下四类文章:散文、小说、科普和新闻之间的异同.我们分别选取了现代中、英文文章各200篇,针对每篇中文文章建立了一个字同现网络和一个词同现网络,针对每篇英文文章建立了一个词同现网络.研究结果表明,所有的网络都具有小世界特性,并且绝大部分网络都具有无标度特性;在某种意义下英文的表述比中文更简洁;中文中散文和科普具有较多的共性,而英文中却是新闻和科普具有较多的共性. 在第三章中,我们从复杂网络的角度研究了中国不同历史时期文章的异同.我们基于春秋战国、两汉、三国、两晋、南北朝、唐、宋、元、明、清、现代共11个时期各50篇散文,建立了550个字同现网络,每个时期的50篇散文合在一起建立一个大的字同现网络,共建立了561个字同现网络.研究发现基于单篇文章建立的网络中99.6%的网络具有无标度特性,95.0%的网络具有小世界特性.这为建立语言演化网络模型来研究汉语的发展变化提供了必要的统计数据.另外,在汉语语言学的研究中,对魏晋南北朝时期的文学属于古代汉语还是近代汉语一直存在着很大的争议.我们的研究结果表明,魏晋南北朝时期网络的统计数据与其它时期的统计数据之间的确存在明显的不同,并且魏晋南北朝时期的文学属于近代汉语似乎更合理. 在第四章中,我们依据汉语的发展变化特点,建立了包含增加新节点和在已有节点中增加、改变及删除连边的语言演化网络模型,并计算了模型的度分布.在某些情况下模型的度分布为幂律分布并且幂律指数介于1和+∞之间,而有些情况下却为指数分布.以春秋战国、两汉、三国、两晋、南北朝、唐、宋、元、明、清、现代共11个时期的550个散文字同现网络的统计数据为基础,确定了模型中参数的取值.研究发现在中华文化发展的各个阶段中,当新词或新的用法产生时,字的选取具有较弱的随机性和较强的择优性.
【学位授予单位】:山东大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:O157.5

手机知网App
【参考文献】
中国期刊全文数据库 前10条
1 唐璐;张永光;付雪;;语义网络的结构:我们怎样学习语义知识(英文)[J];Journal of Southeast University(English Edition);2006年03期
2 陈建初;《类篇》的部首数和字数[J];古汉语研究;1989年03期
3 张玉萍;近代汉语上限问题讨论综述[J];河南大学学报(社会科学版);1995年04期
4 韦洛霞,李勇,李伟,邵明珠,罗诗裕;汉字网络的3度分隔与小世界效应[J];科学通报;2004年24期
5 韦洛霞;李勇;康世勇;罗诗裕;;汉语词组网的组织结构与无标度特性[J];科学通报;2005年15期
6 刘知远;孙茂松;;汉语词同现网络的小世界效应和无标度特性[J];中文信息学报;2007年06期
7 方锦清;汪小帆;郑志刚;毕桥;狄增如;李翔;;一门崭新的交叉科学:网络科学(上)[J];物理学进展;2007年03期
8 方锦清;汪小帆;郑志刚;李翔;狄增如;毕桥;;一门崭新的交叉科学:网络科学(下篇)[J];物理学进展;2007年04期
9 高玉;古代汉语体系与中国古代文化类型[J];新疆大学学报(哲学社会科学版);2003年01期
10 施琪嘉,高素荣,刘锡民,蔡转;说汉语的失语患者言语表达的初步分析[J];中国康复医学杂志;2004年01期
【共引文献】
中国期刊全文数据库 前10条
1 申睿;;《原本玉篇残卷·糸部》或体研究[J];合肥师范学院学报;2010年04期
2 宋兵;;基于复杂网络的农作物细菌性病害传播模型初探[J];安徽农业科学;2011年34期
3 林岚;;“本色译者”与译者本色[J];安徽工业大学学报(社会科学版);2007年04期
4 陈彩华;;试析《窦娥冤》悲剧情节的构成[J];安徽文学(下半月);2009年09期
5 池喜生;;宋词与文人的柔弱心态[J];安徽文学(下半月);2011年10期
6 魏娟;宋福庆;;两种全局同步稳定性方法的比较与应用[J];安阳师范学院学报;2011年05期
7 黄树林;鞠颂东;董军;;企业集团网络化物流模式的结构分析[J];北京交通大学学报(社会科学版);2011年01期
8 尹向敏;李元左;罗小明;;陆军武器装备综合集成系统复杂性研究[J];兵工自动化;2007年10期
9 邱原;邢焕革;;基于复杂理论的作战网络关键边评估方法[J];兵工自动化;2011年08期
10 马睿;朱建冲;杨美玲;;基于改进聚类生存度的军事通信网可靠性分析[J];兵工自动化;2012年06期
中国重要会议论文全文数据库 前10条
1 陈树文;高琼;;网络结构视角下中关村产业集群创新驱动困境与建议[A];创新驱动与首都“十二五”发展——2011首都论坛文集[C];2011年
2 耿志勇;;具有静态非线性互联结构的分布式异构系统的稳定性[A];第二十六届中国控制会议论文集[C];2007年
3 李鑫滨;王腊梅;刘仙;;基于动态复杂网络的Van der pol振子同步[A];第二十九届中国控制会议论文集[C];2010年
4 李立;;BA无标度网络中混沌动力系统的同步分析及控制[A];第二十九届中国控制会议论文集[C];2010年
5 张跃;蒋国平;;一类混沌复杂动态网络不稳定平衡点的牵制控制[A];中国自动化学会控制理论专业委员会A卷[C];2011年
6 郑新奇;苏艳军;杨光;王淑晴;;城市道路网络复杂性的研究方法——空间句法与复杂网络模型的集成分析[A];《测绘通报》测绘科学前沿技术论坛摘要集[C];2008年
7 《基于学术交流的技术创新人才培养研究》课题组;陈雄辉;;基于学术交流的技术创新人才培养研究[A];学术交流质量与科技研发创新研究[C];2009年
8 张玉萍;;浅谈专题索引的编制及其意义——以《近代汉语研究索引》为例[A];全国高校社科信息资料研究会第六次会员代表大会暨第13次学术研讨会论文集[C];2010年
9 唐璐;张永光;付雪;;语义网络的结构:我们怎样学习语义知识(英文)[A];全国语域web与本体能研讨会论文集[C];2006年
10 王建功;李平辉;谭欢;;B-A模型的改进模型[A];2007北京地区高校研究生学术交流会通信与信息技术会议论文集(下册)[C];2008年
中国博士学位论文全文数据库 前10条
1 杜文博;面向航空交通系统的复杂网络与网络动力学研究[D];中国科学技术大学;2010年
2 籍艳;几类时滞系统的稳定与同步[D];江南大学;2010年
3 徐旭林;社会群体行为建模及其动力学分析[D];南开大学;2010年
4 杜方;复杂网络系统间相似性识别及其应用[D];浙江大学;2010年
5 张建辉;节点势能导向多下一跳路由协议研究与性能评价[D];解放军信息工程大学;2009年
6 陈雪颂;设计驱动式创新机理与设计模式演化研究[D];浙江大学;2011年
7 高磊;P2P工作流系统中的资源搜索及负载均衡优化研究[D];山东大学;2010年
8 郭迟;基于复杂网络的Internet脆弱性研究[D];武汉大学;2010年
9 张泽华;云计算联盟建模及实现的关键技术研究[D];云南大学;2010年
10 沈波;基于不完全测量信息的非线性随机系统的滤波与控制[D];东华大学;2011年
中国硕士学位论文全文数据库 前10条
1 苏延森;刺激下拟南芥基因逻辑网络构建与分析[D];山东科技大学;2010年
2 李二艳;刺激下拟南芥基因相关网络构建与分析[D];山东科技大学;2010年
3 周斌;复杂网络的社团结构挖掘及应用研究[D];广西师范学院;2010年
4 王传君;思想政治教育文本研究[D];浙江理工大学;2010年
5 高萌;复杂神经元网络的同步问题研究[D];哈尔滨工程大学;2010年
6 姜荣;时间序列的聚类和关联规则挖掘研究[D];辽宁师范大学;2010年
7 邵磊;大连时尚店名的社会语言学分析[D];辽宁师范大学;2010年
8 孔健;基于半监督学习的社团划分算法研究[D];辽宁师范大学;2010年
9 贾琳;基于复杂网络的海洋排污权配置及其交易机制研究[D];中国海洋大学;2010年
10 朱浩磊;查慎行诗歌研究[D];湘潭大学;2010年
【二级参考文献】
中国期刊全文数据库 前10条
1 解(亻刍);汪小帆;;复杂网络中的社团结构分析算法研究综述[J];复杂系统与复杂性科学;2005年03期
2 刘强;方锦清;李永;;束流输运网络中多目标的分区耦合牵制控制[J];复杂系统与复杂性科学;2007年01期
3 史明江;李翔;汪小帆;;基于复杂网络理论的即时通讯病毒研究[J];计算机工程与应用;2006年11期
4 宋莉雅;李翔;汪小帆;;互联网的局域世界演化模型仿真研究[J];计算机仿真;2006年10期
5 方锦清,汪小帆,刘曾荣;略论复杂性问题和非线性复杂网络系统的研究[J];科技导报;2004年02期
6 方锦清;;网络科学的理论模型探索及其进展[J];科技导报;2006年12期
7 韦洛霞,李勇,李伟,邵明珠,罗诗裕;汉字网络的3度分隔与小世界效应[J];科学通报;2004年24期
8 韦洛霞;李勇;康世勇;罗诗裕;;汉语词组网的组织结构与无标度特性[J];科学通报;2005年15期
9 许丹;李翔;汪小帆;;局域世界复杂网络中的病毒传播及其免疫控制[J];控制与决策;2006年07期
10 郭维平;汪小帆;李翔;;方格网络模型的数据传输动态特性[J];通信学报;2006年10期
中国博士学位论文全文数据库 前1条
1 章忠志;复杂网络的演化模型研究[D];大连理工大学;2006年
【相似文献】
中国期刊全文数据库 前10条
1 刘则渊;尹丽春;徐大伟;;试论复杂网络分析方法在合作研究中的应用[J];科技管理研究;2005年12期
2 钱燕云;李静;刘娟;温洪波;;企业技术创新合作的网络特征实证研究[J];科技管理研究;2008年08期
3 罗银花;陈亮;汪洋;;一种具有等级结构的无标度网络模型[J];计算机仿真;2009年11期
4 郝彬彬;井元伟;张嗣瀛;;加权无标度网络中连接密度与同步能力的关系[J];系统工程学报;2010年03期
5 周晖杰;;复杂网络理论在基因调控网络中的应用[J];重庆科技学院学报(自然科学版);2009年05期
6 田生文;杨洪勇;钟丽;王伊蕾;;合作网络局域世界演化模型[J];计算机工程;2010年06期
7 丁德武;丁彦蕊;陆克中;须文波;黄海生;;重建代谢网络及其结构与功能的分析[J];计算机与应用化学;2010年05期
8 李稳国;邓曙光;崔治;肖卫初;;可调路径长度和簇系数的加权无标度网络模型研究[J];湖南城市学院学报(自然科学版);2011年02期
9 邵斐;;Scale-free网络鲁棒性研究[J];乐山师范学院学报;2009年12期
10 李季;汪秉宏;蒋品群;周涛;王文旭;;节点数加速增长的复杂网络生长模型[J];物理学报;2006年08期
中国重要会议论文全文数据库 前10条
1 罗准辰;王挺;;搜索词同现网络研究[A];第六届全国信息检索学术会议论文集[C];2010年
2 傅新楚;朱杰;;复杂网络的同步能力与传播动力学性态[A];第十三届全国非线性振动暨第十届全国非线性动力学和运动稳定性学术会议摘要集[C];2011年
3 周胜利;耿显民;;具有真实网络一般特性的复杂网络模型[A];第七届中国不确定系统年会论文集[C];2009年
4 吴俊;谭跃进;;非标度网络理论及其应用综述[A];Well-off Society Strategies and Systems Engineering--Proceedings of the 13th Annual Conference of System Engineering Society of China[C];2004年
5 卫郭敏;;基于无标度网络的科学知识结构分析[A];第三届全国科技哲学暨交叉学科研究生论坛文集[C];2010年
6 刘宗华;唐明;P.M.Hui;;无标度网络上的包裹传递[A];第五届全国复杂网络学术会议论文(摘要)汇集[C];2009年
7 曾兆名;阎帆;杨启厚;范炜;;复杂网络中多点攻击及保护[A];第五届全国复杂网络学术会议论文(摘要)汇集[C];2009年
8 周婷婷;高忠科;金宁德;;两相流复杂网络无标度与小世界特性分析[A];第五届全国复杂网络学术会议论文(摘要)汇集[C];2009年
9 王仲君;晏先浩;;友谊网络上的若干新演化机制[A];2006全国复杂网络学术会议论文集[C];2006年
10 许晴;祖正虎;郑涛;;1998~2004年间世界恐怖活动的无标度特性分析[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年
中国重要报纸全文数据库 前10条
1 商荣;国清;帮你开办“卡通小世界”[N];中国商报;2002年
2 ;帮你开办“卡通小世界”[N];经理日报;2002年
3 本报记者 薛原;篮球“小世界杯”登陆中国[N];人民日报;2005年
4 ;微小世界探访[N];中国环境报;2003年
5 丁丽洁;十五年后揽镜自照[N];文学报;2007年
6 鲁奇;大传媒 小世界[N];中华新闻报;2000年
7 朱华颖;微小世界 梦幻天堂[N];人民日报海外版;2004年
8 郑海华;温州现象吻合“小世界”理论[N];温州日报;2005年
9 周红才 罗如春;挖掘小世界的内里乾坤[N];文艺报;2006年
10 本报驻京记者 师欣;书馆小世界,社会大文化[N];南方周末;2003年
中国博士学位论文全文数据库 前10条
1 梁伟;语言网络研究[D];山东大学;2010年
2 张尊栋;城市道路交通网络多模态动态性建模研究[D];北京交通大学;2011年
3 关峻;复杂生态系统的无标度理论研究及其实证分析[D];武汉理工大学;2006年
4 唐明;复杂网络上的粒子凝聚动力学及其相关应用研究[D];华东师范大学;2010年
5 王国军;核壳多层复合乳液共聚过程群子参数标度与材料耗散结构关系的研究[D];北京化工大学;2004年
6 常福宣;分形理论在水文水资源研究中的应用[D];四川大学;2001年
7 王冰;复杂网络的演化机制及若干动力学行为研究[D];大连理工大学;2006年
8 崔迪;群落结构的复杂网络及其交通行为的研究[D];北京交通大学;2009年
9 周海平;复杂网络的演化模型及传播动力学研究[D];贵州大学;2009年
10 瞿泽辉;复杂网络及其在信息领域中的应用[D];电子科技大学;2011年
中国硕士学位论文全文数据库 前10条
1 王丽丽;基于社团结构和分层结构的无标度网络建模与分析[D];北京交通大学;2012年
2 黄丹;考虑代价的无标度网络抗攻击性研究[D];中南民族大学;2011年
3 张运丽;具有人口动力学特征的网络传染病模型[D];中北大学;2012年
4 吴新丽;无标度供应网格簇及其管理系统开发与应用[D];浙江理工大学;2012年
5 郑梅容;无标度网络的相继故障及其中心化研究[D];华中师范大学;2012年
6 徐庭兰;具有去边机制的随机—无标度混合演化网络度分布[D];中南大学;2009年
7 江昌华;拓扑结构对增长的复杂网络演化的影响研究[D];上海交通大学;2010年
8 郭阳;万维网的小世界效应探讨[D];石家庄铁道大学;2011年
9 杨成慧;小世界理论在神经网络预测方法中的应用[D];北京交通大学;2012年
10 于恒松;Poisson增长与删除的无标度网络的分析与研究[D];北京交通大学;2009年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026