语言网络研究
【摘要】:
复杂网络是对某些复杂系统的抽象和描述.任何一个网络都可以看作是由一些节点按照某种方式连接在一起而构成的一个系统,其中节点代表真实系统中的个体,而边表示个体间的相互联系.现实世界中大量的复杂系统都可以看成是复杂网络,它们广泛存在于社会、经济、生物等众多领域,例如万维网和互联网[1,2,3,4,5]、生物网[6,7,8]、科学家合作网[9,10]、交通网[11,12].近年来,国内外网络科学发展迅速,它已经成为一门广泛交叉的科学,为众多领域的复杂系统研究提供了新思想和新手段[13,14].
实际网络的图表示方法可以追溯到18世纪伟大的数学家欧拉对著名的"Konigsberg七桥问题”的研究.该研究开辟了数学的一个分支一图论.很长一段时间内图论并未得到很大的发展,直到1960年由匈牙利数学家Erdos和Renyi建立了ER随机图[15]:假设图中有N个节点,每对节点之间以概率p连接,则约有pN(N-1)/2条边,这样就构成了一个ER模型.研究发现随机图的许多性质都是突然涌现的,也就是说,对于任一给定的概率p,要么几乎每一个图都具有某个性质,要么几乎每一个图都不具有该性质.在20世纪的后40年里,随机图理论一直是人们研究复杂网络结构的基本理论.由于大多数实际的复杂网络并不是随机的,因而ER模型作为复杂网络的基本模型,无疑存在较大缺陷.因此人们不断对ER模型进行改进以使其更接近于真实网络[16].
几乎与此同时,人们还开展了对“小世界”效应的实验研究.社会心理学家Milgram曾经做过一个著名的实验[17,18],实验要求参与者把一封信通过熟人传送给指定的某个人,借此探明熟人关系网络中路径长度的分布.虽然实验中大多数信被丢弃了,但是仍有四分之一的信被送达目标人.根据最终到达目标者手中的信件的统计分析发现,从一个志愿者到目标对象的平均距离为6,这就是著名的“六度分离”推断.实验结果在某种程度上反映了人际关系的“小世界”特性.1998年Watts和Strogatz将小世界模型引入到了复杂网络的实际研究当中,建立了WS小世界网络模型[19],以描述从完全规则网络到完全随机网络的转变.稍后Newman和Watts对WS模型进行了改进,建立了NW小世界网络模型[20].WS小世界模型和NW小世界模型本质上是一样的,它们都反映了实际复杂网络的一个性质:大部分节点只与它们的邻近节点相连,同时某些节点也可以与其非邻近节点直接相连.WS模型和NW模型的度分布近似为Poisson分布:其中λ0为参数,p(κ)为网络中随机选取一个节点其度恰好为κ的概率.然而近几年的大量研究表明许多实际网络的度分布明显地不同于Poisson分布,而是更接近幂律分布:其中γ为正常数.由于幂律分布没有明显的特征长度,该类网络又被称为无标度网络.为了解释幂律分布产生的机理,1999年Barabasi和Albert建立了BA无标度网络模型[21].研究发现网络规模的不断增加和网络中存在优先连接导致了网络的度分布服从幂律分布,并且存在少量度相对很高的节点,但绝大多数节点的度相对很低(即存在“胖尾”).另外,研究表明等级组织[22]、聚合和节点的重建[23,24,25]、拷贝节点[26,27]也可以导致网络具有无标度特性.
语言是语言学、心理学、生物学等领域共同研究的对象,是人类文明的结晶,是一个经过漫长演化而来的复杂系统[28].Sole认为语言在各个层次上都体现了复杂网络的性质,包括语音、句法和语义[29].国内外已经在词同现网络、句法网络、语义网络等方面开展了相应的研究.
英语网络的研究已经取得了非常丰硕的成果.例如2001年Cancho和Sole在规模为107个词的英语国家语料库的基础上建立了两个词同现网络[30],研究发现两个网络都具有小世界特性和无标度特性,并且在每个网络的度分布中都存在两个幂律指数1.5和2.7.2002年Motter和Moura等人基于在线英语词典,该词典含有3000多个概念,根据单词之间概念的相似性构建了英语的概念网[31].该网络也具有小世界特性和无标度特性.2002年Sigman等人基于Wordnet上规模为66025个名词之间的语义关系,例如反义词,建立了英语的语义网,研究发现该网络具有小世界特性和无标度特性[32].
汉语语言网络的研究已取得一些研究成果.韦洛霞等人根据一个基本词语集,构造了词法网络(如果两个词语包含同一个汉字,则认为其问存在连接,例如“法治”和“法网”)[33,34].2006年唐璐等人在两个大型网络HowNet和WordNet的基础上,构建了两个语义网络[35].2007年刘知远等人在《人民日报》(1998年上半年)1300万字左右的人工分词语料库和国语委5000万字左右的人工分词语料库的基础上,建立了四个词同现网络[36].2008年周水庚等人基于大型语料库PFR1.0建立了两个词同现网络[37].研究发现上述网络都具有小世界特性和无标度特性.
近年来,人们对其它语言网络也展开了相应的研究.例如2004年Cancho等人基于捷克语、德语、罗马尼亚语构建了句法网,研究发现该网络也具有小世界特性和无标度特性[38].2006年Markosova等人根据互联网上的大量文本建立了斯洛伐克语的两个词同现网络,研究发现它们都具有小世界特性[39].
中文中的句子是由字和词构成的,而英文中的句子却是由词构成.因而与词同现网络的构造方式一样,我们也可以建立中文字同现网络.然而除了我们的会议论文[40]之外,没有其它文献对中文字网络进行过研究.另外,在现有的文献中,前人的工作是将大量文章合在一起建立一个网络,而这些文章来源于数据库、WordNet、英语在线词典等等.每篇中文文章可以建立一个字同现网络和一个词同现网络,每篇英文文章可以建立一个词同现网络.那么每篇文章建立的网络是否仍然具有小世界特性和无标度特性呢?另外,通过对两种或多种语言所对应网络的统计参数的比较,能否得到一些有用的信息呢?为了回答这些问题,我们在53篇现代中文文章(包括四类文体:散文、小说、科普和新闻),以及每种类型文章合一后得到的4篇文章的基础上建立了114个字、词同现网络[40].研究发现中文字同现网络与词同现网络在结构上是等价的,也就是说,它们都同时具有小世界特性和无标度特性.
目前正在使用的主要语言有6800多种[41],其中汉语和英语是使用最多的两种语言.那么从复杂网络的角度来看中、英文之间有何异同?在同种语言下四类文章:散文、小说、科普和新闻之间又有何异同?中华民族历史悠久,文化源远流长.从复杂网络的角度来看,不同时期的汉语之间有何相同之处和不同之处呢?在现有的文献中,我们还没有发现这方面的研究成果.
在语言演化网络模型方面,2001年Dorogovtsev和Mendes为了对文献[30]中的度分布进行理论分析,通过在BA模型的基础上增加了第t时刻在已有节点中产生ct(c为常数)条新边的方式建立了DM模型,得到核心词典所在区域的幂律指数为3,而其它词所在区域的幂律指数为1.5[42].2007年Markosova[43]在DM模型的基础上增加了改变边来更好的模拟了文献[30]中的度分布.2008年Yu等人根据中文字或短语之间的包含关系构建了网络,并据此建立了只包括增长和择优的网络模型[44].中华文化经历了5000多年的漫长发展变化.如何建立网络模型来刻画汉语的演化呢?据我们所知,到目前为止,除了文献[42,43,44]之外,我们还没有发现其它用来分析语言演化特别是汉语演化的网络模型.
本文分为四章,分别对中、英文之间的异同,中国不同时期的汉语之间的异同进行了研究.最后,依据汉语发展变化的特点建立了语言演化网络模型,并且给出了汉语不同时期单篇文章所对应字同现网络度分布图的计算机仿真.
在第一章中,我们主要介绍了复杂网络中几个基本概念,包括平均最短路径、聚类系数、度分布等.
在第二章中,我们从复杂网络的角度研究了中、英文之间的异同,以及在同种语言下四类文章:散文、小说、科普和新闻之间的异同.我们分别选取了现代中、英文文章各200篇,针对每篇中文文章建立了一个字同现网络和一个词同现网络,针对每篇英文文章建立了一个词同现网络.研究结果表明,所有的网络都具有小世界特性,并且绝大部分网络都具有无标度特性;在某种意义下英文的表述比中文更简洁;中文中散文和科普具有较多的共性,而英文中却是新闻和科普具有较多的共性.
在第三章中,我们从复杂网络的角度研究了中国不同历史时期文章的异同.我们基于春秋战国、两汉、三国、两晋、南北朝、唐、宋、元、明、清、现代共11个时期各50篇散文,建立了550个字同现网络,每个时期的50篇散文合在一起建立一个大的字同现网络,共建立了561个字同现网络.研究发现基于单篇文章建立的网络中99.6%的网络具有无标度特性,95.0%的网络具有小世界特性.这为建立语言演化网络模型来研究汉语的发展变化提供了必要的统计数据.另外,在汉语语言学的研究中,对魏晋南北朝时期的文学属于古代汉语还是近代汉语一直存在着很大的争议.我们的研究结果表明,魏晋南北朝时期网络的统计数据与其它时期的统计数据之间的确存在明显的不同,并且魏晋南北朝时期的文学属于近代汉语似乎更合理.
在第四章中,我们依据汉语的发展变化特点,建立了包含增加新节点和在已有节点中增加、改变及删除连边的语言演化网络模型,并计算了模型的度分布.在某些情况下模型的度分布为幂律分布并且幂律指数介于1和+∞之间,而有些情况下却为指数分布.以春秋战国、两汉、三国、两晋、南北朝、唐、宋、元、明、清、现代共11个时期的550个散文字同现网络的统计数据为基础,确定了模型中参数的取值.研究发现在中华文化发展的各个阶段中,当新词或新的用法产生时,字的选取具有较弱的随机性和较强的择优性.
|
|
|
|
1 |
罗准辰;王挺;;搜索词同现网络研究[A];第六届全国信息检索学术会议论文集[C];2010年 |
2 |
傅新楚;朱杰;;复杂网络的同步能力与传播动力学性态[A];第十三届全国非线性振动暨第十届全国非线性动力学和运动稳定性学术会议摘要集[C];2011年 |
3 |
周胜利;耿显民;;具有真实网络一般特性的复杂网络模型[A];第七届中国不确定系统年会论文集[C];2009年 |
4 |
吴俊;谭跃进;;非标度网络理论及其应用综述[A];Well-off Society Strategies and Systems Engineering--Proceedings of the 13th Annual Conference of System Engineering Society of China[C];2004年 |
5 |
卫郭敏;;基于无标度网络的科学知识结构分析[A];第三届全国科技哲学暨交叉学科研究生论坛文集[C];2010年 |
6 |
刘宗华;唐明;P.M.Hui;;无标度网络上的包裹传递[A];第五届全国复杂网络学术会议论文(摘要)汇集[C];2009年 |
7 |
曾兆名;阎帆;杨启厚;范炜;;复杂网络中多点攻击及保护[A];第五届全国复杂网络学术会议论文(摘要)汇集[C];2009年 |
8 |
周婷婷;高忠科;金宁德;;两相流复杂网络无标度与小世界特性分析[A];第五届全国复杂网络学术会议论文(摘要)汇集[C];2009年 |
9 |
王仲君;晏先浩;;友谊网络上的若干新演化机制[A];2006全国复杂网络学术会议论文集[C];2006年 |
10 |
许晴;祖正虎;郑涛;;1998~2004年间世界恐怖活动的无标度特性分析[A];全国第20届计算机技术与应用学术会议(CACIS·2009)暨全国第1届安全关键技术与应用学术会议论文集(上册)[C];2009年 |
|