收藏本站
《西北民族大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

藏文网页自动发现与采集技术研究

王思丽  
【摘要】: 随着互联网技术的深入发展,藏族文化信息越来越多的以藏文网页的形式出现,真实而生动地展示了藏民族的历史发展进程。与此同时,目前的藏文软件基本都采用自定义编码,造成藏文网页编码不统一,数据资源难以共享和交换,而且在不同编码间转换需要消耗巨大的工作量,给藏语言研究人员带来了很大不便。因此,建立一个内容全面、编码统一的藏文网页信息资源库势在必行。 本文通过对传统中文网页采集技术的分析,结合藏文网页自身的结构特点,研究了藏文网页自动发现与采集技术,并构造了藏文网页信息采集系统(简称TS系统),系统基本实现了藏文网页信息的自动发现和采集,藏文网页不同编码之间的相互转换,藏文网页的存储。 本文研究的核心技术方法有: 1.提出了藏文网页的识别方法:基于藏文网页文本节点特征的识别方法;基于藏文文字音节点特征的识别方法;基于藏文高频音节统计学特征的识别方法。 2.提出了藏文网页编码的识别方法:基于藏文编码非重叠区域的编码识别方法;基于贝叶斯分类的藏文编码识别方法。 3.提出了藏文编码的转换方法:按编码结构可分为,基于藏文带元音字丁的编码到扩充集A的编码转换;基于藏文不带元音的字丁和元音组合的编码到扩充集A编码的转换;基于基本集的Unicode编码和扩充集A编码之间的转换。按编码类型细分,又可分为基于ASCII的藏文编码转换方法、基于GB2312的藏文编码转换方法、基于Unicode的藏文编码转换方法。 4.设计了藏文网页判定方案。并认真研究了藏文音节点阈值的选取问题,最终确定了藏文网页采集的多线程动态调度策略。同时研究了藏文网页存储技术,将藏文HTML网页解析为XML网页进行存储,有利于减少冗余信息,节省空间。
【学位授予单位】:西北民族大学
【学位级别】:硕士
【学位授予年份】:2010
【分类号】:TP393.092

【相似文献】
中国期刊全文数据库 前10条
1 周毛先;头旦才让;才让加;;基于WAMP的藏汉英互译在线词典的设计与实现[J];中文信息学报;2011年04期
2 才让叁智;安见才让;;藏汉英混合文档的字数统计研究[J];网络与信息;2011年07期
3 梁佳;;标记监补模式下的网站监视反病毒系统[J];电脑编程技巧与维护;2011年15期
4 志玛青措;;浅谈藏文图书编辑与校对工作[J];民族翻译;2010年04期
5 清风慕缘;;电子书制作不求人[J];电脑爱好者;2011年01期
6 任小波;;敦煌吐蕃文书中的“人马盟誓”情节新探——IOL TibJ 731号藏文写卷研究释例[J];中国藏学;2011年03期
7 李谢莉;唐蓉;;新世纪以来四川省少数民族文字报纸的发展现状探析[J];编辑之友;2011年07期
8 张鑫;闪永强;;一种新型网页防篡改策略的研究与部署[J];河南师范大学学报(自然科学版);2011年05期
9 ;迅雷为何无法下载[J];电脑爱好者;2011年06期
10 徐辉;王忠芝;;基于WebBrowser的MATLAB用户界面设计与实现[J];计算机系统应用;2011年07期
中国重要会议论文全文数据库 前10条
1 马良成;运中旺苏;张步明;;北宋“崇宁重宝背藏文钱”初探[A];甘肃省钱币学会第四次会员代表大会专辑[C];2001年
2 运中旺苏;张步明;;北宋“崇宁重宝背藏文钱”再探[A];第二届西北五省区钱币学会协作会议专辑[C];2002年
3 胡丹;;对文物征集与馆藏文物调整的思考[A];赣博论坛——博物馆现状与发展前瞻论文集(一)[C];2003年
4 于洪志;;藏文信息交换技术的研究与实现[A];辉煌二十年——中国中文信息学会二十周年学术会议论文集[C];2001年
5 刘汇丹;诺明花;赵维纳;吴健;贺也平;;藏文编码转换软件“藏码通”的设计与实现[A];少数民族青年自然语言处理技术研究与进展——第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会论文集[C];2010年
6 张星星;穗志方;;基于网页中深度并列结构的实例提取算法[A];中国计算语言学研究前沿进展(2009-2011)[C];2011年
7 陈乃雄;;一枚藏文钱释[A];《内蒙古金融研究》钱币文集(第三辑)[C];2003年
8 孙文景;;藏文因明书目[A];因明新探——首届因明学术讨论会论文集[C];1983年
9 褚媛萍;;合理开发、利用博物馆馆藏文物资源 充分发挥其社会教育功能[A];萃英集——青海省教育委员会、青海省教育学会优秀教育论文集[C];2000年
10 李应兴;付婷;李勇;;基于LUCENE的藏文信息检索的研究与应用[A];民族语言文字信息技术研究——第十一届全国民族语言文字信息学术研讨会论文集[C];2007年
中国重要报纸全文数据库 前10条
1 记者 徐瑞哲;藏文可以直接编制电子文档了[N];解放日报;2008年
2 本报记者 王向华;藏文图书:发现几多雪原奇葩[N];四川日报;2009年
3 本报记者 蒋翠莲;信息化使古老藏文焕发生机[N];西藏日报;2009年
4 大山;藏文媒体发展还需加力[N];西藏日报;2009年
5 张立辉;手写藏文手机正式推出[N];中国民族报;2009年
6 樊曦;藏文软件让藏族同胞踏上信息化“天路”[N];中国民族报;2010年
7 记者 郭丽君;新一代藏文软件推广应用[N];光明日报;2010年
8 记者 张黎黎 晓勇;新一代藏文软件推广应用取得实质进展[N];西藏日报;2010年
9 唐大山;为传统藏文插上科技翅膀[N];西藏日报;2010年
10 本报记者 罗旭 王国平;“现在是藏民族文化发展的最好时期”[N];光明日报;2009年
中国博士学位论文全文数据库 前10条
1 芮建武;操作系统国际化基础的研究与实践[D];中国科学院研究生院(软件研究所);2005年
2 黄华军;网页信息隐藏与隐秘信息检测研究[D];湖南大学;2007年
3 那加才旦;古代藏语文研究(7-11 A.D.)[D];中央民族大学;2012年
4 斯塔;本体、方法、境界[D];中央民族大学;2007年
5 段玉泉;语言背后的文化流传:一组西夏藏传佛教文献解读[D];兰州大学;2009年
6 张云;元代吐蕃地方行政体制研究[D];南京大学;1993年
7 乌云毕力格;论《苏布喜地》及其对蒙古箴言诗的影响[D];内蒙古大学;2009年
8 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
9 王献军;西藏政教合一制研究[D];南京大学;1997年
10 王璞;藏族史学思想论纲[D];云南大学;2002年
中国硕士学位论文全文数据库 前10条
1 屠辉;中文重复网页的检测算法研究[D];北京邮电大学;2010年
2 黄伟光;网页木马的防御与检测技术研究[D];北京交通大学;2011年
3 易方昶;基于网页后门木马监测系统的研究和设计[D];北京化工大学;2010年
4 尹力;网页防篡改系统在校园网中的应用研究[D];河北科技大学;2011年
5 史晶晶;基于CRF的Web机构实体信息抽取系统[D];吉林大学;2011年
6 孔辉;一种网页防篡改系统的设计与实现[D];北京邮电大学;2011年
7 王征;基于布隆过滤器算法的网页消重技术的实现与应用[D];北京交通大学;2010年
8 孙鹏;网页水印技术研究[D];上海交通大学;2010年
9 陈瑜芳;主题爬虫系统的研究[D];武汉理工大学;2010年
10 王洋;基于主题词同现图的网页相关度研究[D];华南理工大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026