收藏本站
收藏 | 手机打开
二维码
手机客户端打开本文

Web中的行情数据抽取与预测研究

于春燕  
【摘要】: 随着Web技术的飞速发展,万维网已经成为世界上最大的资源库,面向Web数据的挖掘与应用成为数据挖掘领域的研究热点。其中,针对Web中大量动态表格形式的行情数据的有效获取和预测,具有理论价值和实际意义。本文主要针对这一课题开展研究,内容如下: (1)提出了Web行情数据抽取算法和Web页特征抽取算法。两个算法都充分利用了HTML的语法规则和Web页设计规律。Web行情数据抽取算法主要基于“Web行情数据通常在网页中表现为区域最大的数据表格”等规律,首先自动识别出最大的数据表格,然后转换为DOM树结构,最后抽取DOM树的结点值。与传统算法不同,算法无需用户定义抽取数据区域,实现了自动抽取。为了描述被抽取的页面,提出了Web页的元数据描述模型及元数据提取算法。元数据抽取算法充分利用Web页规律,通过正则表达式实现了有效抽取。实验表明,Web行情数据抽取算法和元数据提取算法均具有较好的性能。 (2)开展了Web行情数据的预测研究。行情数据预测需求一般分为长期预测(一年以上)和短期预测(一年之内)。利用Web行情数据抽取算法获取某农产品报价数据后,针对长期和短期预测需求,分别运用多个时间序列预测模型、使用不同的样本数据,比较预测模型和样本数据对预测性能的影响。实验表明,长期预测采用线性季节模型和长期样本数据的性能较好;短期预测采用Holter-Winter季节模型和短期样本数据的性能较好。 (3)设计并实现了一个农产品价格预测原型系统。该系统针对某个农产品,自动从特定网站获取每日价格行情数据,以图式显示指定样本区间的价格数据,并根据用户输入的预测区间选择模型进行价格预测。


知网文化
【相似文献】
中国期刊全文数据库 前20条
1 沈丽娟,金丹;ETL实施过程研究[J];科技和产业;2005年11期
2 薛亮;冯博琴;管涛;;网络跨库检索中基于Ontology的数据抽取与合并[J];小型微型计算机系统;2005年10期
3 赵方;;数据仓库技术及实施[J];电脑知识与技术(学术交流);2006年17期
4 贺安坤;苏平;姜红花;;银行CRM系统数据抽取的研究[J];计算机应用与软件;2008年03期
5 孙伟舰;王于丁;贾丽;张晓芳;;基于Web Service的数据抽取研究与设计[J];现代电子技术;2008年08期
6 王红卫;马红;张素智;赵宇;;基于预定义模式的Web网页结构化数据抽取[J];郑州轻工业学院学报(自然科学版);2008年06期
7 宋娜娜;;基于上下文无关文法的数据抽取规则[J];河南城建学院学报;2010年05期
8 顾春辉;;数据仓库技术在公共交通领域中的应用[J];城市公用事业;2011年01期
9 熊丽荣,蔡家楣,郑河荣,郭行波;移动网管平台中数据仓库数据抽取、净化和集成[J];计算机应用研究;2002年04期
10 周亚宁;电信经营分析系统中抽取转换子系统的设计与实现[J];内蒙古大学学报(自然科学版);2004年06期
11 左爱群;杜波;;数据仓库技术研究及其在银行的应用[J];武汉工业学院学报;2006年01期
12 杨成;;基于XML的网页信息提取系统的研究与设计[J];电脑知识与技术;2009年26期
13 尹津其;;基于WEB的数据抽取及应用实例[J];中国新技术新产品;2009年19期
14 陈恩红;范焱;王行甫;蔡庆生;;网际网上半结构化数据抽取与知识发现方法及其实现[J];计算机科学;1999年10期
15 杨晓宇;Web的半结构化数据抽取的方法及其实现[J];太原师范学院学报(自然科学版);2003年03期
16 吴远红;陈爱萍;;共享数据库平台中的时态数据处理研究[J];电脑知识与技术(学术交流);2006年32期
17 宁彬;;数据仓库技术的应用策略[J];华南金融电脑;2007年01期
18 陈荣伟;董丽丽;南鹏;;电子行业中集团型企业信息系统整合方法[J];现代电子技术;2007年07期
19 朱国强;刘厚泉;;基于发布/订阅技术的数据抽取[J];微计算机信息;2007年21期
20 葛欣;丁恩杰;;数据仓库中数据抽取技术的研究与应用[J];工矿自动化;2007年05期
中国重要会议论文全文数据库 前10条
1 蒋理成;;增量数据抽取(ETL)技术[A];第二十四届中国数据库学术会议论文集(技术报告篇)[C];2007年
2 陆忠良;苏厚勤;;基于Oracle/Linux环境数据抽取技术的研究与实践[A];第四届中国软件工程大会论文集[C];2007年
3 沈壮志;;Tribon系统的二次开发[A];福建省科协第八届学术年会船舶及海洋工程分会论文集[C];2008年
4 龚英弢;;Tribon M3系统快速绘图开发[A];2007年CAD/CAM学术交流会议论文集[C];2007年
5 张文东;袁春风;武港山;;基于视觉的网页数据抽取[A];2009年研究生学术交流会通信与信息技术论文集[C];2009年
6 颜立新;;矿山数据仓库建设中的数据采集设计[A];采矿工程学新论——北京开采所研究生论文集[C];2005年
7 万年红;高金刚;史懿;徐家倬;;生产过程信息综合分析系统的研制[A];第十二届全国设备故障诊断学术会议论文集[C];2010年
8 吴祖玉;;基于数据仓库技术的商业决策支持系统[A];2000中国控制与决策学术年会论文集[C];2000年
9 吴信伟;杨廷勇;王文薇;;基于WEB浏览器的三峡左岸机组状态监测趋势分析系统[A];中国水力发电工程学会电力系统自动化专委会2008年年会暨学术交流会论文集[C];2008年
10 郑慧娟;周嘉元;李斌;;水电站生产数据分析系统及其现场应用[A];中国水力发电工程学会信息化专委会2010年学术交流会论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 张敬伟;Web论坛数据抽取[D];华东师范大学;2012年
2 陈珂锐;基于本体演化的Deep Web数据抽取与注释[D];吉林大学;2011年
3 朱沿旭;面向开源社区的Web数据抽取与挖掘关键技术研究[D];国防科学技术大学;2011年
4 丁艳辉;面向Web数据集成的数据抽取问题研究[D];山东大学;2010年
5 陈元;基于分类模型的知识发现过程研究[D];国防科学技术大学;2002年
6 赵朋朋;Deep Web信息集成若干关键技术研究[D];苏州大学;2008年
7 马安香;基于结果模式的Deep Web数据集成关键技术研究[D];东北大学 ;2009年
8 黄健斌;基于条件概率图模型的Deep Web数据抽取与集成研究[D];西安电子科技大学;2007年
9 刘书暖;工艺知识发现与重用技术[D];西北工业大学;2007年
10 董永权;Deep Web数据集成关键问题研究[D];山东大学;2010年
中国硕士学位论文全文数据库 前10条
1 曹瑾;航空发动机设计中共享数据库及数据抽取模式的探索开发[D];电子科技大学;2008年
2 廉博;数据仓库中ETL技术的研究与实现[D];沈阳工业大学;2006年
3 吴相智;基于XML的Web数据抽取技术的研究[D];中南大学;2005年
4 薛黎;基于数据仓库的城市管理决策会商系统的设计与实现[D];重庆大学;2006年
5 王娟;数据仓库开发探索以及在社保领域的应用[D];电子科技大学;2005年
6 姚竞争;TRIBON模型的数据抽取及二次开发[D];哈尔滨工程大学;2006年
7 王保民;软件高频多普勒接收机设计与实验[D];中国科学院研究生院(武汉物理与数学研究所);2006年
8 胡成龙;面向研发企业的通用软件度量系统的建立和实现[D];上海交通大学;2007年
9 屈志勇;基于规则的数据处理系统[D];吉林大学;2009年
10 万丽蓉;遗传算法在Web数据同步抽取中的分析应用[D];山东大学;2009年
中国重要报纸全文数据库 前10条
1 广东省电信公司科学技术研究院 汪虹;数据抽取: 复杂电信数据的统一路[N];计算机世界;2002年
2 涂凯;数据淘金 妙在分分合合[N];中国计算机报;2003年
3 ;Informix实现商务智能的坚实根基[N];中国计算机报;2000年
4 中青旅尚洋电子技术有限公司 史小六 陈如璇;细看集中技术[N];网络世界;2003年
5 黄平;如何提升数据仓库的数据质量[N];计算机世界;2005年
6 北京市燃气集团有限责任公司 供稿;北京燃气管网尽在掌握[N];计算机世界;2008年
7 NCR Teradata数据仓库事业部 王闯舟;基于Teradata的BI应用[N];网络世界;2004年
8 ;中创软件电力信息整合方案[N];计算机世界;2006年
9 ;金融电子化寻找“软”动力[N];中国计算机报;2001年
10 中国系统分析员协会 专业顾问 张振华 中国建设银行浙江省分行 熊晓南;让“脏数据”改头换面[N];网络世界;2006年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62982499
  • 010-62783978