基于Scrapy技术的数据采集系统的设计与实现
【摘要】:近些年来,随着信息技术的不断发展和创新,互联网技术将各种数据以它极其快速和全方位的方式渗透到我们的日常生活当中。海量的互联网数据资源蕴含着巨大的价值财富,如何采集和利用这些数据成为了一个热门研究领域。手动编写网络爬虫程序,从互联网上采集人们需要的数据,对非计算机技术人员势必难度较大,而且实现效率低,不易于管理。基于此,探讨了一种基于Scrapy爬虫框架的数据采集系统的设计与实现,以提高数据采集整体效率,降低工作难度,并且便于用户管理。该文首先介绍了开发背景、意义和现状,然后介绍了系统设计的相关技术,对系统的需求进行了详细地分析。讨论了系统设计原则,设计了系统的总体结构。在此基础上,设计并实现了基于Scrapy爬虫框架的数据采集系统。系统架构分为三层,表示层采用了Html+jQuery+Bootstrap的组合来呈现网页,业务逻辑层由Web应用框架Django和数据采集框架Scrapy组成,数据层使用MySQL关系型数据库管理系统。Django具备较为完美的模版机制、对象关系映射机制,还能够创建出动态管理后台信息的界面。Scrapy是一个为了爬取网站数据、提取结构性数据而编写的爬虫应用框架,可以应用在包括存储历史数据、数据挖掘、信息处理等一系列的程序中。最后对系统进行了测试,测试结果表明,设计和实现的系统达到了系统的需求。将Scrapy爬虫框架应用到Django框架上,实现了爬虫程序的自动化生成。系统功能基本完善,界面友好。用户可以设计和管理自己的网站采集任务,相比传统的手动编写爬虫程序,不仅难度低,效率高,而且便于用户管理采集到的数据。