收藏本站
《中国科学院大学(中国科学院沈阳计算技术研究所)》 2018年
收藏 | 手机打开
二维码
手机客户端打开本文

垂直分类信息采集及推荐系统的设计与实现

杨红立  
【摘要】:企业之间的竞争关键体现在科技创新上,而技术发展和进步的前提条件是对前人经验的总结和超越,这就需要科研人员收集并整理相关的文献资源。科研人员从海量网络文献资源中搜索自己所需的文献需要花费大量的精力和时间,因此对文献的收集和推荐也逐渐成为当前重要的研究方向之一。本文以实验室企业云服务平台项目为背景,设计并实现了一个垂直分类信息采集及推荐系统,完善了基于用户兴趣模型的推荐算法。本文完成的主要工作如下:1.实现了基于Scrapy开源框架的信息采集项目。该项目实现了对垂直型网站和分类信息网站的数据采集,并结合Scrapyd实现了爬虫项目的可视化管理。2.利用LDA算法训练文献集和预测新文献主题概率。通过LDA算法对文献集进行训练不仅降低了文献特征向量的维度和计算的复杂度,而且还可以挖掘出文献间潜在的主题信息。3.提出了一种基于用户兴趣模型的个性化推荐算法,该算法首先依据文献信息构建文献模型,然后结合用户历史操作信息创建用户历史兴趣模型,最后使用协同过滤算法挖掘出用户潜在偏好模型,再将两种模型融合成用户兴趣模型。经过实验验证,基于用户兴趣模型的推荐不仅弥补了基于内容推荐中的多样性不足问题,而且在一定程度上缓解了协同过滤推荐中的冷启动和数据稀疏性问题。
【学位授予单位】:中国科学院大学(中国科学院沈阳计算技术研究所)
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP391.3

【参考文献】
中国期刊全文数据库 前10条
1 关鹏;王曰芬;;科技情报分析中LDA主题模型最优主题数确定方法研究[J];现代图书情报技术;2016年09期
2 宋宇;真溱;;关键词自动抽取技术综述[J];情报理论与实践;2016年07期
3 杨春艳;潘有能;赵莉;;基于语义和引用加权的文献主题提取研究[J];图书情报工作;2016年09期
4 陆艺;曹健;;面向隐式反馈的推荐系统研究现状与趋势[J];计算机科学;2016年04期
5 杨武;唐瑞;卢玲;;基于内容的推荐与协同过滤融合的新闻推荐方法[J];计算机应用;2016年02期
6 黄文彬;张惟恺;徐扬;;基于作者共引分析的推荐系统研究知识图谱构建[J];现代情报;2015年11期
7 朴尚哲;超木日力格;于剑;;模糊C均值算法的聚类有效性评价[J];模式识别与人工智能;2015年05期
8 于娟;刘强;;主题网络爬虫研究综述[J];计算机工程与科学;2015年02期
9 梁喜涛;顾磊;;中文分词与词性标注研究[J];计算机技术与发展;2015年02期
10 冷亚军;陆青;梁昌勇;;协同过滤推荐技术综述[J];模式识别与人工智能;2014年08期
中国硕士学位论文全文数据库 前6条
1 安子建;基于Scrapy框架的网络爬虫实现与数据抓取分析[D];吉林大学;2017年
2 钱宇;科研文献开放获取系统中的推荐算法研究与应用[D];浙江大学;2017年
3 马联帅;基于Scrapy的分布式网络新闻抓取系统设计与实现[D];西安电子科技大学;2015年
4 杨峥;基于用户兴趣变化的协同过滤推荐算法研究[D];燕山大学;2015年
5 欧晓恒;基于协同过滤的推荐算法研究[D];大连海事大学;2015年
6 代金龙;协同过滤算法中数据稀疏性问题研究[D];重庆大学;2013年
【共引文献】
中国期刊全文数据库 前10条
1 于波;杨红立;冷淼;;基于用户兴趣模型的推荐算法[J];计算机系统应用;2018年09期
2 孟亚茹;姚凯学;安世博;;基于Python的网络关键字热度获取工具的研究与实现[J];电子技术与软件工程;2018年17期
3 王曰芬;王金树;关鹏;;主题-主题关联的学科知识网络构建与演化分析[J];情报科学;2018年09期
4 陈思思;;中医药文化在线学习平台的设计与实现[J];福建电脑;2018年08期
5 刘洲洲;李士宁;李彬;王皓;张倩昀;郑然;;基于弹性碰撞优化算法的传感云资源调度[J];浙江大学学报(工学版);2018年08期
6 何波;潘力;;融合内容和改进协同过滤的个性化推荐算法[J];控制工程;2018年08期
7 汪雨培;王东波;;学术不端文献检测技术与系统研究综述[J];江苏科技信息;2018年23期
8 董辉;盛魁;张继美;;一种基于社交网络友情度的个性化推荐算法[J];武汉工程大学学报;2018年04期
9 南博成;向杰益;沈晓红;李邱溢;潘君妮;张斌;;面向跨境电商的网络抓取技术研究[J];计算机时代;2018年08期
10 陶永才;火昊;石磊;卫琳;;基于时间因子的个性化新闻混合推荐研究[J];小型微型计算机系统;2018年08期
中国硕士学位论文全文数据库 前10条
1 乔佳新;科技信息自动跟踪管理系统研究与实现[D];西安理工大学;2018年
2 孙小越;基于商务智能的竞品分析系统的设计与实现[D];青岛理工大学;2018年
3 杨红立;垂直分类信息采集及推荐系统的设计与实现[D];中国科学院大学(中国科学院沈阳计算技术研究所);2018年
4 钟宇;面向网络自媒体的空间数据挖掘研究[D];江西理工大学;2018年
5 韩云凤;基于Lucene的期刊论文库的检索技术研究[D];北方工业大学;2018年
6 于志浩;基于Android和网络爬虫的课外阅读系统设计与实现[D];山东大学;2018年
7 贾潇雨;基于改进爬虫技术的SQL注入的自动化扫描工具的研究与设计[D];北京邮电大学;2018年
8 杨郁琪;基于文本挖掘的用户满意度影响因素研究[D];中北大学;2018年
9 薛楠凤;基于渗透测试的逻辑漏洞检测技术研究[D];电子科技大学;2018年
10 李笑语;深度可定制的工具化爬虫系统的设计与实现[D];北京邮电大学;2018年
【二级参考文献】
中国期刊全文数据库 前10条
1 刘琼琼;左万利;王英;;面向网页的主题概念挖掘[J];计算机科学;2015年05期
2 孟祥保;钱鹏;;国际图书情报学研究群体结构——以核心作者互引分析为视角[J];情报科学;2015年05期
3 孙彦超;韩凤霞;;基于协同过滤算法的个性化图书推荐系统的研究[J];图书馆理论与实践;2015年04期
4 詹川;;大数据研究的知识图谱分析[J];图书馆论坛;2015年04期
5 曾聪;张东站;;基于同义词词林和《知网》的短语主题提取[J];厦门大学学报(自然科学版);2015年02期
6 高鹏斌;于渤;吴伟伟;郝生宾;;基于知识图谱的即兴领域知识结构及其演化分析[J];科技管理研究;2015年06期
7 刘彤;杨冠灿;蒋继娅;郭鲁钢;;基于多重关系的专利网络演化特征与动态分析——以锂离子电池领域为例[J];情报学报;2014年12期
8 张晗;徐硕;乔晓东;;融合科技文献内外部特征的主题模型发展综述[J];情报学报;2014年10期
9 顾益军;夏天;;融合LDA与TextRank的关键词抽取研究[J];现代图书情报技术;2014年Z1期
10 范云满;马建霞;;基于LDA与新兴主题特征分析的新兴主题探测研究[J];情报学报;2014年07期
中国硕士学位论文全文数据库 前10条
1 崔泽峰;基于项目聚类和用户兴趣的个性化推荐系统研究[D];燕山大学;2014年
2 袁利;基于聚类的协同过滤个性化推荐算法研究[D];华中师范大学;2014年
3 赵鹏程;分布式书籍网络爬虫系统的设计与实现[D];西南交通大学;2014年
4 王欢;基于小世界隐式信任网络的自适应推荐算法[D];燕山大学;2013年
5 王晓辉;智能信息检索系统的设计与实现[D];中南民族大学;2013年
6 李贤芳;面向作战系统应用的数据分发中间件的研究与设计[D];南京理工大学;2013年
7 代金龙;协同过滤算法中数据稀疏性问题研究[D];重庆大学;2013年
8 岳可诚;个性化推荐技术的多样性研究[D];安徽大学;2013年
9 朱丽中;协同过滤系统的冷启动问题研究[D];大连理工大学;2013年
10 王颖;基于关联规则的电子商务个性化推荐模型研究[D];东北财经大学;2012年
【相似文献】
中国期刊全文数据库 前10条
1 杨玉霞;汤金金;;太阳能农机发动机监测系统设计—基于智慧农业物联网信息采集[J];农机化研究;2018年05期
2 张丽娜;范兴丰;李珂灵;;大数据下图书馆信息采集编撰整合研究[J];无线互联科技;2018年06期
3 本刊编辑部;;江苏启动知识产权质押融资需求信息采集工作[J];河南科技;2018年08期
4 张帅亮;马鹏博;张向磊;;农业信息采集与开发及信息资源开发利用模式探讨[J];山东工业技术;2016年23期
5 方晖;;大数据时代网络下云信息采集方法的改进与研究[J];电子技术与软件工程;2016年21期
6 ;山东推进“多表合一”信息采集[J];农村电气化;2017年09期
7 熊先青;钱文婷;方露;庞小仁;吴智慧;赵雅洁;;大规模定制家具销售过程中的信息采集与处理[J];林业工程学报;2016年01期
8 刘青;刘钊;;美国管理预算局对政府信息采集的影响及启示[J];图书馆论坛;2014年12期
9 夏南强;胥伟岚;;嵌入性视角下信息采集学课程“翻转课堂”教学模式研究[J];现代情报;2015年01期
10 王军;;浅谈“互联网+”时代的数字化校园建设[J];吉林教育;2016年43期
中国重要会议论文全文数据库 前10条
1 李静;张建;李淼;胡泽林;杨巍;张浩东;;便携式农田信息采集与管理系统的设计[A];纪念中国农业工程学会成立30周年暨中国农业工程学会2009年学术年会(CSAE 2009)论文集[C];2009年
2 周洪清;;客户动销信息采集工作的思考[A];湖北省烟草学会2007年学术年会论文集[C];2007年
3 汤众;;空间信息采集中三维激光扫描技术应用[A];2006年全国高等学校建筑院系建筑数字技术教学研讨会论文集[C];2006年
4 刘丽丽;;一种用于加油站信息采集的中控机设计[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
5 张庆毛;李矿;;基于互联网思维的市场信息采集研究[A];中国烟草学会学术年会优秀论文集[C];2017年
6 吴传宇;方文熙;;精准农业中的土壤信息采集和平衡施肥[A];福建省农业机械学会2004年学术年会论文集[C];2004年
7 李广义;王瑜;赵溪;;防汛应急移动信息采集处理系统研究[A];2018(第六届)中国水利信息化技术论坛论文集[C];2018年
8 郑爱华;陈晓强;吴晓刚;叶伟康;杜倩昀;;水调系统信息采集优化[A];浙江省电力学会2013年度优秀论文集[C];2013年
9 陈渝光;施海;游四海;廖仕利;;基于车载网络的多模态信息采集[A];四川省电工技术学会第九届学术年会论文集[C];2008年
10 蔡义华;刘刚;;便携式农田信息采集与无线传输系统研究[A];纪念中国农业工程学会成立30周年暨中国农业工程学会2009年学术年会(CSAE 2009)论文集[C];2009年
中国重要报纸全文数据库 前10条
1 记者 赵静;切实增强责任感使命感 按时保质完成信息采集工作[N];青海日报;2018年
2 记者 马燕 通讯员 李茜茜;云南部署“一标三实”信息采集运用工作[N];人民公安报;2017年
3 廖雪莹;强化信息采集 摸清真实需求[N];东方烟草报;2018年
4 本报记者 阮仕喜 通讯员 康志峰;佳县白云山派出所信息采集“五项指标”全部达标[N];人民公安报;2018年
5 程小刚 蔡忠和;山阳全面完成党组织和党员信息采集[N];商洛日报;2018年
6 见习记者 张慧膑 记者 赵庆山;三亚将实现流动人口和出租屋信息采集全覆盖[N];三亚日报;2018年
7 记者 樊未晨;北京“幼升小”不参加信息采集不能入学[N];中国青年报;2014年
8 孙敬国;全方位采集 规范化应用[N];东方烟草报;2018年
9 曹钰华;南通:鲜活数据成为精确打防的源头活水[N];人民公安报;2016年
10 罗伟;找对人 做对事[N];东方烟草报;2016年
中国博士学位论文全文数据库 前7条
1 贾自艳;Web信息智能获取若干关键问题研究[D];中国科学院研究生院(计算技术研究所);2004年
2 张卫正;基于视觉与图像的植物信息采集与处理技术研究[D];浙江大学;2016年
3 许金普;农产品市场信息采集的语音识别鲁棒性方法研究[D];中国农业科学院;2015年
4 周真;云平台下运行环境感知的虚拟机异常检测策略及算法研究[D];重庆大学;2015年
5 李琦;面向行人群信息提取的视频图像目标跟踪算法研究[D];北京交通大学;2013年
6 吴永辉;面向专业领域的网络信息采集及主题检测技术研究与应用[D];哈尔滨工业大学;2010年
7 舒昌俊;建设工程造价信息管理系统集成研究[D];武汉理工大学;2013年
中国硕士学位论文全文数据库 前10条
1 杨红立;垂直分类信息采集及推荐系统的设计与实现[D];中国科学院大学(中国科学院沈阳计算技术研究所);2018年
2 徐兴丰;语音/传真系统信息采集优化方法的研究[D];山东师范大学;2018年
3 乔静轩;基于HITS算法的微博采集系统设计与实现[D];山东师范大学;2018年
4 周志华;基于EPR的闭环供应链主体信息采集及激励研究[D];南京审计大学;2018年
5 张丽;基于信息采集与监控的车联网服务系统的设计与实现[D];沈阳师范大学;2017年
6 汪思光;居民社区信息采集管理系统的设计与实现[D];湖北工业大学;2017年
7 郭会;基于有源RFID的高校人员信息采集与传输系统设计[D];河北大学;2017年
8 何宇南;深圳市龙岗区政府信息采集问题研究[D];广西民族大学;2016年
9 张刚;农业信息采集机器人结构及控制系统设计[D];东北林业大学;2016年
10 王小强;基于农业信息采集嵌入式系统的设计与实现[D];电子科技大学;2011年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026