收藏本站
《天津财经大学》 2017年
收藏 | 手机打开
二维码
手机客户端打开本文

大数据分析的经济价值评价与过度挖掘风险研究

刘磊  
【摘要】:信息是正确决策的基础,信息的数量和质量以及处理信息的技术直接影响其作为决策基石的功能发挥。信息时代下互联网技术的飞快发展以及由此引发的生产力变革,人们能够记录、存储和传递的信息越来越多,而当信息变得可记录、存储和便于传递时,信息即变为现代意义上的数据,如今,一个以海量、易变、传送及时、形式多样为特征的信息爆炸时代真正来临,形成现今被人们称之为的“大数据时代”。大数据时代的来临正在改变着传统的数据分析方法、思维及其范式,给统计学的发展带来了一次全新的思维盛宴,为统计人的自我价值实现及其价值创造提供了一个千载难逢的机遇,具体体现在:(1)一方面是数据范围的扩展,即样本数据扩展到总体数据,另一方面是数据类型的扩展,即从结构性数据扩展到半结构性数据和非结构性数据。传统的、成熟的数据分析处理技术基本都是针对结构性数据的,面对大数据时代的新情况,现有的分析技术显然力不从心,如何将半结构性数据和非结构性数据转换成结构性数据或者创造新的方法与技术,使之适应大数据分析不仅需要新的方法与技术,而且更需要新的思维;(2)—方面海量数据,尤其是没有统一结构和一致性表述方式的海量数据如何纳入统计学研究范围,并开创性地探寻相应的统计方法与技术需要统计新思维与智慧,另一方面数据流的统计分析是一个全新的课题,如何让统计学也流动起来显然不是现有统计思想、方法与技术所能解决的,它需要全新统计学工具;(3)大数据产业化或统计产品市场化将彻底改变统计人在实践中的依附性,统计人的价值创造将变得更加直接与显形化,实现这一目标不仅需要统计新思维,而且更需要我们的自信与努力。然而,我们也必须认识到,大数据时代所带来的这些变化在凸显现有数据分析在数据中挖掘有效信息不足的同时,大数据分析所带来的数据挖掘过度的问题同样不容忽视。大数据概念自2012年被提出以来,立刻引起了世界各国全社会极大的关注,众多的学者及实践工作者都投身于这一领域的研究与相关产品的开发、应用,形成了一系列相关的研究文献和大数据产品。然而,大数据分析以及大数据产业化作为一个全新的领域,其各方面的研究不仅有待进一步深入,而且还有很多研究空白等待大家去填补,本文在对大数据相关基本概念及其发展现状进行系统梳理的基础上,通过对大数据概念的界定,从统计学的视角,并结合信息科学、信息经济学和工程技术分析方法阐述了信息与大数据的关系、大数据的特点、大数据的时代特征与挑战,以及传统统计学与大数据分析的差别、联系和影响,探讨了大数据分析的价值创造过程及其度量,同时从数据安全与转换、模型设定及其构造和人为因素等方面讨论了大数据分析可能存在的技术风险、道德风险和决策风险,并在风险因素分析的基础上,依据相应的风险管理理论提出了大数据分析过程中各类风险的防范措施。最后,以次贷危机事件为案例,利用历史分析法说明了信用评级过程中大数据分析及应用的风险。全文由导论,信息、结构性数据和大数据,大数据的经济价值,大数据背景下的数据挖掘风险,数据过度挖掘风险防范的措施,案例分析——以次贷危机中的信用评级为例和结论与展望七章构成,主要研究内容包括:1.大数据的经济价值及过度挖掘风险。在大数据时代,数据的公共产品或准公共产品性质将越来越明显,在充分论证数据分析与使用过程中外部性特征的前提下,数据的价值由私人价值与社会价值两部分组成,无论是私人价值还是社会价值,其价值大小的体现取决于数据分析的深度与广度,而当数据分析方法滥用或将统计结论视为确定性结论来处理时便存在过度挖掘风险。2.数据过度挖掘的原因剖析。对数据过度挖掘将使信息安全性面临重大的挑战,信息安全问题包括两个层面的内容,一是利用更先进的技术手段和模型去揭示违背社会基本规则的客观状况,它属于真实信息揭示,但这类信息的揭示会影响社会正常的运行;二是揭示与事实不一致的信息,通称为噪声信息,其中这个层面的过度挖掘又包括主观与非主观的噪声信息制造。显然,不同表现形式的过度挖掘其背后存在着不同的原因与动机,对其原因的剖析是防范数据过度挖掘风险的基础。3.模型与技术分析的复杂化与过度挖掘风险。崇尚科学是人类社会的基本理念,然而在现实中,崇尚科学却演化成为追求模型与技术分析的复杂化,复杂的模型与技术分析需要更高层面的抽象,从而更可能导致技术分析前提与现实不一致、样本数据不具有代表性、模型设定错误等问题,在一定程度上使得技术分析成为噪声信息制造的帮凶,由此引发过度挖掘风险。4.机会主义动机与过度挖掘风险。信息市场也是一个不完全市场结构,这为具有良好声誉的信息提供者获取超额利润创造了机会,在特定背景下,机会主义动机就会演化成道德风险,尤其是当他利用专门分析技术和模型,通过有意识的或刻意的技术处理去挖掘出满足自己需要的信息时,道德风险也就转化成过度挖掘风险。5.过度挖掘与决策风险。现有层级制度安排决定了分析人员与决策者的分离,分析师与决策者的利益并非始终是一致的,分析师与决策者往往具有知识非对称性的特点,理性的分析师在自身利益最大化的驱使下,极易诱发追求模型与技术分析的复杂化,无论是分析师刻意用复杂的模型去论证决策者的想法,还是为了标新立异,其间均存在过度挖掘风险,当决策者以分析师的结论为依据做出决策时,过度挖掘风险则转变成决策风险。经过梳理、分析、论证与研究,论文得到如下基本结论:一、大数据的数据就是信息,只不过大数据被赋予了更多的与变革相关的含义在内,它是集数据(所有类型数据)采集、处理、转换、存储、传递、分析、算法和应用,乃至产品化和产业化的全过程,这种全过程不仅使传统的数据分析得以变革,而且甚至会改变我们的工作属性与生活方式。大数据具有信息的所有属性,数据价值就等同于信息价值。统计学与大数据科学有着技术上的关联和思想上的共鸣,大数据在社会经济现象与相关规律的挖掘上功能更强。从技术角度看,大数据科学是植根于信息科学的一门学科,所以,要应用好大数据关键在于信息科学技术的完善和进步,而单纯依靠统计学显然是无法支撑大数据发展的。二、大数据是对信息资源的开发、传送及其应用的全过程,这就决定了大数据的经济价值便是信息开发到应用全过程的价值增值,信息的很多独特特性为信息价值评价增加了难度。而当我们将信息的价值区分为狭义价值与广义价值时,则可分别对其进行评价与度量,就狭义的信息价值评价而言,信息价值度量只是针对某一特定的、具体决策的私人评价,其实质并未解释全部的信息价值,只是对特定决策项目的信息价值的实现。为此,我们提出了广义的信息价值评价方法,认为信息价值应该由私人价值和净外部经济价值两部分共同构成。此外,通过数据的组合分解,大数据更便于发现复杂数据集间的相互关系,从而更好地发现规律并实现价值。三、数据分析的关键是从纷繁复杂的数据中发现新信息,进而提升对事物的了解,做出科学合理的决策。大数据使得人们可利用的信息数量大大增长,但不确定性依旧存在,风险依旧存在,对于数据分析而言,这类风险有两类:数据挖掘过度和数据挖掘不足。所谓数据挖掘不足就是指没能从数据中挖掘出有价值的信息,或者说数据集本身客观存在有价值的联系或规律,但却没能得到揭示。而数据挖掘过度就是指从数据中挖掘出不真实的信息或伪信息,其中也包括真实信息被坏人利用的情况。数据挖掘不足可能会造成机会损失,数据挖掘过度则可能导致错误判断的直接损失。导致数据过度挖掘的因素很多,其中非结构性数据到结构性数据无法实现等价转换是很多风险的源头。四、次贷危机让人们关注评级机构的工作失误,更开始反思评级工作的客观和公正性。通过对评级机构具体评级工作的梳理发现,评级的方法和程序看上去逻辑严密,定量分析准确,事实上,具体的工作中有大量非结构性数据的使用,这就导致了具体评级要素、分析权重等关键信息无法公开,直接造成整个评级过程缺乏透明度和客观性,进而导致评级结果缺乏公信力。这是非结构性数据过度挖掘的典型案例。
【学位授予单位】:天津财经大学
【学位级别】:博士
【学位授予年份】:2017
【分类号】:TP311.13

【参考文献】
中国期刊全文数据库 前10条
1 吴朝文;代劲;孙延楠;;大数据环境下高校贫困生精准资助模式初探[J];黑龙江高教研究;2016年12期
2 肖红叶;;大数据时代的统计创新:数据工程[J];统计与信息论坛;2016年11期
3 周琪;付随鑫;;深度解析美国大选中的“特朗普现象”与“桑德斯现象”[J];国际经济评论;2016年03期
4 刁大明;;“特朗普现象”探析[J];现代国际关系;2016年04期
5 朱建平;张悦涵;;大数据时代对传统统计学变革的思考[J];统计研究;2016年02期
6 李腊生;刘磊;刘文文;;大数据与数据工程学[J];统计研究;2015年09期
7 李金昌;;统计测度:统计学迈向数据科学的基础[J];统计研究;2015年08期
8 陈永平;蒋宁;;大数据时代供应链信息聚合价值及其价值创造能力形成机理[J];情报理论与实践;2015年07期
9 王玉林;曾咏梅;;图书馆大数据功能实现的障碍与对策研究[J];情报理论与实践;2015年07期
10 王洪亮;张琪;朱延涛;;大数据环境下中小企业竞争情报系统模型构建[J];情报理论与实践;2015年07期
中国博士学位论文全文数据库 前3条
1 楼巍;面向大数据的高维数据挖掘技术研究[D];上海大学;2013年
2 李巍;半结构化数据挖掘若干问题研究[D];吉林大学;2013年
3 程功;基于结构化模型的信用风险度量及其应用研究[D];天津大学;2007年
中国硕士学位论文全文数据库 前2条
1 万里鹏;非结构化到结构化数据转换的研究与实现[D];西南交通大学;2013年
2 杜思峰;数据交换平台中异构数据转换技术的研究[D];西安工业大学;2011年
【共引文献】
中国期刊全文数据库 前10条
1 包运成;;“大数据”对律师法律服务的影响和应对[J];理论月刊;2018年04期
2 余文全;;超越理性假定:情绪、信念与国家决策行为[J];外交评论(外交学院学报);2018年02期
3 鲁文禅;;“特朗普现象”与美国民粹主义探讨[J];办公室业务;2018年06期
4 任颖;;大数据时代高校学生资助的工作策略探讨[J];文学教育(下);2018年03期
5 罗丽琳;;大数据视域下高校精准资助模式构建研究[J];重庆大学学报(社会科学版);2018年02期
6 霍冬华;;大数据应用对供应链管理价值提升的相关研究[J];信息与电脑(理论版);2018年05期
7 郝继伟;武浩峥;;大数据管理与会计信息质量提升[J];中国注册会计师;2018年03期
8 康俊彪;;医学院校贫困生精准资助模式探讨[J];福建医科大学学报(社会科学版);2018年01期
9 姚钱;温嵘生;;基于情报融合的高校图书馆嵌入式知识发现服务研究[J];图书馆学刊;2017年11期
10 陈美华;王延飞;;企业竞争情报系统构建的生态基础[J];情报科学;2018年03期
中国博士学位论文全文数据库 前7条
1 刘磊;大数据分析的经济价值评价与过度挖掘风险研究[D];天津财经大学;2017年
2 谢晓龙;航空发动机性能评价与衰退预测方法研究[D];哈尔滨工业大学;2016年
3 姚丹丹;面向旅游安全的地质灾害数据协同服务技术架构研究[D];成都理工大学;2016年
4 刘兆军;XML文档数据集聚类问题研究[D];吉林大学;2015年
5 冯小东;基于稀疏表示的高维数据无监督挖掘研究[D];北京科技大学;2015年
6 王春雷;基于三维GIS展现的煤矿物联网异构数据集成与应用[D];中国矿业大学(北京);2014年
7 张北阳;上市公司信用风险、公司治理和企业绩效关联研究[D];吉林大学;2011年
中国硕士学位论文全文数据库 前10条
1 沈海华;基于BIM的桥梁养护管理研究[D];重庆交通大学;2017年
2 李柄静;基于BIM的建筑工程施工质量可视化评价方法研究[D];东南大学;2017年
3 杨艳利;基于Hadoop的心肺性职业病计算模型和算法研究[D];青岛科技大学;2017年
4 魏百超;基于可复用子系统的软件框架研究[D];华侨大学;2017年
5 李芙蓉;基于扰动的社交网络用户隐私保护研究[D];北京邮电大学;2017年
6 王强;HMI软件模块自动移植规范及方法研究[D];杭州电子科技大学;2017年
7 秦亚辉;大数据环境下企业销售数据处理方法与市场感知研究[D];浙江理工大学;2017年
8 汪位龙;甘肃省交通运输数据交换平台建设方案研究[D];长安大学;2016年
9 徐夏炎;面向工程施工阶段的BIM异构数据集成管理方法研究[D];东南大学;2016年
10 冯旭静;Big6模式在中学信息技术课程中的应用研究[D];陕西师范大学;2016年
【二级参考文献】
中国期刊全文数据库 前10条
1 黄欣荣;;大数据哲学研究的背景、现状与路径[J];哲学动态;2015年07期
2 蒋东兴;付小龙;袁芳;吴海燕;刘启新;;大数据背景下的高校智慧校园建设探讨[J];华东师范大学学报(自然科学版);2015年S1期
3 樊吉社;;奥巴马主义:美国外交的战略调适[J];外交评论(外交学院学报);2015年01期
4 李金昌;;从政治算术到大数据分析[J];统计研究;2014年11期
5 马晓亭;;大数据时代图书馆数据可用性:价值、挑战和保障[J];图书馆理论与实践;2014年10期
6 朱怀庆;;大数据时代对本科经管类统计学教学的影响及对策[J];高等教育研究(成都);2014年03期
7 宋学清;刘雨;;大数据:信息技术与信息管理的一次变革[J];情报科学;2014年09期
8 胡海波;;Web3.0环境下基于用户兴趣的信息聚合服务[J];情报理论与实践;2014年08期
9 黄松;杨超;;非对称成本扰动信息非线性需求函数下的供应链契约设计[J];中国管理科学;2014年08期
10 王先甲;周鑫;;包含信任的供应链预测信息共享问题研究[J];软科学;2014年07期
中国博士学位论文全文数据库 前3条
1 刘云霞;数据归约的统计方法研究及应用[D];厦门大学;2007年
2 张小涛;基于损失厌恶的长期资产配置研究[D];天津大学;2005年
3 蒋东明;基于信用评级和违约概率的贷款定价研究[D];天津大学;2005年
中国硕士学位论文全文数据库 前10条
1 喻佳;基于XML的远程教育异构数据库的技术研究[D];华东交通大学;2009年
2 文龙;基于XML的非结构化数据管理研究及应用[D];湖南大学;2009年
3 李聪;基于XML的数据交换平台的设计与实现[D];武汉理工大学;2009年
4 王军民;基于XML的异构数据转换的研究与实现[D];电子科技大学;2008年
5 陈晚华;XML安全技术在共享数据交换中的应用[D];中南大学;2008年
6 刘耀增;基于XML的企业异构数据交换技术的研究[D];山东轻工业学院;2008年
7 肖自红;基于XML的通用试题库系统的研究[D];中南大学;2008年
8 郑丽丽;基于XML的异构数据交换模型的研究[D];山东师范大学;2008年
9 叶枝平;基于XML的数据交换平台及其关键问题的分析与设计[D];广东工业大学;2008年
10 钟巍;数据交换模型研究与实现[D];武汉理工大学;2008年
【相似文献】
中国期刊全文数据库 前10条
1 得州;;挖出不一样的秘密 数据分析师[J];电脑爱好者;2010年13期
2 张文霖;;数据分析初体验[J];数据;2013年05期
3 古福;;让大数据分析更快速、更简化[J];互联网周刊;2013年11期
4 于宗民;;数据分析应用的最大障碍[J];中国金融电脑;2007年08期
5 魏巍巍;;论数据分析在企业经营管理中的重要性[J];产业与科技论坛;2012年12期
6 张文霖;;数据分析六步曲[J];数据;2013年06期
7 戴未琰;;大数据分析概要[J];物联网技术;2013年08期
8 王海蕴;;大数据分析 市场成倍增长 深耕空间巨大[J];财经界;2013年10期
9 ;大数据分析系列3:大数据分析如何权衡存储[J];电脑与电信;2013年10期
10 马弢;;对大数据分析相关问题的思考[J];信息通信技术;2013年06期
中国重要会议论文全文数据库 前10条
1 申敏;;数据分析的原则和一般方法[A];2010年云南电力技术论坛论文集(文摘部分)[C];2010年
2 刘刚;;小学生数据分析观念的培养[A];中华教育理论与实践科研论文成果选编(第五卷)[C];2013年
3 石勇;;在银行和金融数据分析中的评分方法[A];Data Analysis, Econo-physics and Risk Management--Proceedings of CCAST (World Laboratory) Workshop[C];2001年
4 吴一平;;基于数据分析的离校工作改进[A];中国高等教育学会教育信息化分会第十二次学术年会论文集[C];2014年
5 吕大青;;送变电施工企业中数据分析的运用[A];第二届浙江中西部科技论坛论文集(第一卷)[C];2005年
6 李小花;李姝;;大数据分析在指挥信息系统中的应用[A];2014第二届中国指挥控制大会论文集(下)[C];2014年
7 范丽伟;唐焕文;唐一源;;空间独立成分分析在fMRⅠ数据分析中的应用[A];第九次全国生物物理大会学术会议论文摘要集[C];2002年
8 张军;李婕;;中国国民休闲状态变化研究——基于网上数据分析[A];第十五届全国区域旅游学术开发研讨会暨度假旅游论坛论文册[C];2010年
9 徐小龙;王汝传;姜波;;一种新的基于P2P的电信海量数据分析业务模式[A];普适计算及其软件新技术——第三届长三角计算机科技论坛文集[C];2006年
10 邵东华;;高速公路的平面控制复测与数据分析[A];第四届“测绘科学前沿技术论坛”论文精选[C];2012年
中国重要报纸全文数据库 前10条
1 匿铭;数据分析的“磨刀阶段”[N];中华读书报;2013年
2 胡英;澳发布政府可信数据分析指导草案[N];人民邮电;2014年
3 郑爱民;陕西加强消费维权数据分析利用[N];中国工商报;2014年
4 本报驻美国记者 吴成良;“数据分析”成了“金饭碗”[N];人民日报;2014年
5 本报记者 杨群;大数据分析亮出专家的“自贸研判”[N];解放日报;2014年
6 周桂生 汤建国;数据分析行业登陆湖南,带来巨大商机[N];中国企业报;2008年
7 朱文明 甫瀚公司咨询专家;数据分析提升决策智慧[N];中国审计报;2009年
8 ;国采中心空调协议供货数据分析[N];政府采购信息报;2010年
9 武虹 审计署驻沈阳特派办;以数据分析为统领开展数字化审计工作[N];中国审计报;2012年
10 杰弗尼;行走在大数据分析误区旁的零售商[N];中国商报;2013年
中国博士学位论文全文数据库 前10条
1 刘岳;区域地球化学数据分析及成矿信息融合模型研究[D];中国地质大学;2015年
2 徐晓琳;面向大规模数据分析与分类的正则化回归算法[D];安徽大学;2017年
3 刘磊;大数据分析的经济价值评价与过度挖掘风险研究[D];天津财经大学;2017年
4 董媛香;基于软集合的不完备不一致数据分析及决策方法研究[D];重庆大学;2014年
5 张睿;数据分析在污染控制领域的节能优化应用[D];中国科学技术大学;2014年
6 陈宜治;函数型数据分析若干方法及应用[D];浙江工商大学;2011年
7 郭广报;基于并行统计计算的金融数据分析[D];山东大学;2012年
8 孙建强;生物磁共振数据分析中的几个问题[D];中国科学院研究生院(武汉物理与数学研究所);2014年
9 范业田;生物信息数据分析的若干问题研究[D];大连理工大学;2017年
10 梁银双;基于函数型数据分析的京津冀空气污染问题研究[D];首都经济贸易大学;2017年
中国硕士学位论文全文数据库 前10条
1 周儒军;基于Hadoop的分布式监控平台的研究与实现[D];华南理工大学;2015年
2 施建辉;中职生职业道德认识现状调查研究[D];上海师范大学;2015年
3 丁国辉;核磁共振数据分析中的两个问题[D];中国科学院研究生院(武汉物理与数学研究所);2015年
4 张清;面向精准广告投放的数据分析与可视化系统设计与实现[D];山东大学;2015年
5 周徐;基于分层采样的DeepWeb数据分析方法研究[D];苏州大学;2015年
6 王佳琦;纠正性反馈对高中生英语冠词习得的影响[D];内蒙古师范大学;2015年
7 顾星竹;基于Hadoop的PCF系统的设计与实现[D];南京大学;2014年
8 张海洋;大数据的统计分析技术比较研究[D];南京大学;2014年
9 扎娟娟;银保通管理系统的构建与实施[D];电子科技大学;2014年
10 姜佳健;云环境下基于B/S结构的血管数据分析[D];东南大学;2015年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026