收藏本站
《上海交通大学》 2010年
收藏 | 手机打开
二维码
手机客户端打开本文

基于广义半监督学习方法的软件质量预测研究

黄鹏  
【摘要】: 软件质量预测是对软件质量进行早期预测和控制的方法,其主要使用机器学习或者统计学方法来构建软件质量模型,并以此对软件中潜在的错误进行预测和预警。在软件开发和测试过程中正确预测和识别具有错误倾向的软件模块,可以帮助软件开发机构合理配置资源、降低研发成本、缩短产品开发周期,因此,有效的软件质量预测系统对于提高软件产品质量和企业声誉有着重要的工程意义和经济价值。 传统软件质量预测的主要建模方法,在机器学习领域通常被称为监督学习方法,其要求训练过程中所用到的每个软件模块都要给出明确的质量标签。但是,准确可靠的软件质量标签只有经过详尽、完整的软件测试和对错误的精确定位才能得到,此过程耗时较长且成本较高,并且软件质量标签的可靠性还经常会被软件开发中的许多实际因素所削弱,这些都限制了软件质量预测模型的广泛使用。针对当前软件质量模型的不足,本论文旨在通过研究机器学习领域的一些新型广义半监督学习方法,探讨如何使用较少的软件质量标签来建立准确有效的软件质量模型,从而使其可以更快速、高效、经济和广泛地应用于实际的软件开发和测试中。半监督学习方法可以同时对有标签样本和无标签样本进行学习和训练,因此,基于半监督学习方法的软件质量系统具有构建快速、成本较低和应用范围广泛等优点。本文所研究的广义半监督学习方法主要包括多示例学习、结构化核函数方法和主动学习方法,目前,关于半监督学习方法在软件质量预测领域的研究还不多见,基于这三种新型广义半监督学习方法的软件质量模型也尚未见有文献报道。 在对所研究广义半监督学习方法进行阐述之前,本文首先对传统软件质量预测领域的研究做了一个框架性的综述介绍。软件质量预测系统可以被分为四个主要的模块,即数据集构建、质量模型训练、模型的评估测试和不同算法模型比较。文中对每个部分的主要任务和相关的研究工作分别进行了阐述。在数据集构建中,系统主要对数据进行属性选择、归一化等预处理。数据集在预处理以后通常被划分为训练集和测试集,系统根据选定的具体算法在训练集上构建软件质量预测模型,并在测试集数据上进行测试。对于得到的模型需要进行参数计算以评估其性能,并以此对模型参数进行进一步的调整和优化。最后,根据一定的检验标准和具体的数据集,可以对基于不同算法的软件质量模型进行比较。此框架介绍中所涉及的具体内容包括软件质量概念、软件度量、各类统计和学习算法以及模型评估参数的选择策略。 随后本文介绍了所研究的第一种广义半监督学习架构多示例学习方法,并创新性地将其引入到软件质量预测领域中。多示例学习方法使用由多个示例构成的示例包作为基本的学习对象,因此其在利用大量的软件模块信息的同时,只需要少量的软件质量标签就可以进行建模和预测。文中介绍了多示例学习(MIL)的基本概念和相关研究,随后将多示例学习与两种相关的监督学习架构SL-B和SL-I进行了深入的比较,并着重分析了SL-I对示例包产生错误分类的原因,给出了其理论表达式以及在多元正态分布假设下的近似估计。在实际工程数据集上的实验表明,多示例方法比SL-B的预测效果更好,并可以使用较少的质量标签构建与SL-I预测准确度相当的软件质量模型。 然后,本文将面向对象型软件中的软件模块视为更加复杂的结构化数据,并引入新型的结构化核函数方法进行了软件质量建模和分类预测研究。文中介绍了结构化核函数及其相关研究,概述了新型学习算法支持向量机(SVM)的理论研究和一些支持向量机,并提出了使用结构化核函数方法对软件对象进行知识表示、模型构建和训练的流程,和一种新颖的分层核函数。在由二分树构成的人工数据集和实际工业软件数据集上的实验表明,与传统的监督学习方法相比,结构化核函数方法对于树形的结构化数据普遍有着较好的分类效果。相比于实验中的其它核函数,分层核函数能够更好地学习和预测面向对象软件中的结构化软件模块。在与前文的多示例学习方法进行的对比中发现,多示例学习对于具有上下层关系的软件模块具有普适性,但是随着模块结构的进一步复杂化,其预测准确率会逐渐降低,而结构化核函数方法,特别是分层核函数则在学习复杂结构化数据方面显示出较好的性能,因此其更适用于面向对象型软件中的软件质量预测。 区别于前两种广义半监督学习方法的聚类策略,本文随后研究了采用主动选择策略的主动学习方法在软件质量预测中的应用。与传统监督学习批量性、一次性训练所有样本的方法不同,主动学习方法通过主动选择、逐次询问和增长性学习的方法来构建模型。其主要优点在于可以在不明显损失学习精度的情况下,利用主动选择的少量样本即可进行建模。文中介绍了主动学习方法的基本知识、相关研究和关键性问题。在具体的软件工程数据集上对两种典型的池式主动学习算法和一种新型的流式主动学习算法进行了实验研究。结果表明选用的主动学习算法可以使用数据集百分之十左右的样本有效地构建软件质量模型,其效果仅略逊于使用全部样本的监督学习式模型。因此,基于主动学习的软件质量预测对于指导灵活、快速的软件测试具有很强的应用潜力和工程价值。另外,文中还对三种学习方法进行了综合比较。 最后,本文归纳了采用广义半监督学习进行软件质量预测的一些主要研究结论,并对未来工作作了一些展望。本文使用的实际数据集都来源于大型的重要软件工程,其中的一些数据集和软件质量模型出自过去三年中在阿尔卡特-朗讯公司光网络部的实际应用,从而保证了本文所提出的新型软件质量预测方法和模型除了在理论上具有创新性外,同时还具有很强的工程实用性。
【学位授予单位】:上海交通大学
【学位级别】:博士
【学位授予年份】:2010
【分类号】:TP311.53

手机知网App
【引证文献】
中国博士学位论文全文数据库 前2条
1 李克文;软件质量测评模型与测试数据生成方法研究[D];天津大学;2012年
2 马樱;基于机器学习的软件缺陷预测技术研究[D];电子科技大学;2012年
中国硕士学位论文全文数据库 前1条
1 曲晓杰;基于内容的网络图像重排序[D];天津大学;2012年
【参考文献】
中国期刊全文数据库 前10条
1 景疆 ,杨俊;人工神经网络在软件质量预测中的应用[J];信息技术与标准化;2005年11期
2 张家海,胡恒章;组合导航系统软件可靠性的神经网络静态预测[J];哈尔滨工业大学学报;2002年05期
3 姜远;周志华;;基于词频分类器集成的文本分类方法[J];计算机研究与发展;2006年10期
4 田春娜;高新波;李洁;;基于嵌入式Bootstrap的主动学习示例选择方法[J];计算机研究与发展;2006年10期
5 刘克彬;李芳;刘磊;韩颖;;基于核函数中文关系自动抽取系统的实现[J];计算机研究与发展;2007年08期
6 龙军;殷建平;祝恩;赵文涛;;主动学习研究综述[J];计算机研究与发展;2008年S1期
7 马慧敏,宋雨,许正伟;广义回归神经网络在软件质量预测中的应用[J];计算机工程与应用;2004年29期
8 李晓丽;刘超;金茂忠;高仲仪;;软件构件的可复用性质量度量[J];计算机应用研究;2007年06期
9 戴宏斌;张敏灵;周志华;;一种基于多示例学习的图像检索方法[J];模式识别与人工智能;2006年02期
10 黎铭,薛晓冰,周志华;基于多示例学习的中文Web目录页面推荐[J];软件学报;2004年09期
【共引文献】
中国期刊全文数据库 前10条
1 冀卫兴;陈忠海;方筝;;基于DE—BP算法的空调负荷预测研究[J];四川建筑科学研究;2010年05期
2 庄振华;王年;李学俊;梁栋;王继;;癌症基因表达数据的熵度量分类方法[J];安徽大学学报(自然科学版);2010年02期
3 王永梅;胡学钢;;决策树中ID3算法的研究[J];安徽大学学报(自然科学版);2011年03期
4 陈乐;王年;苏亮亮;王蕊平;;基于邻接谱主分量分析的肿瘤分类方法[J];安徽大学学报(自然科学版);2011年04期
5 叶爱霞;王年;苏亮亮;;基于非负矩阵分解和Normal_Matrix的肿瘤基因分类[J];安徽大学学报(自然科学版);2012年03期
6 杨绪兵,韩自存;ε不敏感的核Adaline算法及其在图像去噪中的应用[J];安徽工程科技学院学报(自然科学版);2003年04期
7 陶秀凤,唐诗忠,周鸣争;基于支持向量机的软测量模型及应用[J];安徽工程科技学院学报(自然科学版);2004年02期
8 叶明全;;数据挖掘在医疗数据中的应用[J];安徽工程科技学院学报(自然科学版);2007年03期
9 贾泽露;;基于GIS与SDM集成的农用地定级专家系统[J];安徽农业科学;2008年14期
10 许高程;张文君;王卫红;;支持向量机技术在遥感影像滑坡体提取中的应用[J];安徽农业科学;2009年06期
中国重要会议论文全文数据库 前10条
1 叶红云;倪志伟;陈恩红;;一种混合型集成学习演化决策树算法[A];2005年“数字安徽”博士科技论坛论文集[C];2005年
2 ;An effective procedure exploiting unlabeled data to build monitoring system[A];中国科学院地质与地球物理研究所第11届(2011年度)学术年会论文集(下)[C];2012年
3 ;A Novel Kernel PCA Support Vector Machine Algorithm with Feature Transition Function[A];第二十六届中国控制会议论文集[C];2007年
4 ;A Novel Proximal Support Vector Machine and Its Application in Radar Target Recognition[A];第二十六届中国控制会议论文集[C];2007年
5 吕蓬;柳亦兵;马强;魏于凡;;支持向量机在齿轮智能故障诊断中的应用研究[A];第二十六届中国控制会议论文集[C];2007年
6 ;Fault Pattern Recognition of Rolling Bearings Based on Wavelet Packet and Support Vector Machine[A];第二十七届中国控制会议论文集[C];2008年
7 蒋少华;桂卫华;阳春华;唐朝晖;蒋朝辉;;基于主元分析与支持向量机的方法及其在密闭鼓风炉过程监控诊断中的应用[A];第二十七届中国控制会议论文集[C];2008年
8 Nǘez Felipe;Cipriano Aldo;;Hybrid Modeling of Froth Flotation Superficial Appearance Applying Dynamic Textures Analysis[A];第二十七届中国控制会议论文集[C];2008年
9 ;Learning Algorithm of Decision Tree Generation for Continuous-valued Attribute[A];第二十九届中国控制会议论文集[C];2010年
10 王海丰;李壮;任洪娥;赵鹏;;基于非下采样Contourlet变换和SVM的纹理图像分割算法[A];第二十九届中国控制会议论文集[C];2010年
中国博士学位论文全文数据库 前10条
1 赵莹;半监督支持向量机学习算法研究[D];哈尔滨工程大学;2010年
2 于化龙;基于DNA微阵列数据的癌症分类技术研究[D];哈尔滨工程大学;2010年
3 王龙金;零/低航速减摇鳍升力模型及系统控制策略研究[D];哈尔滨工程大学;2009年
4 殷志伟;基于统计学习理论的分类方法研究[D];哈尔滨工程大学;2009年
5 孔凡芝;引线键合视觉检测关键技术研究[D];哈尔滨工程大学;2009年
6 郑大腾;柔性坐标测量机空间误差模型及最佳测量区研究[D];合肥工业大学;2010年
7 柏坚;非线性数学地质模型研究及在滇东南金矿成矿预测中的应用[D];中国地质大学(北京);2010年
8 张明;电能质量扰动相关问题研究[D];华中科技大学;2010年
9 姚志明;基于步态触觉信息的身份识别研究[D];中国科学技术大学;2010年
10 尤著宏;基于图和复杂网络理论的蛋白质相互作用数据分析与应用研究[D];中国科学技术大学;2010年
中国硕士学位论文全文数据库 前10条
1 朱杰;一种基于聚类的支持向量机反问题求解算法[D];河北大学;2007年
2 李金华;基于SVM的多类文本分类研究[D];山东科技大学;2010年
3 刘志强;基于数据挖掘的客户行为分析和预测研究[D];山东科技大学;2010年
4 吕万里;中文文本分类技术研究[D];山东科技大学;2010年
5 朱耿峰;支持向量机在冲击地压预测模型中的应用研究[D];山东科技大学;2010年
6 刘维会;不平衡数据集上支持向量机算法研究[D];山东科技大学;2010年
7 岳海亮;信息论在粗糙集连续属性离散化中的应用[D];辽宁师范大学;2010年
8 王文栋;GEP及SVM融合的分类技术研究[D];广西师范学院;2010年
9 江达秀;基于HMAX模型的人脸表情识别研究[D];浙江理工大学;2010年
10 李朋勇;基于全矢高阶谱的故障诊断方法及其应用研究[D];郑州大学;2010年
【同被引文献】
中国期刊全文数据库 前10条
1 方辉;王倩;;支持向量机的算法研究[J];长春师范学院学报;2007年06期
2 景疆 ,杨俊;人工神经网络在软件质量预测中的应用[J];信息技术与标准化;2005年11期
3 薄华;马缚龙;焦李成;;图像纹理的灰度共生矩阵计算问题的分析[J];电子学报;2006年01期
4 袁正刚;黄志军;朱继梅;;基于PCA的软件质量度量模型[J];舰船电子工程;2005年06期
5 刘红光;魏小敏;;Bag of Words算法框架的研究[J];舰船电子工程;2011年09期
6 李虎,史晓华,杨海燕,高仲仪;软件质量评价技术[J];计算机研究与发展;2002年01期
7 曾建潮,崔志华;一种保证全局收敛的PSO算法[J];计算机研究与发展;2004年08期
8 李军义;李仁发;孙家广;;基于选择性冗余的测试数据自动生成算法[J];计算机研究与发展;2009年08期
9 马慧敏,宋雨,许正伟;广义回归神经网络在软件质量预测中的应用[J];计算机工程与应用;2004年29期
10 傅博;;基于蚁群算法的软件测试数据自动生成[J];计算机工程与应用;2007年12期
中国博士学位论文全文数据库 前3条
1 王琪;软件质量预测模型中的若干关键问题研究[D];上海交通大学;2007年
2 王旭超;吉林省软件产业竞争力及提升策略研究[D];吉林大学;2008年
3 刘媛;视频搜索结果的重排序研究[D];中国科学技术大学;2009年
中国硕士学位论文全文数据库 前1条
1 刘鹏宇;基于内容的图像特征提取算法的研究[D];吉林大学;2004年
【二级参考文献】
中国期刊全文数据库 前10条
1 张家海,孙枫,谢荣生,郝燕玲;估测组合导航系统软件缺陷的一种神经网络方法[J];哈尔滨工程大学学报;2001年01期
2 张家海,孙枫,郝燕玲;神经网络用于组合导航系统软件质量的评估[J];哈尔滨理工大学学报;2001年03期
3 李虎,史晓华,杨海燕,高仲仪;软件质量评价技术[J];计算机研究与发展;2002年01期
4 马亮,陈群秀,蔡莲红;一种改进的自适应文本信息过滤模型[J];计算机研究与发展;2005年01期
5 武勃,黄畅,艾海舟,劳世竑;基于连续Adaboost算法的多视角人脸检测[J];计算机研究与发展;2005年09期
6 程杜平,钱红兵;软件质量与度量[J];计算机工程与应用;2002年07期
7 韩客松,王永成,陈桂林;无词典高频字串快速提取和统计算法研究[J];中文信息学报;2001年02期
8 金翔宇,孙正兴,张福炎;一种中文文档的非受限无词典抽词方法[J];中文信息学报;2001年06期
9 梅宏,pku.edu.cn/xietao,cs.pku.edu.cn,谢涛,袁望洪,杨芙清;青鸟构件库的构件度量[J];软件学报;2000年05期
10 唐春生,金以慧;基于全信息矩阵的多分类器集成方法[J];软件学报;2003年06期
中国硕士学位论文全文数据库 前1条
1 牛家浩;面向对象软件质量度量的研究与应用[D];南京航空航天大学;2004年
【相似文献】
中国期刊全文数据库 前10条
1 杨扬;计算机软件质量模糊综合评价方法[J];小型微型计算机系统;2000年03期
2 林俊兴;软件质量量化指标及实现方法的探讨[J];计算机工程与应用;2005年09期
3 冯捷;;软件测试浅谈[J];电脑知识与技术;2005年36期
4 王伟;;浅谈软件能力成熟度模型(CMM)方法及应用[J];成都电子机械高等专科学校学报;2006年01期
5 陈友明;文海英;;个体软件过程的研究与实施[J];科技经济市场;2006年03期
6 樊庆林;吴建国;;提高软件测试效率的方法研究[J];计算机技术与发展;2006年10期
7 徐海飞;赵凯旋;;软件测试与质量保证[J];现代雷达;2006年10期
8 佘凤;;软件测试及关键技术[J];黄冈职业技术学院学报;2007年01期
9 何雪慧;;如何以软件测试推动软件工程化[J];科技经济市场;2008年03期
10 李伟龙;;面向对象的软件测试[J];中国高新技术企业;2008年12期
中国重要会议论文全文数据库 前10条
1 柳伟明;;评测与认证——专用软件质量的保证[A];第六届全国计算机应用联合学术会议论文集[C];2002年
2 彭忆;单汨源;;一种软件质量改进流程与组织构想[A];第七届计算机模拟与信息技术学术会议论文集[C];1999年
3 王华;向刚;陈焱;;软件质量评价技术与方法[A];2007'第十二届全国可靠性物理学术讨论会论文集[C];2007年
4 韩颖;贾辉然;杜静;;航天软件可靠性的发展[A];2007年河北省电子学会、河北省计算机学会、河北省自动化学会、河北省人工智能学会、河北省计算机辅助设计研究会、河北省软件行业协会联合学术年会论文集[C];2007年
5 常永亮;王佳琳;常永刚;刘宝凤;;软件测试的应用[A];2008年航空试验测试技术峰会论文集[C];2008年
6 李建华;焦彦平;左建勋;苏俊杰;;基于过程的软件度量体系与实施方法研究[A];第十六届全国青年通信学术会议论文集(上)[C];2011年
7 吴志樵;唐加福;;面向软件产品线的构件复用策略优化问题研究[A];第三届(2008)中国管理学年会论文集[C];2008年
8 吴志樵;唐加福;王立岩;;基于产品线两阶段模型的软件构件选择优化问题研究[A];2009中国控制与决策会议论文集(2)[C];2009年
9 徐鹏;苏森;陈俊亮;;基于双瀑布软件过程模型实现软件质量工程[A];2006年全国通信软件学术会议论文集[C];2006年
10 宋一风;林峰;;石钢公司价格管理系统深入应用与研究[A];2011年河北省冶金信息化自动化年会论文集[C];2011年
中国重要报纸全文数据库 前10条
1 姜洋;中国软件质量研究报告发布[N];中国计算机报;2008年
2 合力;联创眼中的软件质量[N];网络世界;2002年
3 朱冰;软件质量关乎国际化前途[N];中国高新技术产业导报;2005年
4 国寿股份北京研发中心 陈起;确定软件质量目标 提高开发效率[N];中国保险报;2009年
5 徐哲;软件质量的多角度思考[N];中国计算机报;2005年
6 本报记者张孟军;提高软件质量普及网络电话[N];科技日报;2003年
7 中国电子系统设备工程公司研究所 韩柯;软件质量谁把关?[N];计算机世界;2004年
8 ;不变的追求 永恒的求索[N];计算机世界;2002年
9 记者 王东亮;软件质量有了把关机构[N];北京日报;2008年
10 陈龙 刘国栋;我国陆军武器装备软件有序测评[N];科技日报;2003年
中国博士学位论文全文数据库 前10条
1 黄鹏;基于广义半监督学习方法的软件质量预测研究[D];上海交通大学;2010年
2 李克文;软件质量测评模型与测试数据生成方法研究[D];天津大学;2012年
3 潘秋菱;基于过程和度量的软件质量管理方法研究[D];合肥工业大学;2002年
4 孔怡青;半监督学习及其应用研究[D];江南大学;2009年
5 王娇;多视图的半监督学习研究[D];北京交通大学;2010年
6 兰远东;基于图的半监督学习理论、算法及应用研究[D];华南理工大学;2012年
7 邓阿群;面向方面技术在大规模嵌入式软件中的应用[D];浙江大学;2007年
8 徐雪;样本的几何信息在半监督学习中的应用研究[D];中国科学技术大学;2010年
9 桂杰;基于图的半监督学习和维数约简方法及其应用研究[D];中国科学技术大学;2010年
10 潘俊;基于图的半监督学习及其应用研究[D];浙江大学;2011年
中国硕士学位论文全文数据库 前10条
1 宫丽娜;基于神经网络的软件质量预测模型研究[D];中国石油大学;2011年
2 闫晶;基于生物群落结构的软件质量评估的仿生研究[D];华北电力大学;2011年
3 张翠红;软件过程改进支撑工具SPIF的研究和设计[D];华东师范大学;2006年
4 郑东霞;基于多Agent技术的软件质量协同控制模型研究[D];大连海事大学;2006年
5 崔乐乐;MIS软件质量的可持续性保障技术研究[D];南京航空航天大学;2011年
6 袁梦乔;基于遗传优化的面向领域的软件质量评价方法研究[D];华东理工大学;2012年
7 李浩;一种基于工作流控制的软件质量管理模型SQMM[D];中国科学院软件研究所;2001年
8 韩静华;软件企业人员能力成熟度研究[D];浙江大学;2006年
9 王震;软件过程改进—对日外包软件项目管理中的问题和解决方案[D];华东师范大学;2008年
10 孙思纬;管理信息系统开发质量管理与成本控制[D];南京航空航天大学;2010年
 快捷付款方式  订购知网充值卡  订购热线  帮助中心
  • 400-819-9993
  • 010-62791813
  • 010-62985026