数据分析的方法(精选8篇)

时间: 2023-07-17 栏目：写作范文

数据分析的方法篇1

1、1 系统建设必要性

随着世界经济形势和金融环境发生的巨大变化，作为金融市场中的重要组成部分，商业银行在发展中面临的风险很多，而信用风险始终是其面临的最主要风险之一，也是影响一国经济发展的主要因素。与此同时，监管部门也规定商业银行新资本协议的整体规划和实施路径中，信用风险数据集市是新协议实施合规达标的必要条件之一。

在此背景下，结合时下迅速发展起来的大数据;思想，在商业银行信用风险管理中，构建信用风险数据集市成已为必然的选择。

1、2 银行同业系统建设情况

近年来国内外同业银行期纷纷开展风险数据标准设计与风险数据集市建设项目。通过数据系统的建设加大对各类内外部数据的运用，借此提高风险管理的能力和水平。

国外方面，在不断加大对信用风险管理的关注力度和研究力度的同时，各类数据运用系统的建设已全面展开并在信用风险管理中得到了运用。Mckinsey公司的研究表明：信用风险占银行总体风险敞口的60%，是导致银行破产的最主要因素，也是导致区域性金融危机甚至全球性金融危机的根本原因之一[1]。国外的许多先进银行已实现了内外部数据的高度整合，并已积累了大量历史数据，建立起各自的信用风险违约数据库。

国内方面，我国的商业银行也在紧跟国际发展步伐，近年来也逐步建立起了基于计算机技术的信用风险管理体系。如：平安银行开展了风险数据集市建设项目;；宁波鄞州银行开展了全面风险管理系统项目;；徽商银行开展了徽商银行零售信用风险数据集市项目;；天津农商行开展了信用风险数据集市管理系统项目;等[2]。但与国外先进银行相比，还存在较大的差距，因此需要加快基于数据的信用风险管理系统。

2 信用风险数据集市构建探索

2、1 信用风险数据集市定位

信用风险数据集市的定位是构建一个适应商业银行数据特点和信用风险管理需求的数据中心系统，为进一步完善商业银行全方位、多层次的信用风险管控体系服务。通过对海量的内外部数据按不同主题进行区分和加工，计算出各类指标等中间数据和衍生数据，将数据中的隐含信息最大程度的加以挖掘、表达和运用，为信用风险管理提供服务。

2、2 信用风险数据集市建设目标

信用风险数据集市的总体建设目标是建立一个以信用风险管理为主、面向全行各业务部门的、支持各类信用风险应用的数据集市环境。数据集市的数据范围需要覆盖银行内部客户方面、交易与投资业务方面、信贷资产业方面的所有细节数据与相关风险应用的派生数据，为各个不同的风险应用系统之间提供数据共享服务，以保证全行一致的风险数据视图根据信用风险数据集市的定位，并结合商业银行信用风险管理的需求和特点，系统的建设目标主要包括以下几方面：

1）解决各系统数据分散、彼此独立的问题，构建全行性的数据平台，对来自不同系统的数据进行整合后的共享，实现数据的统一管理和利用。

2）尽可能多的收集并利用与信用风险相关的各类外部数据，如工商、税务、征信等方面的数据，使商业银行内部的信用风险管理从有限的内部资源中延伸到广阔的外部环境中，利用更多有价值的数据信息为信用风险管理服务。

3）对获取的基础数据进行掘取和加工，提炼出客户、产品、行业、机构等不同维度中的隐含信息，分析并掌握数据背后的潜在规律，为信用风险管理提供依据，完成业务数据向信用风险管理信息的过渡。

4）面对信用风险管理中不同下游应用系统的数据需求，在集市内部区分不同的数据模型，在集市外部提供统一的数据供应平台，保证各应用系统间数据的统一性。

5）解决行内各部门间信息不对称的问题，统一内外部监管报表数的据口径，实现集市自动对不同系统、不同报表之间数据的校验，提高报表数据质量，并提供灵活查询工具实现随时、随需提取数据生产报表。

3 系统总体架构

3、1 数据采集方案

信用风险数据集市是对数据进行应用的系统，因此数据采集是保证系统性能和应用效果的前提和基础。在设计数据采集方案时需要重点考虑数据质量、采集效率、ODS数据库建设以及数据处理过程ETL的实现。

为保证数据质量，除了在系统建设初期通过数据分析和业务部门访谈来查找和修正错误数据外，在系统架构的设计中也应该引入数据质量管理和控制机制，在数据采集的源头上做好数据质量管理和控制，避免因数据质量问题造成上层应用的失真。

数据质量管理和控制机制的工作原理如图1所示。采集来的数据被存储在数据存储区中，在数据存储区之后设定一系列的数据质量检查规则对数据质量进行检查。质量检查规则是通过数据质量规则库来完成的，数据质量规则库是事先定义好的检查规则，当然也可以随时对其中的规则进行修改和补充。

ODS数据库对数据的采集应当实现的目标是：将内部各业务系统数据及外部不同来源的数据采集至统一的ODS数据仓库，再经过统一的ETL处理过程后供应给信用风险数据集市，如图2所示。

各业务系统数据先经过ODS汇总后，再统一供应给集市，这样可大大提高数据采集效率，同时减少数据冗余问题，并节省存储空间。

ETL的处理过程是指数据的抽取、转换和装载，主要作用是减少对数据仓库时间窗口的占用，减少数据的转换过程。随着基于信用风险数据集市应用的增多，ODS到ETL的过程应减少依赖性，避免应用的增加造成ETL的重复开发。

上述的数据采集架构，从数据的采集路径与环节看，数据流明确，环节简单，对原业务系统影响很小。而信用风险数据集市的数据统一来源于ODS，也能保证系统的安全性也较高，且有效避免了重复的数据整合与转换工作[3] 。

3、2 系统逻辑结构设计

信用风险数据集市以挖掘数据中的信用风险信息为目的，对于数据的应用应打破关系型数据库理论中标准泛式的约束，将业务系统的数据重新组织和整理，为各类信用风险应用提供数据支持。在对整个系统的逻辑结构进行设计时，应从面向应用的角度出发，采用自顶向下;的设计方法，对数据分层处理、逐层加工。按照这个思想，将信用风险数据集市的逻辑结构设计如图3所示。

系统逻辑架构自下而上分为三层：基础层、模型层和应用层。基础层包括从ODS数据仓库以及ETL处理过程；模型层包括数据缓冲层、基础整合层、加工汇总层和应用接口层；应用层指针对信用风险数据的各类应用，如：为相关系统供数、RWA及经济资本计算、固定报表、灵活查询、指标查询等。

3、2、1 基础层的设计

基础层的关键在于ETL过程的设计。ETL过程的作用是将ODS获取的数据，经过一系列加工处理加载进信用风险数据集市的过程。ETL处理流程主要包括以下主要步骤[4]：

数据抽取：数据抽取就是将集市需要的业务数据从ODS数据仓库抽取到ETL的数据转换区的过程；

数据检查和出错处理：在数据转换区中，对源数据质量进行检查，形成检查报告，并进行相应的出错处理，对于严重错误，需要系统维护人员现场做出相应的处理。

数据转换：数据转换包括对源系统数据进行整理、剔除、合并、验证等一系列转换工作，最后形成集市数据结构所需的数据，存放在转换区的数据表中。

数据加载：数据加载将数据转换的结果数据加载到集市，并形成数据加载情况的报告。

经过以上ETL处理流程，能够使数据源稳定的、周期性的导入到信用风险数据集市中。

3、2、2 模型层的设计

模型层是信用风险数据集市的核心，这层的作用是组织信用风险管理所需的数据，形成信用风险类应用的数据基础。基础区按不同风险主题采用模型化结构存储信用风险应用所需的各类明细业务数据。因为各类信用风险采用的计量方法不尽相同，因此基础区按不同风险主题对数据进行整合。又因基础数据来自不同的源系统，结构复杂多样，为将这些数据整合、关联起来，形成完整的信用风险数据信息，同时在结构上保持一定的稳定性和一致性，因此在不同主题下采用模型化结构对带有同样业务特征的数据进行分类存储。

在模型层，经过ETL处理后的数据被存储在数据缓冲层中。数据缓冲层是一个数据临时存储区，其作用是等待数据被进一步调用。

在数据缓冲层之上是基础数据整合层，在这层中，集市将按照不同主题域对数据做初步的区分和整理。主题域的划分是逐层细化的，基础整合层主要有对公信贷、零售信贷、公共主题、投资交易几个主题。其中对公信贷包括参与主题、客户评级、交易活动、业务流程、风险缓释、债项评级、不良资产、财务信息等二级主题；零售信贷包括个贷、个人征信、信用卡、零售分池、中小企业等二级主题。

经过基础整合层的主题域划分，各类业务明细数据和外部数据已被做出初步汇总和区分，不同来源的数据经过主题的划分被有效关联起来，数据间的聚合程度得到了提高，有利于数据的进一步运用。

基础整合层之上是加工汇总层，加工汇总层完全由应用驱动，根据信用风险管理应用需求来存储和加工汇总后的指标数据等。该部分可以根据不同应用系统的指标进行划分二级主题，也可以根据风险的收益、资本、敞口等等进行划分主题对基础整合层的数据加以挖掘和提炼，进一步从基础数据中提取有效信息，产生更多的中间数据、指标数据和衍生数据。

信用风险数据集市中，直接与各类应用对接的是应用接口层。这层定义了集市与具体应用间的数据接口、数据文本、视图和建模款表等，将数据模型中的信息通过具体应用表达出来，使信用风险应用得以实现。

3、2、3 应用层的设计

应用层是信用风险数据集市建设的目的所在，根据商业银行信用风险管理方面的具体需求可通过信用风险数据集市支持内部评级系统、风险预警系统等系统的建设，完成RWA及经济资本和各类指标的计算，提供内外部监管报表的查询等。在下文中将对信用风险数据集市的具体应用展开进一步探讨。

4 信用风险数据集市的应用

信用风险数据集市的应用总体可分为三个方面：数据支持、报表和统计分析和决策支持，如图4所示。

4、1 数据支持类应用

数据支持是指为各类信用风险管理类的系统供数，满足各类信用风险应用系统的数据采集需求，保证这类系统的应用的顺利实现。同时也与这类信用风险应用系统进行交互，即不仅为下游应用系统提供数据支持，也吸收这类系统产生的数据结果，用于更多的信用风险管理当中。因此，信用风险数据集市在数据支持方面是双向的，数据流的进、出两条线是并行的。

4、2 报表和统计分析类应用

报表和统计分析的应用分为定制报表和灵活查询。定制报表指根据信用风险管理的内外部监管报表需求，按确定的报表样式、数据口径、取数规则、勾稽关系和报表频度等制作出直接可用的报表。灵活查询则是不针对具体报表需求的数据提供，只提供足够多的数据字段，由用户自己根据需求选取所需字段并加以组合，形成符合自身需求的报表或查询结果。

4、2、1 风险分析主题的划分

在实现报表和统计分析类的应用中，应重点考虑两方面问题：一是如何最才能大程度的满足各类不同的报表或数据查询需求，二是需要考虑随着业务的发展以及信用风险管理的不断深入，报表和统计分析的需求还将不断增长和扩展。从这两点出发，需要将数据区分成不同的风险分析主题。

风险主题的划分应从报表及统计分析的需求出发，先把集市中已有的数据区分成诸如资产质量、不良资产、预警监控等不同主题，再对每个主题进行挖掘和补充，利用已有数据产生更多隐含数据，丰富每个主题的数据字段。每个主题之间是彼此独立但又相互调用的关系。除了划分风险分析主题外，商业银行还可以针对自身的需求和特点建立专题话的分析主题，如集团客户分析，关联交易分析等。

4、2、2 报表工具的选择

报表和统计分析类应用的另一个难点就是灵活查询的实现问题。提供灵活查询功能的目的在于使用户可根据需要随时提取数据信息或生成报表。因此，灵活查询需要结合专门的报表工具才能得以实现。

综合考虑报表工具的缓存能力、数据提取的灵活程度等方面，选择了ORACLE公司的BIEE报表工具。它不仅在数据缓存和提取上表现良好，还可以完整的连接企业内各个异构数据源，从而使报表制作变的更加智能。用户可以通过不同数据字段、度量维度和分析维度轻松组合出所需的报表，必要时还可以通过图形展示。

4、3 决策支持类应用

决策支持引进不同的决策分析模型，通过大量的数据计算对某个风险专题进行推演，其计算结果可反映管理决策的可行性或给出可供选择的方案。如RWA及经济资本的计算、压力测试、组合管理等都是信用风险数据集市在决策支持方面的应用。

5 结束语

本文从商业银行信用风险管理发展的需要出发，结合内外部监管要求，探讨了信用风险数据集市的建设方法，并详细阐述了系统在数据质量控制、数据模型设计和具体运用方面的构建思路并给出解决方案。

从商业银行信用风险管理的发展趋势来看，信用风险数据集市必将过渡更为包含更多数据信息的大数据系统，并且还要从独立的系统发展成为与云端数据交互的共享系统。

参考文献：

[1] 王彦龙、企业级数据仓库原理、设计与实践[M]、北京：电子工业出版社，2009、

数据分析的方法篇2

传统VS敏捷

我们先来看一下传统的数据分析流程：解读业务战略目标-->确定目标分解的量化KPI-->确定KPI的计算公式和所需字段-->确定所需字段来自于哪些数据库的哪些表-->数据建模-->预先汇总成二次表和Cube-->结果展示。由于需要建模和打CUBE，这一流程通常需数月才能完成。

现在，取代传统数据分析流程的，是快速迭代式分析。敏捷数据分析不必在开始时花很长的时间构思大而全的分析指标体系，而是低成本快速迭代，几分钟就做好一个当前想要分析的结果，通过敏捷数据分析工具实现动态切换视角，灵活展示数据，日积月累，指标自然越来越丰富，计算公式也越来越符合业务逻辑，这时再体系化。下面的演示视频将帮助大家了解如何通过敏捷数据分析工具在几分钟时间内实现自己的分析需求。

视频链接：v、youku、/v_show/id_XODcxNTgxMTQ4、html

为什么传统数据分析无法实现快速迭代分析的高效？因为在过去这么多年以来，我们对于大数据海量数据的计算能力达不到比较理想的要求，所以我们才需要IT人员用通过建模等方式提前把数据计算汇总好，随着现在大数据的技术相对来讲都日趋成熟和完善，分布式计算，内存计算、列存储等比较成熟的技术架构，采用这种新的办法去处理数据的性能，已经比以前提升了几十倍甚至更高。

符合迭代思维

快速迭代式的敏捷数据分析有什么好处？首先，这种分析方法十分符合互联网思维中的迭代思维。企业的分析指标不可能一开始想得非常全面，本身就是迭代逐步形成的。以电商行业为例，电子商务的数据可分为两类：前端行为数据和后端商业数据。前端行为数据指访问量、浏览量、点击流及站内搜索等反应用户行为的数据;而后端数据更侧重商业数据，比如交易量、投资回报率，以及全生命周期管理等。

在最初期，电商行业最关注的是那些核心指标：UV、转化率、客单价、毛利率、推广ROI、重复购买率，人们在核心指标的基础上逐步对媒体、用户、商品、营销等对象做详细分析；同时在客服、商品、仓储物流等内部运营绩效方面进行监控。这些数据现在又可以被归纳发展为4个方面，基础访问数据、商品销售数据、营销推广数据、用户数据，其中基础数据中包括网站的访问数据、网页链接点击、来源跳出等等。商品销售数据关系到品类、销售多少、影响因素等。营销数据包括投入产出的投资回报率，更多地是跟其他几方面的数据进行混合分析。用户数据包括分析用户区域、购买频率、客户构成、忠诚度、偏好等等。

适应变化需求

数据分析的方法篇3

【关键词】交通事故预测方法回归分析预测法

所谓的交通事故预测是根据已发生交通事故的数据进行统计，在对事故原因进行分析的基础上，探寻事故规律，以针对交通事故做出更为合理的推测和判断。当前，交通事故预测方法相对较为多样，如回归分析、时间序列等，虽然都能对交通事故做出科学合理的决策性指导，但各具优缺点和适用条件，因而有关人员应在遵循交通事故预测思想的基础上，对几种主要预测方法进行分析，确保交通部门人员能够根据实际情况而合理选择交通事故预测方法。

1 交通事故预测思想

交通事故对人类造成的危害相对较大，对人类产生严重的威胁。从我国发展实践中可知，交通事故在一定程度上制约我国经济的发展进程，尤其对人类社会福利、医疗保险等方面的影响较大。据不完全统计，2015年全年间，我国交通事故约为10597358起，死亡人数约为68432人，财产损失高达10亿元以上。可见，交通事故威胁隐患相对较大。交通事故预测能够根据已发生交通事故进行统计、分析、处理，在遵循规律的基础上，对未来可能发生的交通事故作出科学合理的预测，该预测结果以科学逻辑推断为基础。就交通事故原因而言，道路环境、交通条件、车辆、驾驶员等都是影响因素。通过交通事故预测，我国交通部门人员能够对交通事故作出科学合理的判断和制定有效的预防策略，以最大限度降低和消除交通事故隐患。

2 交通事故主要预测方法

2、1 回归分析预测法

回归分析预测法在交通事故预测中的有效应用，主要分为线性回归和非线性回归两种方法。首先，背景交通工程研究所人员提出线性回归分析预测法，通过对自变量和因变量之间关系问题的探讨，对因变量趋势加以预测，其模型为：

Y=3577、79+93、3028lgX1+824、921lgX3+326、777lgX4+800、454lgX5-1149、051lgX6-224、902lgX8-45、0499lgX9-152、6081lgX10-287、191lgX11。

其中X1-X11分别表示临时人口、常住人口、机动车辆、自行车、道路长度、道路面积、灯控路口、交通标志、交通标线、失控部位、交警人数。

其次，英国伦敦大学SemeedR、J教授对欧洲国家十余载的交通事故资料进行研究，提出非线性回归分析预测法。对此，他建立幂函数曲线事故模型，

即：D=0、0003。其中D为交通事故死亡人数；N是机动车保有量；P为人口数量。

回归分析预测法能够对交通事故影响因素间的因果关系加以反应，以达到预测结果的目的，但对变化趋势的反应可能较为迟钝。该预测方法适用于样本量较大、数据波动小和极具规律性的预测实践中。

2、2 时间序列预测法

时间序列预测法主要有两种类型，分别为移动平均预测法和指数平滑预测法。首先，移动平均预测法是比较简单的平滑预测技术，通过计算项数时序平均值，对长期发展趋势变化做出科学合理的预测。内蒙古科技大学韦丽琴、徐勇勇利用时间序列ARIMA模型做出科学合理的预测分析，对交通事故加以预测。其次，指数平滑预测法的通式为：

Ft+1=αxt+（1-α）Ft

时间序列预测法属于定量预测方法，拟合效果良好，但在短期预测中，受诸多因素干扰影响较大，使预测结果具有不确定性。该方法适用于国内县区等区域范围较小的预测实践中。

2、3 灰色马尔科夫链预测法

道路交通系统属于动态时变系统，但影响交通安全的因素多且复杂。在灰色马尔科夫链预测法的指导下，相关人员能够通过灰色预测模型，做出短期预测，以缩小预测区间，提高预测效率。云南交通职业技术学院王刚对灰色马尔科夫链预测法而建立模型，对交通事故进行预测，根据实践可知，基于该模型的预测精确度十分高，取得良好的预测成效。

灰色预测以短期预测为主，马尔科夫链预测以长期预测为主，通过二者结合，可提高预测精度，但如若数据变化大，则灰色模型的吻合度和精度下降。借助该预测方法，能够对状态下的转移规律加以预测，并揭示交通事故时序变化总趋势。

2、4 贝叶斯预测法

贝叶斯预测法主要相对于交通事故中的车速问题而言。在交通事故中，车速是重要影响因素，如若车辆速度过快，则驾驶员反应的时间较少，其应急策略不足，造成重大交通安全隐患。贝叶斯预测法能够对未来交通事故发生的可能性进行预测。该预测方法应用中，必须建立在交通事故和车速有关联的基础之上，有助于交通部门人员更好开展数据统计和交通流进行观测。

2、5 灰关联分析及神经网络预测法

就灰关联分析及神经网络预测法而言，哈尔滨工业大学交通研究所和中国城市规划设计研究院的裴玉龙与张宇提出该方法，旨在通过交通事故影响因素分析，对事故进行进一步解析，并建立合理的模型理论和确定预测指标，对未来交通事故发展趋势加以预测。该预测方法的适应性较强，在我国交通事故预测工作实践中有着较为有效的运用，可解决传统预测方法难以解决的问题，建立在BP网络基础之上，并利用计算机开展辅计算活动。

2、6 多层递阶预测方法

多层递阶预测方法能够规避传统统计预测方法的缺陷，以现代控制理论“系统辨识”为重要基础，对对象的未来状态做科学的预测。动态系统数学模型为：y（k）=。在交通事故预测中，多层递阶预测方法是大数据时代背景下的重要处理方式，有利于增强预测效果。

3 结论

交通部门对交通事故进行合理的预测，有利于提高道路交通系统的安全系数。所以，相关人员合理选择交通事故预测方法具有必要性，为规避交通事故而做出科学合理的决策。目前，使用较多的交通事故预测方法主要有：回归分析预测法、时间序列预测法、灰色马尔科夫链预测法、贝叶斯预测法、灰关联分析及神经网络预测法等，因其各具优缺点和适用条件，因而要求相关人员必须对系列问题进行深入探究，确保公路交通事故预测的有效性。

参考文献

[1]李景文，高桂清、交通事故预测分析[J]、中国安全科学学报，2015，6（01）：20-23、

[2]刘志强、道路交通事故预测方法比较研究[J]、交通与计算机，2013，19（05）：7-10、

[3]韦丽琴，徐勇勇、ARIMA模型在交通事故预测中的应用[J]、包头医学院学报，2014，4（20）：287-288、

数据分析的方法篇4

数据包络分析是著名运筹学家A、Chames和W、W、Cooper等学者在“相对效率评价”概念基础上创建的一种非参数方法，其本质上是根据决策单元是否位于生产可能集的“生产前沿面”上来判断决策单元的DEA有效性，DEA的原型可以追溯到1957年，Farrell在对英国农业生产力进行分析时提出包络思想，此后，在运用和发展运筹学理论与实践基础上，逐渐形成了主要依赖于线性规划技术，并常常用于经济定量分析的非参数方法。数据包络方法把单输入单输出的工程效率概念推广到多输入多输出同类决策单元的有效性评价中，极大地丰富了微观经济中的生产函数理论及其应用技术，同时。在避免主观因素、简化算法、减少误差等方面有着不可低估的优越性。DEA方法就其独有的特点和优势备受人们关注，不仅在理论研究方面有了进步，而且实际应用方面也得到了推广。本文主要总结了DEA方法在企业经济效率、绩效、技术进步、资源配置、竞争力等5个方面的主要研究成果，并指出DEA方法在企业管理中的进一步应用趋势。

二、DEA方法在企业管理中的应用

(一)DEA方法在企业经济效率评价中的应用

DEA方法较活跃的一个应用领域是对效率和效益方面的研究，用DEA方法研究企业经济效益是一个非常有意义的课题。1990年，魏权龄等应用DEA方法对中国纺织工业部系统内的177个大、中型棉纺织企业的经济效益进行了评价。在此基础之上，曲雯毓等对DEA方法进行了改进，并应用改进的模型对工业企业经济效益问题进行了探讨。1993年，王应明等从多目标决策角度提出了一种用于工业经济效益综合评价的模型和方法，该模型与方法以多目标决策中的加权法为基础，运用客观赋权方法确定各经济效益评价指标间的加权系数。1995年，冯英浚等提出参考效益、当前效益及二次相对效益的概念，并应用上述概念对1992年全国各省市的工业企业进行了测算。2008年，尹航等构建了基于超效率混合DEA模型的区域工业系统运行效率评价指标体系，以黑龙江为例剖析了评价体系的操作程序和分析方法。涉及到具体领域，1999年，谢昌云等证明了C2GS2模型对输出具有位移不变性，使之应用于具有负输出的情况，对我国邮电工业企业的相对效益进行分析，并给出应用主成分分析对DEA有效单元再排序的方法。

(二)DEA方法在企业绩效评价中的应用

2003年，腾飞等对中国电力企业的发电绩效做了初步分析，结果显示，“减员增效”并不是提高电力工业效率的捷径。同年，何明祥等将动态DEA方法引入物流绩效评价，分析了其方法的可行性，建立了绩效评价指标和动态DEA模型。2005年，吉阿兵等尝试利用极效率(super-efficien-cv)DEA模型对集装箱港口的绩效进行了评价。2007年，陈伟等针对传统的DEA方法用于绩效评价中存在的缺陷，提出了改进多目标多标准线性DEA模型，通过实证分析说明改进模型的优越性。与此同时，邓超等应用动态DEA模型对基金绩效进行评价，为证券基金绩效评价问题提供了一条新的思路。杨印生等利用标杆单元确定的限定域施加到DEA模型中形成含标杆限定域的DEA模型，以沪深两市22家农业上市公司的绩效评价为例说明了模型的实用性和有效性。2008年，张宝友等运用数据包络分析方法，从整个物流行业的角度选取2002-2005年间中国深沪两市21家上市物流公司财务数据进行动态绩效评价，并提出了相应对策。

(三)DEA方法在企业技术进步中的应用

技术进步与生产函数之间关系密切，而DEA方法在刻画生产函数中的重要作用使得它在评估技术进步方面更具优势。1991年。魏权龄等通过由DEA模型确定生产前沿面的途径给出了一种测算技术进步水平和技术进步速度的模型。之后，魏权龄等还提出了技术进步滞后及超前年限的要素增长型DEA模型。1993年，杨士辉对评估技术进步的几种方法作了分析和归纳，并借助DEA理论探讨了技术进步与规模报酬的关联关系。在此基础上，卢晓勇等应用DEA方法从效率角度和相对评价两个方面探讨了企业间技术进步的综合评价。2007年，万兴等运用超越对数函数的随机前沿分析(SFA)模型和基于Malmquist指数法的数据包络分析(DEA)模型，测算了1998-2004年期间江苏制造业28个部门的全要素生产率的增长率、效率变化以及技术进步，通过比较两种方法的计算结果发现，两种方法计算所得TFP变动趋势相同。2008年。吴延兵运用数据包络分析检验了1996-2003年我国29个省份知识生产中技术效率和技术进步的收敛情况，研究发现知识生产中的技术效率和技术进步存在着条件收敛，但不存在绝对收敛。

(四)DEA方法在企业资源配置中的应用

非参数的DEA模型在处理某些经济问题时具有独特的优势，且DEA在经济系统中的应用实质是对资源配置状况的分析。2000年，孙巍等基于前沿生产函数理论研究了产出资源配置效率的C-D生产函数参数测度模型与非参数测度模型，根据微观经济学理论研究了产出效率分解，并通过实证测算分析验证了产出资源配置效率理论与方法的正确性和实用性，比较了两种方法的差异和各自的特点。2002年。莫剑芳等通过无效单元的分析相应地提出价格无效、绝对冗余、相对冗余等新概念。同年，韩松等建立了具有锥结构的资源分配模型，并用DEA的非参数方法进行经济分析。2006年，吴华清等从行业与系统两个维度，分别建立DEA模型考察各子系统的相对效率。并据此评价大系统的总体效率，在此基础上给出扩展的DEA模型合理配置无效子系统间的增加投入资源。

(五)DEA方法在企业竞争力评价中的应用

应用DEA方法对企业竞争力进行分析，不仅可以弥补常规指标比较的欠缺，并且还能给管理者提供无效单元的改进方向。2002年，宗刚等应用DEA方法对182家工业企业的技术创新能力与7个竞争力指标之间的关系进行了研究，发现技术创新能力与竞争力之间的关系并不是规模递增型，与此同时，还提出了控制投影模型和基于相对误差的灵敏度分析模型。2005年，张欣莉等建立了企业竞争能力评价的投影寻踪聚类模型。为企业竞争能力综合评价的多因素影响问题提供了一条新途径。2008年，谢里等建立的企业文化竞争力的指标体系基础上，运用DEA方法建立了测评企业文化竞争力的评估模型。单纯以产出或绩效指标评价企业的财务竞争力具有一定局限性，无法科学比较企业竞争力的大小，对此，周海军等基于改进的DEA评价方法来评价企业财务竞争力，科学地反映了企业财务实力，并对企业财务竞争力的强弱进行了排序。

数据分析的方法篇5

关键词：数据分析应用率；分析应用点；四个层次；数据中心；仪表盘

中图分类号：N37 文献标识码：B 文章编号：1009-9166（2009）02（c）-0063-02

现代企业的决策往往是在整合大量信息资料的基础上制定出来的，对数据的理解和应用将是企业决策的基石。与传统的操作型应用相比，数据利用的应用建设难度更大，它是随着管理水平而发展，同时又取决于业务人员的主观意识，这就决定了以数据利用为核心的应用建设不可能一蹴而就，而是一个长期迭展的建设过程。从2003年起工厂开始全面推进数据分析应用工作，经历过曲折，同时也有收获。经过多年的努力，工厂的数据分析应用工作开始进入良性发展阶段，笔者认为有必要对工厂目前数据分析应用工作作一总结和思考。

一、工厂数据分析应用工作开展现状

工厂数据分析应用工作推进至今已有四五年的时间，从最初全面调研工厂数据量和数据分析应用状况，将数据分析应用率指标作为方针目标定量指标来考核，到后来将数据分析应用工作的推进重心从量向质转移，采用以项目为载体进行管理，着重体现数据分析应用的实效性，再到目前以分析应用的需求为导向，以分析应用点为载体，分层次进行策划。经过上述三个阶段，工厂数据分析应用工作推进机制得到了逐步的完善，形成了广度深度协同发展的信息资源利用管理框架。截止到目前，工厂数据分析应用率达到96%，四个层次的分析应用点共计100多个，数据分析应用工作在生产、质量、成本、物耗、能源等条线得到广泛开展，有效推动了工厂管理数字化和精细化。2007年，工厂开始探索细化四个应用层次的推进脉络，进一步丰富工厂信息资源利用框架，形成层次清晰、脉络鲜明、职责分明的信息资源利用立体化的推进思路。

1、第一层次现场监控层。第一层次现场监控层，应用主体是一线工人和三班管理干部，应用对象是生产过程实时数据，应用目标是通过加强生产过程控制，辅助一线及时发现生产过程中的异常情况，提高生产稳定性。例如制丝车间掺配工段的生产报警，通过对生产过程中叶丝配比、膨丝配比、梗丝配比、薄片配比、加香配比等信息进行判异操作，对异常情况通过语音报警方式提醒挡车工进行异常处理；例如卷包车间通过在机台电脑上对各生产机组的工艺、设备参数、实时产量、质量、损耗数据的监控，提高对产品质量的过程控制能力。第一层次应用以上位机和机台电脑上固化的监控模型为主，制丝车间每个工序、卷包车间每种机型的应用点都有所不同，为此我们建立了制丝车间以工序为脉络，卷包车间以机种为脉络的应用点列表，围绕脉络对第一层次应用点进行梳理，形成第一层次应用的规范化模板。制丝车间第一层次应用点模板包括工序名称、应用点名称、应用模型描述、应用对象、应用平台、异常处置路径等基本要素。卷包车间应用点模板横向根据机种分，纵向按上班及交接班、上班生产过程中、下班及交接班三个时间段分，通过调研分别列出挡车工针对每个机种在三个时间段分别要查看的数据和进行的操作。随着模板的扩充和完善，一线职工的知识、经验不断充实其中，第一层次应用点模板将成为一线工人和三班管理干部日常应用监控的标准，同时可以规避人员退休或调动带来的经验、知识流失的风险。2、第二层次日常管理分析层。第二层次日常管理分析层，应用主体是一般管理干部，应用对象是产质损、设备、动能等指标，应用目标是通过加强对各类考核指标的监控和分析，提高工厂整体的关键绩效指标水平。例如制丝车间的劣质成本数据汇总和分析，通过对车间内各类废物料、劣质成本的数据进行汇总、对比和分析，寻找其中规律及薄弱环节，并寻根溯源，采取措施，降低劣质成本。例如卷包车间的产量分析，通过对产量数据、工作日安排、计划产量进行统计和汇总，结合车间定额计划、作业计划和实际产量进行分析，寻找实际生产情况与计划间的差异，并分析原因。第二层次应用以管理人员个性化的分析为主，呈现出分析方法多样化、应用工具多样化的特点。但是万变不离其中的是每个管理岗位的管理目标以及围绕管理目标开展的分析应用是相对固定的，至少在短期内不会有太大的变化。为此我们建立了一份以重点岗位为脉络的应用点列表，围绕脉络对第二层次应用点进行梳理，形成第二层次应用的规范化模板。模板包括岗位名称、管理目标、应用点名称、应用描述、涉及主要考核指标、应用平台、应用频次、分析去向等基本要素。通过构建第二层次应用点模板，明确了每个管理岗位应用信息资源支撑管理目标的内容和职责。随着新的管理目标的不断提出以及应用的逐步深入，模板每年都会有更新和扩充。3、第三层次针对性分析应用层。第三层次针对性分析应用层，应用主体是项目实施者，应用对象是各类项目的实施过程，例如QC项目、六西格玛项目、质量改进项目，或针对生产中的特定事件进行的分析和研究。应用目标是通过应用数据资源和统计方法开展现状调查、因果分析、效果验证等工作，提高各类项目实施的严密性和科学性。第三层次的应用工具在使用初级统计方法的基础上会大量应用包括方差分析、回归分析、正交试验、假设检验、流程图等在内的中级统计方法。以QC活动为例，我们可以看出其实施过程无一不与数据应用之间有密切的联系[1]。近年来，在质量改进项目和QC项目的评审工作中已逐步将“应用数据说话、运用用正确合理的统计方法，提高解决问题的科学性”作为项目质量考核标准之一。而六西格玛项目实施的核心思想更是强调“以数据和事实驱动管理”，其五个阶段[2]D（定义）、M（测量）、A（分析）、I（改善）、C（控制），每个阶段都要求结合如FMEA（失效模式后果分析），SPC（统计流程控制），MSA（测量系统分析），ANOVE（方差分析），DOE（实验设计）等统计方法和统计工具的应用。4、第四层次主题性应用层。第四层次主题性应用层，应用主体是中层管理者，应用对象是专业性或综合性的分析主题，应用目标是通过专业科室设计的专题性分析模型或综合性分析模型，为中层管理层提供决策依据。工厂在实施了业务流程“自动化”之后，产生了大量的数据和报表。如何将工厂的业务信息及时、精炼、明确地陈述给中层管理层，以此来正确地判断工厂的生产经营状况，是摆在我们眼前的一个突出问题。大家都有开车的经验，司机在驾驶车辆的时候，他所掌握的车况基本上是来自汽车的仪表盘，在车辆行使的过程中，仪表盘指针的变化，告知汽车的车速、油料、水温等的状况，驾驶员只要有效地控制这些指标在安全范围之内，车子就能正常地运行。我们不妨将仪表盘的理念移植于工厂，建立工厂关键指标及运行管理仪表盘，将工厂的关键信息直观地列在上面，及时提醒各级管理人员工厂生产运营是否正常。

⑴关键绩效指标监控系统。对分布在各处的当前及历史数据进行统一展示，以工厂关键绩效指标为中心，支持统计分析和挖掘，可为中层管理者提供工厂关键绩效指标一门式的查询服务，使各业务部门寻找、阐释问题产生的原因，以有效监控各类关键绩效指标，及时采取改进措施，提高生产经营目标完成质量。⑵系统运行状态监控系统。通过数据采集、手工录入等各种渠道收集各类系统的运行状态，及时掌握故障情况，采取措施加以闭环，将因系统故障造成对用户的影响减至最小，确保各类系统的稳定运行和有效应用。通过建立系统运行状态监控系统，中层管理人员上班一打开电脑进入系统，就能了解到当天及上一天各类系统的运转情况，发生了什么异常，哪些故障已经得到解决，哪些故障还未解决。⑶第四层次主题性分析应用。在展示关键绩效指标和系统运行状态的基础上，由各专业科室思考专业条线上的分析主题，采用先进科学的理念和方法对数据进行分析和挖掘。近两年来，工厂充分发挥专业科室的优势和力量，相继设计和开发了工艺质量条线的六西格玛测评系统，设备条线的设备效能分析系统，还有质量成本核算与分析系统。通过这些分析主题的支持，工厂管理人员可以更方便快捷地了解质量、设备、成本等条线上的关键信息，及时采取相应措施，从而提升管理效率。

二、数据分析应用工作存在的不足及思考

工厂数据分析应用工作的推进方法从最初的采用数据分析应用率单个指标进行推进发展到目前按上文所述的四个层次进行推进，每个层次的推进脉络已经逐步清晰和明朗，但事物发展到一定的阶段总会达到一个瓶颈口，目前工厂数据分析应用工作存在的问题及措施思考如下：

1、从推进手段上要突破信息条线，充分发挥专业条线的力量。信息条线作为推进工厂数据分析应用的主管条线，其作用往往局限在技术层面上的支撑。虽然信息条线每年都会规划形成工厂数据分析应用整体的工作思路和具体的实施计划，但是无论从工厂层面还是从车间层面来讲，单纯依靠信息条线从侧面加以引导和推进，使得数据分析应用工作始终在业务条线的边缘徘徊，与产量、质量、设备、消耗、成本、动能等各个条线本身工作的结合度有一定的距离。所以工厂要进一步推进数据分析应用工作，调动起业务人员的积极性和主动性，突破现有的瓶颈，应该考虑如何调动起专业条线的力量。一是可以在年初策划应用点的时候要加强专业条线对车间业务自上而下的指导，引导管理人员加强对缺少数据分析支撑的工序、岗位/管理目标的思考；二是建立平台加强各车间同性质岗位之间的沟通与交流，均衡各个车间的数据分析应用水平和能力；三是对车间提交的分析报告给出专业性的指导意见。2、要加强对数据中心的应用。数据中心的建立可以使业务系统从报表制作、数据导出等功能中解放出来，专注于事务处理，将数据应用方面的功能完全交给数据中心来解决。目前，数据中心已建立了涉及产量、质量、消耗等各个条线的Universe模型，并对全厂管理干部进行了普及性的培训。但是从目前应用情况来看，还比较局限于个别管理人员，追寻原因如下：一是业务系统开发根据用户需求定制开发报表，业务人员通常习惯于从现成的报表中获取信息。如果要求业务人员使用数据中心工具自行制作报表模板，甚至可能需要将其导出再作二次处理，那么业务人员一定更倾向于选择第一种方式。二是近几年来人员更替较多，新进管理人员不熟悉数据中心应用，导致数据中心应用面受到限制。随着今后MES的建设，业务系统中的数据、报表、台帐和分析功能将有可能由业务用户自行通过集成在MES中的数据中心前端开发工具来访问和灵活定制。因此，要尽快培养工厂业务人员数据中心的应用能力，包括数据获取以及报表定制方面的技能。笔者认为应对方法如下：一是对于岗位人员变更做好新老人员之间一传一的交接和培训；二是适时针对新进管理人员开展集中培训；三是通过采用一定的考核方法。3、提高新增应用点的质量。工厂每年都会组织各部门审视第一、第二层次应用点列表，围绕重点工序和重点管理岗位调研有哪些应用上的空白点是需要重点思考的，以新增分析应用点的方式进行申报和实施。同时针对第三层次针对性分析应用，工厂也会要求部门以新增分析应用点的方式将需要数据支撑的项目进行申报。作为一项常规性工作，工厂每年都会组织部门进行应用点的申报，并按项目管理的思想和方法实施，事先确立各个应用点的应用层次、数据获取方式、实现平台，并对其实施计划进行事先的思考和分解，确定每一个阶段的活动目标、时间节点以及负责人员，每个季度对实施情况予以总结，并动态更新下一阶段的实施计划。该项工作从2005年起已经连续开展了三年，部门可供挖掘的应用点越来越少，如何调动部门的积极性，保持并提高应用点的实效性，我们有必要对新增分析应用点的质量和实施情况进行考评，考评标准为：一是新增分析应用点是否能体现数据应用开展的进取性、开拓性和创新性；二是新增分析应用点是否能切实提高管理的精细化和科学化水平；三是新增分析应用点是否能采用项目管理的思想和方法实施，按时间节点完成各项预定计划。

三、结束语。随着近几年来技术平台的相继成熟以及管理手段的逐步推进，工厂业务人员用数据说话的意识已经越来越强，但是要真正使工厂管理达到“三分技术、七分管理、十二分数据”的水平，还有很长的路要走，这既需要我们的业务人员从自身出发提高应用数据的水平和能力，同时也需要工厂从管理手段和管理方法上不断拓宽思路、创新手段，真正实现数据分析应用成为工厂管理的重要支撑手段。

作者单位：上海卷烟厂

参考文献：

数据分析的方法篇6

从而提供一种评价被审计单位效率性的有效的方法，为绩效审计工作提供支持。

1传统财务指标评价的局限性和引入DEA法的动因

1、1传统财务指标评价的局限性

绩效审计方法的研究一直是审计领域需要深入探索的重要课题，但如何进行绩效测评，长期以来都还没有一个很好的方法。大多数的财务评价和内部审计都仅从财务指标的角度来评价。诚然，财务指标对企业的绩效评估是非常重要的，但由于财务评价本身的局限性，从而决定了财务指标评价法本身就带有很大的局限性。目前我国效率性评价上主要侧重于财务指标评价，而由于财务指标本身具有不可避免的缺陷，在一定程度上会使效率性审计陷入误区。运用传统的财务指标评价效率性时其不足之处有：①评价指标的制定可能不客观、不合理；②财务评价体系中的权重是人为事先设定的，难免使评价结果带有一定的主观性，使评价结果不真实；③解决不了多投入和多产出同时考虑的问题。

1、2 引入DEA法进行效率性审计的动因

效率性是指投入与产出的关系，包括是否以最小的投入取得一定的产出或者是以一定的投入取得最大的产出，或者说支出是否讲究效率。对效率性的审计需解决企业的投入－产出是否有效的问题。DEA 模型可以看作是处理具有多个输入（输出越小越好）和多个输出（输入越大越好）的多目标决策问题的方法。可以证明，DEA有效性与相应的多目标规划问题的pareto有效解（或非支配解）是等价的。数据包络分析(即DEA)可以看作是一种统计分析的新方法，它是根据一组关于输入－输出的观察值来估计有效生产前沿面的。DEA方法处理多输入，特别是多输出的问题的能力是具有绝对优势的，在投入产出效率测定方面具有广泛的应用。数据包络分析无需预先估计参数，无需任何权重假设，排除了人为因素的影响，特别适用于多输入多输出的系统，从而弥补了财务指标在这方面的缺陷。企业的生产经营是一个多输入多输出系统，因此运用数据包络分析进行企业效率研究较实用、更具客观性。并且，DEA方法不仅可以用线性规划来判断决策单元对应的点是否位于有效生产前沿面上，同时又可获得许多有用的管理信息。另外，同传统的方法比较，DEA方法的一个优点是不仅可以处理多输入、多输出的生产系统，而且还可以用于非盈利性系统，如医院、学校及其它公共部门。对于非单纯盈利的公共服务部门，由于不能简单地利用利润最大化来对他们的工作效益进行评价，也很难找到一个合理地包含各个指标的效用函数，而DEA方法是对这类部门工作进行评价比较有效的方法。

2DEA模型介绍

1978年由著名的运筹学家A、Charnes,W、W、Cooper和 E、Rhodes首先提出了一个被称为数据包络分析（Data Envelopment Analysis，简称DEA）的方法，去评价部门间的相对有效性（因此被称为DEA有效）。他们的第一个模型被命名为CCR模型。从生产函数角度看，这一模型是用来研究具有多个输入、特别是具有多个输出的“生产部门”同时为“规模有效”与“技术有效”的十分理想且卓有成效的方法。1984年 R、D、Banker,A、Charnes和W、W、Cooper给出了一个被称为BCC的模型。1985年Charnes,Cooper和 B、Golany, L、Seiford, J、Stutz给出了另一个模型（称为CCGSS模型），这两个模型是用来研究生产部门的间的“技术有效”性的。1986年Charnes，Cooper 和魏权龄为了进一步地估计“有效生产前沿面”，利用Charnes, Cooper和K、Kortanek于1962年首先提出的半无限规划理论，研究了具有无穷多个决策单元的情况，给出了一个新的数据包络模型--CCW模型。1987年Charnes, Cooper，魏权龄和黄志民又得到了称为锥比率的数据包络模型--CCWH模型。这一模型可以用来处理具有过多的输入及输出的情况，而且锥的选取可以体现决策者的“偏好”。灵活的应用这一模型，可以将CCR模型中确定出的DEA有效决策单元进行分类或排队等等。这些模型以及新的模型正在被不断地进行完善和进一步发展。

3基于DEA效率性审计框架

效率性审计是企业绩效审计的重要组成部分，也是审计工作的重点之一，效率性的审计一般在企业总体绩效审计工作中进行。如有需要，也可以单独进行效率性审计。基于DEA的效率性审计流程主要包括效率性审计工作的准备阶段、审计工作的实施阶段和审计工作的终结与报告阶段三个阶段的工作内容。

3、1 企业效率性审计工作的准备阶段

3、1、1 拟定审计项目计划

拟定绩效审计项目计划应包括以下主要内容：项目名称、该项目所要达到的目标、绩效审计实施的总体安排等。制定计划前，首先对企业的基本情况进行大体的调查研究，掌握其一般性的背景资料，审计人员应尽可能的熟悉被审者经营活动的性质，以便为初步调查做好准备。

3、1、2 组成审计小组

审计机构应根据该项目的繁简程度和具体要求，配备合适的绩效审计人员，组成审计小组。运用DEA进行效率性审计的审计人员必须具有以下素质：具有财务专业知识；掌握有关审计的基本方法和程序，特别是了解绩效审计的内容、程序和方法；精通 DEA方法的运用。必要时，可聘请绩效审计机构以外的专业技术人员共同参加该审计工作。

3、1、3 制定初步审计方案

审计方案包括以下内容：审计目标、审计范围、审计过程中必须特别加以关注的事项、审计程序、拟收集的审计证据、审计人员分工以及审计时间安排。

3、2 企业效率性审计工作的实施阶段

3、2、1 初步调查

绩效审计在这个阶段应收集更为全面和详尽的有关资料。运用DEA模型进行绩效审计除了要收集基本的财务信息外，还要收集企业全方位的经营活动信息，以及非经营活动信息等。搜集绩效审计需要收集的信息资料可以是被审计单位严格按照会计制度的规定整理的数据，也可以是从管理的角度对有关资料进行加工整理或重新组合形成的信息资料。

3、2、2选择决策单元（DMU）

DMU是指数据包络分析法所要评估的决策单元，选择DMU就是确定参考集。研究者需以同质(Homogeneous)，与同一市场条件(Market Condition)为标准，来选择所要评估效率的对象，否则将因各决策单元的差异，而使评估结果失去意义，由于DEA方法是同类型的DMU之间进行相对有效性的评价，因此选择DMU的一个基本要求是DMU的同类型。同类型具有以下三个基本特征：一是它们具有相同的目标和任务；二是它们具有相同的外部环境；三是它们具有相同的输入和输出指标。可以不同的单位作为决策单元；也可以被审计单位的不同时期作为决策单元。实际工作中也常通过下面两点帮助我们选择DMU。第一，用DMU的物理背景来判别，即DMU具有相同的环境、相同的输入和相同的任务（相同的产品与服务内容）等。第二，用DMU活动的时间间隔来构造。

3、2、3确立投入项与产出项

指标分为输入和输出指标，输入指标应越小越好，输出指标应越大越好，当某些指标之间呈现一定的关系时或者是有负值出现时要对指标进行适当的处理。建立输入－输出指标体系是应用DEA方法的一项基础性前提工作，在这个方面，需要考虑如下几个方面的因素：第一，要考虑到能够实现评价目的，也就是说输入向量与输出向量的选择要服务、服从于我们确定的评价目的。第二，要能全面反映评价目的。第三，要考虑到输入向量、输出向量之间的联系。第五，关于输入、输出指标体系的选择，不能仅局限于生产过程，或者说，在运用DEA方法进行评估时，我们必须要能构造广义的“生产过程”。实际上，根据DEA模型的实质要求，所有遵循“越少越能反映效果”的都可以作为输入指标，遵循“越多越能反映效果”的都可以作为输出指标。在实际中，指标的选择可以向专家咨询。

此外，在输入、输出指标体系的建立过程中，相对性指标与绝对性指标的搭配、指标数据的可获取性、定性指标的“可度量性”、指标总量究竟多少较为适宜等问题也是我们在实际工作中会遇到并且要逐一加以解决的。

3、2、4 DEA模型处理与结果分析

在选定决策单元和投入产出指标之后，接下来的工作是搜集各决策单元的投入产出指标数据以建立DEA模型。审计人员可以对所收集到的数据进行适当的处理。根据评价的目的和内容不同，DEA有许多模型可供选择，审计人员在审计过程中根据实际情况进行模型的选取。并非每一种数据包络分析法模型均可适用于任何状况，一些模型仅适合运作于特殊的例子或目的，而且需视情况而定。例如CCR模型可计算出综合效率，若要计算纯技术效率。则可用BCC模型。如果投入是不可变的，则应使用“产出”公式，假使产出与结果非常相近，则应使用“投入”公式。审计工作进行到这一步是要选取适当的DEA模型，并将投入产出数据代入模型，以执行评估分析。而DEA模型的选取可由使用者分析目的、投入产出项的属性、先验资讯的有无三个方面加以探讨，以决定DEA模型的选择。

在对投入产出数据搜集整理之后，建立所需的DEA模型，运用DEA模型进行效率性分析，得出DEA模型结果。模型的结果是审计人员提出审计结论的直接依据。DEA的结果分析可就效率分析、松弛变量分析、敏感度分析等三种分析方式进行。

3、3 基于DEA的效率性审计工作的终结与报告阶段

这个阶段的工作主要有审计结论的确定，审计报告的撰写和改进建议的提出几个内容。审计人员应根据DEA模型的结果，来确定审计结论，据此分析企业各个方面的具体效率性情况。判断决策单元对应的点是否位于有效生产前沿面上，如果是，则企业的效率性较好；如果企业为非DEA有效，则可以看出企业的效率性还有不尽人意的地方。对于非DEA有效的审计对象，应追溯原因，找出问题的根源并进行分析，指出改进的方向与途径已经改进的程度等，以提高企业绩效。

4基于DEA的效率性审计实务探讨--昆明中铁大型养路机械集团公司效率性审计分析

本文以昆明中铁大型养路机械集团公司（简称昆明中铁）为被审计对象，对其2006年度的生产经营活动的效率性进行审计。在经过前期准备和初步调查工作之后，进入审计实施阶段。

4、1 选择决策单元（DMU）

昆明中铁属于交通运输设备制造业(CSRC行业分类代码C75)，根据DMU选取的同质性与同一市场原则，本研究选取同行业的上市公司作为模型的DMU。

截至2006年底，交通运输设备制造业共有66家上市公司。为了增加各DMU的对比性，剔除S、ST、S*ST、*ST等异常企业15家，以及净利润为负值的企业4家，剩余的47家上市公司，由于它们具备同质性与同一市场条件的原则，现以此行业47家上市公司作为效率性审计的参照单位，包括被审计对象昆明中铁在内共48个DMU。各个决策单元的比较基础相近，符合模型的要求。

4、2投入产出指标的选取

根据大量的文献阅读，并根据数据的可取得性，从企业的资产规模、利润水平及现金流三个方面初步选取4个投入指标，4个产出指标。

投入项：流动资产均值(X1)、固定资产净额均值(X2)、主营业务成本(X3)、期间费用(X4)。

产出项：主营业务收入净额(Y1)、主营业务利润(Y2)、净利润(Y3)、经营活动产生的现金流量净额(Y4)。

本研究中昆明中铁投入产出指标数据作者自行深入公司内部收集，其余47家上市公司的投入产出指标数据来源于CSMAR数据库。

4、3 DEA模型处理与结果分析

4、3、1 数据无量纲化处理

由于各投入产出指标的量纲不同，且原始数据有负数存在，若直接代入DEA模型难以求得线性规划的解，而无法进行DEA有效性分析，所以首先对原始数据作无量纲化处理。具体方法如下：

设 (aj 为第j项指标的最大值)；(bj为第j项指标的最小值)，则

4、3、2 DEA模型处理

本文选择最基本的CCR模型和BCC模型，将附表2中的各个决策单元的投入产出指标无量纲化后的数据分别构建CCR模型和BCC模型，用EMS（Efficiency Measurement System）软件分析总体效率和纯技术效率，并根据结果求得规模效率。结果如表1所示。

4、3、3 模型结果分析

（1）总体效率分析

由表1中的综合效率值来看，可以看出有效率的单位有江铃汽车、长安汽车、一汽轿车等10家上市公司。其DEA有效值为1，而且其松弛变量S-、S+值也都为0，说明它们都是DEA有效决策单元。包括被审计对象昆明中铁在内的其余38家公司的DEA总体效率值都小于1，说明不是DEA有效，为无效率单位。总体效率值越小，公司的投入产出的效率越低。由总体效率值分析可以看出，昆明中铁的总体效率值为0、9555，并未达到DEA有效，即效率性不尽人意，需要通过加强管理来改善其效率。在同行业47家上市公司中，综合效率值高于昆明中铁的有28家，低于昆明中铁的有19家。

（2）纯技术效率分析

表1中，江铃汽车等22家上市公司的纯技术效率为1，其他25家上市公司的纯技术效率都小于1。昆明中铁的纯技术效率也为1，为纯技术有效。

（3）规模效率和规模报酬分析

从表1可以看出江铃汽车、长安汽车等10家上市公司处于规模有效的状态。包括昆明中铁在内的其余38家公司处于规模无效状态。在规模无效的决策单元中，一汽夏利、东风汽车两家上市公司处于规模报酬递减的状态，也就是说其产出比例的增加将小于投入比例的增加；包括被审计对象昆明中铁在内的其余36家上市公司处于规模报酬递增状态，也就是说这36家上市公司产出比例的增加将大于投入比例的增加。

（4）松弛变量分析

由于DEA模型可以计算出达到最佳效率的输入与输出组合，因此可以进一步分析企业如何增减其输入输出量，以达到最优效率组合。除了效率值为1的DEA有效决策单元的输入输出无需调整外，其余企业的输入输出均需调整。DEA无效的企业在生产前沿面上的投影是DEA有效的，即可通过适当调整DEA无效的企业输入、输出的数值使其达到DEA有效。这种使DEA无效企业转变为DEA有效的途径给企业的决策者指出了改进经营管理、技术等方面工作的努力方向。效率值小于1的公司绩效改进不仅可以缩小投入，还可以通过技术改造、加强管理等措施使产出增加。对被审计对象昆明中铁来说，效率值为0、9555，松弛变量S1 -＝0、05、S2-＝0、03、 S2+=0、02、S3+=0、05、S4+=0、01，说明其投入和产出有改进的潜力。按DEA模型，改进后的投入产出理论值如表2，无量纲化数据还原由公式(1)反算得出。

根据DEA模型的计算结果，昆明中铁的效率性不强，处于非DEA有效状态。2006年同行业的47家上市公司中有28家公司的效率性优于昆明中铁。可见其效率性在同行业中处于下游的地位。对于昆明中铁，要么其投入相对其产出过大，要么其产出相对投入过小。要使其达到投入产出的有效，绝非在短期调整投入产出方面即能实现的，需要长期的努力。

昆明中铁的纯技术效率为1，资源利用率比较高，资源浪费现象不是很严重。在规模方面，规模效率值为95、55％，处于规模报酬递增阶段。说明其产出与投入资源的量无法等比例增加，因此其应该适当扩充规模，以达到规模有效状态，从而达到总体有效率。

根据模型结果，昆明中铁可以以江铃汽车和一汽轿车作为改进的效仿对象，对投入项目和产出因素进行优化，以达到DEA有效，使投入产出具有效率性。在投入要素方面，固定资产占用、流动资产占用、主营业务成本和期间费用四种投入要素均具有较大的改进空间。若欲达到DEA有效，需要重点控制固定资产流动资产等资源的占用，提高利用效率。主营业务成本和期间费用在理论上的改进幅度分别为20、15%、22、13%；在产出要素方面，由松弛变量可知，在现有条件下主营业务收入不存在改进空间，但主营业务利润和净利润有较大的改进空间，这就要求加强成本管理。昆明中铁的产品成本中原材料比重占了80%以上，很多构件从国外进口，原材料管理应该成为关注的焦点。在现金流量方面，昆明中铁的经营性现金流为负值，主要是因为公司在应收账款的管理上存在着缺陷，出现大额的坏账、呆账，严重影响了资金的正常周转。

数据分析的方法篇7

关键词：粗糙集理论；数据分析方法；信息系统；决策表；属性约简

中图分类号：TP18 文献标识码：A文章编号：1009-3044(2007)06-11651-01

1 引言

粗糙集（Rough Set）理论[1]是波兰数学家Z、Pawlak于1982年提出的，它建立在完善的数学基础之上，是一种新的处理含糊性和不确定性问题的数学工具。其主要思想是在保持分类能力不变的前提下，通过知识约简，导出问题的决策或分类规则[2]。由于粗糙集理论不需要任何预备或额外的有关数据信息，使得粗糙集理论成为研究热点之一，被广泛应用与知识发现、机器学习、决策分析、模式识别、专家系统和数据挖掘等领域。

属性约简是粗糙集理论中核心研究内容之一[3]。在众多的属性约简算法中，大致可以分为两类：一类是基于信息熵的启发式算法[4]，这类算法往往不能得到系统的所有约简、另一类是基于区分矩阵和区分函数构造的算法[5]，这种算法直观，易于理解，能够计算出所有约简。但在区分矩阵中会出现大量的重复元素，造成时间和空间的浪费，从而降低了属性约简算法的效率。

本文基于数据分析方法[6]的属性简约算法是在保持分类能力不变的前提下，逐个约去冗余的属性，直到不再有冗余的属性，此时得到的属性集是最小属性集，即为约简。该算法简单，能够求出所有约简，不会出现区分矩阵中大

量的重复元素，从而提高了属性约简的效率。

2 粗糙集概念

定义2、1设U为所讨论对象的非空有限集合，称为论域；R为建立在U上的一个等价关系族，称二元有序组S=(U，R)为近似空间。

定义2、2令R为等价关系族，设P?哿R，且P≠?I，则P中所有等价关系的交集称为P上的不可分辨关系，记作IND(P)，即有：[x] IND(P)= ∩ [x]R,显然IND(P)也是等价关系。

定义2、3称4元有序组K=(U，A，V，f)为信息系统，其中U为所考虑对象的非空有限集合，称为论域；A为属性的非空有限集合；V=∪Va，Va为属性a的值域；f：U×AV是一个信息函数，?坌x∈U，a∈A，f(x,a)∈Va。对于给定对象x，f(x,a)赋予对象x在属性a下的属性值。信息系统也可简记为K=(U，A)。若A=C∪D且C∩D=?I，则S称，为决策表，其中C为条件属性集，D为决策属性集。

显然，信息系统中的属性与近似空间中的等价关系相对应。

定义2、4设K=(U，A，V，f)为信息系统，P?哿A且P≠?I，定义由属性子集P导出的二元关系如下：

IND(P)={(x,y)|(x,y)∈U×U且?坌a∈P有f(x,a)=f(y,a)}

则IND(P)也是等价关系,称其为由属性集P导出的不可分辨关系。

定义2、5称决策表是一致的当且仅当D依赖于C，即IND(C)?哿IND(D)，否则决策表是不一致的。一致决策表说明：在不同个体的条件属性值相同时，他们的决策属性值也相同。

定义2、6设K=(U，A)为一个信息系统。若P?哿A是满足IND(P)=IND(A)的极小属性子集，则称P为A的一个约简，或称为信息系统的一个约简。

定义2、7设K=(U，CUD)为一个决策表，其中C为条件属性集，D为决策属性，若P?哿C为满足POSC(D)=POSP(D)的极小属性子集，则称P为决策表K的一个约简。其中POSC(D)表示决策D关于属性集C的正域。

定义2、8数据分析方法对于信息系统K=(U，A)，逐个移去A中的属性，每移去一个属性即刻检查新得到的属性子集的不可分辨关系，如果等于IND(A)，则该属性可被约去，否则该属性不可被约去；对于决策表K=(U，CUD)，逐个移去C中的属性，每移去一个属性即刻检其决策表，如果不出现新的不一致，则该属性可被约去，否则该属性不可被约去。

3 基于数据分析方法的属性简约算法

3、1 算法思路

利用函数的递归调用，逐个判定信息系K=(U，A)中属性a(a∈A)，若IND(A)＝ND(A－{a})，则a可以约去，A‘=A－{a}，否则a不可以约去，继续检查A‘中的每个属性是否能被约去，此过程一直进行下去，直到出现某一属性子集中的每个属性都不可约去为止，此时该属性子集即为所求的属性简约。对于决策表，每次检查是否增加了不一致的决策规则，作为是否约去属性的依据。

算法如下：

输入：信息系统K=(U，A)。

输出：K的属性约简。

Match(A') // A’=A-{a}//

begin

for i=1to|U|-1 //|U|表示U的基数//

for j=i+1to|U|

begin

r=|R|//|R|表示属性个数//

if((f(ui，a1)= f(uj，a1))∧（f(ui，a2)= f(uj，a2)）∧…、∧（f(ui，ar)= f(uj，ar)))

then a不可被约去，return0

end

a可以被约去return1

end

Reduce (A)

begin

flag=1

for i=1 to |R|//|R|表示属性个数//

begin

a=ai

A'=A-{ai}

if match(A')thenflag =0 ， reduce (A’)

if (flag且A未被输出)then

输出A中所有元素//flag≠0，说明A中所有元素不可移去，且不会被重复输出//

End

end

以上给出的函数是求解信息系统的属性约简算法；对于决策表，只要将Match(A’)函数中的if语句的条件换成(f(ui，a1)= f(uj，a1))∧（f(ui，a2)= f(uj，a2))∧…、∧(f(ui，ar)= f(uj，ar))∧(f(ui，ag)≠f(uj，ag))，r=|C|是条件属性个数，ag是决策属性。Reduce (A)函数中|R|换成|C|即可。该算法适用于一致决策表，对非一致决策表，算法类似，也就是逐个移去属性并检查决策表是否出现新的不一致，作为约去此属性的依据。

4 举例

文献[7]中决策表1，a，b，c，d，e是条件属性，g是决策属性，求出的约简是{a,b,d}

应用本算法，求得的属性约简为{a,e}和{a,b,d}，得到决策简化表2和表3。

表1 决策表表2简化表表3简化表

如果将决策表表1看作一信息系统，运用本算法，求得的属性约简有{c,d,e,g}, {b,e,g}, {a,c,d,g}, {a,c,d,e}, {a,b,g}, {a,b,e}h和{a,b,d}

5 结束语

本文通过数据分析方法讨论了属性约简问题。该算法是基于不可分辨关系的，具有直观、易于理解和完备性的特点。当属性和对象都较少时，效率较高，但当属性和对象较多时，计算的复杂度较高。实例表明，该算法是有效的。

参考文献：

[1]PAWLAK z、Rough set[J]、International jom：ua ofputer and information science，1982，(11)：341―356、

[2]张文修，吴伟志，梁吉业等、粗糙集理论与方法[M]、北京：科学出版社，2001、

[3]Pawlak Z、Slowinski R、Rough set approach to muhiattribute decision analysis、Ivited Review[J]、European Journal of Operational Research、1994，72：443-459

[4]王国胤，于洪，杨大春、基于条件信息熵的决策表约简[J]、计算机学报，2002（7）：760―765、

[5]Skowron A，Rauszer C、The Discernibility Matrices and Functions in Information Systems[A]、I Slowinsk R、ntelligent Decision Support― Handbook of Applications and Advances of the Rough Sets Theory[c]、1991，331-362、

[6]刘请、Rough集及Rough推理[M]、北京：科学出版社，2001、

数据分析的方法篇8

[关键词]大数据；市场分析；方法

doi：10、3969/j、issn、1673 - 0194、2017、02、056

[中图分类号]F270 [文献标识码]A [文章编号]1673-0194（2017）02-00-01

0 引言

随着移动互联网技术的发展，人们越来越习惯于网络购物。在网上购物或刷微博时，常常会看到“猜你喜欢”“可能感兴趣的商品”等广告栏目。而这些内容都是大数据产业的成果，是面向大数据视野得到市场分析的结果。掌握这种市场分析方法，能帮助企业更好地了解消费者的需求，进而更好地开展营销活动。

1 大数据视野下市场分析的问题

在互联网得到普及应用的情况下，大数据时代已经正式到来。目前，互联网上的数据每年都会增长50%。而随着运动、湿度和温度等各类传感器的出现，企业接触到的数据信息也越来越多，而这些数据在给企业带来挑战的同时，也为企业提供了新的市场增长空间。加强数据挖掘和分析，能帮助企业精准地找到用户，从而通过降低营销成本、提高销售率实现利益最大化。因此，企业应面向大数据进行市场分析研究，以便通过统计和分析超大量的样本数据，获得更接近市场真实状态的市场研究成果。

2 大数据视野下的市场分析方法

2、1 基于大数据的市场调研方法

在过去较长的时间里，市场分析是以实地调查为前提，或是通过问卷调查和提供抽样技术，其目的均是为了获得消费者的答案。进入大数据时代后，企业开始通过网络调研进行市场调查。这种方法，能够方便、快捷且经济地完成市场调查。具体来讲，就是企业通过门户网站完成市场调研模块的建立，然后将新产品邮寄给消费者，并要求消费者在试用后进行网上调查问卷的填写，这样就能够投入较少的人力和物力来完成市场调研。由于这种市场分析方法具有一定的互动性，能够在概念阶段利用虚拟仿真技术完成产品测试，从而使消费者参与到产品的开发，进而使市场需求得到更好的满足。

2、2 基于大数据的市场信息挖掘

面向大数据视野研究市场分析的问题，企业可以发现有效的市场分析需要大量的数据信息提供支撑。所以，企业还要使用基于大数据的市场信息挖掘技术，以便对市场需求进行更好的分析。首先，在智能手机逐步得到普及应用的情况下，企业还应在移动终端开展市场研究，借助移动APP完成消费信息的采集。企业对这些数据进行深入分析，能够完成产品回购率、产品促销奖励评估和购买时点等内容的分析。其次，在零售终端，POS机得到较好的建设和应用下，企业可以通过扫描商品条形码完成购买地点、名称和零售价等信息的采集，进而使其更好地掌握商业渠道的动态信息。此外，消费者往往具有从众性，企业加强对社交平台的信息挖掘能更好的掌握消费潮流。比如，利用微博评论可以完成消费者对某种产品偏好的了解，从而完成消费者真实消费心理及态度的分析，进而更好地掌握市场信息。

2、3 多学科分析方法的引入

以往的市场分析通常需要采取社会学调查方法完成资料搜集，再利用数据分析软件完成数据分析，并获得描述性或预测性的分析报告。在大数据时代，由于要完成海量数据的分析，因此，可以引入相对论、整体论和跨文化比较研究等多个学科的分析方法，以满足大数据时代数据分析的需要。就目前来看，大数据来自各种移动终端和网络，其是能反映消费者行动过程和轨迹的数据记录，采用传统的市场分析方法难以对这种过程性数据进行分析，而引入以分析过程见长的人类学的分析方法，则能对市场消费者的行动过程进行描述，从而使消费者的行动趋向得到揭示。

2、4 定量与定性分析方法的结合

采取定性或定量这两种分析方法中的一种，可以完成片段式或截面式数据内容的分析。但在大数据时代，数据变得更加复杂，因此可以使用定量和定性相结合的分析方法进行市场分析。一方面，企业通过网络调研完成大量数据信息的搜集，从而采取定量分析法进行市场分析研究。这种方法，能够使市场研究人员成为“隐形人”，从而更加客观地观察消费者，并通过对超大样本量进行统计分析，完成市场状态的分析。另一方面，针对文本、视频和图形等非量化数据，可以通过智能化检索和分析来完成定性分析，以便在保护消费者隐私的基础上，更好地分析市场需求。

2、5 数据复杂属性的还原

在传统的市场分析工作中，可以将数据看成是一些片段而进行分析。而这样的分析，实际上是脱离具体情境和社会关系的分析过程，虽然可以根据自身经验和想象来进行情境原，但得到的研究结果却不够客观和科学。在大数据背景下，企业可以使用能够还原数据复杂属性的市场分析方法，以便更好地完成、嵌入某些社会关系的消费者的购买行动和轨迹的分析，进而获得更加有效及真实的分析结果。因此，使用的市场分析方法应更关注数据的社会背景，从而更好地完成大数据的整合与分析。

3 结语

在大数据时代，企业要选择适当的市场分析方法，以便使自身的数据处理能力得到提高，从而通过获取的高质量的数据信息来提高自身竞争力，进而更好地适应社会发展的要求。因此，希望本文对大数据视野下的市场分析方法展开的研究，可以为相关工作的开展带来启示。

主要参考文献

[1]王云蔚、大数据背景下的消费市场研究[J]、北京印刷学院学报，2014（1）、

【写作范文】栏目

高中作文网

数据分析的方法(精选8篇)

数据分析的方法篇1

数据分析的方法篇2

数据分析的方法篇3

数据分析的方法篇4

数据分析的方法篇5

数据分析的方法篇6

数据分析的方法篇7

数据分析的方法篇8

相关文章

推荐文章

本站专题