高中作文网

数据分析方向(精选8篇)

时间: 2023-07-17 栏目:写作范文

数据分析方向篇1

【关键词】前期分析;力学平衡;数学分析;坐标;变形数据

1 现状及存在问题

基坑,是指为构建筑物打基础和地下室施工所开挖的地面以下的空间。再写随着社会的进步,建设工程以及各种高层建筑物、地下室、人防工程等的需要,基坑的应用将会越来越广,对基坑的技术要求也越来越高。

基坑监测,是指在基坑施工及使用期限内,对建筑基坑及周边环境实施的检查、监控工作。目前,基坑监测主要包括:支护结构、相关自然环境、施工工况、地下水状况、基坑底部及周围土体、周围建(构)筑物、周围地下管线及地下设施、周围重要的道路、其他应监测的对象。实际监测工作中,许多监测项目都需要结合仪器观测和现场巡视的反复跟踪方式来采集基坑最真实、最客观的变形数据。同时需要在仪器观测和现场巡视等工作中不断分析、不断排除误差,以达到采集高质量数据的目的。

客观、真实的变形数据不但可以及时了解基坑的变形情况,为施工提供参考及指导性意见,可以验证基坑设计可行性、科学性,还可以为岩土力学、结构力学等多门学科的研究提供宝贵的原始数据。为了追求更真实、客观的变形数据,测量工作者以及岩土工程、结构工程等工作者想法设法寻找更加科学和实用的变形监测方法。由于变形监测的发展历史比较短,各种基坑的情况也不一样,变形监测的方法也要具体问题具体分析了。而现阶段人们对基坑变形观测工作似乎缺乏必要的分析,对这方面工作是任务式的,缺少深层次的研究。

2 对基坑变形观测的前期分析

基坑水平位移的监测是一项比较具有代表性的变形监测工作,同时也是考验测量工作者对变形观测分析能力的一个重要指标。那么,水平位移的变形观测需要分析什么,如何分析呢?下面我们以常见的基坑支护型式为例,对基坑水平位移变形观测方法的选取作一个简单的探讨。

我们知道,基坑的形状是各不相同的,要如实的把变形数据采集准确,首先要做的,就是要明确该基坑将会怎样发生位移。这是基坑水平位移观测的前提分析。而我们实际工作中遇到比较多、比较简单而又常见的基坑支护型式,是矩形形状的基坑。下面我们以矩形基坑为例作一个简单的力学分析(如图所示):

图a:基坑开挖前状态 图b:基坑开挖后状态 图a表示,基坑开挖前,基坑及外界没有土石方的分离,基坑里外相互作用力大小相等方向相反,基坑所受合力为0,基坑处于静止状态,理论上不会发生位移。 图b表示,基坑开挖后,以基坑边线为临界面,基坑里面与外面分离,基坑里外相互作用力当中缺少了由里向外的作用力,此时合力方向垂直于基坑边向里,理论上基坑边缘处会发生垂直基坑边向里的位移。

通过对基坑进行力学平衡原理的分析,我们发现基坑水平位移的变化方向是沿垂直于基坑边线向里的。现实工作中很多测量工作者往往忽略这一工作,但这个前期分析相当重要,它将直接关乎到观测数据的质量。弄清这个方向,对于将要进行的水平位移观测有一个比较明确的指导性方向:把沿垂直于基坑边线向里这个方向上的位移量观测、记录并表达出来。

a・基坑外面

图c:基坑水平位移的实际方向

在我们明确了基坑监测需要采集哪一个方向的变化量之后,才能在后面的测量工作中找准方向。如图c所示,我们要观测的位移,即监测点a,发生水平位移移动到a′时,垂直于基坑变形的位移。

从图中我们可以看出,基坑开挖之后,水平位移不一定是纯碎的垂直基坑边向里,还有其他方向的外力作用,使基坑支护部分的发生的实际位移并非纯碎的垂直于基坑变形。通过比较两点坐标,我们发现,从a点发生位移到达a′时,两点坐标既有X增量ΔX,又有Y增量ΔY,通过计算,我们得知两点发生的位移为:

ΔS=

ΔS=

而我们要的,是沿着垂直于基坑变形这一方向的位移。要计算这样的位移,我们很自然会想到利用三角函数和位移的正交分解,但这样的计算过程比较繁杂,这里就不进行讨论了。

3方法的选取及确定

那么,我们可以用什么方法将繁杂的计算过程简化呢?通过建立跟矩形基坑边垂直(或平行)的独立的直角坐标系,采用坐标观测法,可以大大简化上面所述的计算过程。

通过坐标法建立的坐标系,利用矩形基坑的特有优势,单独对水平位移的X、Y坐标进行分析,计算X、Y坐标的增量ΔX和ΔY,便可直观、快捷地计算出发生于沿垂直基坑边线方向上的位移。通过分析这种方法观测到的数据,我们不难发现:与垂直于基坑边线方向的位移相比,其他方向的位移是考验忽略不计的,也就是说,其他方向的位移趋向于无穷小。

4 案例分析

明确了水平位移观测应该做的前期分析,选取了合适的方法之后,我们就可以开展观测工作了。那么,这种方法是否真的凑效呢?东莞市中国电子松山湖研发中心基坑监测和东莞市锦裕源仪器科技有限公司智能震动分析及动平衡系统项目基坑监测均按照这样的思路进行了前期分析和通过分析确定的观测方法。让我们看看这些变形观测项目是怎样进行分析和确定方法的选取的,观测数据的真实性又是如何。

东莞市中国电子松山湖研发中心基坑监测工程监测平面布置图如下:

中国电子松山湖研发中心基坑监测平面布置图

变形观测之前,先对该基坑作前期分析:受力、变形趋势分析,因为这基坑呈矩形,所以基坑支护会发生垂直于基坑边线向里的位移。现场调查之后,得知施工现场通视条件比较好,最终确定选用坐标观测法并以基坑南面和北面边线为Y轴的平行线,东面和西面为X轴的平行线,确定独立坐标系。在此基础上,把基准点坐标确定后记录并保存好作为初始观测数据。值得注意的是,由于变形观测采用独立坐标系,坐标由测量工作者自定,所以为了确保计算方便,测量工作者一般要把坐标定的大一点,以免出现负数。我们以抽样检查的方式,抽取所观测到的基坑南面上的一组数据连续5次观测记录为标本如下:

表1:中国电子松山湖研发中心水平位移观测记录表(样本)

WY18

X坐标(mm)

Y坐标(mm)

ΔX(mm)

ΔY(mm)

一次数据

35、3642

108、5382

二次数据

35、3646

108、5382

0、4

三次数据

35、3652

108、5381

0、4

-0、1

四次数据

35、3660

108、5383

0、8

0、2

五次数据

35、3665

108、5382

0、5

-0、1

WY20

一次数据

35、3238

68、3617

二次数据

35、3244

68、3615

0、6

-0、2

三次数据

35、3249

68、3616

0、5

0、1

四次数据

35、3253

68、3616

0、4

五次数据

35、3260

68、3618

0、7

0、2

通过数据,我们可以看出,此数据Y坐标增量ΔY基本上是不变的,X坐标增量ΔX符合前期对基坑变形趋势的分析,准确地表达了基坑在施工过程中的变形情况。

东莞市锦裕源仪器科技有限公司智能震动分析及动平衡系统项目基坑支护形状如下:

智能震动分析及动平衡系统项目基坑监测平面布置图

我们作观测前期分析:此基坑为矩形基坑,基坑支护在土石方开挖期间,由于力的平衡遭到破坏,基坑支护必然会沿垂直于基坑边线向里面发生位移。通过变形观测,对所观测数据作抽样检查,样本数据如下:

表2:智能震动分析及动平衡系统项目基坑监测水平位移观测记录表(样本)

WY02

X坐标(mm)

Y坐标(mm)

ΔX(mm)

ΔY(mm)

一次数据

22、3315

42、3315

二次数据

22、3318

42、3316

0、3

0、1

三次数据

22、3319

42、3314

0、1

-0、2

四次数据

22、3326

42、3315

0、7

0、1

五次数据

22、3329

42、3315

0、3

WY03

一次数据

22、1925

62、2679

二次数据

22、1926

62、2677

0、1

-0、2

三次数据

22、1931

62、2678

0、5

0、1

四次数据

22、1932

62、2680

0、1

0、2

五次数据

22、1935

62、2679

0、3

-0、1

从样本数据看,基坑南面观测点坐标Y增量ΔY基本上为0,观测点坐标X增量ΔX的变化符合前期分析,变形数据与基坑变形相符,同样验证了基坑变形观测的前期分析。

此外,东莞市长安客天下大厦基坑监测、中山市宝丽西区棕榈彩虹花园一期B地块基坑监测、中山市隽峰花园基坑监测等基坑监测工程,均做了必要的前期分析,选取了合适的观测方法,各项观测数据都很好的验证了这些分析方法。

数据分析方向篇2

关键词:软件工程;结构化;面向对象;程序设计

中图分类号:TP311文献标识码:A文章编号:1009-3044(2008)21-30451-02

In Programming Structurized Method and Object-oriented Method Comparison

FU Yu-jiang

(Hainan Software Professional Technology Institute,Qionghai 571400,China)

Abstract: The structurized method and the object-oriented method are 2 cores thought in the software development programming、These two programming method not only displays for in the program language, the analysis and the design difference, displays in the development thought and the development angle of view difference、

Keywords: Software Engineering; Structurization; Object-oriented; Programming

在计算机系统开发领域中存在各种各样的系统分析和设计方法,其中结构化方法与面向对象方法是软件开发程序设计中的2个核心思想。结构化方法来自于20世纪60年代流行的结构化设计语言,例如PASCAL、C语言等,经过几十多年的研究及应用,最为成熟且影响最大。而面向对象方法近10年来发展较快,被广泛应用于计算机软件的各个领域,如计算机仿真、系统设计、人工智能程序设计等各个方面,显示出了强大的生命力,现已呈现出取代结构化方法的趋势。本文具体分析了两者在系统分析设计中的差别及优劣。

1 结构化方法分析与设计

结构化方法承袭了传统的编程思想与编程方法,结构化方法只是对传统程序结构的改进。模块是结构化编程的基本单位,计算方法(简称为算法)是程序的核心,结构化分析和结构化设计是结构化方法软件开发最关键的两个时期。

1、1 结构化方法的基本思想

结构化方法程序设计的基本思想是:自顶向下,采用模块化技术,分而治之,逐步求精地将信息系统按功能分解为若干模块进行分析与设计,应用子程序实现模块化,模块内部由顺序结构、选择结构、循环结构等三大基本控制结构组成。即从代表目标系统整体功能的单个处理着手,自顶向下不断地把复杂的处理分解为子处理,这样一层一层地分解下去,直到仅剩下若干个容易实现的子处理为止,并写出各个最低层处理的描述。

1、2 结构化分析

结构化分析是一种面向数据流而基于功能分解的分析方法,在该阶段主要通过采用数据流程图、编制数据字典等工具,描述边界和数据处理过程的关系,力求寻找功能及功能之间的说明。通常所说的“结构化分析”就是“数据流分析”。

数据流分析的核心特征是“分解”与“抽象”。“分解”和“抽象”是两个相互有机联系的概念,下层是上层的分解,上层是下层的抽象。例如,假设系统很复杂,为了理解它,将它分成了5个子系统,如果子系统仍然比较复杂还可以再继续分解它,如此下去,直到每个子系统足够简单,能清楚地被理解和表达为止。

典型的结构化分析方法可以描述为:功能分解=功能+子功能+功能接口。问题域映射为功能和子功能,规格说明间接反映问题域。分析的结果是系统、子系统、功能、子功能层次结构的建立。

1、3 结构化设计

结构化设计通常与结构化分析方法衔接起来使用,以数据流图为基础,将数据流图表示的信息转换成程序结构的设计描述,在该阶段力求寻找功能的实现方法,完成软件层次图或软件结构图。

结构化设计通常表述为:结构图+关系数据模式,其中,结构图描述软件系统的程序结构,关系数据模式描述软件系统的数据库结构。因此,结构化设计工作主要包括程序结构设计和数据库结构设计。设计过程分两步完成,第一步构造出一个具体的系统设计方案,决定系统的模块结构(包括决定模块的划分、模块间的数据传递及调用关系);第二步在总体设计的基础上,将实体联系图转换成关系数据模式,确定每个模块的内部结构和算法,产生每个模块的程序流程图,最终在此基础上设计建立外模式。

1、4 结构化分析设计的局限

1)不能直接反映问题域:结构化分析方法以数据流为中心,强调数据的流动及每一个处理过程,不是以问题域中的各事物为基础,打破了各事物的界限,分析结果不能直接反映问题域,容易隐蔽一些对问题域的理解偏差。

2)数据和代码缺乏保护机制:一个特定全程数据既可以作这些数据的过程访问,也可以被其他过程访问,这给程序设计带来了不安定因素,一个不正常的数据修改或者过程调用可能会破坏正常的程序执行流程或结果。

3)分析和设计体系不一:结构化分析的结果是数据流图,结构化设计的结果是模块结构图。二者的表示体系不一致,分析文档很难与设计文档对应,所以从分析到设计的“转换”过程容易因理解上的错误而使得设计文档与用户的原本需求相差甚远。

4)开发过程复杂: 由于结构化方法将过程和数据分离为相互独立的实体, 程序员在编程时必须时刻考虑到所要处理的数据的格式。对于不同的数据格式做相同的处理或对于相同的数据格式做不同的处理都需要编写不同的程序,而且往往不能对数据的安全性进行有效的控制。如果程序进行扩充或升级,也需要大量修改函数,因此结构化程序的可重用性不好。要使数据与程序始终保持兼容,已成为程序员的一个沉重的负担。

2 面向对象分析与设计

2、1 面向对象的基本思想

面向对象方法的出发点是尽可能模拟人类习惯的思维方式,使开发软件的方法与过程尽可能接近人类认识世界、解决问题的方法与过程,也就是使描述问题的问题空间与实现解法的求解空间在结构上尽可能一致。

面向对象是一种运用对象、类、继承、封装、聚合、消息传递、多态性等概念来构造系统的软件开发方法。它打破了传统的代码、数据分离做法,将一种数据结构和操作该数据结构的方法捆在一起,封装在一个程序内,实现了数据封装和信息隐藏,通过“操作”作为接口实现信息传递。对外部来说,只知道“它是做什么的”,而不知道“它是如何做的”,使得数据封装、信息隐藏、抽象代码共享等软件工程思想得到充分体现。

2、2 面向对象的重要特征

1)抽象:从许多事物中舍弃个别的、非本质的特征,抽取共同的、本质性的特征,就叫作抽象。抽象是形成概念的必须手段。

2)类和对象:“类”是面向对象语言中的一种抽象数据类型。面向对象方法认为客观世界是由各种对象组成的,复杂的对象可以由比较简单的对象以某种方式组合而成。例如人、车、学校、球场、商店、螺丝钉等都可以看做是对象。对象按照不同性质可以划分成各种对象类。“对象”可以理解为“类”的一个实例,每个对象都有自己的属性(状态和特征)和方法(行为)。

3)继承: 即特殊类的对象拥有其一般类的全部属性与服务。由于具有“继承”性这个特点,使得程序员对共同的属性以及方法只说明一次,并且在具体的情况下可以扩展细化或修改这些属性及方法。

4)封装:表示对象状态的数据和实现各个操作的代码,都被封装在对象里面,它与外界的联系是通过对象的对外接口(方法)实现。外界不需要关心对象是如何进行各种细节处理。

5)多态:指相同的操作或函数、过程可作用于多种类型的对象上并获得不同的结果。就如不同的对象,收到同一消息可以产生不同的结果。

2、3 面向对象分析(Object Oriented Analysis OOA)

面向对象分析是面向对象软件工程方法的第一个环节,OOA的任务是把对问题域和系统的认识理解,正确地抽象为规范的对象(包括类、继承层次)和消息传递联系,最终建立起问题域的简洁、精确、可理解的面向对象模型,为后续的面向对象设计和面向对象编程提供指导。面向对象分析方法可以描述为:OOA=对象+类+继承+消息传递。

面向对象分析通常建立三种模型:对象模型、动态模型、功能模型。其中,对象模型描述了系统的静态结构,在第一轮迭代中可能只确定类的名称和类间的关系。动态模型表示瞬时的、行为化的系统的“控制”性质,它规定了对象模型中的对象的合法变化序列。功能模型表明了系统中数据之间的依赖关系,以及有关数据的处理功能,它有一组数据流图组成。

面向对象的分析过程实际上是依次建立对象模型、动态模型、功能模型,之后反复迭代,细化类的属性和服务(方法)。之后可以根据需要,再按此过程逐渐迭代细化。

2、4 面向对象设计(Object Oriented Design OOD)

1)OOA和OOD采用一致的概念、原则和表示方法,二者之间不存在鸿沟,不需要从分析文档到设计文档的转换,二者之间也不强调严格的阶段划分。能体现二者之间关系的是软件生命周期模型――喷泉模型(如图1),其中分析与设计没有严格的边界,它们是连续的、无缝的、允许有一定的相交。在分析阶段所获得的信息,不仅是设计阶段的输入,同时也是设计阶段的一个完整部分,分析得到对象及其相互关系,而设计则是解决这些对象及其相互关系的实现问题。

OOA与OOD的区别主要是,OOA与系统的问题域更加相关,OOD与系统的实现更加密切;OOD是对OOA所得出的对象模型的直接细化和抽象,得到可直接实现的类图。

2)面向对象设计可看作是面向数据流图与面向数据结构的结构化方法的统一,把数据及其操作封装,再取个名字为对象。对象是高性能的数据,整个程序的执行就是若干对象彼此通信。这种以对象为中心的模块,不但内聚、耦合性能良好,而且适于并发。这样,系统的设计就可看成把系统所要求解的问题解释为一些对象及对象间消息传递的过程。

2、5 面向对象方法的优点

面向对象技术较之与传统的结构化方法有其独到之处:

1)可重用性。可重用性是面向对象软件开发的一个核心思路。通过类的继承关系,使公共的特性能够共享,简化了对象、类的创建工作量,增加了代码的可重性。另外,重用经过测试的代码还可以使产生额外错误的可能性达到最小。

2)可扩展性。可扩展性是对现代应用软件提出的又一个重要要求。类的继承性使类能反映现实世界的层次结构,多态性反映了现实世界的复杂多样。类的继承性和多态性使软件编码具有良好的可重用性和可扩展性。无需修改源代码就可以使软件功能容易扩充和修改。

3)数据保护。数据和操作数据的算法不再分离,它们被封装在一起,对象内部的行为实现细节被隐藏。封装防止了程序相互依赖性而带来的变动影响。

4)可管理性。面向对象的开发方法采用类作为构建系统的部件,以对象作为系统的基本组成单元,使整个项目的组织更加合理、方便,因为归纳事物、划分成类进行管理符合人们在认识和管理客观世界的习惯思维方式。

3 结束语

结构化和面向对象是软件工程的程序设计方法中最本质的思想方法。结构化编程的基本思想就是把大的程序划分为若干个相对独立、功能简单的程序模块。它以过程为中心,强调的是过程,强调功能和模块化,通过一系列过程的调用和处理完成相应的任务。面向对象编程以对象为中心,是对一系列相关对象的操纵,发送消息给对象,由对象执行相应的操作并返回结果,强调的是对象。理论上,面向对象的程序设计方法将产生更好的模块内聚和耦合特性,使得软件更易于重用与维护。但在实践中程序设计方法关注软件生命周期的各个环节,从需求分析、总体设计到编码、测试和维护。同时设计方法在各个阶段需要工具和环境的支撑,因此在选择程序设计方法时,需要综合考虑这些因素。

参考文献:

[1] 郭溪川、对比分析面向对象方法与结构化方法[J]、农业网络信息,2006(11)、

[2] 郭燕慧、面向对象软件分析设计与测试[M]、北京:科学出版社,2004、

[3] 王德军,郝永芳、结构化程序设计方法与面向对象的程序设计方法的比较[J]、铁路计算机应用,2003,12(11)、

数据分析方向篇3

关键词:数据仓库;数据挖掘;教务数据;深度挖掘

中图分类号:TP393 文献标识码:A

1 引言

在信息时代,信息技术的快速发展对社会各个领域都产生了一定的影响,在电子商务中反映尤为突出。对于学校教务系统的应用相对较晚,但教务数据对学校而言,是最基本的数据,这些数据的保留是学校运作的根本。对教务数据的分析也是对学校教学效果的评定,能够从庞大的教务数据中挖掘出更潜在的信息,既是对学校运行状况的更深入了解,又有利于学校对未来发展方向的决策。

2 教务管理状况分析

教务管理不仅是处理学校的日常事务,它更重要的作用体现在可以反映学校的教学效果和分析学校培养方向的正确性,并以此帮助学校向更好的方向发展。教务数据分析的处理到目前为止经历了人工和计算机处理的两大阶段。

2、1 人工处理阶段

为了反映较大范围教务情况的整体特征,教务部门通常要付出庞大的人力和物力收集和分析大量数据。这个数据的收集通常要经历一个较长的时间,间隔一段时间还必须重复执行。比如开课计划、学生成绩、教室使用情况等。然而,分析收集来的海量数据更是教务部门头疼的一件事。

还没有出现计算机前,光靠人工来处理数据有时还会面临这样的窘境:上一期的数据结果还没分析出来,下一期的数据收集又要开始了,因此整个数据收集和分析工作变得没有任何意义。另外,有些数据需要间隔一段时间重新收集,然后进行短期和长期的分析数据。比如成绩分析,若按照4年制本科为一个分析周期。首先,每学期教务部门要进行一次短期成绩分析。其次每学年教务部门就需对即将毕业的本科前4年的所有成绩做一次中长期成绩分析。然而,如果学校还需了解长期以来各级学生的学习情况,则还必须知道近10年、20年、50年甚至更长时间的成绩发展趋势,那么光靠人工去翻阅以前的数据就是件很困难的工作了。所以人工处理数据阶段,有许多教务数据分析工作受到很大限制。

2、2 计算机处理阶段

自计算机出现后,许多领域的工作发生了翻天覆地的变化,教务管理同样也不会忽略如此有效的技术手段。20世纪80年代以来,我国一直关注信息化在各领域的应用,教务管理信息化的发展大致经历了以下三个阶段:面向数据处理的第一代教务管理、面向信息处理的第二代教务管理、面向知识处理的第三代教务管理。在前两个阶段中,许多教务工作确实提高了效率,但是教务海量数据中隐含的价值仍不能被有效发掘与利用。正如在一大座金山中,获取更有价值的黄金还需更细致更有效的清理和挖掘。

虽然在前些年,学校各级部门具备了一定的信息化基础设施,为构建信息化教务系统奠定了基础。但是,由于缺乏统一的规划,学校各子系统或多或少存在“信息孤岛”的问题,也没有有效的方法从海量数据资源中快速挖掘更有价值的知识信息。因此,耗费成本收集的数据没有利用就被弃置了,教务数据分析仅停留在表面。

由于信息技术的发展,信息化时代逐渐进入第三展中,即有效应用数据仓库和数据挖掘技术挖掘知识。

3 DW和DM技术

数据仓库(DataWare,即DW)是指一个面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持管理人员的决策[1]。当大量的数据被整合在一起后,从用户分析角度来看,使用这些数据的手段是多方面和多层次的。面向知识处理的教务系统应能够自动剔除掉不需要的数据,按照用户的要求整合杂乱的数据资源,获取某些可用的属性。而且,学校的决策通常是经过观察长期发展的状况而制定的。其间,需要分析5年、10年,甚至几十年的大量相关数据资源。因此,教务数据需要被长期且稳定的存储。在日常收集数据和整理数据时,利用数据仓库的思想来进行,有利于我们充分发挥数据挖掘技术进行知识的挖掘。

数据挖掘(Data Mining,即DM)是指从大量的数据中,抽取出潜在的、有价值的知识(模型或规则)的过程。数据挖掘就是从大量数据中提取或“挖掘”知识。

首先,我们要确定数据挖掘的对象有哪些。数据资源可以从多方面获得,如系统分析设计人员向不同范围的业务对象调研获得,或反之业务对象主动向系统设分析设计人员提出;在互联网时代,从网络中获得数据资源更快更多了。

其次,要有效地应用数据挖掘技术,就要遵循科学的应用流程。一般的挖掘流程是:(1)确定挖掘对象;(2)数据准备;(3)数据挖掘,即模式提取;(4)结果分析,即模式评估。[2]

数据挖掘功能用于指定数据挖掘任务中要找的模式类型。数据挖掘任务一般可以分为两类:描述和预测。描述性挖掘任务刻画数据库中数据的一般特性。预测性挖掘任务在当前数据上进行推断,以进行预测。数据挖掘系统要能够挖掘多种类型的模式,以适应不同的用户需求或不同的应用。数据挖掘功能以及它们可以发现的模式类型包括:class/concept description、Association analysis、Classification and prediction、Clustering、Outlier analysis等。

4 建立面向知识处理的教务数据分析系统

按照上述数据挖掘的基本流程,以教务系统中成绩分析为例介绍如何让教务系统实现面向知识的处理。

4、1 构建教务系统的数据仓库

这部分主要分为四个任务:确定教务系统中的数据源;Web数据的预处理;多维Web数据模式的建立;应用OLAP技术。

4、1、1确定教务系统中的数据源

教务系统的数据主要从两个方面获得:

(1)各学院开课计划、学校学计划;

(2)教师提交的各门课程的成绩。

第一方面的数据主要由学校、各学院按照培养计划每学期提交,包括各专业班级的课程安排、授课教师、课时、学分等。这部分数据主要以Excel表格形式提交,教务部门对这部分的数据收集与存储大部分停留在文档形式。

第二方面的数据主要在学期末由授课教师分专业班级和课程提交。目前,这部分的数据收集有的以纸质文档形式收集,有的以Excel文档形式收集,也有的实现了数据库收集存储。

在进行数据挖掘之前,首先要将这两方面的数据完全实现数据库收集与存储。随着教务数据与日俱增,还需使用数据仓库来管理这些数据。

目前,有许多学校实现了在线登录成绩的信息化。那么如何对庞大的Web数据建立数据仓库呢?

4、1、2 Web数据的预处理

通过Web收集的数据称之为原始数据,管理员可根据需要用某些字段记录相关数据。如:专业班级名称,教师登录名,课程名称,成绩比例,分数,提交时间等。对Web数据的预处理包括两步。第一步:清除噪音,即去掉对知识挖掘无关的数据。第二步:转化数据,即将原始数据按照挖掘需求,通过重新组织或简单计算转换成规范模式。

4、1、3多维Web数据模式的建立

分为三步进行。第一步,选取维。多维数据便于我们从多个角度、多个侧面对数据库中的数据进行观察、分析,以深入了解包含在数据中的信息和内涵。N维数据矩阵用C(A1, A2, 、 、、, Am ,count)模式表示,其中Ai代表第i维,i=1,2,、、、,n, count是变量,反映数据的实际意义。

数据单元用r[A1:a1,、、、,An:an,count]模式表示,即为维Ai选定一个维成员ai,i=l,…,n,这些维成员的组合唯一确定了变量count的一个值。通常,需要了解成绩的分布情况,可以选取专业班级维、时间维、课程维构建数据矩阵,以形成多维视图。

第二步,构造多维视图。先选取Date维(按学期组织)、Class维(按专业班级组织)用二维形式表示每个专业班级各学期的成绩状况。然后加入第三维Course维(按课程组织),进一步构建成绩分布的三维视图。视图显示的事实是Course_Class_Analyse(课程专业学习情况)。

第三步,创建多维数据模式。最流行的数据仓库数据模型是多维数据模型。最常见的模型范例是星型模式。

4、1、4应用OLAP技术

OLAP,即在线联机处理。应用OLAP技术可以很方便地从Web数据矩阵中作出一些简单的结论性分析,如回答一些问题:(1)哪些专业班级学习情况较好,哪些较差?(2)哪些专业课程成绩较高,哪些较低?我们可以充分利用多维数据模型上的OLAP操作,如下钻(drill-down)、上卷(roll-up)、切片分析(slice)和切块分析(dice)等技术对问题进行求解。

4、2 挖掘模式的有效应用

应用数据挖掘技术可以自动发现学生学习倾向和专业发展趋势。

4、2、1数据挖掘技术应用的范围

虽然现在已有很多学校都建立了自己的教务管理网站,但教职工与学生仅仅只在Web上进行成绩的登录和查询。这样的教务网站只是提供了收集数据的快捷途径,并没有从根本上体现本身应有的应用价值。教务系统希望能够从其门户网站中收集大量原始数据,并依此发掘更深入的服务信息。同时,学校高层也希望能从教务系统中发现学生的学习情况,课程计划的实施效果等。这些都需要从海量的教务数据中应用特定的挖掘模型反映出来。基于此,对于下一次培养计划的修订才有现实的数据支撑。

4、2、2应用挖掘模式提取和分析知识

根据不同的应用要求,在数据挖掘模式中选择合适的方法进行计算,提取有效数据,得出知识。对于教务系统而言,可以应用聚类方法确定特定不同成效的学生与课程的分布,从而识别出一些问题:

(1) 对于某个专业班级,哪些课程学习效果较好;

(2) 对于学习效果较好的课程,是因为教学效果好,还是开课计划恰当;

(3) 对比同一门课的不同专业班级,以辅助各学院分析培养计划的适应性。

5 结束语

关于DW and DW 技术对教务数据分析的应用,还有许多值得继续深入研究。但是,不论从哪个方向进行研究,都必须要以提高教务处理能力为宗旨,让教务资源发挥最大的辅助决策价值。

参考文献:

[1] Colin White、 Data Warehousing: Cleaning and Transforming Data [M], InfoDB, 2002、

[2] 林宇、 数据仓库原理与实践[M],北京: 人民邮电出版社, 2003、

数据分析方向篇4

一、大数据背景下的数据管理理念

首先要明确几个基本理念:一是要高质量地满足外部监管要求。与业务主管部门工作性质不同,数据管理工作第一任务就是满足外部监管要求,确保不出监管责任事故,这是数据管理工作的基础和底线。二是数据要与业务紧密结合,数据对客户营销、业务发展、产品创新和风险管理都具有越来越重要的作用。数据分析不清楚、数据挖掘不充分,直接影响业务发展。三是为业务发展提供决策支持。通过数据分析,满足行领导在管理决策中所需要的信息,包括内部管理、业务发展、客户营销、风险管理等各个方面;为所辖分支机构、各业务条线提供数据服务。

二、数据管理工作转型规划

(一)明确数据是一种价值资产,不再刻意追求精准性而是强调数据的分析预测功能,关注相关性而非因果性。

银行的一切活动都被数据化,客户的每一个行为、资金流转的每一个细节、每一个决策、每一次交流都成为数据,这些数据一旦得到深入分析使用,会深刻改变银行创造价值的模式。数据的价值在被发掘后还能够不断产生新的价值,其真实价值就像浮在水面上的冰山一角,绝大部分都隐藏在表面以下。

大数据时代,为了收集到数量庞大的信息,我们需放弃严格精确的选择,因为储存和处理都不再是问题,大量结构化、非结构化数据看似垃圾,但垃圾数据里可能蕴藏着巨大财富。

关于信息数据统计与业务经营决策的结合,要相关性分析不要原因分析。数据爆炸使得科学的研究方法都落伍了,无需理论指导的纯粹的相关关系研究已经逐步取代了大量的传统研究范式。例如对冲基金通过剖析社交网络上的数据信息预测股市走向,京东和亚马逊根据用户在网站上的类似查询来进行产品推荐,微博通过用户的社交网络图来猜测其喜好。

(二)建立完善的数据管理体系

首先加强部门协作,共同实现大数据应用目标。业务部门要切实承担大数据采集、分析、应用的职责,数据管理部门要对大数据工作进行组织协调、集中管理、加强推动,尤其是支持业务部门加强数据挖掘分析;其次数据统一管理,数据管理部门统一管理数据,树立数据权威,避免数据孤岛。其它部门不能再随意自行定义数据、做自己独立的数据系统,不能再重复过去那种落后的零散的数据采集和管理方式;再次配备高素质人才,这是实施大数据管理的关键。一方面要从内部培养,数据管理人员要不断学习新的数据分析技术,掌握新的分析工具,另一方面要采取措施多补充一些人才,包括招收一批专业性强的学校毕业生、面向社会招聘一些高素质的数据管理和分析人才;最后加强对数据采集工作的管理,建立数据真实性完整性责任机制。完善基层人员提供准确、完整数据的责任和职责,建立责任机制和良好数据文化,对提供数据不真实、不完整、不及时的行为要进行追责。

(三)强化数据服务和数据挖掘分析,由管理报表工作向经营与管理数据并重,重点满足业务转型需求

报表管理固然是信息监管统工作的第一要务,但工作重点应转向更多地向业务一线、营业部门和业务条线输送数据、分析报告和分析结果,支持业务部门使用数据。数据管理部门不能仅局限为数据统计部门,要构建真正的问题导向型机构,重点关注业务发展中的问题,通过大数据分析和大数据应用,帮助业务部门一起解决问题。一是要主动搜集各机构、各部门和各条线的数据需求,并充分发挥数据管理部门的专业优势,进行深层次的挖掘和分析,满足各机构、业务部门在精准营销、风险防控、经营管理等方面的需求。二是要引导下级行充分利用现有数据资源,主动用好数据。总行层面梳理全行的数据资源,使分行全面了解全行数据资源,进而实现通过数据支持预测和决策、服务转型目标。三是整合外部数据资源,通过多种途径解决外部数据引入。对于区域性的外部商业数据,各省分行可根据需要自行采购,对于全国性的外部数据需求,总行层面统一进行采购,从而实现全行数据资源共享,以满足各机构业务转型发展对于数据的迫切需求。四是做好数据安全管理和权限取数管理工作,取数、用数要符合安全要求和管理制度。

(四)完成要全体不要抽样观念的转变

以前采样统计的目的就是用最少的数据得到最多的信息,而现在大数据更强调数据的完整性和混杂性,反而能够帮助人们进一步接近事实的真相。大数据中的“大”不是绝对意义上的大,它是指不用随机分析法这样的捷径,而采用所有数据的方法,全数据模式,样本就是总体。

从大数据的角度看,统计的主要精力应该放在趋势性、时效性和前瞻性等战略分析上。作为一个大型国有银行,若在跨业务、跨部门的系统之间去追求简单的数据一致性,是存在偏离统计主要发展方向的。如在判断是否应该向某些拥有不良信用记录的人提供小额短期贷款,传统的信息评分机制关注少量突出的事件,比如一次还款的延迟等,而大数据则分析了大量不那么突出的事件,会大大降低贷款拖欠率。

总之,国有银行需要改变大数据理念和数据操作方式,将数据分析作为统计的亮点,而不仅仅是数据管理;建立完善的数据管理体系,不再把精确性当成重心,而是接受混乱和错误的存在;侧重于分析相关关系,而不再寻求原因分析;完成要全体不要抽样观念的转变。切实让大数据管理工作成为我行实现战略转型、提高经营效益、有效降低经营风险的法宝,也成为我们解决面临的困难和问题、重塑核心竞争能力的关键。

参考文献:

数据分析方向篇5

随着计算机技术和互联网以及物联网的不断发展,各种系统结构化和非结构化数据以前所未有的惊人速度迅猛增长,“大数据”时代已经到来。大数据是指数据结构比较复杂、数据规模大的数据集合。其数据量已经远远超出了一般数据管理工具可以承受的处理时间以及数据处理及存储管理能力。在当今大数据环境下,高校管理系统的数据结构及数据量发生了巨大的变化。在数据存储、数据管理、数据分析及数据挖掘等方面面临着巨大的机遇和挑战。为了有效地利用大数据为高校决策分析提供更好的服务,我们必须基于大数据建立相应的决策分析系统。

目前许多高校已积累大量的教学资源和管理数据,从而形成了规模巨大、结构复杂的数据集,为高校的教学管理决策提供了强有力的支持,成了高校教学管理不可缺少的一部分。随着教学改革的不断推进,高校对数据的需求已经从原来的简单事务处理方式转向面向信息分析处理、数据挖掘及决策支持等。因此,针对现有的大数据集合建立决策分析系统,对高校决策分析具有重要的实际意义。决策分析系统是目前知识发现和数据管理领域中的一项重要技术,它基于神经网络算法、机器学习及人工智能等方法进行数据挖掘和知识发现,从而在大数据中获取数据之间内在的相互联系,以及其中可能存在的某种规律,从而帮助决策者快速做出正确的决策,进而提高高校教学管理的科学性,为高校带来良好的决策管理。

1 基于大数据决策分析系统的数据存储方式

高校基于大数据决策分析系统存储数据主要是从校内外各种数据源中获得最原始数据,并对该部分数据进行整合形成数据层,然后将数据层中的数据经过抽取、清洗、转换、装载进入数据仓库从而形成支撑层,在支撑层的基础上,可以根据需求对数据进行挖掘分析,从而构建决策层。当前高校基于大数据决策分析系统的数据存储方式包括基于关系数据库的存储、基于多维数据集存储和虚拟化存储3种数据组织方式。

1、1 基于关系数据库的存储方式

该存储方式主要依托关系数据库存储数据,基于关系的数据存储方式是将分析决策系统中的数据存储在关系型数据库的表中,同时在元数据的管理下进行数据存储管理,从而完成数据分析、决策支持功能。该存储方式在构建数据库时主要采取以下步骤进行数据的抽取:首先,利用图形化的操作界面进行操作,用户能够对关系数据库的数据进行选择操作,同时可以建立和定义多维度数据模型;然后,采用特定程序从关系数据库中抽取某一维度数据。基于关系数据库的存储方式不是简单的从业务系统中抽取数据,而是对业务系统中的数据进行清洗、加工、汇总和整合,从而保证基于大数据分析决策系统内的需要,是针对高校全局的一致的数据。总之,基于关系数据库存储方式要求将学校内各个业务系统的原始数据整合,从而用来支持特定的查询、统计分析和决策支持,以便管理层对某一阶段历史数据进行统计分析。

1、2 基于多维度的数据集存储方式

基于多维度的数据存储方式和基于关系的数据库存储方式不同,是采用数据立方体的方式管理与存储数据,同时以多维度显示与组织数据,是一种基于在线联机分析处理(OLAP)的数据组织形式。该数据存储方式主要采用多维数组结构文件进行数据存储,同时具有不同维度索引及数据管理文件与数据一一对应。该数据存储方式采用“多维数据集(CUBE)”,多维数据集将传统的二维关系表组合成多维数据立方体,数据属性对应为维度(Dimension),在数据属性下的值被称作度量(Measure)。也就是说,将数据由传统的二维关系表组合成多维度立方体,在数据立方体上进行切块(Dicing)与切片(Slicing)、旋转(Turning)、上卷(Rolling-up)、下钻(Drilling-down)等一系列操作(如图1)。

图1 数据立方体的上卷、下钻等一系列操作

1、3 基于虚拟化的数据存储方式

虚拟化存储方式主要有两种存储方式,第一种是将企业内外部结构化和非结构化数据整合到单一的数据存储平台上,从而形成一个单一的数据存储资源池,这样有利于存储基础设施进行统一管理,从而容易实现数据资源共享、存储容量回收和存储空间最大化利用,进而更好的实现存储设施的重复使用,最终实现提高存储基础设施容量效率,以满足当前基于大数据的决策分析系统的需要。第二种存储方式是仅从逻辑上进行整合,也就是说,决策分析系统中没有专门的存储空间,系统中的所有数据一律存储在源业务系统的数据库中,根据决策分析系统的不同维度的需求,业务系为决策分析系统提供数据接口,形成针对决策分析系统的维度视图,决策分析系统临时从业务系统数据库中提取所需数据,从而完成不同维度的数据分析。该存储方式实现简单、成本底,但最大弱点是对业务系统数据规范性、完备性要求极高。同时,还要求业务系统数据模型应非常接近决策分析系统的多维数据模型。

2 基于大数据高校决策分析系统的层次结构

根据高校管理决策需求的特点,首先将当前各信息系统的信息如学籍信息、学工信息、招生就业信息等当前及历史数据和一些其它辅助数据经数据抽取、清洗、转换、装载进入数据仓库,在数据仓库的基础上进行数据挖掘。基于大数据的高校决策分析系统应该三层,分别为数据层支撑层和决策层(如图2)。

图2 基于大数据的高校决策分析系统层次结构

2、1 数据层

分析决策系统的底层是数据层,该层是构建决策系统的数据仓库的基础。数据层包括校内外的各种数据源,内部数据源主要包括学校的各种应用系统的数据库、数据中心的各种备份数据库和存档、以及学校内的各种其它数据资源。外部数据源包括学校之外的各种数据库和数据资源。从而形成一个内容覆盖面广且时间跨度长的海量数据仓库,位学校决策支持提供了庞大的数据基础。

2、2 支撑层

支撑层作为决策层访问数据层的桥梁,有效的解决了分析决策需求目标难以量化的特点,该层对不同数据源中数据进行收集、分类、抽取、清洗、转换从而装载到数据仓库,通过数据仓库可以对不同数据源进行统一管理,可以为决策层的各种应用提供了标准接口,从而可以构造面向主体分析的更高粒度的数据集市。同时,支撑层将数据仓库中的数据按照特定的层次进行汇总聚合,构成数据分析的多维视图。以便决策层从不同角度进行分析使用。

2、3 决策层

决策层由通用平台和面向主题平台组成。为了适应决策需求不稳定的特点,通用平台是提供一些简单分析模型和常用的数据挖掘方法,以便在通常情况下不必建立专门应用分析系统。极大提高了决策支持系统的灵活性和通用性。针对相对稳定且复杂的决策需求,面向主题平台从数据仓库抽取特定数据,建立面向主题的数据集市,建立面向主题的分析系统。

3 基于大数据分析决策系统的系统实现

基于大数据高校分析决策系统建设的总体思想是,不考虑数据源中数据的结构化问题,首先由高校管理方面的专家将所积累的管理知识整理,然后把这些知识转化成集计算机可以识别和存储的语言,从而形成知识库。其次,依靠知识库和专家知识从各种数据源中提取有用的数据,对数据进行收集、分类、抽取、清洗、转换后以新的组合形式储存到数据仓库中。在数据仓库中,经过分类、抽取、清洗、转换后的数据是以一系列元数据的形式存储的。最后,在数据仓库的基础上,可以建立通用的和面向主题的分析平台,从多维度进行统计分析,最终为不同层次决策者提供支持。因此,该基于大数据的高校决策分析系统的体系结构由数据源、数据收集、分类、清洗、转换、存储和管理、数据挖掘及知识发现、分析决策等部分组成(如图3)。

图3 基于大数据的高校决策分析系统的体系结构

3、1 数据源

数据源是指来学校内部或外部的各种结构化和非结构化的数据,这些数据可以是来自关系数据库,也可以是非关系数据库的数据,例如学籍信息、学工信息、人事管理信息、图书信息等为结构化数据。非结构化数据如教学视频、存档的试卷信息等,数据源是学校决策支持系统获取各类教学管理信息的来源,从数据源获取的数据经过分类、清洗转换、及相应的处理后存入数据仓库,作为分析决策系统的基础数据。

3、2 数据收集、抽取、分类、清洗、转换

该步骤主要完成数据的收集、抽取转换、清洗和监视等工作。目的是对来自不同数据源的信息进行整理,同时把有可能影响分析决策的数据转换成系统的数据格式;数据清洗是为了是保持数据的一致性,同时减少系统中的数据冗余;同时监视数据源上数据的是否发生变化,发现信息源的数据发生变化时,定期对数据源数据进行收集进行数据、抽取、分类、清洗、转换,以扩充和更新决策系统中的数据信息。

3、3 数据存储及数据管理

数据存储主要对数据仓库中的结构化和非结构化数据的存储和管理,数据仓库中存储了海量与高校决策有关的重要数据。支撑层中的知识库存放了大量的决策分析的共性知识、教育法规、学籍管理规定等;模型库存放决策分析的系统运行模型和处理模型,同时整个数据仓库的数据存储采用元数据管理,数据存储及管理主要负责数据仓库的数据同步、整合工作。

3、4 数据挖掘及知识发现

数据挖掘及价值发现主要采取机器学习、神经网络、知识处理等技术和传统统计学算法及计算智能(遗传算法、模糊集等)和数据库相结合的方法,从数据仓库的大数据中挖掘隐藏的规律,也就是说数据仓库中挖掘和发现知识,掌握大数据间存在的某种相互关联、提取面向主题的信息进行分析,为各种管理决策层决策提供有效的依据。

3、5 决策分析

决策层主要由面向通用的分析平台和面向主题的分析平台组成, 面向通用的分析平台是针对学校教学改革的推进,管理需求存在不稳定的特点,提供一些简单分析模型和常规的数据挖掘方法,可以为管理层提供快速决策的参考。针对相对稳定的学校战略决策需求,可以从数据仓库中抽取面向主题数据,从而建立数据集市,开发面向主题的决策平台。对于学校的各个管理层决策,可以利用这些通用分析和面向主题分析平台,从而进行多维度的综合分析,从而制定出学校的战略决策和日常的管理决策。

数据分析方向篇6

[关键词]大数据 大学生 个性化就业指导

[作者简介]张家明(1976- ),男,湖北武汉人,武汉理工大学信息工程学院,副教授,硕士,研究方向为高教管理和大学生思想政治教育。(湖北 武汉 430070)

[中图分类号]G647 [文献标识码]A [文章编号]1004-3985(2014)24-0098-02

20世纪60年代初,美国麻省理工学院的气象学家爱德华・洛仑兹在研究时发现,当系统产生随机行为时,系统的初始条件取值稍有变化,所求的结果随时间的推移,前后两者就会相差越来越大,即产生随机行为的系统具有对系统初始条件的敏感依赖性。这就是“西双版纳的蝴蝶扇扇翅膀,日本就可能刮起飓风”。

西双版纳与日本相距万里,但仅仅是蝴蝶展翅这样微小的动作,也能够造成日本飓风这样巨大的影响。它所表达的理念是,耗散结构的运作,对于起始状态极为敏感,绝不能等闲视之。这就是“蝴蝶效应”,即初始条件的细微变化导致系统未来长期行为巨大差异的系统特征。因此,没有任何东西能够比蝴蝶效应更完美地表达出信息时代的“大数据资产”的高校教育管理战略思想,所有重大的变化,都只不过是一系列数据积累的结果,而这一系列数据最原始的出发点,就是蝴蝶效应中蝴蝶摆动的那几次小小的动作。

一、大数据技术应用于大学生个性化就业指导的重要性

随着因特网、物联网、云计算、移动互联网、手机、平板电脑等数据来源和数据承载方式的飞速发展,全球数据量出现爆炸式增长,大数据带来的信息风暴正在变革我们的生活、工作和思维,大数据时代已经来临,2013年也被称为中国的大数据元年。高等学校作为人才最密集、思维最活跃、网络技术知识运用广泛的前沿阵地,高校的教育、管理和服务模式以及师生的思维方式、行为观念、学习习惯等必将受到大数据浪潮的深刻影响。

据统计2013年高校毕业生总数达699万人,目前国内整体就业形势仍然不容乐观。如何做到查明毕业生情况、了解就业市场趋势,是高校开展大学生就业服务工作的难点之一。本文以大数据时代为背景,通过大数据分析技术创新高校大学生就业工作,实现就业指导从共到个性化服务,从粗放服务到精准服务的转变。

当前,学校就业管理部门通过历年就业白皮书掌握毕业生资源基本信息、用人单位与招聘需求信息、毕业生流向、毕业生求职意向和择业行为调查、毕业生对就业工作意见等海量数据;另外,高校学工部、教务处、校园一卡通中心、相关学院部门等具有完备的学生基本信息、成绩、校园卡消费、图书馆借阅以及学生日常表现、性格特点、兴趣爱好、奖惩情况、与家长沟通等个性信息。此外,互联网上的微博、微信、QQ空间、QQ群、人人网、飞信以及校内外各类BBS贴吧和搜索引擎也蕴含着学生大量的思想状况、情绪波动、交友择业等动态信息。本文在分析上述大学生海量数据基础上,完善针对大学生个性化就业指导的大数据模型及相应分析算法,为大学生个性化就业指导提供更加客观、科学、准确的数据、算法和模型支撑。通过大数据技术预测学生的就业行为趋势,对其提供更有针对性的就业指导服务。

二、高校大学生个性化就业指导大数据分析

1、多样数据的定义和获取。多样数据应首先包含传统就业数据,即就业形势分析、就业政策、求职技巧、就业推荐信息、就业讲座信息、招聘单位、招聘会信息等;其次,个性化就业指导是根据学生的个性化信息进行“靶向”指导,需要了解学生的基本信息,包括主修专业、学习成绩、兴趣爱好、培训经历、就业意向等尽可能全面的个人信息;再次,多样数据应包括已毕业、就业学生的个人基本信息、就业去向、当前发展以及就业行业、岗位数据,囊括岗位性质、基本要求、素质要求、发展前景、成长路径等信息;最后,多样数据应包含获取的网络海量,此类信息将作为数据分析参照,为学生个性化就业提供相关性参考。

大数据的基础是海量信息数据,要进一步拓展多样数据的采集途径,并且使采集来的存储数据易于提取,能够被按照一定的条件搜索出来。另外整合学校不同部门的资源信息,同时将收集网络海量信息以期达到最大效果。

2、面向大学生个性化就业指导的大数据模型及分析方法。获取大量个性化就业指导多样数据后,便可以开始进行就业指导“大数据”分析操作,即建立分析模型、构造数据算法进行数据分析。面向就业指导的大数据分析模型应具有全面性,尽可能掌握限定范围内的“全样”而非“抽样”;分析模型更加注重效率,注重分析结果的时效性和动态变化而非精确性;对学生进行个性化就业指导更注重相关性而非确定指向性或因果性。

3、大数据分析原型系统的设计开发。通过原型系统的大数据分析,指出当前大学生的就业需求和趋向,分析学生就业单位的普遍水准和质量,为就业管理部门协调组织用人单位来校招聘提供重要参考;同时对学生个性化信息的分析,可以帮助就业指导人员实施个性化就业指导,增强就业指导的针对性和有效性。原型系统设计和测试初期以电子信息类大学生为例,“全样”采集电子信息类在校学生和毕业两年内学生的基本信息,收集学生的个性信息及相关网络数据,整理历年来电子信息类用人单位信息,进行大数据分析实测。

4、加强就业指导中的思想政治教育工作。当前就业单位对大学毕业生的就业能力和职业素养要求越来越高,大学生思想观念不断变化,大学生就业指导工作已由单纯的就业指导转为世界观、价值观、人生观和职业道德的思想政治教育。个性化就业指导首先是对学生择业观念的教育引导,帮助大学生树立正确就业观念,避免盲目跟风、随波逐流、人云亦云的就业思想,同时提高对数据信息的敏感性,主动收集、整理并认真分析。

三、大学生个性化就业指导大数据分析应注意的问题及建议

1、大数据分析应防止“三脱钩”问题。首先,防止大数据与大学生个体脱钩。随着互联网的发展,大数据时代的到来,谁掌握了大数据分析,谁就掌握了主动权,将大数据分析应用到大学生就业指导,就是掌握了信息化时代对大学生就业指导的主动权,实现更高效、更准确、更个性的就业指导。但是,面对大数据的浪潮,我们应该保持冷静,大数据的载体是大学生,不能只见数据而不见人,防止变大数据分析这一手段为目的,本末倒置。明确认识到大数据的背后是大学生的思想行为,涉及的是大学生的思维方式、行为习惯。大数据分析的最终目的不是数据的积累和模型的建立,核心价值在于引导大学生树立正确的世界观、人生观和价值观,促进大学生健康成长、成才。

其次,防止大数据与真实性脱钩。大数据时代,大学生获取信息量大、速度快,但是信息的价值密度低,大学生自身的价值体系并没完全成熟,无法准确理性判断信息的真伪,这直接影响大学生在互联网上各种平台如微博、QQ、人人网等即兴发表的言论的真实性。海量信息必然影响信息的质量,当我们将大数据分析应用于大学生个性化服务和指导时,也应注意分析搜集到的大学生信息的准确性,如果大数据本身存在偏差,必然使大数据分析的价值效应大大降低。

最后,防止大数据分析与社会实际脱钩。大数据分析的价值在于现实应用,即通过大学生全方位信息的掌握,全面认识大学生个体的优势与劣势,了解社会发展趋势及就业市场人才需求,更加科学地指导大学生实现适合自身特点的和谐性就业,实现学生、学校和社会的多方共赢。我们应该注意,大数据分析不能脱离社会实际,尤其是高校的大数据分析不能忽视学生个体的特殊性和本校、本地以及就业市场的现实条件,在避免抹杀大学生个性的同时,要更加注重防止大学生的成长成才与社会需求脱钩。

2、大学生个性化就业指导的大数据分析要努力增强科学性。高校中的大数据分析应用无疑能引发高校的“蝴蝶效应”,产生一系列翻天覆地的变革,变革意味着创新,而在创新过程中,由于新事物自身还不完善,对新事物的了解不透彻,容易迷失在信息的海洋,出现如上所述各种问题。鉴于此,大数据分析在大学生个性化就业指导中的应用如下:

首先,应该增强大数据分析的针对性。增强现实针对性,就是要将大数据分析及各种系统与模型的建立与大学生的需要结合起来。大数据分析是将高校的大学生就业指导与大学生需求紧密联系起来的桥梁,是为大学生成长成才服务的,我们不能一味追求大数据的“大”,而应该根据大数据分析和模型,了解大学生的现状,满足大学生的需求,实现学校与大学生的良性互动,指导大学生树立正确的就业观和成才观,从而使大学生走出校门后,能与社会所需人才岗位无缝对接,并在工作中体现自身的人生价值。

其次,要增强大数据分析的准确性。信息化时代,大学生思想活跃,对大学生的指导和教育难度必然加大,应组织各类别专业力量找准入口,拓宽渠道,搜集、甄选数据。充分利用辅导员长期在一线获得的大量实际信息以及学工部、教务处等记录的学生信息,通过与网络信息对比结合,准确提炼,分析加工各种信息,筛选出有价值的数据,提高大数据分析的准确性和客观性。此外,还需要培养一支专业队伍,为大学生个性化就业指导提供专业的数据分析和智力支持。

最后,要增强大数据分析的系统性。当前大学生就业难成为社会一大难题,这一问题使得高校就业指导必须进行调整,大数据分析的应用无疑为就业指导提供了新的技术和方法。但大数据分析尚处于初步发展阶段,我们应该建立一套有序、动态、系统的运行管理机制,随时根据大学生和外界的变化,对数据系统进行合理调整。大数据分析的应用还要设立一套严格的标准,这样才能保证大数据的分析应用不脱离客观现实,提高大数据分析对大学生个性化就业指导的科学化水平。数据分析模型建立后,还要注意与社会各类系统的信息共享,建立完善反馈机制,不断为数据分析模型增添新鲜血液,保持数据分析模型的持续生命力。

四、结束语

“大数据的核心就是预测。”大数据的主要功能就是通过数据算法分析海量数据,预测出事情发生的可能性,但目前大数据应用于大学生个性化就业指导方面还存在一些问题,笔者下一步加强和改进的计划包括:拓展多样数据采集途径和完善大数据分析模型及算法,结合大数据技术建立主动学习的“就业云课堂”,为大学生个性化就业指导提供更加客观、科学、准确的数据、算法和模型支撑,最终预测学生就业行为趋势,实现大学生的个性化服务就业指导服务。

[参考文献]

[1]胡逸、运用大数据技术促进大学生就业[N]、中国组织人事报,2013-09-04、

[2]梁家峰、适应与创新:大数据时代的高校思想政治教育工作[J]、思想教育研究,2013(6)、

[3]桑庆兵、大数据在高校的应用与思考[J]、南通纺织职业技术学院学报,2013(2)、

数据分析方向篇7

——IBM彭明盛

一、新的计算理念与潮流

综合各方面信息显示,未来全球技术最有潜力的方向包括:移动互联网、可扩展的企业服务生态网络、软件定义的系统环境、感知环境的企业、多媒体理解和可视化分析等等。这些发展都是以认知计算与数据科学的创新突破为前提的。例如,移动互联网下一代的发展方向是语义网(WEB),大数据正在引发数据科学的突破(鄂维南院士认为“数据科学将逐步达到与其他自然科学分庭抗礼的地位”)等等。因此从认知计算和数据科学角度观察IBM创新的方向,捕捉其中蕴含的全局方向性的信号,非常有意义。

从认知计算和数据科学角度看,IBM的智慧的运算,有几个关键之处,代表了未来真正的方向。

首先是情境计算的概念。目前国内外都有一股潮流,把大数据引向集中计算方向。例如把大数据理念片面引向决定论的宿命论,把大数据当成了集中模式的网格计算,在认知计算孤立迷信数学算法,将大数据应用引导到建设集中模式的BI上面。这会整体误导个性化定制的技术方向。

我在国内外同IBM的科学家交流中有一个共识,认为这不符合图灵的初衷,违背了人工智能、认知科学在人机关系上的平衡。情境计算可以视为一个方向上的纠偏,IBM在这方面的创新正在颠覆冯诺依曼体系。IBM研究中心(IBM Research)计划领导人Dharmendra Modha表示:“感知电脑必须能整合来自情境依赖形式(context dependent fashion)下不同传感器的输入信息,才能接近人脑的实时感觉运动反馈回路(sensory-motor feedback loop)。”IBM中国开发中心首席技术官毛新生也认为,在将来的企业整合(enterprise integration)和情境加速(context accumulation)中,人们的关系将从交易变为交互体验,转向了感性,其中蕴育着对算法突破的需求。

目前除了IBM之外,已有越来越多主流公司如微软、英特尔都认同情境感知(Context Awareness)这一方向。包括一向迷信数学算法的谷歌,在Facebook新算法的冲击下,也开始相信情境计算。

与这一计算方向最终同步的,将是商业上的情境定价(Contextual Pricing)模式,情境定价自美国去年12月兴起,将在多年后在中国广泛为人们认知。届时人们会彻底颠覆现在搞反方向的个性化定制。

其次,IBM对分析洞察的强调,对大数据的流俗理念也是一个纠偏。目前大数据的流俗理念普遍强调大数据的客体特征,而忽略其主体特征。IBM则以智慧来解大数据。智慧是人的特征,而非物的特征。数据只是物,是工具手段,只有同人的目的结合起来,转化为智慧,才是有用的。为此,IBM在强调大数据的3V——数量(Volume)、多样性(Variety)、速度(Velocity)——同时,着重强调第四个V,即真实性(Veracity)。IBM认为真实性是当前企业亟需考虑的重要维度。强调分析洞察,就是为了把数据转化为真实性判断。否则,大数据只能“乱花渐欲迷人眼”,让人愈发不智慧。

在这个方向上,IBM明确以"智慧的分析洞察"为核心的大数据战略,在"大数据平台"外,特别提出"大数据分析",两手都要硬。这是与众不同之处。

这对行业与企业尤为重要。因为按现在的搞法,弄了一大堆数据,却没有加工能力,就好比煤采出来了,却没法加工利用。IBM是目前业界唯一能够集咨询、服务、软硬件综合实力,提供端到端全面整合解决方案的厂商,致力于帮助用户通过大数据分析,向着更具洞察力,反应力和协作力的方向持续转型。

为此,IBM对企业提供了五项面向商业价值而非技术价值的关键建议,包括:以"客户为中心",制定前期"大数据战略规划"、制定全面完整的企业"大数据蓝图"、从现有数据入手,设定并完成短期和阶段性的"大数据战略目标"、根据业务优先级,逐步建立分析体系,循序渐进提升"大数据分析能力"以及定制可衡量的指标分析"大数据 ROI(投资回报率)"。这无疑是一个正确的方向。对当下以自我为中心,为技术而技术的大数据错误潮流,是一个有力的纠正。

二、新一代智慧运算体系的启示

当前大数据还面临初级阶段发展的特有问题,发展不成体系,呈现把行业当业务去做的“大规模的小生产”现象。但凡成点规模的公司,人人都想定制出个大数据系统,由于缺乏底层科学基础,弄得顾头不顾尾,封闭有余,开放不足,虽可以满足一时应用,但给将来的升级和持续发展留下隐患。相当于给未来的大个子穿上了一件小衣服。

作为行业领导者,IBM的智慧运算体系及时给大家做出了示范,我们可以从中看出适合未来产业做大后的体系框架。

"智慧的运算"提供了一种数字平台,用于整合硬件、基于分析的软件、网络管理服务和虚拟化,整个基础架构正在变得可以由软件定义,且工作负载可被所需分配到可编程的基础架构上。这一平台可通过三个主要特征来描述:

1、 为大数据设计(Designed for Big Data)。大数据和信息集成功能可以从大量数据中获得洞察力,从根本上改变公司使用信息的方式。

2、 由软件定义(Software-defined Environments)。为了应对当前的数据数量、多样性和速度,企业数据中心必须更动态、更灵活,在"由软件定义"的环境中,网络、存储和服务器以及软件可以随需地根据工作负载进行调试。

3、 开放协作(Open and Collaborative)。只有通过开放标准和平台,企业才能在当前丰富的创新生态系统中支持日益增多的非结构化数据、设备和服务,并且开展业务。

这三个特点,代表了三个重要的方向,都很有针对性。

目前许多厂家搞出的大数据,更象是为一大堆数据设计,而非为大数据设计。缺点是看不出给未来分析加工留下的发展纵深在哪里。举例来说,大家一窝蜂都去搞互联网支付,但将来形成的数据怎么处理?现有方案多是为自己处理数据设计,而没有考虑将来外包数据分析的需要。一旦各行各业发展起细分的支付信息分析需求和分析能力,这样的系统不可能象自用那样,为别人一一定制。就会出现当年用友的“定制”不受行业认可那样的尴尬局面。所以光有大数据平台还不够,还需要分析平台,分析生态系统设计甚至硬的分析实力。到2015年IBM在大数据分析方面的收入将有望达到160亿美金。这方面投入值得注意。

由软件定义不难,但关键难在“更动态、更灵活”。最早的时候,要实现行业与业务扩展,需要对软件系统不断进行定制,成本极高;后来SOA、中间件兴起,情况在PC时代得到极大缓解;但在移动互联网和云计算时代,更加复杂的应用环境,要求架构上的进一步创新。IBM在这方面的创新,可能代表一种新的方向。其特点类似于把软件做成一个松耦合体系,一方面是半成品软件(相当于面向体操规定动作),另一方面是根据应用待定的编程接口系统(相当于面向体操自选动作)。特别之处在于,将来APP部分是否会向自组织编程方向发展,值得密切关注。

数据分析方向篇8

整个系统以广电大数据分析平台为基础构建,系统由数据采集系统、数据分析中心、三个数据应用中心(推荐中心、决策中心和服务中心)组成和系统管理模块组成。

1、1数据采集系统

大数据时代,大数据有着来源复杂、体量巨大、价值潜伏等特点,这使得大数据分析必然要依托计算机技术予以实现、因此从两个方向上加强数据采集统建设,一是侧重于数据的处理与表示,强调采集、存取、加工和可视化数据的方法;二是研究数据的统计规律,侧重于对微观数据本质特征的提取和模式发现,在两个方向上的协同、均衡推进,以此来保障大数据平台应用的稳健成长和可持续发展、广电的网络和用户是其核心资产,而其中流动的数据(包括用户基础数据、网络数据、网管/日志数据、用户位置数据、终端信息等)是核心数据资产、对于广电运营商来说,最有价值的数据来自基础网络,对于基础网络数据的挖掘和分析是运营商大数据挖掘的最重要方向、因此其数据采集的目标包括机顶盒数据、CRM数据、帐务数据、客服数据、运维数据、媒资数据、GIS数据、财务数据和其他手工录入、表格数据、采集频率要求可以实现实时采集和定时批量采集、采集这类数据带来一个问题就是各类数据杂乱无章,会导致数据质量问题越来越严重,通过引进实时质量监控和清洗技术,建设强大的分布式计算和集群能力,提高数据监控和数据采集性能,利用分布式处理技术,实现数据抽取、数据清洗以及相应的数据质量检查工作,保证采集到高质量的数据,将广电大数据中心建设成一个覆盖广电系统全部数据的存储中心,具备采集各类结构化、非结构化海量数据的处理能力、

1、2数据分析中心

广电企业每时每刻都在产生大量的数据,需要对这些数据归集、提炼,广电企业大数据平台建设的意义在于有效掌握规模庞大的数据信息,对这些数据信息进行智能处理,从中分析和挖掘出有价值的信息、在广电大数据分析中需要对直播节目分析、互动业务分析、互联网流量分析、互联网内容分析、广电客户分析、市场收益分析、智能内容推送和广告分析等,通过这类数据分析,能够实时了解广电运营商的经营状况,提供决策支持、因此采用两种方式分析方法对收集到的数据进行分析处理、一是采用在线分析方法技术,使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的、这些信息是从原始数据直接转换过来的,他们以用户容易理解的方式反映企业的真实情况、在线分析策略是将关系型的或普通的数据进行多维数据存贮,以便于进行分析,从而达到在线分析处理的目的、这种多维数据存储可以被看作一个超立方体,沿着各个维方向存贮数据,它允许分析人员沿事物的轴线方便地分析数据,分析形式一般有切片和切块以及下钻、挖掘等操作、二是数据挖掘是从海量、不完全的、有噪声的数据中挖据出隐含的、未知的、用户可能感兴趣的和对决策有潜在价值的知识和规则、这些规则蕴含了数据库中一组对象之间的特定关系,揭示出一些有用的信息,可以为经营决策、市场策划和金融预测等方面提供依据、

1、3数据应用中心

在大数据分析平台应用过程中,数据本身并不是数据分析和数据挖掘的重点,重点在于如何应用这些技术去解决企业在运营中实际的商业问题、通过对数据分析和挖掘,了解企业运行过程存在问题,预判企业中各类业务发展走向、对数据分析与挖掘结果来说主要有两个方面,一是将分析结果给客户使用,另一个是将分析结果提供给内部用户使用,因此在大数据分析平台设计中,将数据应用划分为三个应用中心:

1)推荐中心

推荐中心面向收视、宽带使用用户,通过分析使用用户的收视、互联网、消费等行为,将使用用户分群,总结群体特征,向不同群体推荐个性化的电视节目、广告和增值应用服务、从而提升用户的使用体验,提升用户的满意度和粘度、

2)决策中心

决策中心面向广电企业内部决策者、管理者、经营分析人员,通过对企业经营数据的KPI、运营监控、经营盘点,使企业决策者掌握企业运营状况及发展趋势;智能报告协助分析人员自动定位经营中的问题;即席查询在预定义的语义层基础上,实现灵活的自定义查询;通过主题分析满足各部门、岗位的多维度分析需求;通过专题分析就某一具体问题进行深入挖掘,辅助专业分析人员的工作;统计报表满足各部门常规统计需求、

3)服务中心

服务中心面向广电的合作伙伴,比如:电视台、广告商、服务和内容提供商、相关政府职能部门等、通过对使用用户收视行为的实时分析,将电视栏目实时收视率提供给电视台,电视台根据收视率进行在线的问卷调查,提高电视台的影响力,帮助其增强栏目的评价体系、为广告商提供精准的广告投放策略,实时准确的广告投放评估,帮助广告商提升广告到达率、准确度和营销效果、为服务和内容提供商的电影、电视和增值应用等产品提升收视率和使用频率,并进行评估,为其提供受众喜好特征,帮助其推出有针对性的产品、通过用户收视数据、节目反馈等信息,将相关舆情向相关政府部门汇报、

1、4系统管理

系统管理是大数据分析平台一个辅助功能模块,主要是为了系统管理员对大数据平台进行有效的监控和管理,提升大数据分析平台性能使用,包含有如下几个模块:权限管理、数据质量管理、元数据管理、调度管理、系统监控等、

2数据应用分析

移动互联网的发展为传统行业带来了新的思考,如何在互联网时代更好地实现以客户为中心的服务理念,借助大数据分析平台、海量的客户非结构化的行为数据和传统的结构化数据,可以有效提升广电个性化、人性化的服务水平、大数据分析平台通过整合广电网络中多个数据源,并按照主题进行划分,在定义主题的过程中,提供广电业务概念的规范定义、数据模型不偏重于面向某个应用,而是站在企业角度统揽全局,提供可扩展的模型设计,偏范式化的设计使平台在最大程度上保持一致和灵活扩展性、依托某广电网络公司业务开展情况,搭建数据分析平台,具有如图2所示的主题结构,共计8大类53小类,从广电网络运营的各个方面进行了数据分析、

2、1直播节目分析主题

直播电视节目作为广电运营模式中一直沿用的产品类型,对于广电用户的影响和广电运营商运营模式起着至关重要的作用、实时直播节目分析,用户可以实时查看每个时间点上每个节目收视率,以此为据来指导产品定制、节目选择、用户推广等方面的商业应用,对直播节目的多维度分析,运营商可深入分析直播节目收视特性及受众影响规律,以指导运营优化,提高节目的收视率和营收、

2、2多媒体业务分析主题

广电行业的双向网络改造不仅将视频点播、通信及娱乐业务成为可能,同时配备增值业务,如广告、支付、股票、游戏、付费节目等服务、可以明显看到哪类业务最受欢迎,哪类业务的增长趋势良好,哪类业务应用下滑得较快,哪类业务不受用户欢迎,从这样的分析结果中,可以为广电网络以后的业务引进中提供指导,避免引进的业务不受用户欢迎,同时也可以预见性的引进一些代表将来趋势性的业务,提前做好业务储备工作、互动业务的互动特性为广电运营商增加客户粘度、制定产品投放策略、获取最大化收益及市场价值提供了前所未有的空间,通过对互动业务的应用分析,可以分析出用户的行为趋势、利用这样的分析结果改善广电业务引进,提高用户的粘度和ARPU值、

2、3互联网应用分析主题

广电作为政府宣传的喉舌,一个主要的特点就是可管可控,相对此而言,互联网网络一个重要特点就是用户各类行为的不可控性、在三网融合的新环境下,广电网络一个重大改变就是引进了互联网业务,同时通过多屏互动技术使广电终端类型日益复杂,如何对广电网络引进的互联网业务和终端进行有效的管控,成为摆在广电网络运营商面前一个重要课题、运营商可以清晰地看到用户在讨论什么、在看什么,以此来分析用户将来可能采取的行为趋势,进而来引导用户舆论与行为,实现对广电网络的可管可控的最终目的、同时广电网络也可以利用互联网数据从如下两方面做了分析,运营流量及应用优化,节省网络带宽,减少运营费,同时用以提高用户体验度,增加用户粘性;充分利用线上、线下同步运营模式,深入挖掘线上讨论内容,为线下运营提供指导、

2、4广电客户分析主题

在三网融合的环境下,广电网络在逐渐摆脱事业单位模式下经营模式,向“市场驱动”、“客户驱动”经营模式的转变,“以客户为中心”的理念和策略不可或缺,而广电网络拥有的客户群和常规用户分析的客户群体有着本质区别,以往分析往往针对个体用户进行分析,广电网络面向的用户通常是以家庭为单位的,这给广电网络用户行为分析带来不可预料的困难、通过针对用户群体不同年龄、不同时间段的收视行为和上网行为分析,可以区分某一时间段内该家庭用户内个人的行为,可以清晰看到各类用户在各个阶段的变化情况,以及这个变化给广电网络运营带来的变化、从用户信息出发,以用户应用行为为主线,深入挖掘用户关系,为广电用户关系管理提供有效基础数据,提高用户满意度、忠诚度,提高广电网络市场运作的主动性、

2、5市场收益分析主题

三网融合后,广电网络作为一个市场主体,需要适应日趋激烈的市场竞争环境,提升广电运营商的企业核心竞争力,应充分利用业务支撑系统产生的大量宝贵的数据资源,建立广电企业收益分析系统,实现对收益数据的智能化加工和处理,为市场运营工作提供及时、准确、科学的决策依据、利用先进的OLAP技术和数据挖掘技术,帮助企业的经营决策层了解企业经营的现状,发现企业运营的优势和劣势,预测未来趋势;帮助细分市场和客户,指导营销、客服部门进行有针对性的营销和高效的客户关系管理;对决策的执行情况和结果进行客观准确的评估,深受用户的青睐、如图7所示的收益分析结果,可以清晰看出企业各类业务在营收中所占比例,可以明确了解哪类业务是企业的优质业务,哪类业务需要进一步加强开拓市场,同时也可以预测哪类业务会有更大的推广空间,为企业持续开展业务提供指导、

2、6智能内容推送主题

深层次挖掘用户潜在的需求,以用户的需求为导向,向用户推送有针对性的内容、广电运营商通过对用户差异性的运营策略,激发用户参与的热情,让用户有持续的良好体验,提升对用户的吸引力和黏着度、信息精准、智能推送的关键在于把握住用户的行为习惯,同时让每一个用户都可以按自己需求方便、快捷地调整、归类相关信息、大数据分析平台基于用户行为收集分析系统,挖掘出用户潜在需求,充分了解了用户的真实意愿,将有助于广电运营商建立以客户为中心的服务理念,提升社会影响力、

3总结

    【写作范文】栏目
  • 上一篇:婚礼策划方案(精选3篇)
  • 下一篇:妇科疾病的预防(精选8篇)
  • 相关文章

    推荐文章

    本站专题