高中作文网

计算机网络主要特征(精选8篇)

时间: 2023-07-11 栏目:写作范文

计算机网络主要特征篇1

关键词: P2P; 流量特征; 流量识别; 分类算法

中图分类号: TP393 文献标识码: A 文章编号:2095-2163(2013)03-0001-06

Research on P2P Traffic Classification

LU Gang, ZHANG Hongli

(1、School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China;

2、State Key Lab of Computer Information Content Security, Harbin 150001, China)

Abstract: At present, most bandwidth on Internet is already occupied by P2P traffic、 Monitoring and controlling P2P traffic efficiently has been one of the pressing problems for Internet Service Provider、 In this paper, the current situation of P2P traffic classification is analyzed firstly、 All kinds of present research and related results on P2P traffic classification are pared and analyzed, and then the shortings are outlined、 The features of P2P traffic and network behavior are discussed in detail、 The classifying algorithms in classifier are generalized、 Finally, the main problems in the related research about P2P traffic classification are analyzed and some suggestions for future work are also put forward、

Key words: P2P; Traffic Feature; Traffic Identification; Classifying Algorithm

近年来,对等网络P2P(Peer-to-Peer)已广泛应用于文件共享、实时通信、流媒体传输等技术领域。相关研究表明,由全球视角,P2P流量最高可占据整个网络带宽的95%[1] 。P2P流量的迅猛增长给网络带宽造成了严重的负担,而且还以其近乎对称的流量模式加剧了网络的拥塞状况。因此,对P2P流量进行分类并加以控制,已经成为P2P网络研究的热点之一。

P2P流量分类是利用P2P流量特征,将P2P流量与其他流量,例如E-mail和RTSP(Real Time Streaming Protocol,实时流传输协议)等有效区分,以帮助ISP为不同的业务提供相应的服务质量。目前,网络设备生产商和网络服务提供商推出各种流量分类技术,例如,端口识别技术,DPI(deep packet inspection,深层数据包检测)技术,流统计模式识别技术,行为规则匹配技术等等,这些技术从不同的角度对P2P流量进行了识别与控制。Sen等人[2]首次提出了流量分类技术的原则要求,即准确性、可扩展性和健壮性。

P2P流量分类技术涉及到网络测量、网络行为学、图论、算法设计、统计学、数据挖掘、模式识别等多个基础研究领域。其研究内容可以归结为三个问题:

(1)如何在高速网络环境下进行P2P数据的采集分析。流量分类首先要获取数据,而在高速网络环境下,计算及存储资源的限制给P2P流对象的采集分析提出了新的挑战。

(2)如何识别P2P流量,将P2P流量与其他流量区分开。

(3)如何建立实用的P2P流量模型,以预测和量化P2P流量对网络的影响。

这三方面内容分别涉及到P2P的三个研究方向:P2P的流量测量,P2P流量识别,P2P的流量建模。其中,P2P流量测量是P2P流量识别的基础;P2P流量识别又是P2P流量建模的核心。

本文第1节介绍P2P流量分类研究现状,对目前各种分类技术进行了比较分析。第2节讨论了P2P系统的特征,第3节介绍了目前常用的流量分类算法。最后,给出目前P2P流量分类的主要研究问题。

1 P2P流量分类研究现状

P2P流量分类技术按其发展的时间顺序,大致可分为基于端口的流量分类,基于深层数据包检测的流量分类、基于流量统计的分类、基于网络行为模式的分类、基于人工智能的流量分类技术和分布式协同分类六种。早期的P2P应用程序使用固定的端口号,所以利用端口即可以识别P2P流量,然而,目前的P2P应用程序使用端口跳变技术和端口伪装技术以绕开流量检测,Bleul等人[3]分析DirectConnect网络得出,在已观察到的端口中,70%的端口仅使用了一次。因此,若仅使用端口进行流量分类,势必会造成较高的误报率和漏报率,该技术已不是目前的主要研究趋势,本节主要研究后五种流量分类技术。

1、1 基于深层数据包检测的流量分类

基于深层数据包检测的流量技术(DPI, Deep Packet Inspection)是利用协议分析与还原技术,分析P2P载荷并提取相应的协议特征值,进而判断是否属于P2P应用。Sen等人[2]查阅大量的P2P协议相关文档和包级别踪迹(packet-level traces),提取得出P2P应用程序的特征,设计了一个在线P2P应用分类器。该分类器通过搜索数据报文的负载并利用模式匹配技术得到较准确的流量识别结果。然而,一些P2P协议文档并不是对外开放的,所以基于这些协议的P2P应用程序的流量特征也很难获得,且DPI技术是一种事后处理方案,也就是将很难识别未知的P2P流量。更严重的是,目前越来越多的P2P协议使用应用层负载加密技术,例如,一些流行的Bittorrent客户端,像uTorrent,BitComet,和Azureus都有协议加密功能或者是消息流加密功能,这极大地限制了DPI技术的应用。因此,研究者集中于研究P2P流量和网络行为的本质特征,以提高流量分类的准确性和有效性。第3期 鲁刚,等:P2P流量分类研究 智能计算机与应用 第3卷

1、2 基于流量统计的分类

流量统计分类是一种不依赖于应用层负载信息的技术,主要是利用网络层和传输层的特征来识别流量。流量统计分类一般需要两个特征:包级(Packet level)特征和流级(flow level)特征。包级统计要求分析待聚类的单个数据流的所有数据包长度的期望和方差的变化、数据包到达的时间序列等等;流级统计特征包括流的持续时间、流的大小等等。具体将在第2节详细分析流量统计的包级和流级特征。

Roughan等人[4]统计数据流中包的平均大小,包到达的间隔时间,数据流的平均持续时间等,提出区分大数据块流量(bulk-data traffic)和流媒体的方法,并且利用启发式方法来识别未知的流量。陈庆章[5]等人指出FTP流量和P2P流量各自的流统计特征。 Perényi等人[6]分析了Skype流量的统计特征并提出Skype流量的识别算法。

Sen[7]等人指出,P2P网络最本质的特征是动态性。动态性体现在两个方面:拓扑的动态性和流量的动态性。而流量的动态性会使得P2P流量在某些情况下不具有区别于其他流量的显著统计特征,例如在一个P2P文件共享的系统中,有两个对等体A和B交换文件,按照流统计的观点,可以利用P2P流量比FTP流量的流持续时间更长、流的总长度更大等特点[5],将P2P流与FTP流区分开。但是如果对等体A失去对下载文件的兴趣,而中途离开P2P系统,那么P2P流就不具有区分FTP流的明显特征了。因此,不应忽略网络行为对流量分类的影响,需要结合P2P网络的行为进一步挖掘P2P系统的动态特征。

1、3 基于网络行为模式的分类

基于网络行为模式的流量分类主要着眼于主机的流行度、主机间的连接模式、主机的功能角色以及网络群体行为模式等特征。Constantinou[8]等人通过记录每个节点与其他节点建立连接的情况而得到P2P系统的逻辑连接拓扑图,并计算其网络直径。研究表明,与其他网络形成的逻辑拓扑图相比,P2P系统所形成的逻辑拓扑图具有更大的直径。如果某个网络的直径大于规定的最大直径阈值,并且网络中的既是服务器又是客户端的结点数超过特定的阈值,则认为该网络是P2P网络。可见,阈值的选择直接影响着检测的准确性,阈值太高会产生漏报,阈值太低会产生误报。该方法具有初步的群体特征思想。陈贞翔[9]对Maze、PPlive、Game和Web Thunder等进行研究,得到部分应用的群体特征并建立形成相应的群体特征库。群体特征库完善程度越好,对群体发现的准确率以及相应的流量识别率越高。

Karagiannis等人利用P2P网络中对等体的连接模式识别P2P流量[10],其误报率大约在8%-12%之间[10]。为提高流量识别的准确率,Karagiannis等人又提出BLINC方法[11],该方法是在传输层上观察主机的行为模式,由三个层面即社会层面、功能层面和应用层面来分析主机的行为模式。在社会层面上,观察主机的流行度;在功能层面上,关注主机是服务的提供者还是服务的请求者;在应用层面上,则着重主机间的交互行为,其目的是识别应用的来源。Lin等人[12]利用这种思想,提取可得一组线性可分的特征并采用多项逻辑斯谛回归分类算法进行网络流量分类。

网络行为模式分类技术必须从每一台主机的若干个数据流中提取信息,此后才能决定该主机的功能角色、群体行为等特征,这显然是耗时的。所以,很难将网络行为模式的分类技术应用于高速网络的实时测量中。

另一方面,由于同一应用程序的不同版本网络行为特征不尽相同,而且同一应用程序的不同流的流量统计特征也未必都相同,例如P2P文件共享系统中的信令流与文件传输流就具有不同的流统计特征,甚至带有不同的传输协议,所以在某种网络环境下所获得的分类器不一定能适用于任何一种网络环境。无论是基于流量统计的分类技术还是基于网络行为模式的分类技术,其分类器都需要具备一定的学习能力和自适应能力以适应不同网络状态下的分类需要。

1、4 基于人工智能的流量分类技术

基于人工智能的流量分类技术是目前P2P流量分类的主要研究趋势之一。刘琼[13] 等人指出P2P流量在地域分布上具有差异性,时间特性上也体现了昼行性。所以分类器也应该能够适应地域和时间的变化,即分类器需要具有一定的自适应能力。于是,相应地就可将人工智能领域的相关技术应用到流量分类中。

按照分类器的学习方式,基于人工智能的流量分类技术在实际应用中大致可分为两种:基于半监督学习的流量分类和基于非监督学习的流量分类。

其中,基于半监督学习的P2P流量的分类过程通常是,首先在离线方式下利用有标记的训练样本建立分类器,即学习的过程,再使用分类器在线分类无标记的流量。Gao[14]等人利用支持向量机模糊网络(SVMFN)分类流量,目的是使分类器在不同的网络环境下具有更好的适应性和准确性。Fuke等人[15]提出了利用BP神经网络分类网络流量, Couto等人[16]的研究方法与Fuke相似。Hu等人[17]则利用关联挖掘的方法进行P2P流量分类。Morre等人[18]使用贝叶斯分类技术对网络流量进行分类。采用半监督学习的方式建立分类器,训练样本的质量将直接影响分类的准确性。然而,获得一个优质的训练样本是较难且耗时的,即使在可控环境下,训练数据的完备性也很难得到确实的保证。

非监督学习的方法利用没有类别标签的样本集进行工作。文献[19,20]采用聚类分析建立分类器。聚类分析的方法一般适用于离线的分类,而不适合在线识别。Chen[21]等人利用神经树,设计了基于网络处理器的硬件分类器在线分类流量。Wang 等人[22] 提出了一种基于可信列表的启发式流量检测方法,该方法通过将已识别的连接加入到一个可信列表中,具有“记忆”能力。但是,该方法在网络连接增多时,维护可信列表却需要消耗较大内存,就会引起内存抖动问题,并且降低识别效率。

机器学习的方法使分类器适应于网络环境的动态变化,但其明显不足却在于:采用机器学习进行流量分类准确性相对不高,流量类别细分能力不足,而且识别效果的验证难度较大。

流量智能分类技术的主要目的是:使分类器智能地适应不同的网络环境。但其面临的最大问题就是概念飘移(concept drift),即在时刻t得到的最佳分类模型yt,与前一时刻t-1得到的最佳分类模型yt-1不一致,引发这种现象的原因在于P2P网络的动态性。如何在P2P流量分类中解决概念飘移的问题将是未来的主要研究方向。

1、5 分布式协同流量分类

随着网络流速的不断提高、网络规模的不断扩大,基于固定点或者有限范围的流量分类,其准确性和效率都在不断下降,且对网络行为分析的能力也已显不足。而分布式协同分类技术则为大规模互联网分布式流量识别和行为分析提供了一个新的思路,业已成为目前分类领域的研究热点之一。该技术已经应用于垃圾邮件检测、网页内容自动分类、入侵检测等领域。

Datta[23]等人提出基于P2P网络的分布式分类方法,通过P2P的流量数据证明这种分类方法的有效性。Bandyopadhyay[24]等人提出一种基于P2P环境的分布式聚类技术。 陈贞翔等人[9]提出了基于DHT(分布式哈希表)设计分布式的自组织识别联盟模型,在联盟成员之间共享流量特征、数据样本和分类经验,借用医疗会诊思想实施联盟协助识别和预警。

分布式协同流量分类的有效性常与分布式识别联盟结点间的通信开销、结点间路由协议的选择等问题有关,如何设计更有效的分布式算法以解决这些问题亦是未来主要研究方向。

1、6 P2P流量分类技术的分析比较

基于端口的分类技术由于仅利用UDP/TCP端口号来分类流量,计算开销小,所以可扩展性好。另一方面,基于端口的分类技术仅使用单一数据包就分类流量,若数据包丢失势必影响分类,所以健壮性就差。同时,正如第1节所述,基于端口的分类技术的准确性也为差。基于深层数据包检测的分类由于负载加密和隐私等因素的考虑,其分类的准确性正在逐渐下降。而基于流量统计特征的分类技术和基于网络行为模式的分类技术需要采集和分析大量的数据,计算开销很大,可扩展性也因之就差。但随着分析数据的不断增多,这两种分类技术的准确性也不断提高,并且由于需要分析大量的数据,个别的数据包丢失,乱序等因素对流量分类的影响不大,由此健壮性就较好。基于人工智能的流量分类技术和分布式协同分类技术具有一定的网络环境自适应能力,所以健壮性和准确性均好,但其可扩展性相对于基于端口的分类技术,则较差。

综上所述,各种分类技术的比较结果如表1所示。

表1 流量分类技术的比较

Tab、1 The parison of traffic classification techniques

流量分类技术 准确性 可扩展性 健壮性

基于端口的分类 差 好 差

基于深层数据包检测的分类 较好 较好 差

基于流量统计特征的分类 较好 差 较好

基于网络行为模式的分类 较好 差 较好

基于人工智能的流量分类 好 较差 好

分布式协同分类 好 较差 好

P2P流量分类工作大致可以分为特征提取和分类器设计两部分。关于P2P系统的特征研究已经实现了从静态特征研究向动态特征研究的积极转变。分类器的设计目的在于提高分类算法的速度和效率,且要求分类算法具有良好的网络自适应能力,能够动态检测网络的变化[25]。下面即从P2P系统的特征分析和分类器设计两个方面进行介绍。

2 P2P系统特征分析

就流量分类而言,P2P系统的特征可分为静态特征和动态特征。静态特征包括端口特征和应用层负载特征,而动态特征在本节主要分析的是P2P流的统计特征。

2、1 P2P系统的静态特征

常用的P2P应用程序端口号和相应的负载特征在表2中列出。

表2 端口号和负载特征

Tab、2 Port number and payload-based signatures

P2P应用程序 端口号 应用层负载特征

Gnutella 6346-6347 ‘Gnutella’

eDonkey 4662 ‘0xe3\’

BitTorrent 6881-6889 ‘0x13BitTorrent protocol’

正如第1节所述,由于目前P2P应用程序采用随机端口、加密应用层负载等技术,这极大地限制了静态特征识别方法的应用。研究P2P系统的动态特征是流量分类的本质问题。其后着重对P2P流量的统计特征、P2P系统的网络行为特征进行分析。

2、2 P2P流量的统计特征

P2P流量统计特征可以从数据包级和数据流级两个层面测量。利用流统计方法识别P2P流量,其优点在于不受随机端口和应用层负载加密技术的约束,更重要的是,可以通过P2P流量的统计分布进一步分析P2P流量的动态性。

2、2、1 数据包级特征

定义1 网络中存在任意两台主机A与B通信,假设主机A的IP地址为IPA,端口为PORTA,主机B的IP地址为IPB,端口为PORTB,通信协议为Protocol,则两台主机的通信模式可以描述为一个五元组。在超时约束下,采用相同通信模式的一组单向数据包的集合称之为流。

数据包级的流量测定需要统计待分类的单个流内数据包大小、数据包到达的间隔时间、数据包比率(单位时间内传输数据包的个数)、带宽等等。Perényi等人[6]对Skype呼叫流量进行实验,发现平均语音数据包大小在40~320字节之间变化。单向话语流的带宽在20Kbit/s~80Kbit/s之间变化。语音数据包到达的时间间隔是30ms或者60ms,相应的数据包比率分别是33个数据包/每秒和16个数据包/每秒。并利用这些特征将Skype流量与其他的VOIP流量(MSN、Yahoo Messenger、AOL Messenger、Gtalk)做以区别。Perényi等人仅对P2P即时通讯流量进行分析并加以识别,但没有区分其他种类的P2P流量,例如,P2P流媒体应用。同时,Roughan [4]等人指出仅在数据包层面上统计还不足以区分大数据块流和流媒体,也不能将FTP流与WWW流区分开。因此,还需要在数据流级获取更多的统计特征。

2、2、2 数据流级特征

目前,互联网流量主要是由P2P流量和Web流量组成,在此主要比较Web流量和P2P流量的特征。文献[7]分析了大规模网络下P2P流量特征,指出P2P流量的分布具备有偏性(skewed),即10%的大流量对象(heavy hitter)提供了99%的流量。但从定量分析而言,P2P流量并不服从Zipf分布。文献[3]指出P2P文件共享应用的流量具有很强的突发性,而文献[4]指出P2P流媒体的网络流量较少出现突发性,可见,不同应用的P2P流量之间,其特性也有所不同。文献[26,27]比较分析了web流量和P2P流量的特征,同时文献[26]还比较了Gnutella和BitTorrent之间流量特征的不同。就P2P数据流级的统计特征,大多数的研究主要在于流大小,流持续时间,流到达间隔时间和流速率这几个方面,相关定义表述如下:

定义2 设i和j是同一个应用程序发起的两个连续的流,Tsi是流i的开始时间,Tsj是流j的开始时间,则流到达间隔时间IAT=| Tsi-Tsj|。

定义3 令Lij表示第i个流的第j个数据包大小,Ni表示第i个流的数据包个数,那么,第i个流的大小 Si=∑Nij=1Lij。

定义4 设Tsi是第i个流的开始时间,Tei是第i个流的结束时间,则流的持续时间Td=Tei-Tsi。

定义5 假设第i个流的大小为Si,流的持续时间为Td,则流的速率Ri=Si/Td。

由于不同的P2P应用程序采用了不同的运行机制,因此流量特征上具有一定的差别,可以采用不同的数学模型,实现建模。一般而言,目前关于P2P流量建模,所采用的数学模型主要有Pareto分布模型、Weibull分布模型、Weibull-Pareto分布模型、泊松分布模型、对数正态分布模型,幂律分布模型。

现在,对以上定义的研究工作进行完整综述如下。

(1) 流到达间隔时间IAT

文献[26]的实验数据表明,P2P流到达间隔时间的数学期望和标准差要比Web流量的相应结果都要高,这说明P2P流到达间隔时间比Web流到达间隔时间更长且更分散。文献[27]提出可以利用泊松过程为P2P流量实行建模。而文献[26,27]认为Web流到达间隔时间IAT服从双模边界的Weibull分布,P2P流到达间隔时间IAT服从Weibull-Pareto分布。

(2) 流大小

P2P流大小的均值比Web流大小的均值要大[26, 27],这是由于P2P流量中既包括很多小字节流也包括很多大字节流,小字节流主要是由信令(signaling)构成,而大字节流则主要是用于文件或媒体信息传输。Web流量更多是由小字节流组成,很少出现大字节流。Web流量和P2P流量都体现了重尾分布(heavy-tailed)的特点,但P2P流量的重尾程度却比Web流量更大。如果采用Pareto分布近似模拟,那么相对于Web流量,P2P流量的Pareto分布的参数α就较小。流大小的重尾分布说明少数的大字节流占据整个流量字节数的大部分比例。

(3) 流持续时间

P2P流的持续时间要比Web流的持续时间长,文献[26]认为Web流持续时间服从双模的Pareto分布而P2P流持续时间服从Weibull-Pareto分布。而文献[27]认为Web流持续时间和P2P流持续时间近似服从对数正态分布。Web流量中绝大多数是短持续时间且短字节流,而P2P流量中绝大多数是长持续时间且长字节流。Web流速率均值及方差均要比P2P相应值为高[27]。

其他相关研究也有从P2P的上行流量和下行流量的比值来探讨P2P流量的统计特征。尽管利用这种特征在识别P2P流媒体和P2P文件共享流量中,会得到较好的结果,但是在识别QQ、SKYPE、MSN等P2P交互应用程序中,这种特征却并未达到较为明显。

通过比较文献[26]与文献[27]的结论可以看出,由于P2P流量在地域分布上的差异性,所以在不同的网络实验环境下得到的实验数据将会不同,流量建模也会有所差异。另一方面,文献[26,27]提出的模型并未区分信令流量和数据传输流量之间的不同,也未体现P2P流量对其他流量的影响。文献[28]指出在P2P流量识别中应该充分考虑数据传输流量和信令流量之间的不同,文献[29]又提出P2P IPTV的信令流对上行流量和下行流量则有不同的影响,因此需要对P2P的信令流和数据传输流分别进行建模分析。

中国的文化背景、版权管理法令以及网络运营商的计费策略均与其他国家不同,所以建立一个适合于本国国情的P2P流量模型极其重要。该模型不仅能够凸显P2P流量的固有特征,而且还能定量地分析P2P流量对其他流量的影响,这对ISP网络管理更具有实际的意义。

在P2P流量识别过程中,无论是基于静态特征的识别还是基于动态特征的识别,均有各自的优点。而在具体的工程实践中,却是常常将这两种流量识别方法相结合。例如,利用端口特征和负载特征在线实时识别P2P流量,再利用动态特征的识别方法对未知的P2P流量进行识别。这种方法就具有较高的识别准确率。

3 分类器设计

流量分类技术可以形式化描述如下:

令流集合F={f1,f2,f3……,fn},fi的一系列属性为{xi1,xi2,xi3……,xim}(i=1,2,3……n),流的类别集合C={c1,c2,c3……,cp},流量分类的目的就是为了找到映射关系y:FC。

分类器的工作方式可分为两种:在线分类和离线分类,下面详述之。

3、1 在线分类

在线分类过程可以有两种情况。一种是在线实时分类。这种分类清况下的流量分类函数y是已知的,并且使用已知的静态特征实时识别P2P流量。另一种是在线学习分类。在这种分类学习方法中,可以凭经验事先预知一个分类函数y,再从连续的数据流中抽取特征并相应地调整分类函数y。使用在线学习分类方法,典型地有文献[10]所提到的BP神经网络算法。在线学习分类算法要求较高质量的训练样本和较长的训练时间。此外,由于P2P网络具有动态特性,常常出现新的对等体加入,而旧的对等体离开(churn,扰动现象),这使得P2P网络更易发生概念飘移情况。为解决概念飘移问题,在线学习分类以特定的频度重新修正分类函数,这常常使得算法变得更加复杂。因此,需要研究最新的学习算法以适应动态的概念飘移数据流环境。

大部分的在线分类算法是常驻内存的,通常假定处理的数据量很小,所以并不适于大规模高速网络环境下的实时流量分类。为了解决这一问题,并行处理技术和分布式处理技术[27]的思想也都应用到设计在线分类算法中。

3、2 离线分类

利用离线方式分类,多数情况下流量分类函数y是未知的。因此,需要通过预先采集流量样本,再分析流量样本fi的属性特征和流类别C的关系,凭此确定流量分类函数y。离线情况下,分类数据的方法大致可分为两种[17]:确定性(deterministic)分类和不确定性(probabilistic)分类。机器学习、模式识别和数据挖掘等相关领域的算法大多可以归于这两类。

3、2、1 确定性分类

确定性分类可形式化描述如下:

定义类别集合C={c1,c2,c3……,cp},分类后的数据点集合ci={dij},(i=1,2……p,j=1,2……n),下标i表示数据点所属类别,下标j表示某一类别中的某一个数据点。dist(dik,djt)表示类别i中的第k个数据点与类别j中第t个数据点的相似性距离,则确定性分类结果应该同时满足下列条件:

确定性分类中,典型的算法有k-NN算法、K均值聚类算法等。其中,K-NN分类算法在数据维度较低时,有较好的分类性能,但对高纬度的数据处理效率较低。K-均值聚类算法在细分不同的具体应用时,有较高的准确率但不利于发现未知新类别,且需要重复调整聚类中心。文献[9]提出基于数据引力的分类算法,该算法受到牛顿万有引力定律的启发而得出,并在分类过程中考虑了数据类别中元素个数。

3、2、2 不确定性分类

使用不确定性分类技术进行数据分类是基于概率机制的。例如,如果观察到的流量属于P2P的概率是0、8,而属于E-Mail类别的概率为0、2,则该流量应该划分到P2P类别中。不确定性分类技术可以形式化描述如下:

定义类别集合C={c1,c2,c3……,cp},数据点集合D={d1,d2,d3……dn},如果P{cj|d=di}=maxk∈{1,2,……,p}P{ck|d=di},(di∈D, cj∈C),则数据点di将划分到cj类别。

典型的不确定性分类算法包括贝叶斯分类算法、EM算法等。不确定分类技术对于测量过程中出现的误差,具有鲁棒性。而且能够识别分类后的流量间的相关特征,例如,如果观察到的流量属于WWW流类别的概率是0、8,属于大数据块(BULK)流类别的概率是0、2,那么这个流量很可能正在使用HTTP协议下载文件。

离线分类能够处理较大的数据量,但其不足在于事后处理方案。文献[9]对机器学习识别的在线化展开了尝试性的工作,虽然识别结果的准确率较低(准确率大约在0、6~0、8之间),但是却提供了一个新的研究思路。由此进一步提高在线机器学习识别准确率,可作为下一步的研究方向。

4 下一步主要研究工作

综上,P2P系统流量分类总体上还处于起步阶段,无论是P2P系统的特征建模还是分类算法设计,都存在大量的开放性问题有待于进一步研究。鉴于P2P流量分类的研究现状,下一步的研究路线主要概括为以下4个方面:

(1)建立一个P2P流量对网络态势的影响模型,该模型不仅可以刻画P2P流量的统计特性,还可以量化分析P2P流量对其他网络流量的影响,并利用量化分析的结果对P2P流量加以控制。

(2)研究不同种类的P2P流量(包括恶意流量)各自的网络行为特性和共同属性,细化识别不同的P2P流量。

(3)设计一个在线分类算法,该算法不仅能够有效且快速地解决概念飘移的发生,还能够有较低的计算复杂度、以及提高实时性能。

(4)目前,P2P流量特征分析均是基于被动测量技术的,被动测量方法的不足在于无法深入了解P2P网络行为,所以,未来研究可将被动测量和数据主动获取技术相结合,如此更利于发现P2P网络内在的群体行为特征。

参考文献:

[1]WANG J, ZHOU Y, YANG Y, et al、 Classify the majority of the total bytes on the Internet[C]// YU F, Luo Q、 Piscataway, NJ, USA: IEEE, 2008: 68-72、

[2]SEN S, SPATSCHECK O, WANG D、 Accurate, scalable in-network identification of p2p traffic using application signatures[C]//New York, NY, USA: ACM, 2004:512-521、

[3]BLEUL H, RATHGEB E P, ZILLING S B I、 Advanced P2P multiprotocol traffic analysis based on application level signature detection[C]//345 E 47TH ST, NEW YORK, NY 10017 USA: IEEE, 2006:89-94、

[4]ROUGHAN M, SEN S, SPATSCHECK O, et al、 Class-of-service mapping for QoS: a statistical signature-based approach to IP traffic classification [C]// Proceedings of the 4th ACM SIGCOMM conference on Internet measurement、Taormina, Sicily, Italy : ACM, 2004:135-148、

[5]陈庆章, 邵奔, 陈超、 基于复合特征的P2P业务识别系统的研究与实现[J]、 东南大学学报(自然科学版)、 2008(S1):109-113、

[6]PER E N M, MOLN A R S A N、 Enhanced skype traffic identification[C]//ICST, Brussels, Belgium, Belgium: ICST (Institute for Computer Sciences, Social-Informatics and Telemunications Engineering), 2007:1-9、

[7]SEN S, WANG J、 Analyzing peer-to-peer traffic across large networks[J]、 IEEE-ACM TRANSACTIONS ON NETWORKING、 2004, 12(2): 219-232、

[8]CONSTANTINOU F, MAVROMMATIS P B I、 Identifying known and unknown peer-to-peer traffic[C]//345 E 47TH ST, NEW YORK, NY 10017 USA: IEEE, 2006: 93-100、

[9]陈贞翔、 具有规模适应性的互联网流量识别研究[D]、 济南:山东大学, 2008、

[10]KARAGIANNIS T, BROIDO A, FALOUTSOS M, et al、 Transport layer identification of P2P traffic[C]//New York, NY, USA: ACM, 2004:121-134、

[11]KARAGIANNIS T, PAPAGIANNAKI K, FALOUTSOS M、 BLINC: multilevel traffic classification in the dark[C]//New York, NY, USA: ACM, 2005: 229-240、

[12]林平,余循宜,刘芳,等、基于流统计特性的网络流量分类算法[J]、北京邮电大学学报,2008(2):15-19、

[13]刘琼, 徐鹏, 杨海涛, et al、 Peer-to-Peer文件共享系统的测量研究[J]、 软件学报, 2006(10): 2131-2140、

[14]GAO Z, LU G, GU D、 A novel P2P traffic identification scheme based on support vector machine fuzzy network[C]//LUO Q, GONG M、 10662 LOS VAQUEROS CIRCLE, PO BOX 3014, LOS ALAMITOS, CA 90720-1264 USA: IEEE COMPUTER SOC, 2009:909-912、

[15]FUKE S, PAN C, XIAOLI R、 Research of P2P traffic identification based on BP neural network[C]//LIAO B Y, PAN J S, JAIN L E, et al、 10662 LOS VAQUEROS CIRCLE, PO BOX 3014, LOS ALAMITOS, CA 90720-1264 USA: IEEE COMPUTER SOC, 2007:75-78、

[16]COUTO A, NOGUEIRA A, SALVADOR P, et al、 Identification of peer-to-peer applications' flow patterns[C]//345 E 47TH ST, NEW YORK, NY 10017 USA: IEEE, 2008:292-299、

[17]HU Y, CHIU D, LUI J C S、 Profiling and identification of P2P traffic[J]、 COMPUTER NETWORKS、 2009, 53(6, Sp、 Iss、 SI): 849-863、

[18]MOORE A W, ZUEV D、 Internet traffic classification using bayesian analysis techniques[J]、 SIGMETRICS Perform、 Eval、 Rev、 2005, 33(1): 50-60、

[19]ERMAN J, MAHANTI A, ARLITT M, et al、 Identifying and discriminating between web and peer-to-peer traffic in the network core[C]// New York, NY, USA: ACM, 2007:883-892、

[20]JUNIOR G P S, MAIA J E B, HOLANDA R, et al、 P2P traffic identification using cluster analysis[C]//Piscataway, NJ, USA: IEEE, 2007, 128:132-133、

[21]CHEN Z, YANG B, CHEN Y, et al、 Online hybrid traffic classifier for peer-to-peer systems based on network processors[J]、 Applied Soft Computing, 2009, 9(2): 685-694、

[22]王蛟, 周亚建, 杨义先、 基于可信列表的启发式流量检测模型[J]、 北京邮电大学学报,2008, 31(2): 95-98、

[23]DATTA S, BHADURI K, GIANNELLA C, et al、 Distributed data mining in peer-to-peer networks[J]、 IEEE INTERNET COMPUTING, 2006, 10(4): 18-26、

[24]BANDYOPADHYAY S, GIANNELLA C, MAULIK U, et al、 Clustering distributed data streams in peer-to-peer environments[J]、 INFORMATION SCIENCES, 2006, 176(14): 1952-1985、

[25]RAAHEMI B, ZHONG W, LIU J、 Exploiting unlabeled data to improve peer-to-peer traffic classification using incremental tri-training method[J]、 Peer-to-Peer Networking and Applications, 2009, 2(2): 87-97、

[26]BASHER N, MAHANTI A, MAHANTI A, et al、 A parative analysis of web and peer-to-peer traffic[Z]、 ACM 2 Penn Plaza, Suite 701 New York NY USA, 2008:287-296、

[27]MORI T, UCHIDA M, GOTO S、 Flow analysis of internet traffic: World Wide Web versus peer-to-peer[J]、 Syst、 Comput、 Japan、 2005, 36(11): 70-81、

计算机网络主要特征篇2

(辽宁师范大学海华学院,辽宁 沈阳 110000)

【摘要】随着我国市场经济水平的飞速发展,与世界经济贸易逐渐接轨,我国的科技水平也随之不断地提升,计算机网络技术在国内近几年也得到了快速发展,并且应用十分广泛。但是计算机网络在使用过程中存在一定的缺陷,其中计算机网络系统的安全是最为重要的问题。本文就对计算机网络系统安全漏洞问题探讨做出了简要的分析,希望对我国广大的计算机网络技术人员起到一定的帮助作用。

http://

关键词 计算机网络;系统安全;安全编程;研究背景

在提高计算机网络系统安全性和预防安全事故发生方面,对计算机系统的安全漏洞研究和漏洞库的建设是非常重要的。通过总结归纳计算机网络漏洞的概念、属性和特点等,并分析国内外网络安全漏洞的研究状况,对计算机网络安全漏洞的特征进行基础分析,从而建立一种安全漏洞分类分级体系,并以此来建立大容量的计算机系统安全漏洞数据库,借此开发出相应的数据库生成软件,从而提升计算机系统的信息安全。

1 计算机网络系统安全漏洞的研究概况

1、1 计算机系统安全漏洞的研究背景

计算机网络技术在当今社会中已经被广泛应用,相应的计算机网络的信息安全也受到人类的重视。当代的计算机网络技术发展中,技术水平在不断地提升与更新中,但是在某种程度上都存在着一定的系统安全漏洞。已经有245、861、和990种漏洞分别在1998年、1999年和2000年被科学家发现,在随后的两年中也相应的发现了一千种以上的漏洞,并且一直呈现直线上涨的趋势。面对如此多计算机系统安全漏洞的威胁,人类的正常生活和工作也严重受到影响,特别是对电子商务工作方面的影响最为严重,以此而衍生出对计算机网络系统的信息安全方面的关注,这深深关系到一个国家的安全。因此对计算机网络系统安全漏洞的研究已经是当今社会一项重大的工作。

1、2 计算机及系统安全漏洞的研究意义

计算机系统安全漏洞也指其系统的脆弱性,它是存在于计算机系统的硬件、软件、协议设计和实现过程或者在系统安全策略方面存在的问题和不足,社会上某些非法用户利用计算机系统安全漏洞来获得系统的额外权限,在未经过授权的情况下提高访问权,借此来破坏计算机系统,危害计算机网络系统的安全。从广义上来说计算机系统安全漏洞是指一切导致、威胁和损坏计算机系统安全的因素,包括对可靠性、可用性、保密性、完整性、可控性和不可抵赖性等多个方面因素的破坏。计算机系统的平台不分硬件还是软件,其都存在着一定的漏洞,实际生活中并不存在绝对安全的计算机网络系统。在科学领域中,计算机系统的复杂性和脆弱性的分析研究已经有很长的历史,科学家通过计算机集中出现的各种安全问题和信息方面存在的漏洞进行观察研究,透过杂乱的表面现象,总结出一定的规律,借此对计算机系统进行深入研究与探讨。对其漏洞确切、统一的定义有利于对漏洞根本特征的描述,有利于对其本质进行研究,在某种程度上扩大了计算机系统安全研究的深度和广度。另外对计算机系统安全漏洞按照一般可接受原则进行科学分类,从漏洞的表现和形成原因进行研究,这些工作可以增强对计算机系统安全漏洞本质的进一步了解,这将有利于防止程序设计人员在编写程序时产生系统安全漏洞,并且可以帮助计算机使用人员进一步了解其系统中可能存在的安全漏洞隐患,进而可以有目的的消除和阻止漏洞的危害,保证计算机的安全使用。

1、3 计算机系统安全漏洞的研究进展

近几年通过对计算机网络技术的快速发展与各个领域的广泛应用,计算机网络系统安全成为了人类关注的焦点,同时人类也越来越关注计算机系统的安全漏洞所带来的影响。在国外的一些科学研究组织中取得了不少的成果,但是计算机网络系统其本身的复杂性和脆弱性使得其经常遭受网络攻击,这在一定程度上导致信息安全和国家安全受到严重的影响。对于计算机网络系统的研究中还存在许多有价值的实用成果,由于其本身具有保密性,所以在这方面一般不会做出任何报道。但是通过多年的深入研究,科学家们几乎一致表明,在计算机系统安全漏洞的大量有用信息中,能够发现按计算机漏洞形成的规律和相应的作用机制出现的系统问题,从而找到计算机系统安全漏洞的分布特点,以此来预测可能产生的安全漏洞,提早做到预防工作。

2 计算机系统安全漏洞的相关状况

2、1 系统安全漏洞的概念特征

计算机系统漏洞是针对计算机系统安全而言的,系统安全是组织未经授权进入计算机系统的支撑结构,漏洞则是指计算机网络系统安全方面所存在的缺陷。对计算机漏洞的定义并不局限于一般意义上的软件漏洞概念,其包含形成计算机脆弱性的软件因素和人为因素两个方面。计算机漏洞是指计算机运行的一种状态或条件,功能方面表现出不足或缺陷,其存在不会损害计算机,但是会被非法分子攻击利用,从而造成对系统安全的威胁和破坏,计算机漏洞和一般的计算机故障不同,如果漏洞被不法分子利用经会影响人类的工作、生活,甚至会带来非常严重的灾难性后果。出现逻辑错误是软件编程过程中经常出现的现象,不正确的系统设计或者错误逻辑是造成这类现象发生的主要原因。观察所有漏洞类型的发生,逻辑错误导致的安全漏洞所占比例最高,这些问题绝大多数都是因为程序编写人员的疏忽导致的。安全漏洞会在很大范围上影响硬件和软件设备,并且包括对操作系统本身和其支撑软件,网络客户和服务软件,网络路由器和安全防火墙等方面都会产生很大的影响。另一方面,漏洞的产生与时间具有一定的关系,系统在的当天开始,就会随着用户的深入使用而显现出各种漏洞,并且这些漏洞会在出现后不断被系统供应商的补丁软件修补,或者在往后的新版系统中将漏洞得以修正,但是新版系统在修补漏洞的过程中会同时带来另外的漏洞的错误,所以随着时间的推移,漏洞将处于不断地修补和产生中,从而安全漏洞问题也将长期存在。

2、2 系统安全漏洞的属性特征

通过对漏洞的分析和研究总结出漏洞具有的基本属性,其主要包括漏洞类型、严重程度、利用需求、后果特征以及漏洞的一些常见外界特征等,通过这些属性特征可以对漏洞进行各个角度的相关描述,帮助人类从更深的层次来理解计算机系统安全漏洞的形成机制,另外与漏洞的产生密切相关的还包括存在漏洞的软件或硬件、操作系统、相应的补丁程序和修补漏洞的方法等。漏洞的类型是描述计算机漏洞最为常见的一个特征属性,其体现了人类对漏洞的理解角度和分类标准,主要分为输入校验错误、访问校验错误、竞争条件错误、环境错误、异常错误、配置错误和设计错误等几个方面。另一方面,漏洞的使用特征是刻画漏洞被攻击使用时的方法。特点和需求等的信息,这在很大程度上对完成一个攻击是十分重要的。漏洞的特征包括访问需求、攻击方式好复杂程度等方面,在访问需求方面是包括远程访问、本地访问和目标访问三个方面的。远程访问主要是指使用远程终端,通过网络连接向目标主机发送命令、数据,以此来达到侵入目标主机的目的。本地访问就是只能当攻击者在键盘边或物理访问计算机时才发生的。目标访问则是指攻击者具有目标访问的某种权限,可以直接对目标进行访问,以减少过程步骤。攻击方式包括物理接触和主机模式,其中物理接触是攻击者需要能够利用物理接触目标系统才能够利用漏洞进行攻击,以此来对计算机系统安全构成威胁。主机模式是一种平常的漏洞利用方式,攻击方式客户机,被攻击方是目标主机,攻击者通过发现目标主机的某个守护进程存在的远程溢出漏洞,因此对目标主机进行攻击,从而获得主机额外的访问权。客户机模式是当用户访问网络上的一个主机时,就有可能会遭受到主机发送给自己恶意命令的袭击。当攻击者位于一个可以观察两个机器之间通信的位置时,这时就可以认为攻击者处于中间方式。很多时候主机之间是以文明方式来传输有价值的信息的,在此时攻击者便能够很容易的攻入其他机器,进而对主机的信息造成破坏。

2、3 系统安全漏洞产生的后果特征

计算机网络系统安全漏洞通常会带来很严重的后果,按照不同的分类原则可以分为多个种类。破坏系统的可用性是指利用漏洞使用户对系统的可用性发生改变,可用性是网络信息系统向用户提供安全的程度保证,当系统遭受破坏时,将不能够为授权用户提供有效地服务。非法用户利用漏洞对计算机系统的信息可控性进行破坏,从而破坏计算机系统对网络信息的控制能力。在破坏系统的可靠性方面是非法用户利用漏洞计算机网络系统的可靠性进行破坏,对于计算机网络来说,可靠性是系统安全最为基本的要求之一,当计算机系统的可靠性遭受破坏时,系统将无法再规定的条件和时间内完成其相应的工作。对计算机系统的不可否认性进行破坏则是利用漏洞对信息的否认功能进行攻击,将信息交互的过程中不可否认性进行破坏,也就是计算机进行信息交互的参与者都不能够否认已经完成的操作。再有一个是非法用户利用漏洞导致计算机系统的完整性改变,在未经授权的情况下,自行的对已经存在或者传授过程中的网络信息进行删除、修改、伪造、乱序、重放和插入等方面的严重破坏,致使计算机传达信息不完整或者错误,造成对系统的完整性破坏。最后一个是对计算机系统的机密性进行破坏,非法用户利用漏洞对系统信息的机密性进行破坏,将机密信息泄露给非法授权的个体或者团体,对用户的信息安全造成威胁。

3 计算机漏洞库的主动防御系统

计算机主动防御系统的思想分为两个方面的层次,第一个层次是在攻击事件之前提高网络防御系统,而利用大量的实际黑客进行网络攻击,以自主攻击的方法来检测网络系统的安全漏洞,从而实现对系统漏洞的修补和相关配置的完善,以此来提高计算机系统的防御能力。第二个层次是在黑客对计算机网络系统进行攻击的过程中,以同样的方法对攻击源进行攻击,致使其丧失继续攻击的能力,以此来确保计算机系统正常工作。对此有几种系统主动防御工作系统的方式,对计算机系统的编程与IDS配合使用,通过模拟攻击的方法来确认到组织入侵的系统漏洞是否真的存在,这种方法可以有效的避免发生某些无谓的工作,同时可以降低计算机自身的风险。将计算机系统与安全扫面器配合使用,在这一过程中系统的主要工作就是任务对安全扫面器探得的隐患结果进行扫描,从而确认是否真正具有威胁性的系统安全隐患,然后对监测的漏洞进行补修。另外计算机系统也可以单独使用,以实际黑客入侵手段对计算机网络系统的抗攻击性能进行测试,并将此作为网络安全系统评估的重要依据,有时候甚至可以在必要时利用系统对黑客进行反攻击来保护计算机系统。

4 计算机网络系统缓冲区的攻击防范

计算机缓冲区溢出的工作原理比较容易理解,一次成功的缓冲区溢出可以用来作为模板,所以缓冲区溢出的攻击对计算机系统具有非常大的安全威胁,建立相应的缓冲区溢出方法体系是非常重要的工作,对计算机系统的安全防御工作具有重要的意义。对此在缓冲区溢出攻击的内存模型、工作原理的探讨、综合安全编程、动静态测试和安全配置技术等方面进行防范体系的设计,从而建立一种贯穿软件完整生命周期的缓冲区溢出防范体系。对于完善防范体系包括软件开发、编译检查、安全配置三个方面的完善。在软件开发阶段是通过安全编程技术来预防缓冲区溢出漏洞出现,包括避免对非安全的函数、执行边界检查、采用非执行堆栈技术等的使用。在计算机系统中,对C和C++不能进行自动检查,这在一定程度上增加了程序的不安全性,编程员在编写程序时通常会为了追求性能而忽略安全,这将非常容易造成对数组、指针处理不善,从而出现缓冲区溢出漏洞。所以不应该单纯为了提高效率而导致发生严重的后果,应该执行边界检查命令,从各方面检查所传输的数据是否准确无误,以此确保计算机系统的安全。可执行堆栈技术是指被攻击程序的数据信息和数据段的地址区域不能执行命令,攻击者借此时机植入攻击代码,并且无法破解,所以为了保护系统程序的兼容性应该设定堆栈数据段不可执行的命令,从而大大降低计算机系统被攻击的风险。度与计算机网络系统安全来说,非执行堆栈技术是一种非常有效的系统保护措施。

5 总结

对计算机系统的安全漏洞概念和特点进行分析,并了解其属性和分级方式,用这些理论知识做为基础,建立出覆盖面广阔的漏洞库生成软件,从而为计算机系统的研究工作提供帮助。对计算机网络系统的安全进行定期的监测与维护,做好日常的管理工作,对漏洞的产生进行分析研究,完善编程过程中产生的问题,寻找出最佳的解决方法,从而保护计算机系统的安全,保护用户的信息安全。

http://

参考文献

[1]吴鹏、计算机系统安全漏洞防范对策探讨[J]、数字技术与应用,2014(5)、

[2]汪妍彬,徐莹、计算机网络安全漏洞及病毒的预防[J]、江西化工,2012(2)、

计算机网络主要特征篇3

关键词:分类识别;模式识别;图像分类

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)32-7731-03

1 概述

图像分类识别根据图像的不同特征对图像进行分类,有相同特征的对象归为一类。图像分类识别方法随着数学算法的不断进步而不断发展。目前,图像分类识别的主要方法主要有六种:模糊集识别、统计识别、神经网络识别、结构识别、模版匹配和支持向量机。这几种方法各有优缺点,根据具体情况来具体分析和应用,也可以多种方法相结合使用。

图像分类识别系统包括几个步奏[1],如图 1所示,一是获取原图像的信息,二是对图像预处理,三是图像分割,四是图像特征提取,五是图像分类识别。

1) 统计识别法

统计识别的理论基础是数学的决策理论,在决策理论基础上建立统计识别模型,统计识别模型对要分类的图像进行统计分析,统计出图像的各类特征,找出准确反映图像类别的特征,最后进行分类。其主要的技术有聚类分析法、统计法、KNN等。但是,统计识别法不能识别图像空间相互关系(即结构关系)。如要分类图像的结构特征是主要特征,用统计识别就不能识别图像。

在进行分类时需要大量图像样本,先统计图像样本特征,设定图像识别的一系列参数(即统计学习)。

统计识别法流程如图2[1],输入的图像信息是原始图片;图像处理是对样本图像滤波、分割和特征提取;最后是图像分类,输出结果。

2) 结构识别法

结构识别法即是句法识别,是对统计识别法不能识别图像结构特征的补充,因为统计算法不能统计图像的结构信息,只能统计图像的数字特征。结构识别法用符号表现图像的特征。结构识别采用的结构是层次结构,把复杂图像分解成单子图像,而子图像又可以分解为更简单的子模式,一直分解下去,直到分解为最简单的子模式,即模式基元。通过对模式基元的识别,进而识别子模式,最终识别该复杂的模式。结构识别法流程如图3所示。

3) 神经网络法

神经网络法是通过我们学习的神经网络算法对图像进行分类。神经网络方法与统计识别方法在很多方面是有联系的,都利用样本数据完成图像的分类识别,并且在有的算法上还可以看作是一定的等价关系。神经网络算法的结构由一个输入层、若干个中间隐含层和一个输出层组成。神经网络法通过学习,能够从原始图像的复杂数据中找到相识的图像特征,对图像进行正确的分类。神经网络法克服了统计识别算法过程中的复杂性,以及模型选择的一些困难,是一种非线性建模过程,不需要分清图像中存在的非线性关系,给图像分类带来的极大方便。

神经网络算法有不同的网络结构,所以构造神经网络时首先要选择合适的网络结构。神经网法图像分类时首先要输入图像的文理特征和结构特征等一系类参数;中间经过图像的预处理和特征提取,最后输出的是图像类别。神经网络分类识别的流程图如图4所示。

4) 模糊集识别法

模糊集识别法在模式识别、医学图像识别,车牌识别等方面的应用比较广泛。在图像分类时,有一些图像的特征不是很明显,不能准确的确定图像属于哪一类别时,模糊集识别法能很好地解决这一问题。先模糊地对图像进行判别,这时图像可能属于两个或多个类别,等到再找到另外的特征时再进行精确的判别。模糊数学是模糊集识别法的理论基础,模糊数学在判别事物时一般不是准确的去判断这事物到底属于什么,而是用不太精确的方式来判别事物,用更适合人的思维方式去判别。

模糊集识别法是在模式识别方法的基础上采用模糊逻辑的方法。在图像分类时,采用模糊理论对图像特征模糊化和模糊分类。

模糊集识别法根据一定的模糊化规则将图像的纹理或形状等特征分成多个模糊变量,虽然每个模糊变量不能准确的判别图像,只能判断原图像的一部分特征,但是这能更进一步地判别图像。我们用先前判别出的部分特征去替代原来的特征再进行图像判别,这样我们又能精确的判别图像类别。虽然模糊集识别法识别时图像的特征变多了,但是却使得判别更加,也使分类器设计趋于简单。

5) 支持向量机

支持向量机(SVM)是一种新的人工智能学习算法,现在已经成为模式识别领域新的研究热点[3] 。支持向量机有学习效率高、抗噪声性能强和推广性好等优点。支持向量机是在原先统计学习理论的基础上,解决传统统计学习理论不能解决的一些问题(如神经网络结构选择问题,局部极小点问题等)而形成的一种新的学习方法。在图像识别时,支持向量机将图像特征向量映射到一个更高维的空间,在新的空间中重新建立一个最大图想参数阈值。首先判断图像的大类别,在阈值的两边再建立重新建立新的阈值,再进行分类,对图像不断判别。最后相差最大的就是图像属于不同类别。

6) 模板匹配法

模板匹配法是对要识别的图像做出一个典型的标准模板,作为将要判别其他图像的标准,然后将要分类的图像与标准模板相比较,从而判断出图像属于哪一类别。其实模版匹配法是一种比较算法,将要识别的图像与标准模版放在一个分类器中做相关运算,根据我们学习的相关运算知识可以知道,如果两个信号出现自相关,就表示出现了主峰值(即阈值),这就表示模版图像和要识别的图像匹配,将这个阈值作为分类器的一个判决规则,即可实现图像的匹配。所以模版匹配法的首要任务就是先进行模版的创建,如果创建的模板很正确精确,那么我们在匹配的时候也会更加的精确。

模版匹配法的流程图如图5所示。

3 图像分类识别算法的优缺点

统计识别法的优点是以数学上的决策理论为基础的,能够比较快的建立出统计识别模型。通过建立出的模型,对图像进行大量的统计分析,能够准确的判断出图像的类别,并且统计出的特征都是数字特征,对计算机的性能要求较小。缺点是统计识别法不能统计图像在空间上的相互关系(即结构关系)。如果图像的结构特征为主要特征时,用统计方法不能进行准确的判别。

结构识别法:对统计识别识别方法的补充,统计识别法不能统计图像的结构信息,统计方法一般统计出来的图像特征都是以数值表示,结构识别法描述图像的特征时则是用符号来表示。

神经网络法优点是神经网络非线性拟合能力很好,可以映射图像的非线性关系;而且神经网络的学习能力强,也方便计算机实现;神经网络还具有很强的非线性映射能力,记忆能力以及自我学习能力。神经网络法的缺点是不能解释自己的推理过程和推理依据;神经网络需要大量的模板数据,并且个模板特征数据要近似相等,当数据不充分或各类别差别很大的时候,神经网络的识别就不太准确;神经网络的输入也是图像的数字特征,不能表示识别图像的结构关系,和统计识别法一样,当结构特征为主要特征时,图象的识别就不准确。

模糊集识别法的优点是模糊识别法虽表现为图像的不确定分类,但是随着更高可靠性的特征能使图像分类越来越准确;采用多级分类,能为下级分类提供分类信息。缺点是模糊识别不能准确确定图像的类别,如果不能找到跟准确的特征,图像的分类将不准确。

支持向量机(SVM)优点:1、对模板样本要求低,如果模板数量少,得到的分类结果是在现有模板信息下的最优解;2、支持向量机通过非线性变换将图像的特征转换到高维的特征空间,然后在高维空间构造线性函数替代原图像的非线性关系,更利于计算机去判别。缺点: SVM是通过二次规划来求解特征向量,里面涉及到m阶矩阵运算,对计算机要求高,并且运算时间长。

模版匹配法的优点是如果模板做的比较准确,匹配不正确的概率就会很小,并且模板不匹配的情况也很少。缺点是因为图像上的每一个点都要进行匹配计算,对计算机配置要求高,并且对噪声比较敏感,如果识别时有很大的噪声,将不利于图像的识别。

4 总结

本文深入分析了统计法、句法识别法、神经网络法、模糊集识别法、支持向量机法和模版匹配法等几种主要图像分类识别方法,并对各种分类识别方法的优势与缺陷做了深入的总结。通过分析各类图像分类识别方法,明确各类识别方法的优势与缺陷,为图像分类识别方法的具体应用奠定基础。

参考文献:

[1] 常俊、基于特征提取及神经网络的图像分类识别与目标跟踪[D]、西安:西安电子科技大学,2008、

计算机网络主要特征篇4

关键词:计算机网络;网络安全;防御措施

一、计算机网络安全影响因素以及网络安全的特征

(一)计算机网络安全影响因素分析

计算机网络安全的影响因素是多方面的,其中由于计算机的操作过程中存在误操作的现象,这就比较容易存在安全隐患。计算机网络实际应用过程中,由于网络安全设置不科学,出现了漏洞,没有及时性进行漏洞修复操作,系统没有进行优化,从而就比较容易发生安全问题[1]。再者,网络安全漏洞也是重要影响因素。计算机网络的应用过程中,有着诸多的软件,这些应用软件都存在着一定的漏洞,这些漏洞如果被不法分子利用,就会成为窃取用户信息的突破口。再有就是计算机网络自身的开放性使得存在不安全的问题,这也是发生网络安全问题的重要原因。另外,影响计算机网络安全的因素还体现在人为的攻击方面。由于黑客的攻击造成计算机网络的不安全现象,攻击的方式有主动和被动攻击的类型。多种形式途径为了相应利益实施的攻击,窃取信息以及篡改信息等,对计算机网络的安全造成了影响,这就是主动的攻击[2]。而被动的攻击就是不影响网络正常运行状况对计算机信息进行篡改获得相应的收益,比较常见的就是信息泄露。

(二)计算机网络安全的特征体现

计算机网络的安全有着鲜明的特征,主要体现在体系化上。网络安全制度以及体系是保障计算机网络安全的重要基础,在变化的网络模式下也在不断的更新完善。而网络安全的多元化特征方面也有着体现,计算机表现形式以及内容是多元的,能保障网络安全向技术方向完善,系统当中使用比较多的多模式系统和技术,进行应对这一多元化特征[3]。除此之外,计算机网络安全的特征在复杂化方面也有着鲜明呈现,计算机网络技术的不断发展过程中,客户端类型多样化,并且很容易受到外界因素影响,计算机网络的安全就受到了威胁,网络安全的复杂程度进一步的深化。

二、计算机网络安全管理的重要性和防御措施实施

(一)计算机网络安全管理的重要性

计算机网络安全管理工作的开展过程中,有着其实际的需要,加强计算机网络安全管理工作能保障信息的安全完整。计算机系统的不断完善下,计算机网络技术已经在诸多的领域当中得到了应用,在农业以及工业和生活等诸多方面应用发挥着重要的作用价值,而保障计算机网络的应用安全就显得比较重要。只有加强计算机网络安全管理的水平,才能保障计算机网络的整体安全[4]。计算机网络的信息量呈现出暴增的发展态势,计算机网络的安全管理就是要对用户的信息安全进行保护,提高信息的传输安全等,在这些基础层面得到了强化,就能有助于计算机网络安全的整体管理质量水平。

(二)计算机网络安全防御措施实施

计算机网络安全的防御措施的实施,要和实际的安全管理需求相结合,可从以下几点加强重视:第一,提高计算机网络物理防御水平。计算机网络安全防御工作的开展过程中,从物理的防御方面要加强重视。物理层的网络安全的问题是比较突出的,防御过程中就要能强化计算机房的安全管理,保障各硬件设备的安全,提高网络的整体安全水平。计算机房的通风干燥以及注意避光,也要做好相应的防火措施,配置精密空调调节机房温湿度,通过UPS稳压电源。做好物理层面的安全管理工作,就能为提高计算机网络的信息安全起到积极作用。另外,利用STP生成树协议,将交换机组成环网,这样的操作可以避免局域网单点故障、网络回环,从而能够提高网络可用性。第二,加强计算机网络安全技术防御力度。计算机网络安全问题的发生从技术层面进行防范是比较关键的,这也是解决网络安全问题比较直接的方法。采用防火墙技术对保障计算机网络的应用安全发挥着重要作用,该技术的应用下能在内外网间建立安全网关,能有助于对网络数据信息传输起到监控的作用,通信量以及数据来源等实施记录,这样就能有助于保障网络信息的安全[5]。防火墙技术的应用有着不同的类型,有硬件防火墙和软件防火墙,专用硬件平台的防火墙技术的应用有着良好的应用效果。而软件防火墙的技术应用就是比较普通的软件产品,需要操作系统安装后加以应用。第三,注重网络访问控制措施实施。计算机网络安全的保护工作的开展,要充分注重多层面的措施落实,网络访问控制的措施实施是比较重要的,主要任务是提高网络资源的应用安全。能有效控制访问活动,其中的入网访问控制以及网络权限控制和服务器安全控制,都是比较关键的网络访问控制的措施。其中对入网访问控制时候,对用户登录服务器以及网络资源的访问实施控制,控制活动能对其使用目录以及文件资源实施有效控制,这样就能对非法访问者实施检测,保障计算机网络的应用安全。

计算机网络主要特征篇5

关键词:计算机;网络安全;入侵检测技术

基于网络的入侵检测系统的数据源是网络流量,它实时监视并分析通过网络的所有通信业务,检测范围是整个网络,由于网络数据是规范的TCP/IP协议数据包,所以基于网络的入侵检测系统比较易于实现[1]。但它只能检测出远程入侵,对于本地入侵它是看不到的。

1入侵检测技术概述

探测器一般由过滤器、网络接口引擎器以及过滤规则决策器构成,其功能是按一定的规则从网络上获取与安全事件相关的数据包,然后传递给分析引擎器进行安全分析判断。分析引擎器将从探测器上接收到的包结合网络安全数据库进行分析,把分析的结果传递给配置构造器。配置构造器根据分析引擎的结果构造出探测器所需要的配置规则。分析引擎器是它的一个重要部件,用来分析网络数据中的异常现象或可疑迹象,并提取出异常标志。分析引擎器的分析和判断决定了具有什么样特征的网络数据流是非正常的网络行为,它常用的4种入侵和攻击识别技术包括根据模式、表达式或字节匹配;利用出现频率或穿越阀值;根据次要事件的相关性;统计学意义上的非常规现象检测[2]。

2计算机网络安全的现状

在新系统的设计中,利用数据挖掘技术从系统日志、系统调用序列、网络流等大量数据中提取与安全相关的系统特征属性,为了高效地利用特征属性,采用特征向量集代替特征属性变量集,设计中采用遗传算法选择其特征子集,以降低入侵检测系统的负荷。进行数据挖掘时,所选用的安全审计数据须具备以下特点:

(1)相对于正常的用户和系统行为,攻击事件的发生概率很小[2]。

(2)在正常情况下所选用的安全审计数据非常稳定。

(3)攻击事件的发生会使安全审计数据的某些特征变量明显偏离正常值。

特权程序一般都具有最高权限,因此特权程序一直是攻击者的主要目标。通过研究发现,对特权程序,系统调用序列较好地满足了数据挖掘对安全审计数据提出的要求,是理想的挖掘数据源。国外有关研究机构还提供了大量的有关系统调用序列的数据供IDS的研究者下载使用,基本上满足了完备性的要求。

系统调用序列检测的工作主要流程如下:

(1)准备训练数据集,该数据集中数据记录具有广泛的代表性,即具有较高的支持度;所有数据已经被准确标识为正常或异常,采用有关系统调用序列的数据作为分类器的训练数据集。

(2)用RIPPER算法分析训练数据集,提取特征属性,生成规则。

(3)基于所生成的规则,用滑动窗口法分析待检测系统调用序列[3]。

3入侵检测系统在计算机网络安全维护中的应用

为进一步提高IDS的性能,减少IDS组件对被保护系统的负荷,所设计的新人侵检测系统采用特征向量集代替特征属性变量集(短序列集),在数据挖掘时产生了更简单、准确的入侵判别规则集。在此基础上进一步研究用特征向量子集代替特征向量集,采用遗传算法优化特征向量子集的选择过程,使IDS的性能得到进一步的提升[3]。

在系统调用序列数据的挖掘过程中使用特征向量法,用特征向量的一位标识一个短序列,用挖掘算法能从特征向量集中找出检测入侵的规则来。由于短序列的数量较大,导致特征向量位数过大,特征向量集也相应过大。为了更高效可行地使用数据挖掘算法,采用遗传算法对特征向量集进行优化,寻找特征子集,利于后续的数据挖掘[4]。

该最优个体必然是0、1交替的位串,将其所有1所在位置进行分析,可以得到1所在位置代表的短序列集,即为寻找的特征子集。后续挖掘算法根据该特征子集中的短序列,对训练数据进行分类等挖掘工作。

采用标准交叉算子和变异算子,交叉概率取0、6,变异概率取0、001。遗传过程中,个体的选择比较复杂。因为这里是针对入侵检测进行的优化,所以在选择个体时,是将该个体代表的入选子集的短序列应用到数据分类算法(RIPPER),该算法训练数据并应用规则得到测试数据,根据检测的性能来确定上述要选择的个体的适应度值。根据个体的适应度值就可以对其进行选择,继续遗传优化工作。研究表明,个体的适应值可以取决于有多少攻击被正确检测和正常使用连接被误判为攻击,同时考虑个体中置1位的数目,本系统设计的适应度函数为[4]:

[F(xi)=[(a/A)-(b/B)]δm]

式中:[xi]为某个个体,a为正确检测到的攻击数目;A为总有攻击数目;b为被误判为攻击的连接数;B为总的正常连接数;m为[xi]中1的个数;[δm]为m对于该适应度函数的相关系数,即高检出率低误报率使适应度函数值高,低检出率高误报率使适应度函数值低。个体中置l的位数越少,适应度值越大,这是出于寻找最小特征子集的考虑,其影响的强弱由相关系数d去控制。

if

{

一个网络连接有如下特征:

源IP地址d2、Of、**、**;

目标IP地址c0、a8、a*、**;

源端口号43226;

目标端口号80;

持续时间482 s;

终止状态(由发起连接的人终止连接)11;

使用协议(TCP协议)2;

发送方发送了7341B;

接收方接收了37761B;

}

then

{

终止该连接;

}

结论

总之,入侵检测技术是为保证计算机系统的安全而设计与配置的一种能够及时发现并报告系统中未授权或异常现象的技术,是一种用于检测计算机网络中违反安全策略行为的技术。进行人侵检测的软件与硬件的组合便是入侵检测系统。

参考文献:

[1]杨岭、 基于网络安全维护的计算机网络安全技术应用研究[J]、 信息系统工程,2015,01:77、

[2]张旭东、 基于混合数据挖掘方法的入侵检测算法研究[J]、 信息安全与技术,2015,02:31-33、

计算机网络主要特征篇6

关键词:遗传算法;BP神经网络;乳腺肿瘤;计算机辅助诊断

DOIDOI:10、11907/rjdk、161973

中图分类号:TP319

文献标识码:A 文章编号文章编号:16727800(2016)011014404

0 引言

乳腺癌作为全球女性中最为频发的恶性肿瘤疾病和癌症死亡的首要原因,严重危害女性身心健康。近年来,我国乳腺癌的发病率和死亡率逐年上升,且呈明显的年轻化趋势。乳腺癌在初期常无明显临床症状,或仅表征为轻微的疼痛[1]。迄今为止,乳腺癌发病的确切原因还未找到,尽管环境、遗传因素和生活方式是造成乳腺癌的主要因素,但60%以上的乳腺癌患者身上并不存在这些明显的危险因素[2]。因此,早发现、早诊断仍是当前提高乳腺癌治愈率和降低死亡率最有效的途径[3]。

肿瘤作为乳腺癌的直接病理征象和主要诊断依据,大约90%的乳腺癌患者在X影像上有清晰的肿瘤征象。由于X线是一种无创、微辐射的检查方法,检查费用低,而且对肿瘤与钙化比较敏感,因此X线乳腺图像已经成为检测乳腺癌的黄金标准,通过它来检测乳腺异常是预防乳腺癌的重要方法之一[4]。随着医学影像学和计算机辅助诊断技术的发展,基于X线乳腺图像的CAD系统得到了广泛应用,但是不同CAD系统的诊断效果也由系统自身决定[5]。2013年,Marc Lobbes比较了两个CAD系统(Second Look 和 AccuDetect Galileo)的病灶检测能力,并分析了326份病例,结果显示,AccuDetect Galileo在检测肿瘤与微钙化(尤其是针对致密性乳腺)时效果更佳[6]。目前,针对X线图像的乳腺肿瘤辅助诊断算法主要分为图像增强、肿瘤分割、特征提取和优化,以及良恶性肿瘤识别4部分。

近年来,随着BP神经网络理论的完善和成熟,在计算机辅助诊断领域得到了广泛应用。由于BP神经网络具有强大的非线性映射能力,在使用乳腺肿瘤病灶组织图像时,建立基于神经网络的乳腺肿瘤辅助诊断方法模型,不仅能够提高乳腺癌的诊断准确率,而且可以为临床医生提供帮助。但是BP神经网络在进行辅助诊断建模时,会因其输入特征的多维性而造成模型精度低、建模时间长等问题。所以,本文提出了基于遗传算法―BP神经网络的乳腺肿瘤CAD方法。首先,提取乳腺肿瘤ROI的几何特征、形状特征、灰度特征、纹理特征、频率特征和边缘特征79维;然后用遗传算法(GA)对提取的特征进行约简,去除冗余特征后选择最能体现肿瘤良恶性的特征组合17维;最后基于GA-BP神经网络模型进行乳腺肿瘤良恶性分类,探讨GA-BP模型在乳腺肿瘤分类识别中的性能。

1 基础知识

1、1 遗传算法

遗传算法(Genetic Algorithm,GA)是模拟达尔文生物进化论的自然淘汰与遗传选择生物进化过程的一种计算模型。其核心思想源于适者生存的自然选择规律,具有“生存+检测”的迭代过程。它将所要解决的问题解空间映射到遗传空间,再对解空间进行编码。一般用一串“1、0”数字串表示每个可能的解,并将该解称为一个染色体,解的每一个分量称为一个基因。在算法开始时,先随机选择一群染色体作为候选解,用预先设定好的评价指标计算每个染色体的适应值,并淘汰适应度较低的染色体,保留适应度高的优良染色体,然后对这些染色体进行选择复制、交叉和变异等操作,如此进行一代一代的“进化”,直到找到算法的最优解。

遗传算法相对于一些传统的优化算法,优点表现在:①遗传算法在搜索过程中不易陷入局部最优,能以很大概率找到整体最优解,具有良好的适应性与鲁棒性,是一种经典的全局最优化算法;②遗传算法具有隐含并行性,运算效率高,适用于大规模的并行计算机。然而,遗传算法的缺点表现在易早熟、局部收敛性差等。

1、2 BP神经网络

BP网络[7]的拓扑结构由输入层、隐含层和输出层组成。图1为一个典型的三层BP神经网络结构图,层与层之间采用全连接方式,同一层之间不存在相互连接,隐含层包括一层或多层。

2 本文算法

本文首先对乳腺肿瘤图像进行分割,提取ROI区域,其次提取几何特征、形状特征、灰度特征、纹理特征、频率特征和边缘特征共79维,然后采用遗传算法进行特征选择,选择17维特征用于BP神经网络的计算机辅助诊断,从而识别乳腺肿瘤的良恶性,最后基于GA-BP神经网络的辅助诊断模型为临床提供参考意见。

2、1 基于遗传算法的特征选择

基于BP神经网络的遗传算法优化辅助诊断,是使用遗传算法选择BP神经网络的最佳输入特征,优化后的BP神经网络能够更好地识别乳腺肿瘤的良恶性并减少建模时间,以提高辅助诊断效果。利用遗传算法选择特征,必须经过输入变量编码、初始种群产生、适应度计算、交叉变异选择、优化结果输出等过程[8]。本文GA优化变量的主要步骤如下:(1)输入变量编码。本文首次提取的特征有79维,经GA选择17维特征作为BP神经网络的输入,即输入变量为17个,个体的每个基因只能取“1”和“0”两种情况,1表示输入变量参与建模,0表示输入变量不参与建模。(2)初始种群产生。随机产生20个初始个体组合作为一个种群,遗传算法以这20个个体作为初始点进行迭代。(3)适应度计算。本文选取测试集数据误差平方和的倒数作为适应度函数,对每个个体进行训练和预测,如式(1)所示。

式(1)中,T′={t′1,t′2,…,t′n}为测试集的预测集,T={t1,t2,…,tn}为测试集的期望集,n为测试集的样本数目。(4)选择交叉变异。选择操作使用比例选择算子,计算出所有个体的适应度和各个个体的相对适应度,作为该个体被选中并遗传到下一代的概率。变异操作一般采用单点变异算子,随机产生一个变异点,改变其基因上的基因值,经过一轮选择交叉变异,又可以产生新的适应度更高的种群。(5)优化结果输出。经过一代代的迭代优化,当满足迭代终止条件时,输出的末代种群对应的便是问题最优解,即经过选择后的特征。

2、2 BP神经网络模型建立

2、2、1 模型拓扑结构设置

BP神经网络的拓扑结构由输入层、隐含层和输出层3部分组成,本文将特征数据作为网络输入,乳腺肿瘤的良恶性类别作为神经网络输出,从而构建基于BP神经网络的乳腺肿瘤辅助诊断模型。

(1)隐含层层数:本文考虑到基于BP神经网络的乳腺肿瘤辅助诊断模型的输入和输出规模较小,选用一层隐含层。

(2)隐含层节点个数:本文采用初始隐含层节点范围公式计算隐含层数目。其中,s表示隐含层节点数目,m表示输入层节点数目,n表示输出层节点数目,a是1~10之间的整数。本文设定隐含层数目为10。

2、2、2 模型重要参数设置

要建立一个BP网络,除了对隐含层层数和节点个数的设置,还需要对BP神经网络训练函数、节点传递函数、误差界值、学习率等参数进行初步设置。本文选择系统默认的Levenberg-Marquardt优化算法作为BP神经网络的训练函数[9];初步设置BP神经网络默认的节点传递函数tansig为隐含层节点传递函数;网络需要输出的值是线性具体值,所以网络输出层的节点传递函数初步选择purelin;误差界值设置为0、01,既足以满足网络的精度要求,又可以保证网络收敛速度;学习率初步设置为0、1,既能避免学习率过大造成的网络不收敛,又避免学习率过小造成的时间复杂度高。具体设置如表1所示。

3 算法仿真实验

实验数据:本研究中的乳腺肿瘤病例样本数据来自于DDSM机器学习数据库。选取555例乳腺瘤数据样本作为实验数据,其中包括344例良性乳腺肿瘤数据,211例恶性乳腺肿瘤数据。

实验环境如下:操作平台为Windows7操作系统,仿真平台为MATLAB 2012图像处理软件,硬件环境为4G内存、750G硬盘、i5-3230M处理器。

3、1 图像分割

首先从555例实验图像中提取ROI,图3为5例良性乳腺肿瘤图像与5例恶性乳腺肿瘤图像以及经过图像分割处理后的ROI。

3、2 特征提取

针对3、1节分割后的555个ROI进行特征提取,提取到的特征有79维,基于不变矩的形状特征为:R1、R2、R3、R4、R5、R6、R7;基于图像内容的几何特征为:周长、面积、圆形度、矩形度、伸长度、紧致度、欧拉数;基于灰度直方图的灰度特征为:平均灰度、一致性(标准差)、灰度波动、倾斜度、峰度、梯度能量;基于灰度共生矩阵的纹理特征为:能量、熵、惯性矩、相关性、逆差距、方差、和的均值、和熵、差熵、和的方差、差分方差、相关信息度量(f12,f13)、最大相关系数;频率特征为空间频率;边缘特征为:边缘锐度、边缘平均梯度,具体特征见表2。

3、3 基于遗传算法的特征选择实验

实验数据使用在3、2节实验中所得的555幅图像的79维特征数据。按照遗传算法特征选择的步骤进行仿真,随着进化代数不断增加,群体适应度越来越高,也即预测值与期望值之间的误差越来越小,群体整体表现越来越好。当迭代次数达到设定的最大迭代次数时,终止进化,并输出该种群中适应度最好的个体对应输入变量的基因编号。它们分别是:1,4,8,9,10,12,14,15,17,18,19,22,23,24,25,26,28,即选择后输入特征是:基于不变矩的1阶、4阶等2个矩特征;基于灰度直方图的平均灰度、一致性、灰度波动、峰度等4个灰度特征;基于图像内容的周长、面积、矩形度、伸长度、紧致度等5个灰度特征;边缘锐度、边缘平均梯度等2个边缘特征;基于灰度共生矩阵(0°方向)的能量、熵、惯性矩、逆差距4个纹理特征,共17维特征,具体见表3。即经过遗传算法的选择,确定该17维特征参与下一步的辅助诊断仿真。

3、4 基于BP的乳腺肿瘤辅助诊断实验

实验数据使用在3、3节实验中所得的555例图像的17维特征数据。BP神经网络的输入是17维特征数据,期望输出是良性乳腺瘤和恶性乳腺瘤两个类别,通过仿真实验来检验只含有选择后的特征输入的BP网络性能。网络的期望输出值只能取1或2作为己标记的良恶性乳腺肿瘤分类。网络的预测输出值大于0、5且小于等于1、5,则视为良性乳腺瘤;如果该值大于1、5且小于等于2、5,则视为恶性乳腺瘤。

将555份样本数据随机排序并编号后,采用5-折交叉法将其分为5组,其中1~111号为第1组、112~222号为第2组、223~333号为第3组、334~444号为第4组、445~555号为第5组。每次实验使用的训练样本数据和测试样本数据如表4所示。5次仿真实验的结果迭代次数、建模时间和识别率如表5所示。

由表5可知,本文模型的平均迭代次数为8、6次,乳腺肿瘤辅助诊断准确率的平均值为96、756 76%,并且每次仿真的迭代次数和准确率非常接近。在仿真过程中发现,建模时间基本在2s左右,建模速度较快。总之,在进行辅助诊断时,输入特征的维数应根据需要筛选核特征,去除无关冗余信息,不仅能提高网络性能,也会降低时间复杂度。

在第5次仿真实验中,良性肿瘤64例,恶性肿瘤47例,训练样本共111例。其中良性肿瘤确诊63例,误诊1例,良性肿瘤检测率为98、44%;恶性肿瘤确诊45例,误诊2例,恶性肿瘤检测率为95、74%。总检测样本111例,确诊108例,误诊3例,检测准确率为97、30%。仿真实验预测结果如图4~图6所示。图4为预测结果图,图5为线性回归曲线图,图6为均方误差收敛图。

4 结语

本文在BP神经网络与乳腺肿瘤辅助诊断方法的基础上,利用遗传算法对BP神经网络所需的特征进行选择,优化了BP神经网络辅助诊断模型,从而提高了模型整体性能。首先使用遗传算法对BP神经网络的输入特征进行提取,然后选择17维有效特征用于BP神经网络模型建模。仿真实验结果表明,基于GA特征选择的BP神经网络模型对乳腺瘤的诊断准确率达到96、76%,在减少输入特征的情况下,建模时间更少,识别率更高。因此,基于遗传算法―BP神经网络的乳腺肿瘤辅助诊断模型取得了良好的诊断效果。

参考文献:

[1] 胡永升、现代乳腺影像诊断学[M]、北京:科学出版社,2001、

[2] 刘君,方志沂、乳腺癌的早期诊断[J]、中国全科医学,2002,5(6):431432、

[3] 郝欣,曹颖,夏顺仁、基于医学图像内容检索的计算机辅助乳腺x线影像诊断技术[J]、中国生物医学工程学报,2009,28(6):922930、

[4] AFSANEH JALALIAN,SYAMSIAH B T MASHOHOR, HAJJAH ROZI MAHMUD,et puteraided detection/diagnosis of breast cancer in mammography and ultrasound:a review[J]、Clinical Imaging,2013,37(3):420426、

[5] C DROMAIN,B BOYER,R FERRE,et putedaided diagnosis (CAD) in the detection of breast cancer[J]、European Journal of Radiology,2013,82(3):417423、

[6] MARC LOBBES,MARJOLEIN SMIDT,KRISTIEN KEYMEULEN,et al、Malignant lesions on mammography:accuracy of two different puteraided detection systems[J]、Clinical Imaging,2013,37(2):283288、

[7] XIA C,YANG Z,LEI B,et al、SCG and LM improved BP neural network loadforecasting and programming network parameter settings and data preprocessing[C]、2012 International Conference on Computer Science & Service System (CSSS),IEEE,2012:3842、

计算机网络主要特征篇7

关键词:复杂网络,社区结构,Laplace图谱,Kernighan-Lin算法,GN算法

1引言

现实生活中存在着各种各样的网络系统,如人际关系网、合作网、交通运输网、计算机网等。网络模型是描述这些复杂系统的最有效模型。通过对现实系统网络模型的研究,人们发现许多现实系统的网络模型是介于完全规则和完全随机之间的。由于这种网络是真实复杂系统的拓扑抽象因此它被称为复杂网络。

复杂网络是复杂系统的高度抽象,除具备小世界[1]、无标度[2]等重要特性外,还拥有另外一个重要特征,即社区结构特性[3]。也就是说,整个网络是由若干个群(group);或团(cluster);构成的。每个群内部的节点之间的连接相对非常紧密,但是各个群之间的连接相对来说却比较稀疏。如图1所示。图中的网络包含三个社团,分别对应图中三个圆圈包围的部分。在这些社团内部,节点之间的联系非常紧密,而社团之间的联系就稀疏的多。

在大型复杂网络中进行社区搜寻或发现社区,具有重要的实用价值。如,社会网络中的社区代表根据兴趣或背景而形成的真实的社会团体;引文网络中的社区代表针对同一主题的相关论文;万维网中的社区就是讨论相关主题的若干网站而生物化学网络或者电子电路网络中的社区则可能是某一类功能单元。发现这些网络中的社区有助于研究人员更加有效地理解和开发这些网络。

图1 一个小型的具有社团结构性质的网络

网络社团结构的研究起源于社团学,已经有很长的历史期刊网。它与计算机科学中的图形分割和社会学中的分级聚类有着密切的关系。目前GN算法,关于复杂网络中的社区发现算法已有很多,这些方法的核心思想、执行效率、使用范围等方面差别较大。本文着重叙述了三种典型的复杂网络社区识别算法,Kernighan-Lin 算法、Laplace图特征值的谱二分法和GN算法,并对此三种方法进行了适当的分析和比较。

2典型的网络社区识别算法

(1) Kernighan-Lin 算法

Kernighan-Lin算法是一种试探优化法[4]。它是一种利用贪婪算法将复杂网络划分为两个社团的二分法。该算法引入增益值P,并将P定义两个社团内部的边数减去连接两个社团之间的边数,然后再寻找使 P值最大的划分方法。整个算法可描述如下:

首先,将网络中的节点随机地划分为已知大小的两个社团。在此基础上,考虑所有可能的节点对,其中每个节点对的节点分别来自两个社团。对每个节点对,计算如果交换这两个节点可能得到的P的增益ΔP=P交换后-P交换前,然后交换最大的ΔP对应的节点对,同时记录交换以后的 P值。规定每个节点只能交换一次。重复这个交换过程,直到某个社团内所有的节点都被交换一次为止。需要注意的是,在节点对交换的过程中,P值并不一定是单调增加的。不过,即使某一步的交换会使P值有所下降,仍然可能在其后的步骤中出现一个更大的P值。当交换完毕后,便找到上述交换过程中所记录的最大的P值。这时对应的社团结构就认为是该网络实际的社团结构。

(2)基于Laplace图特征值的谱二分法

该算法利用网络结构的Laplace矩阵中不为零的特征值所对应的特征向量和同一个社区内的节点对应的元素近似值相等的原理对网络社区进行划分。该算法过程如下:

设图G是一个具有n个节点的无向图,G的Laplace矩阵L是一个n×n的对称矩阵。L的对角线元素Lii是节点i的度,非对角线元素Lij表示节点i和节点j的连接关系,当节点i和节点j之间有边连接时,则 Lij = -1,否则为Lij = 0。容易验证,L的每一行的和以及每一列的和均为0,因而,向量I=(1,1,l1)'是L相应于特征值0的特征向量。

如果图G可以被分解成g个互不重叠、互不相连的子图Gk,则其Laplace矩阵L就是一个分成g块的对角矩阵块,每个对角矩阵块就是相应的分支子图的Laplace矩阵。显然,此时L存在g个与特征值0对应的特征向量v(k),k=1,2,,gGN算法,当节点i属于该社团时,vi(k)=1,否则vi(k)=0。

如果图G可以被分解成g个子图,但子图之间存在少量连接时,其相应的Laplace矩阵L就不再是一个分成g块的对角阵。此时,对应0这个特征值就只有一个特征向量I。但是,在0的附近还有g-1个比零稍大的特征值,并且这g-1个特征值相应的特征向量可以近似地看成上述特征向量v(k)的线性组合。因此,从理论上来说,只要找到Laplace矩阵中比零稍大的那些特征值,并且对其特征向量进行线性组合,就可以近似的得到这些子图[5]。

考虑一个例子,即将图G分割成2个子图。由于对称矩阵的任意两个2个特征值所对应的特征向量相互正交,因此Laplace矩阵L的任意对应于非零特征值的特征向量均正交于向量I=(1,1,l1)',从而所有非零特征值的特征向量必须具有正分量和负分量。如果图G可以分解为2个子图使得这2个子图之间仅存在很少的连接,则必存在一个特征向量,其特征值近似于0;该特征向量的正分量对应于一个子图,负分量对应于另一个子图。因此,可以通过观察最小非零特征值所对应的特征向量,根据特征值元素的正负将一个网络分解成2个社区,该方法称为谱二分法[6-7]期刊网。

(3) GN算法

GN算法是一种分裂方法[8]。其基本思想是不断的从网络中移除介数最大的边。边介数定义为网络中经过每条边的最短路径的数目。具体算法如下:

①计算网络中所有边的介数。

②移除介数最高的边。

③重新计算所有受影响的边的介数。

④重复步骤②,直到每个节点就是一个退化社团为止。

3三种算法的对比分析

从上述三种算法的过程来看,Laplace图特征值谱二分法,Kernighan-Lin算法和GN算法计算简洁,都易于程序实现。Kernighan-Lin算法的时间复杂度相对于与其他两种算法较小些,但该算法对网络中社区划分的准确度不高,适用于小规模网络社区划分。而Laplace图特征值谱二分法和GN算法则适合于较大网络的社区划分。其中,Laplace图特征值谱二分法仅适用于由2个社团组成的大网络结构GN算法,其时间复杂度比GN算法要大些。而GN算法在对网络社区进行划分时必须事先知道网络中存在的社团个数,如表1所示。

总之,三种社区划分算法各有优缺点,在实际应用时,可根据所要划分的网络特点,选择单独一种算法或综合多种算法对网络进行划分,以使划分结果更接近于网络社区实际状况。

表1 三种社区划分算法比较

算法名称

时间

复杂度

优点

缺点

Kernighan-

Lin算法

O(n2)

计算简单,易于划分

准确度不高,且必须事先知道网络中社团规模大小,适用于小规模网络

Laplace图特征值谱二分法

O(n3)

计算简单,易于程序实现

仅适用于由2个社团组成的网络结构,时间复杂度较大

GN算法

O(m2n)

计算机网络主要特征篇8

【关键词】大数据;人工智能;计算机网络;技术应用

1引言

作为当前社会发展的前端,人工智能技术以计算机技术和通信技术为基础,在现代编程的控制下,实现了人们数据控制计算方式和生活方式的有效改变。当前环境下,大数据的发展趋势愈发明显,数据的处理规模不断扩大,这对传统计算机技术的应用提出了较高要求。基于此,将人工智能技术与计算机网络技术结合已成为时展的必然要求,从应用过程来看,其能实现计算机系统中复杂问题的高效、安全处理,对于社会稳定具有重大影响,本文就此展开分析。

2大数据时代的基本特征

数字化、信息化是时展的重要趋势,在其影响下,日常生活中的数据数量和类型不断丰富,其对人们传统的数据库处理模式形成挑战,而这种数量巨大、类型庞杂的数据集就是人们所说的大数据。就实践过程来看,种类多、规模大、真实性高、处理速度快等是大数据处理的基本特征[1]。具体表现如下:第一,大数据并非是单一的独立数据,其在多种来源的基础上,实现了数据格式、数据类型的丰富和膨胀,充分保证了数据类型的多样。第二,与传统数据相比,大数据的容量基本都处于10TB以上,具有规模较大的突出特征。第三,新经济形态下,大数据的更新速度非常迅速,较为及时的数据信息有效保证了数据整体的真实性。第四,大数据的规模十分庞大,并且具有较高的应用安全需要,这就对整体的数据处理系统提出了较高要求。目前,高效、快速的数据处理系统已经成为大数据发展的重要特征,其充分保证了大数据时代下,人们对于数据信息的应用要求。

3人工智能的应用优势

人工智能是现代社会科学发展的重要方向。具体而言,其在计算机技术与通信技术的支撑下,实现了人类思维方式及行为方式的有效模拟,并且在相关程序的保证下,实现了相关问题的高效化、安全化、精确化处理。大数据时代,人工智能技术的发展与计算机技术密不可分,并且,就整体应用过程而言,其具有以下应用优势:第一,人工智能支撑下,使用人员的工作效率得以有效提升。例如,在日常办公中,部分软件会进行使用人员兴趣爱好及操作习惯的记录,并在下次应用过程中进行相关信息的筛选,然后对用户进行推荐应用,由此有效避免了信息筛选、信息寻找所带来的时间浪费,提升了工作、学习、生活、娱乐的效率。第二,人工智能系统有助于当前网络体系管理的规范,具体而言,从本质上讲,人工智能技术是对计算机技术的深层次应用,为提升其应用质量,设计人员在运行质量、运行效率和运行安全等方面进行了严格保证,而这些保证措施能够进行互联网体系相关任务的指导,对于更高经济效益和社会效益的创造具有重大影响。

4大数据时代人工智能在计算机网络技术中的应用

大数据时代下,人工智能技术是时展的必然,确保人工智能技术应用的高效与规范,对于人们的生活质量具有重大影响,并直接制约着社会经济发展及智能化、数字化时代的建设进程。就应用过程来看,当前计算机技术中,人工智能技术的应用主要表现在以下方面:

4、1数据挖掘技术

数据挖掘技术是人工智能应用的基础,同时也是其应用较为广泛的方向之一[2]。具体而言,在智能技术的支撑下,计算机系统可以进行网络连接及主机会话的全方位、系统化描述,并且在数据刻录的应用下,实现入侵规则的高效学习,最后其将这些入侵的模式在自身数据库中进行记录,一旦计算机系统再次受到外来入侵,其可以进行有效的识别和程序拦截,从而保证了计算机网络技术应用的高效与安全。

4、2规则产生式专家系统

通过人工智能在数据挖掘上的应用,人们可以实现入侵检测系统的高效建立,并且在其基础上,高效化的计算机推理机制得以建立,此即规则产生式专家系统。实践过程中,网络管理人员在特定入侵特征编码编制的基础上,可以实现外界入侵信息的有效预防和管控。由此可见,人工智能对提升检测效果及准确性有积极意义。然而,需要注意的是,规则产生式专家系统的人工智能技术主要应用于系统已输入的入侵信息,因而检测效果相对有限。

4、3人工网络神经

人工网络神经是人工智能在计算机网络技术中应用的重要内容。计算机系统应用过程中,在人工网络神经的支持下,计算机网络对人脑处事方式第一模拟,与传统的计算机事件处理相比,其对于计算机系统的容错性和接受性进行控制,有效保证了计算机网络系统应用的高效与质量。譬如,在计算机网络技术人工智能实践中,其可以对畸变及噪音输入的模式进行有效识别,从而确保计算机网络检测系统检测效率的提升,对于人们生活质量的提升具有重大影响。

4、4自治AGENT技术

自治AGENT技术是面向对象发展成果的典型代表,其能在计算机网络系统中充当底层数据,进而实现数据的高效化收集和分析。在自治AGENT技术人工智能应用过程中,较强的学习能力、适应能力、自主能力和兼容能力是其应用的主要特征[3];并且在这些因素的控制下,其对于环境的依赖程度较低,具有较强的外来入侵抵抗能力。

4、5人工智能问题求解

人工智能问题求解是人们社会生活中应用较为广泛的技术之一。实践过程中,人们在计算机系统的问题搜索栏进行待解决问题输入,然后在人工智能技术的应用下,其可以实现这些问题的高效化搜索、推理和求解,从而实现搜索空间、最优解等内容的有效把控。与传统计算机系统相比,人工智能技术的应用有效提升了网络运行效率,其在减少资源浪费的基础上,实现了人们实际问题的高效率解答。

4、6专家知识库技术

作为计算机网络专家系统的重要组成,专家知识库的应用极为广泛,并且尚处于不断发展阶段。实践过程中,专家知识库的应用以直接或间接积累的知识为基础,然后在网络管理人员编码操作的运行下,使得计算机相关管理的决策获得专家支撑,从而实现管理过程、评价实践的具体把控,专家知识库技术的应用对于网络管理评价具有重大影响。此外,人工智能系统在智能考试方面也有着广泛应用。具体而言,传统环境下,纸质试卷的应用具有较大的纸张载体负担,其不仅造成了大量的基础资源消耗和环境污染,更对教师的批阅过程造成负担。而在人工智能技术和计算机网络技术的支撑下,自动考试的功能得以实现,其在题量分配、试卷平均难度、题型结构、题型比例、知识点均匀分布等要素的控制下,充分满足了用户的考核要求,实现了现代化考试的智能发展。

5结论

    【写作范文】栏目
  • 上一篇:网络安全对青少年的重要性(精选8篇)
  • 下一篇:实践小结(精选6篇)
  • 相关文章

    推荐文章

    本站专题