高中作文网

对计算机视觉的理解(6篇)

时间: 2024-03-04 栏目:公文范文

对计算机视觉的理解篇1

关键词:多媒体教学;多媒体技术;计算机技术;心理学;教育

多媒体教学的发展,与其技术的发展有直接关系。在一些相关论著中,学者们更多的是对多媒体教学技术的论述,强调的是技术,而很少涉及学习者和教育者这样的“人的因素”。虽然对多媒体教学技术的研究是不可缺少的,但是探索多媒体教学的心理机制和教育基础则更为重要,因为人类是以完全不同的方式来加工多媒体教学的。只有这样,才能在多媒体教学中考虑学习者和教育者的主体性。

一、多媒体教学技术及其计算机基础

多媒体与多媒体技术应视为同义词。关于多媒体技术的特点虽然还没有形成共识,但是,也有一些基本的共同之处。早在1996年,吴炜煜先生在《多媒体世界》撰文提出了多媒体五大特点:1.将不同的媒体数据都表示成统一的结构码流;2.实行新的技术标准体制,以适应系统级集成和规范相关产品的性能指标;3.建设“全球信息高速公路”;4.应用“双向性设计”,统一信息提供者、接受者和控制者的关系;5.赋予信息系统对客观世界信息的自然模拟与处理能力。[1]华中师范大学傅德荣教授认为,多媒体特点主要有:1.整合性,通过计算机实现多种单媒体的整合;2.数字化,将各种单媒体变换成数字信息,读入计算机进行统一的整合,数字化技术是多媒体技术的一种基本技术;3.交互性,交互成多媒体系统;4.超媒体,是一种网状式的结构形式。[2]3黄孝建先生主编的《多媒体技术》一书指出,“多媒体技术是一种能同时综合处理多种信息,在信息之间建立逻辑联系,使其集成为一个交互式系统的技术。”“多媒体的关键性在于信息载体的多样性、交互性和集成性。这也是多媒体技术研究中必须解决的主要问题……多媒体系统一般具备如下功能:捕捉、操作、编辑、存储、呈现和通信,为用户服务。”[3]

根据以上关于多媒体技术的几种观点,我们认为,多媒体技术主要有5个特点:一是整合性。多媒体实时地综合,把文本、图形图像、声音、动画以及视频这些媒体中组成两种或两种以上的结合体,为的是借鉴各种媒体的优势,形成一种在功能上更加完善的体系。二是集成化。多媒体表示的并不单纯是信息的多样性,而是通过多种媒体表现、多种感官认知、多种仪器设备、多学科汇聚、多领域应用等交互作用,集成信息码流、设备控制、人与客观现实关系的一体化。三是多维式。多媒体是趋于人性化的多维信息处理系统,目标是要尽可能实现让人类在现实生活的自然环境下,保持信息交流的高保真效果、通信带宽和交互控制能力。四是数字化。多媒体具备数字化处理系统,其信息是一种数字化的信息,其信息结构是一种超媒体的网状式结构,所以高速宽带网络支持多媒体通讯和资源共享,建造全景化虚拟世界数据库成为现实。五是分布式。目前,多媒体技术正朝着分布式的方向发展。分布式多媒体是一门综合性技术,它集计算机的交互性、网络的分布性和多媒体信息的综合性于一身,突破了计算机、通信等传统产业间相对各自独立发展的界限,是计算机和通信领域的一次革命;分布式多媒体的发展涉及两个关键性的技术问题,一个是多媒体网络技术,网络的频宽、信息的交换方式及网络的高层协作,这直接决定着网络质量;另一个是数据压缩技术,使信息量巨大的多媒体数据、特别是视频和声频数据得以在网络上传输;分布式多媒体向社会提供全新的信息服务,使用户不但可以选择播放的节目以及内容,而且还可利用此系统得到诸如咨询、交流等信息服务。多媒体教学正是在上述5个技术特点的基础上实施的,这些技术特点,为我们提供了教学领域内各种综合性的信息服务,并帮助地理位置不同、时间安排不同的用户,克服各种障碍来共同完成教学任务。由此可以看出,在对多媒体教学技术及其计算机基础的理解中,我们不仅要重视计算机的技术,而且也要关注人与机器的关系、人性化的系统和用户至上的观念。

多媒体并不是多媒体计算机的代名词。多媒体计算机只是多媒体的一个特例。[4]它既有计算机的显著特性,又有多媒体的功能,所以学校进行多媒体教学时,通常以多媒体计算机为载体。然而,多媒体计算机仅仅是多媒体系统中的一个分系统,因此,它常常被认为是多媒体中的一个典范,或者说是多媒体的一种狭义的范畴。

多媒体教学为什么要应用多媒体计算机?计算机虽然也是单一的媒体,但它同电视、音响的不同之处就在于它具有强大的扩展性。就目前的科技水平来说,只要在计算机内加上适当的部件,就多了相应的媒体功能,对于多媒体教学来说,非常简便、经济,更重要的是它还能“胜任”多媒体教学的功能,是不可多得的优质的技术设备,必然被学校广泛应用。多媒体计算机正在以我们无法想象的速度发展。其主要作用是让计算机的使用和操作更加接近于人们的日常生活,使人们在日常生活中用各种各样的媒体交换信息。如使用纸张、广播和电视交换新闻、消息和知识。多媒体计算机技术可以使家用电脑用声音媒体、光学媒体和动画媒体来交换信息,它在教育中有着广泛前景。在多媒体教学中,它主要通过文字、声音、图形图像以及视频与动画这4个方面媒体的形式呈现出教学软件,掌握这四方面媒体的制作,成为制作多媒体教学软件的基本技能基础。

二、多媒体教学技术及其心理基础

从媒体技术的基础来分析,多媒体教学技术离不开视觉媒体技术、听觉媒体技术和触觉媒体技术等。多媒体信息是这些媒体信息数字化后整合而成的,如前所述,数字化技术是多媒体技术的基础技术。在数字化的过程中,各种单媒体有各种不同的国际标准,然而,如果重视“感觉通道说”[5],那么就要在探讨这几个方面的媒体技术问题的同时,必须揭示使用者(尤其是学习者)的感觉、知觉的心理机制,特别是人的视觉和听觉特征。

多媒体教学技术的出现扩展了人们用视觉模式呈现材料的具体途径。视觉材料包括文本信息、图形图像信息、视频信息。这些信息通过视觉媒体技术数字化后整合为多媒体信息。在这个过程中,我们对其技术上要作四点说明:第一,视觉媒体是一个非常复杂的信息系统。文本信息是文字信息的集合,它既是一种符号系统,又具有颜色、大小和种类等特征;图形是点、线、面、体等信号的集合,以面为例,不仅指一般的平面图,还包括曲线、地图、设计图等;图像是静止图像和活动图像的集合,所谓视频信息就是活动或运动的图像信息,它由一系列时间轴(周期)呈现的画面构成。第二,视觉媒体信息的数字化是根据上述各种视觉媒体信息的特征进行的。不管是文本信息还是图形信息,它们的数字化都是各自按编码的国际标准完成的。第三,视觉媒体的各种信息根据不同信号实现数字化。静止图像是一种二维信号,先要经过扫描转换成一维信号,再经过采样、量化、编码实现数字化;活动图像的视频按一幅一幅的静止图像以一定周期展示,每一幅的数字化方法与静止图像类似。第四,视觉媒体信息处理是一种按照物理学原理进行的技术。它们都是利用光电和电光转换原理,把光学图像转换为电信号进行处理后再还原为光图像。

为了使

多媒体教学技术的视觉材料更容易被学习者所接受,就必须要顾及人的视觉心理基础,也就是说,上述视觉媒体技术只有通过视觉心理机制才能实现多媒体教学的目标。这里,我们也要强调四点:第一,多媒体技术要考虑光的物理三属性所引起的视觉的三种心理机制。视觉的刺激是光,光是电磁波,电磁波的范围很广,而人可见的电磁波只占电磁波的一小部分。波长不同,会使我们在视觉上产生色调的差别,从而产生不同的色觉。色觉不仅取决于由波长所引起的色调,还和主观感觉的明度和饱和度有关。明度是对光波强度(振幅)的反应,饱和度则由物体发射或反射的光的纯度来决定。所以,多媒体教学技术在视觉媒体设计上要处理好可见视觉、色调、明度和饱和度这几方面的关系。第二,多媒体教学技术要考虑对感光物质的视觉感受器心理机制。视觉感受器的真正感光器官是视网膜上的一些细胞,其中锥状细胞感觉颜色,棒状细胞感觉明度,这两种细胞中感光物质的化学性质不同,光使这些物质分解,色素被漂白,从而刺激了感受细胞的膜,引起神经冲动。所以,多媒体教学技术在视觉媒体设计上要研究这两种感光物质的化学性质。第三,多媒体教学技术要考虑视觉过程,即眼睛看东西是一个编码过程,视网膜上的不同感受野在视觉中枢有不同的神经细胞,各有其功能,不同的细胞对所刺激信息系统的不同特征分别反应,并像计算机那样编码,这种编码实际是对一些图像的辨认。所以,多媒体教学技术在视觉媒体设计上要利用好视觉感受野与信息的特征。第四,多媒体教学技术要考虑各类视觉现象,特别是决定视力高低的视角、强弱光下的适应、视觉后暂留的后像、不同背景的视觉对比、不同明度下对不同光波长的感受性等等造成视觉的各种差异。所以,多媒体教学技术在视觉媒体设计上要运用各类视觉现象产生的规律。在多媒体教学技术中,视听是紧紧地联系在一起的。在计算机环境下,眼睛知觉动画图像,耳朵则知觉解说语言;在演讲的情境中,视觉通道加工投影仪上幻灯片的内容,听觉通道则加工演讲者的声音。听觉材料主要是声音,包括语言信息、音乐信息和效果声信息。这些信息通过听觉媒体技术上数字化后整合为多媒体信息。在这一过程中,我们从技术角度作如下三点说明:第一,声音信息尽管是一种一维的模拟信号,它可以通过采样、量化、码字分配实现数字化,但它比文本信息的数据量要大,通常采用呈现声音和声音合成技术。第二,声波是起源于发声体的振动,在弹性媒质中传播的是一种机械波。它在气体或液体媒质中传播的是纵波,在固体媒质中传播的则是纵波、横波或两者的复合。声音信号有时域特征、频域特征和声色与失真特征。第三,声频或音频是人耳可闻的振动频率,频率范围每秒钟约为20-20000次(赫兹),声频信息数字化后其数据速率大、保真度好和动态范围大。当然,对于不同类型的声频信号,其信号带宽是不同的,电话、调幅广播、调频广播和激光唱盘等的声频信号是有较大区别的。随着声频数字化的发展,压缩编码技术是多媒体教学技术的关键之一。

要使多媒体教学技术的听觉材料被学习者更容易接受,也必须顾及人的听觉心理基础。这里,我们仅作两点分析:第一,多媒体教学技术要考虑声音的物理三属性所引起的听觉的三个特征。正像光有三种物理属性一样,声音也有三种属性,即振动的频率、振幅的大小、基音与陪音的倍数配合关系,以及所产生的听觉的音调(或因高)、音强(或响度)和音色的三个特征。人对不同音调的感受性是有差别的,尽管声频在20-20000Hz范围,但声频为1000-4000Hz之间音调感受性较好(即阈限较低),这是由于耳膜神经纤维承担的振动频率所决定的。测量音强的方法以分贝(dB)为单位,这是物理学与心理学都认可的,即两个声音之间的强度比率为1∶1.26(1分贝),因为1.26是能清楚辨别出两个声音振幅大小的区别。人的音色是由基音和陪音的不同比例的配合决定的。在音调和音强相同的情况下,人们之所以能够分辨出是哪种琴所演奏的曲子,正是由于不同琴的基本振动(基音)与分段振动(陪音)的比例是不一样的,这种比例成整数倍数为乐音,不成整数倍数则为噪音。所以,多媒体教学技术在听觉媒体设计上要利用好音调、音强和音色的三个特征。第二,多媒体教学技术要考虑听觉的感受野。因为听觉神经细胞是有分工的,研究指出,听觉中枢神经细胞有40%只反应噪音而不反应乐音,另外60%的神经细胞对乐音的反应也有分工。[6]冲动频可以出现在声音的出现时,可以出现在声音消失之后,也可以出现在声音出现和消失的一刹那;可以在声频降低时发生变化,也可以在声频升高时发生变化。一句话,听东西也是一个编码的过程,即在听觉的范围内也会有视觉中那种感受野的情况。由此可见,听东西绝不是简单的录音,听觉过程是有分工的,是一个侦察器在那里侦察。所以,多媒体教学技术在听觉媒体设计上要揭示听觉感受野,以及反应乐音与噪音信息的特征。

由此可见,我们在分析多媒体教学的相关技术的同时,也要注意学习者的心理基础,因为学习者是以特有的心理活动的方式来加工视觉和听觉等媒体信息的。

三、多媒体教学技术及其教育基础

在教育中应用多媒体技术,首先是多媒体教学软件的开发,此外,创作工具和虚拟现实等技术也在教育中应用。每一种技术既为教育服务,又有其教育的需要和基础。由于教育对象是人,所以在教育中不管怎样去应用多媒体技术,都要体现每一种技术为人服务,并把学习者和教育者的要求作为出发点。

多媒体教学软件是为教育制作的以计算机为基础的教育应用软件,它包括计算机辅助教学软件、计算机管理教学软件以及应用于教育的图标统计类等的实用软件,其中多媒体教学软件是核心技术。多媒体教学软件的开发,是一项对视觉媒体、听觉媒体和触觉媒体数据加以分析、处理和编辑的过程,这个过程包括两个环节,即设计和制作。在多媒体教学软件的开发设计中,有一个编写稿本的重要技术。傅德荣教授在《多媒体技术以及教育应用》

一书中设专章论述这个问题。他指出,“稿本是表示多媒体教学软件内部结构的各种文档的总和。它是一种多媒体文档。编写稿本的实质是多媒体教学软件的设计”。[2]230这个设计包括三个方面:一是总本设计,涉及内容结构分析、开发策略、超媒体的结构框图和制作原理等;二是详细设计,设计超媒体结构设计、人机界面设计、学习流程设计和框面设计;三是媒体数据设计、涉及静止图像数据设计、视频图像数据设计,动画数据设计和声音数据设计。稿本编写体现出工作的计划和制作的蓝图;成功的稿本编写是多媒体教学软件开发成功的一半,多媒体教学软件就是根据稿本进行制作的。与此同时,多媒体化的教学设计把活动分为三种类型,有课堂型、课外型和知识扩展型。多媒体教学软件设计要从教学实际出发,根据这三种教学模型编制教学软件,前两种属于课程软件,后一种属于参考软件。多媒体教学软件的制作,既需要有多媒体计算机等硬件环境,又需要有多个媒体数据整合而成的软件环境。在制作中,有一个立项、写本、编辑、加工、整合等开发流程;要使用某种算法语言和各种工具的两种方法,强调坚持教育性、可调节性、因材施教和非结构化教材等原则;制作成果是课件,也就是说,是有关课程某一部分内容的多媒体教学材料(包括教科书、参考书、录音带、录像带、幻灯片、影片等),是专为教学活动设计的计算机软件(包括用于控制和进行教育活动的程序,帮助开发、维护程序的文档资料,帮助教师和学生使用程序学习的课本和练习册等)。多媒体教学软件的开发,体现了多媒体技术是计算机教育的最佳手段。因为多媒体教学软件形式丰富多彩、趣味性强,符合学生心理特点;形象直观、生动、活泼,易于理解;有着丰富的教学资源,特别是和国际联网,以获取最新资料;改革教学模式,呈现交互式的教育方式;体积小、分量轻的光盘能容纳庞大的信息等等。多媒体教学软件的开发尽管有一些妨碍教师主导作用的负面影响,但它是各级各类学校教学的需要。现代教育对学习者记忆与学习的要求、师生互动组合方式的要求、个别化教学与因材施教的要求、不同教学环境、不同教学模式的要求等,这些都为多媒体教学软件开发奠定了教育基础。

多媒体创作工具是指能够集成处理和统一管理文本、图形、静态图像、视频影像、动画、声音等多媒体信息,使之能够根据用户的需要生成多媒体应用软件的编辑工具。当前,多媒体创作工具的种类归纳起来主要有以下三种类型:一是交互式流线或图标编辑控制型,编辑人员按照脚本的要求将选定的不同类型的图标根据需要一一放置于流线上进行编辑。二是描述式页控制型,将多媒体素材根据需要编辑在一幅画面之中形成一页书,再将页与页之间按一定的调用关系联系起来以形成一本书的概念,不同页之间根据需要交互性地呈现即形成多媒体应用软件。三是时间流程型,这类工具在编辑信息时显示出较强的时间前后顺序,即时间流程(TimeLine),主要用来编制一些简报类的程序。编制一个优秀的教育软件,我们需要了解诸如软件的使用体、运行环境等问题。其中关系到软件成败的一个重要因素是要了解创作工具的特点,这样,才可根据需要有目的地进行选择。多媒体创作工具与其他工具软件相比,具有以下特点:1.操作简便,易于入门;2.强大的集成性开发环境;3.开发周期的缩短是软件得以投入运作的最好方式;4.具有极大的扩充功能。在软件的制作中创作人员一般都追求一种极大的时效比,也就是在较短的时间内,用较少的原程序求得较好的效果、较高的质量、亮丽的界面和较低的运作环境。因此,如何从众多的多媒体创作工具中选择符合自己最满意的多媒体创作系统,直接关系到以上所罗列的各种要求。一般来讲,选择多媒体创作工具时应从以下几个方面进行考虑:对创作人员,要求其个人能力与经验;对多媒体创作工具运行的环境,我们以PC机的环境作为标准。此外,MAC多媒体系统是一种多媒体的典范;由于多媒体教学软件有诸如教育型、演示型、娱乐型、百科全书型等不同类型,因此,对创作工具的选择要求根据具体需要考虑选取不同的类型。因为不同的多媒体创作工具其适用范围是不一样的。综上所述,现在教育系统使用多媒体教学技术,其质量是受多媒体创作过程影响的。目前,为满足大、中、小学制作多媒体教学软件的需求,在制作软件时需按要求选取适当的创作工具,提高制作人员的业务素质,才能做出质量较高的教育软件。

虚拟现实是一种人和计算机接口的技术,亦称“灵境技术”。它是利用计算机生成一种高度逼真的、模拟人在现实世界中进行视、听、动等行为的虚拟世界。虚拟现实不仅能够展示现实世界的各种现象,而且还能实现现实世界难以实现的特征。虚拟现实通过多种传感设备,使人有很好的临场感,产生身临其境的体验。虚拟现实技术实现人与虚拟环境的自然交互,实现对虚拟系统的自主控制,实现感知的现实、操作的现实和运动的现实所构成的三要素。这里要强调传感设备。它有显示和呈现视听感知现实的立体头盔等设备;有输入人体对虚拟现实操作行为的数据手套等设备;有通过合成和传递方式实现运动现实的计算机模拟等设备。这些传感设备,既有穿戴在人体上的装置,又有设置于现实环境中的传感器,如摄像机、声响设备、远程传感设备等。虚拟现实尽管经费昂贵且有一定实验的危险性等,但作为多媒体教学的一种技术,它在丰富学习环境、为学生扩大知识信息、提高实践能力、增强创造才华等方面还是有教育价值的。虚拟现实的出现,是教学训练、特别是复杂技能和特殊专业训练以及教学评价的需要。如果有条件,教师也可以使用。不少现代教育,如建工、医学、航空、航天等专业的教学,若采用虚拟现实技术,对提高教学教育质量会有很大的帮助。所有这一切,都为虚拟现实技术奠定了教育基础。

[参考文献]

[1]吴炜煜.多媒体技术导论[J].多媒体世界,1996(1):11-13.

[2]傅德荣.多媒体技术及其教育应用[M].北京:高等教育出版社,2003:3.

[3]黄孝建.多媒体技术[M].北京:北京邮电大学出版社,2000:2.

[4]林众,冯瑞琴.计算机与智力心理学[M].杭州:浙江人民出版社,1997:289.

对计算机视觉的理解篇2

关键词:机器视觉;边缘检测;图象识别;滤波算法

中图分类号:TP242文献标识码:A文章编号:1674-7712(2013)02-0082-01

一、机器人系统的发展及机器人视觉

机器人的发展大致经历了三个成长阶段,也即三个时代。第一代为简单个体机器人;第二代为群体劳动机器人;第三代为类似人类的智能机器人。它的未来发展方向是有知觉、有思维、能与人对话。机器人向着智能化、拟人化方向发展的道路,是没有止境的。机器人视觉是计算机学科的一个重要分支,它综合了光学、机械、电子、计算机软硬件等方面的技术,涉及到计算机、图像处理、模式识别、人工智能、信号处理、光机电一体化等多个领域。我国机器人视觉应用主要有以下目的:用以代替人类从事危险、有害和恶劣环境、超净环境下的工作;提高劳动生产率,改变产品质量,快速相应市场需求,加强在国际市场的竞争能力。

二、机器人视觉的原理

机器视觉是机器人感知周围环境的主要途径之一。它可以通过视觉传感器获取环境的二维图像,并通过视觉处理器进行分析和解释,进而转换为符号,让机器人能够辨识物体,并确定其位置。目前成熟的光电成像技术都只能捕获二维明暗信息,而不能获得距离信息,所以直接通过这种途径获得的机器视觉也只能是二维的。随着科学技术的发展,三维立体视觉的解决方案也如雨后春笋般涌出,其中就包括双目立体视觉,狭缝光投影法,时间差法等。

(一)实现方法

1.图像的获取与预处理:用于进行三维特征提取的图像是一幅常规的二维灰度图,所以使用一个常规的CCD或CMOS图像传感器即可满足要求。图像需要进行量化处理,即把图像信息分成许多像素点,这些亮点经过A/D转换后即可输入计算机进行处理。2.边缘信息提取:边缘提取算法就是把一副灰度图像转化为二值图像,灰度图像中的轮廓在二值图像中用1表示,而非轮廓位置用0表示。边缘提取算法的种类非常地多,如Robert算子卷积法等。3.边缘检测与轮廓连结:边缘检测主要采用各种算子来发现、强化图像中那些可能存在边缘的像素点。边缘检测算子除了有Roberts算子外,还有索贝尔算子(Sobeloperator)和Prewitt算子、高斯偏导滤波器以及Canny边缘检测器等。4.利用线条分类识别三维物体:提取出二维图像的轮廓信息,还不足以分析出其中的三维特征,我们必须对轮廓信息进行进一步的模式化处理,从轮廓中提取特征。5.从二维图像中提取三维特征的局限性:虽然从二维图像中提取图像的三维特征的算法对设备的要求低,处理的数据量相对较小,输出地结果也比较规整。但是这种算法也有其局限性。

(二)摄像机模型及透视技术

透视技术实际是一个非线性映射,这在实际求解时可能需要大的计算量,而且如果透视效果不明显,直接使用该模型可能会使求解变为病态。透视逆变换把三维物体转变为二维图形表示的过程称为投影变换。

三、基于视觉的机器人路径规

针对移动机器人规避障碍和寻找最优路径问题,提出了在复杂环境下移动机器人的一种路径规划方法。采用了栅格法建立了机器人工作平面的坐标系,整个系统由全局路径规划和局部避碰规划两部分组成[8]。在全局路径规划中,用改进蚁群算法规划出初步全局优化路径;局部避碰规划是在跟踪全局优化路径的过程中,通过基于滚动窗口的环境探测和碰撞预测,对动态障碍物实施有效的局部避碰策略,从而使机器人能够安全顺利的到达目标点。这种方法能在较短时间内找到最佳路径并规避障碍。

四、机器人视觉处理程序

机器人视觉处理程序的主要功能包括:(1)从USB摄像头实时读取视频数据,进行简单的预处理;(2)随后进行图像处理,主要完成空域的图像增强。通过对图像进行二值化,将目标小球从背景中提取出来;(3)计算目标的位置,进而计算出机器人头部的旋转角度,通过舵机驱动程序,控制机器人头部转动到目标所在角度,实现对目标物体的跟踪。

经过实验,机器人头部可较好地跟踪目标,实现了视觉原型系统。

(一)机器人视觉的目标与任务

目标:使机器人具有感知周围视觉世界的能力。让机器人具有对周围世界的空间物体进行传感、抽象、判断的能力,从而达到识别、理解的目的。

任务:图象的获取、预处理、图象分割与表示与描述、识别与分类、三维信息理解、景物描述、图象解释。红色部分就构成了图像分析的研究内容。

(二)视觉信息的处理

移动机器人视觉信息的处理通常由图象获取、图象分析、关系描述三部分组成。

五、结束语

移动机器人是目前机器人领域的研究重点之一,吸引着众多学者的注意。机器人的研究涉及到人工智能、控制理论、传感器技术和计算机科学等多门学科。通过阅读大量的期刊、学术论文用于进行三维特征提取的图像是一幅常规的二维灰度图,所以使用一个常规的CCD或CMOS图像传感器即可满足要求。图像需要进行量化处理。为了给形态学处理的图像提供统一的条件,计算机在把获得图像进行形态学处理前,必须先对其进行预处理。由于各方面客观条件以及个人研究能力的限制,在机器人技术中嵌入式系统的应用及视觉处理程序方面的研究还不够深入,还需要在今后的研究中不断深入探讨。21世纪是信息化的时代,随着信息技术的发展和普及,机器人视觉系统无论是在理论研究上上,还是在应用方面都将很大进展。

参考文献:

[1]段峰,王耀南.机器视觉技术及其应用综述[J].自动化博览,2002(3):43-47.

[2]李文锦,吴海彬,何祖恩.基于机器视觉的机械测量及识别技术研究[J].机床与液压,2010(1):32-51.

对计算机视觉的理解篇3

1计算机视觉的概述及基本体系结构

1.1计算机视觉概述

通过使用计算机和相关设备,对生物视觉进行模拟的方式,就是计算机视觉。对采集到的图片或视频进行相应的技术处理,从而获得相应的三维信息场景,是计算机视觉的主要任务。计算机视觉是一门学问,它就如何通过计算机和照相机的运用,使人们获得被拍摄对象的数据与信息所需等问题进行研究。简单的说,就是让计算机通过人们给其安装上的“大脑”和“眼睛”,对周围环境进行感知。计算机视觉是一门综合性学科,在各个领域都有所作为,已经吸引了各个领域的研究者对其研究。同时,计算机视觉也是科学领域中一个具有重要挑战性的研究。

1.2计算机视觉领域基本体系结构

提出第一个较为完善的视觉系统框架的是Marr,他从信息处理系统角度出发,结合图像处理、心理物理学等多领域的研究成果,提出被计算机视觉工作者基本接受的计算机视觉系统框架。在此基础上,研究者们针对视觉系统框架的各个角度、各个阶段、各个功能进行分析研究,得出了计算机视觉系统的基本体系结构,如图1。

2计算机视觉在交通领域的应用

2.1牌照识别

车辆的唯一身份是车辆牌照。在检测违规车辆、稽查被盗车辆和管理停车场工作中,车辆牌照的有效识别与检测具有重要的作用和应用价值。然而在实际应用工作中,虽然车牌识别技术相对成熟,但是由于受到拍摄角度、光照、天气等因素的影响,车牌识别技术仍需改善。车牌定位技术、车牌字符识别技术和车牌字符分割技术是组成车牌识别技术的重要部分。

2.2车辆检测

目前,城市交通路口处红绿灯的间隔时间是固定不变的,但是受交通路口的位置不同、时间不同的影响,每个交通路口的交通流量也是持续变化的。此外,对于某些交通区域来说,公共资源的配备,比如交通警察、交通车辆的数量是有限的。如果能根据计算机视觉技术,对交通路口的不同时间、不同位置的交通情况进行分析计算,并对交通流量进行预测,有利于为交通警察缩短出警时间、为交通路口的红绿灯根据实际情况设置动态变化等技术提供支持。

2.3统计公交乘客人数

城市公共交通的核心内容是城市公交调度问题,一个城市如何合理的解决公交调度问题,是缓解城市运力和运量矛盾,缓解城市交通紧张的有效措施。城市公交调度问题,为公交公司与乘客的平衡利益,为公交公司的经济利益和社会效益的提高做出了巨大的贡献。由于在不同的地域、不同的时间,公交客流会存在不均衡性,高峰时段的公交乘客过多,平峰时段的公交乘客过少,造成了公交调度不均衡问题,使有限资源浪费严重。在计算机视觉智能公交系统中,自动乘客计数技术是其关键技术。自动乘客计数技术,是对乘客上下车的时间和地点自动收集的最有效的技术之一。根据其收集到的数据,从时间和地点两方面对客流分析,为城市公交调度进行合理的安排。

2.4对车道偏离程度和驾驶员工作状态判断

交通事故的发生率随着车辆数量的增加而增加。引发交通事故的重要因素之一就是驾驶员疲劳驾驶。据相关数据显示,因车道偏离导致的交通事故在40%以上。其中,驾驶员的疲劳驾驶就是导致车道偏离的主要原因。针对此种现象,为减少交通事故的发生,计算机视觉中车道偏离预警系统被研究开发并被广泛应用。针对驾驶员眨眼频率,利用计算机视觉对驾驶员面部进行图像处理和分析,再根据疲劳驾驶关注度与眨眼频率的关系,对驾驶员的工作状态进行判断。此外,根据道路识别技术,对车辆行驶状态进行检测,也是判断驾驶员工作状态的方法之一。这两种方法,是目前基于计算机视觉的基础上,检测驾驶员疲劳状态的有效方法。

2.5路面破损检测

最常见的路面损坏方式就是裂缝。利用计算机视觉,及时发现路面破损情况,并在其裂缝程度严重之前进行修补,有利于节省维护成本,也避免出现路面坍塌,车辆凹陷的情况发生。利用计算机视觉进行路面检测,相较于之前人工视觉检测相比,有效提高了视觉检测的效率,增强了自动化程度,提高了安全性,为市民的出行安全带来了更高保障。

3结论

本文从计算机视觉的概述,及计算机视觉基本体系结构,和计算机视觉在交通领域中的应用三面进行分析,可见计算机视觉在交通领域中的广泛应用,在交通领域中应用的有效性、显著性,以此可得计算机视觉在现展过程中的重要性。随着计算机视觉技术的越来越成熟,交通领域的检测管理一定会加严格,更加安全。

作者:夏栋单位:同济大学软件学院

参考文献:

[1]段里仁.智能交通系境在我国道路空通管理中的应用[J].北方工业时报,2015(06).

[2]王丰元.计算机视觉在建筑区间的应用实例分析[J].河北电力学报,2015(04).

[3]李钊称.主动测距技术在计算机数据分析中的作用探析[J].计算机应用,2015(08).

[4]马良红.三维物体影像的摄取与分析[J].中国公路学报,2014(05).

对计算机视觉的理解篇4

关键词:物联网;RFID;视觉密码;安全协议

DOIDOI:10.11907/rjdk.151503

中图分类号:TP309.7

文献标识码:A文章编号:16727800(2015)006017303

基金项目基金项目:

作者简介作者简介:李春艳(1981-),女,云南蒙自人,硕士,红河学院工学院讲师,研究方向为数字水印、物联网安全。

0引言

射频识别技术(RadioFrequencyIdentification,RFID)是一种高效而实用的识别技术,它通过无线电波在读写器和标签之间传递信息,实现对物体的跟踪和识别。RFID系统主要由标签、读写器和后端数据库系统构成。标签可接收数据,也可将数据发送给读写器。读写器负责处理并捕捉标签的数据,并将数据传送给后端数据库系统。读写器在标签和后端系统中发挥中介作用。这种非接触性技术在带来便利的同时,也存在很多安全隐患,如物体的位置跟踪及标签信息泄露等。RFID安全保密问题日益备受关注,很多学者提出了安全认证协议,如基于密钥矩阵的RFID安全协议、Key值更新随机Hash锁对RFID安全隐私的加强、基于轻量级加密技术建立物联网感知层信息安全的解决方案等。这些算法在一定程度上可抵御攻击,有一定的安全性,但也存在同步问题及运算量大、对重放攻击不具有免疫性等缺陷。

视觉密码VCS(VisualCryptographyScheme)是一种新型的密码技术,具有解密简单、计算量小、满足无条件安全等优势。它由Naor和Shamir在1994年的欧洲密码学会议上提出[1]。其基本思想是将秘密图像编码到n个影子图像(分享图像)中,并将影子图像分别赋给n个参与者,解密时只需k(k≤n)个参与者将影子图像叠加起来,就可通过视觉辨认出秘密信息[1-3]。文献[4]提出了一个基于布尔操作的(2,n)门限视觉密码方案,加密时将秘密图像分享为n个分享图像,解密时取任意两个分享图像进行异或运算即可恢复秘密图像。文献[5]分析了物联网架构中感知层存在的安全漏洞,提出了视觉密码的身份认证方案。该方案虽采用了视觉密码运算简单的特点,但其在认证过程中只实现了单向认证,即对标签的认证,而没有实现对读写器的认证。另外,由于认证过程中认证信息始终不变,所以方案不能抵御位置跟踪、重放等攻击。文献[6]利用视觉密码实现了双向身份认证,然而在认证过程中以明文传送,算法很难抵御假冒攻击,一旦被俘获算法也不能保证前向性安全。鉴于现有认证协议的缺陷,本文利用视觉密码构造一种新的RFID认证协议,使用视觉密码实现标签与读写器间的认证,并在认证后更新标签中的影子图像,弥补现有认证协议运算量大、安全性差的不足。

1视觉密码

1.1基本原理

(k,n)的视觉密码方案将一幅秘密图像P加密成n幅影子图像,解密时只需将k(k≤n)个影子图像重叠起来就能恢复秘密信息。加密基本原理是对秘密图像P中的每个像素进行n次处理,P中每个像素在影子图像中对应m个黑白子像素(m称为像素扩展度),对P中所有像素都作此处理后就得到n幅影子图像。若为P中每个像素的加密构建一个n*m的布尔矩阵A=(Aij)n*m,则Aij=0表示对于秘密图像中某一个像素,它在第i个分享者的第j个子像素的颜色为白色;Aij=1表示它在第i个分享者的第j个子像素的颜色为黑色。矩阵A的第i行为秘密图像p中一个像素在影子图像中对应的子像素。对A中第j列的所有元素作或运算,其值W(v)称为该像素块的汉明重量。

解密时将k个影子图像重叠,计算每个像素块的汉明重量,当W(v)≥d时,图像中该像素点为黑色;W(v)

1.2二值图像的(2,2)视觉密码分解

以一幅黑白二值图像p分解为2幅影子图像为例来说明视觉密码方案的基本原理,分解时用公式(1)作加密矩阵(H0和H1分别表示秘密图像中白色像素和黑色像素的加密矩阵),像素扩展度m=2。具体步骤如下:(1)对于P中的每一个像素pxy进行扩展,扩展方法:若pxy为白色,则从集合H0中等概率挑出一个矩阵来对该像素加密;矩阵中的一行即为像素pxy在影子图像中对应的像素块。若pxy为黑色,则从集合H1中等概率挑出一个矩阵来对该像素进行加密。

(2)重复上述操作,直至P中所有像素都被加密为止。

解密步骤如下:

①选择参数d和a;叠加2个影子图像,计算叠加图像中每个像素块的汉明重量W(v);

②汉明重量W(v)≥d时,恢复图像中该像素点为黑色;W(v)

③重复上述过程即可得恢复图像。

2基于视觉密码的RFID认证协议

2.1预置信息

在基于视觉密码的RFID认证协议中,后台数据库为每个标签存储一条记录(ID、S1、Rr、Pointer),ID是标签的唯一标识符,Rr是系统生成的随机数,由Rr构造一幅黑白二值图像P;S1是对P作(2,2)视觉密码分解所得的影子图像。Pointer是数据记录关联指针,其作用是保证认证过程中的同步安全。标签中存储ID标识符和标签对应的另一个影子图像S2。读写器含有随机数发生器,并为每个标签存储一条记录(Hash(ID||R)、ID),Hash(ID||R)是标签ID与随机数的哈希值。后端系统和标签共用Hash()和Ard(),Hash()是哈希函数,Ard()为猫脸变换函数,用来对影子图像进行加密与恢复。

初始化时,为每个标签随机生成一幅二值图像P,使用视觉密码将P分解为影子图像S1和S2,将这些信息分别存入后台系统和标签中,如图1所示。

2.2协议认证过程

(1)读写器向标签发送认证请求Query和随机数R后,更新读写器中记录的Hash(ID||R)值。

(2)标签计算Hash(ID||R),对影子图像S2加密,将信息Hash(ID||R)和EN(S2)发送给读写器。

(3)读写器以Hash(ID||R)为索引搜索表中的记录,若找到则将记录中的ID和EN(S2)转发给后端系统;否则,会话结束。

(4)后台以ID为索引搜索数据库。若找到,取出记录中的S1与解密后的S2作视觉密码运算得到恢复图像P`,系统检测P`中的信息与Rr是否一致,一致则对标签通过认证。后端系统随机生成新的随机数Rrnew和对应的二值图像Pnew,对Pnew作视觉密码分解得到新的影子图像S1new、S2new,生成随机数R,并计算Hash(ID||R),将Hash(ID||R)、R和EN(S2new)发送给读写器。读写器收到后转发给标签。若P`中检测的信息与Rr的信息不一致,则会话结束。

(5)数据库检查当前记录j中的Pointer值,若Pointer=0,则再添加一条新的记录k:(ID、S1new、Rrnew、j),并将记录j中的Pointer值改为k。若Pointer!=0,则找到第Pointer所指的记录,将其内容修改为(ID、S1new、Rrnew、j)。

(6)标签收到Hash(ID||R)、R和EN(S2new)后,标签计算Hash(ID||R),并与收到的Hash(ID||R)进行比对,比对成功则读写器认证通过,标签对EN(S2new)解密后更新影子图像S2,否则会话结束。标签与读写器间的认证过程如图2所示。

3协议安全性分析

3.1双向身份验证分析

标签与读写器间的双向身份验证是设计安全协议时需考虑的首要问题,本文只有合法的标签才拥有正确的影子图像S2,S2与其对应的S1重叠后恢复的信息才与Rr的信息吻合;若标签是伪造的,则其恢复的信息与Rr的信息不一致。所以利用S2可实现读写器对标签身份的认证。协议中S2以密文的方式传送,所以即便传送的信息泄露,攻击者也无法得到S2的任何信息。此外,当后端系统通过对标签的认证时,协议会生成新的影子图像S2new、计算标签ID与随机数R的哈希值,并将Hash(ID||R)、R和EN(S2new)发送给标签,标签通过Hash(ID||R)的计算比较,实现标签对阅读器的认证。最后,在整个协议过程中,ID不在读写器和标签间传输,所以攻击者无法获得正确的ID,除非标签从物理上被攻破。认证时标签要发送Hash(ID)、EN(S2),仅持有正确的Hash(ID)是毫无用处的。总体来讲,协议能够安全可靠地实现读写器与标签间的双向认证。

3.2不可跟踪性分析

射频识别认证协议必须考虑的另一个问题是标签的位置跟踪。本协议含有反位置跟踪设计。每次认证获通过后,标签都会更新影子图像S2,且随机数R的值也在更新变化,所以标签对读写器的每次回答(Hash(ID||R)和EN(S2))是不同的,从而实现了标签的反跟踪。

3.3前向性和同步性安全分析

假设某标签被攻击者攻破并获得密钥,攻击者将得到正在使用的影子图像S2。但由于每次验证通过后,系统都会随机产生二值图像P来更新标签中的影子图像S2,这些影子图像间无任何关联,所以即使当前S2被窃取,也无法从现有的值推算出之前的S2,不可获得标签的历史活动记录。

协议对标签的认证获通过后,数据库为更新的S2new建立新记录,同时保留旧的S2对应的记录。若S2new更新不成功,标签仍能使用旧的S2实现与读写器的身份验证,这样就防止了S2更新时可能出现的异常情况。

3.4其它性能分析

标签中只存储标签ID和影子图像S2,一次认证过程需2次哈希运算和1次加密、解密运算,降低了标签的存储空间、运算复杂度。因此这在低成本的标签上较易实现。每次认证时后台数据库在2N(N为标签的个数)条记录中搜索,进行1次哈希运算,产生2个随机数,作一次视觉密码的加、解密运算,且视觉密码的加解密运算量较小,所以本方法延时短、速度快,效率高。

3.5与其它协议性能比较

表1为本协议与文献[5]、[6]协议的比较。表中VCS为视觉密码加密或解密,H表示哈希运算,R表示产生随机数操作的次数,EN为对称加密算法,DE为对称解密算法。

4结语

本协议通过对随机二值图像作视觉密码分解,把分解后的影子图像分别存储在标签和后台系统中,认证时对影子图像作视觉密码解密,然后用提取的恢复图像信息与Rr作比较,若信息一致,则标签的认证通过,否则会话结束。视觉密码的加密、解密过程简单,运算量小,标签端存储的数据少、运算量不大,复杂运算主要在运算能力和存储能力较强的后台数据库和读写器中进行。该算法具有成本低,延时短,安全性高等特点,在实现双向认证的基础上能有效抵御位置跟踪、窃听、非法读取等攻击。

参考文献:

[1]ANDREASKLEIN,MARKUSWESSLER.Extendedvisualcryptographyschemes[J].InformationandComputation,2007(205):716732.

[2]GIUSEPPEATENIESE,CARLOBLUNDO,ALFREDODESANTIS,etal.Stinson,visualcryptographyforgeneralaccessstructures[J].InformationandComputation,1996(2):86106.

[3]MNAOR,BPINKAS.Visualauthenticationandidentification[J].SpringerVerlagLNCS,1997(1294):322336.

[4]WANGDS,ZHANGL,MAN,etal.TwosecretsharingschemesbasedonBooleanoperations[J].PatternRecognition,2007(40):27762785.

[5]杜轶j,严承华,冯剑川.基于视觉密码的物联网身份认证技术研究[J].技术研究,2012(1):2628.

对计算机视觉的理解篇5

【关键词】Opencv;计算机视觉技术;系统;研究

随着计算机技术的快速发展,计算机设备逐渐被应用到社会生活的各个方面,尤其是在当前计算机视觉技术和图像处理技术快速发展的时期,各个科技领域中的计算机视觉技术已经逐渐成熟。计算机视觉技术主要是利用计算机智能化来替代人眼,即对于客观存在的三维立体化世界的理解和识别,整个实现过程均是以计算机技术作为基础。随着计算机视觉技术的不断发展,现今其已逐渐成为了一门神经生理学、计算机工程、信号学、物理学、应用数学等综合性学科。计算机视觉技术系统其在高性能计算机基础之上来实现对大量数据的获取,并且通过智能算法来对获取数据进行处理,从而完成对数据集成。

一、视频中运动物体检测原理

对于视频中的运动物体检测主要分为两中方法,其一为宏观检测法;其二为微观检测法。宏观检测法是对获得的整幅图像进行检测,而微观检测法则是对所需要的区域进行图像检测。视觉技术在检测运动物体的时候,首先对图像进行采集,并对采集的信息数据进行预处理,将图像进行分割,然后分别提取运动物体的影象,从而实现参数的更新。图像采集过程中采用背景差分法,实现对背景图像的提取,其通过一定算法采用人为手段获取没有背景的图像。另外在进行运动物体检测的时候还可以采用帧间差分法,其主要是实时获取帧图,然后实现一帧一帧图像比值的比较,从而获取具有差值的图像。运动物体进行检测的时候需连续获取帧图,将这些帧图组合起来,其实就是物体的运动轨迹,然后同分割技术就能勾勒出物体的轮廓。随着计算机视觉技术的不断深入研究,发现此两种方法单独使用仍然存在的一些缺点,于是研究人员将二种检测方法进行融合,形成一种综合检测方法。综合检测法将两者检测方法的优势进行了融合,并将其灵活的应用到了生产和生活之中,取得了十分不错的效用。

二、基于Opencv的计算机视觉技术探究

(一)基于Opencv的运动物体检测

运动物体在进行检测的时候,基于Opencv的检测原理主要为:根据物体某项特定信息,例如,颜色、轮廓、性状等,在复杂背景中利用这些特定的信息将物体分离出来。整个图像的分离过程首先是进行视频流捕捉,然后是进行视频的格式转换,再将图像进行预处理,从而提取前景物体,减少环境因素对图像处理的误差,最后根据物体特征提取,并完成对运动物体的跟踪。从图像中提取所需的目标物体,其实质就是对整个屋里轮廓进行检测和分割,根据每个图像的帧差异来进行提取。

(二)基于Opencv图像预处理

视觉技术应用于复杂的环境之中,由于存在着光照的变化,其场景中所出现的环境因素对视频采集设备性能影响很大。环境因素会使得获取的图像信息的质量降低,并且在图像中无法避免的存在着噪点,这对于运动物体的检测和图像采集会造成很大的影响。当获取视频帧图像之后需对其数据进行预处理,通常有平滑度滤波处理、图像填充、图像背景更新等。

1.平滑度滤波处理

由于在进行视频图像采集的时候存在着噪点,那么我们就需要对其进行噪点处理,以求减小噪声。滤波平滑度滤波处理,其具有线性和非线性两种方式,其中线性方式进行处理器运算简单、运算速度快,但是在进行处理之后的图像都会呈现不清晰的情况。而非线性方式尽心给处理之后,虽然能够很好的减小噪点,确保信号的局部特点,但是其运算的速度会较慢。

2.图像填充

对于帧图像进行处理,通常采用检测边缘填充法或者是腐蚀膨胀法来完成,其中填充法是指当检测出目标物体之后,利用边缘检测方法来对物体进行辨识,然后利用形态学的漫水填充法进行填充。图像的腐蚀膨胀则主要是由于摄像机的性能等问题造成的。

3.实时背景更新

在进行图像差分之前,需要对背景图样进行确定,并且需要对其进行初始化处理。以方便以后在进行检测时候能够对实时背景图进行差分计算,只有这样,才能够获得极佳的前景效果。在进行图像差分时,首先需要根据指定法来确定第一帧背景的图像,并将其指定为第一张背景图片,然后在检测过程中根据算法对背景实施更新。整个图像在进行更新时,其主要的流程为:判断并读取图像是否为第一帧;将Opencv处理的图像转化为单通道灰度值;将实时采集的图像进行高斯平滑度处理,去除噪点;最后使用形态学滤波处理噪点。

(三)提取前景运动物体图像

检测运动物体的时候,只有在检测流程中确保精确度,才能够获取满意的前景跟踪效果。此过程中主要分为两个步骤,第一步为二值化图像之后进行分割;第二步,图像分析前处理,进行充分填充,确保前景图的完整性。其中,前景图的提取主要分为下面几个步骤:首先对前景图像和背景图像进行差分,然后对差分的图像进行二值化,再对背景中的前景图像边缘进行检测,根据轮廓进行填充图像。由于摄像头存在于不同的场景和环境之中,不论是室外或者是室内随着场景的变化都会对图像的采集产生影响。那么在前景图中提取目标就需要在检测系统中采用有效手段来完成背景实时更新。

阀值二值化分割法可以对检测的物体进行前景和背景差图分割,从而使目标物体能够分离出图像,且阀值分割先要确定每个像素的点是否处于灰度范围值之内。将图像中的像素灰度与确定的阀值进行比较,其结果解释所有像素点分为2类,一类像素的灰度小于阀值,另外一类就是大于阀值。阀值二值化分割时,确定分割的阀值T,然后分割图像。选取合适的阀值进行分割,可以有效的减少光照因素影响,常用的动态阀值主要有直方图来法与最大类方差法这另种分割方法。

三、计算机视觉三维技术

计算机视觉技术的核心为分割问题、运动分析、3D立体场景重构等,立体视觉主要是从多幅图像的参照中获取目标物体的三维几何信息。计算机视觉所模拟出的3D立体画面只需要摄像机从不同的角度同一时间针进行图像捕获,将2D信息进行3D重构,进而将计算机程序重建于真实的三维场景之中,以恢复物体的真实空间信息。

(一)视觉系统

视觉系统捕获图像的过程,实则可以看成为对大量信息进行处理过程,整个系统处理可以分为三个层次,其一,理论层次;其二,描述层次;其三,实现层次。在摄像机视觉系统之中,输入的是2D图像,但是输出为3D信息,而这就可以实现对图像的位置、距离等信息的如实描述。视觉系统分为三个进阶层次,第一阶段为基础框架;第二阶段为2.5D表达;第三阶段为三维阶段。在第二阶段中实现的2.5D表达,其原理是将不完整的3D图像信息进行表达,即以一个点为坐标,从此点看去某一些物体的部分被遮挡。第三阶段的三维阶段,则是人眼观察之后可以从不同的角度来观察物体的整体框架,从而实现了将2.5D图像信息的叠加重合运算,进一步处理之后得到了3D图像。

(二)双目视觉

人们从不同角度观看同一时间内的同一物体的时候,可以利用算法测量物体间的距离。此法被称为双目立体感觉,其依据的原理是视觉差原理,利用两台摄像机或者一台摄像机,对两幅不同的图像进行不同角度观察,并且对其观察的数据进行对比分析。实现双目立体视觉与平面视觉图像获取,其主要的步骤为:

(1)图像获取

从两台不同的摄像机,捕获帧图像,由于环境因素会造成图像差异困难。为了更好的跟踪目标、检测,当捕获图像之后,需要对图像进行预处理。

(2)摄像标定方式

获得真实坐标系中的场景点中的与平面成像点占比见的对应关系,借用三维立体空间中的三维坐标,标定之后确定摄像机的位置以及属性参数,并建立起成像的模型。

(3)特征提取方式

所谓的特征提取方式主要是为了提升检测、跟踪目标的准确性,需要对目标物体进行特征提取,从而实现对图像分割提取。

(4)深度计算

深度信息主要是根据几何光学原理,从三维世界进行客观分析,因为距离会产生不同的位置,会使得成像位置与两眼视网膜上有所不同。简单来说,客观景物的深度可以反映出双目的视觉差,而利用视觉差的信息结合三角原理进行计算,可呈现出深度的图像信息。

(三)摄像机模型

摄像机在标定过程中确定了其建立的基础为摄像机的模型,摄像机模型在标定过程中关系到三个不同坐标系的转换,分别为2D图像平面坐标系、摄像机自身坐标系以及真实的世界坐标系。摄像机在摄像的时候起本质是2D图像坐标转换,首先要定义摄像机的自身坐标系,将坐标系的原点设置为光心,X、Y、Z成立三维坐标系。其次则是建立平面的图像坐标系,用以透视模型表示,其原点也在广心的位置,称之为主点。实际应用中,物理的距离光心的位置d≠f焦距,而且会远远大于焦距,为了解决如此问题就提出了平面概念。在光轴z上设置一个虚拟的图像平面,然后在此位置于平面关于光心对称。接着,在设置的虚拟2D坐标系中,光轴和原点重合,并且摄像机与垂直平面的垂直方向相同,真实图像上的点影射到摄像机坐标系。

(四)3D重构算法

视频流的采集,主要是采用Kinect设备、彩色摄像头、红外发射摄像头、红外接收摄像头。使用微软提供API控制Kinect设备,在操作之前需调用NUI初始化函数,将函数的参数设置为用户信息深度图数据、彩色图数据、骨骼追踪图数据、深度图数据。上述的视频流的打开方式不同,既可以是一种打开方式,也可以是多种打开方式,尤其在进行Kinect传输数据处理的时候,需遵循三条步骤的运行管线。此三条管线分别为:第一条为处理彩色和深度数据,第二条为根据用索引添加颜色信息,并将其放入到深度图之中,第三条为骨骼追踪数据。

四、总结

随着计算技术的快速发展,视觉技术逐渐被广泛的应用于我们日常的研究之中。本文通过对视觉技术的相关问题进行分析,探究了图像处理、分割、前景提取、运动物体观测以及重构3D图等问题,为实现视觉技术更加深入研究做出了相应的贡献;为广大参与计算机视觉技术研究同仁提供一个研究的思路,为实现视觉技术的腾飞贡献薄力。

参考文献

[1]张海科.基于Opencv的人手识别与跟踪定位技术研究与实现[D].云南大学,2013.

对计算机视觉的理解篇6

1.1自动化程度高

计算机视觉可以实现对农产品的多个外形和内在品质指标进行同时检测分析,可以进行整体识别、增强对目标识别的准确性。

1.2实现无损检测

由于计算机视觉技术对农产品的识别是通过扫描、摄像,而不需要直接接触,可以减少对所检测食品的伤害。

1.3稳定的检测精度

设计的运行程序确定后,计算机视觉技术的识别功能就会具有统一的识别标准,具有稳定的检测精度,避免了人工识别和检测时主观因素所造成的差异。

2计算机视觉技术在食品检测中的应用

20世纪70年代初,学者开始研究计算机视觉技术在食品工业中的应用,近几十年电子技术得到快速发展,计算机视觉技术也越来越成熟。国内外学者在研究计算机视觉技术在食品工业中的应用方面主要集中在该技术对果蔬的外部形态(如形状、重量、外观损伤、色泽等)的识别、内部无损检测等方面。国内有关计算机视觉技术在食品业中的应用研究起始于90年代,比国外发达国家晚20多年,但是发展很快。

2.1计算机视觉技术在果蔬分级中的应用研究

计算机视觉技术在食品检测中的应用研究相当广泛,从外部直径、成熟度的检测到内部腐烂程度的检测都有研究。韩伟等[4]采用分割水果的拍摄图像和新的计算机算法计算水果的半径,进而得出果蔬的最大直径。研究表明,该算法不仅降低了计算量而且提高了计算精度,此方法用于水果分级的误差不超过2mm,高于国际水果分级标准所规定的5mm分类标准差,可在工业生产中很好应用。李庆中[5]也利用图像的缺陷分割算法研究了计算机视觉技术在苹果检测与分级中的应用,结果表明此算法能快速、有效地分割出苹果的表面缺陷。孙洪胜等[6]以苹果色泽特征比率的变化规律为理论基础,结合模糊聚类知识利用计算机视觉技术来检测苹果缺陷域,检测不仅快速而且结果精确。刘禾等[7]通过研究认为苹果的表面缺陷可以利用计算机视觉技术进行检测,计算机视觉技术还可以将苹果按照检测结果进行分级,把检测过的苹果分成裂果、刺伤果、碰伤果和虫伤果等类别。梨的果梗是否存在是梨类分级的重要特征之一,应义斌等[8]通过计算机视觉技术、图象处理技术、傅立叶描述子的方法来描述和识别果形以及有无果柄,其识别率达到90%。杨秀坤等[9]综合运用计算机视觉技术、遗传算法、多层前馈神经网络系统,实现了具有精确度高、灵活性强和速度快等优点的苹果成熟度自动判别。陈育彦等[10]采用半导体激光技术、计算机视觉技术和图像分析技术相结合的方法检测苹果表面的机械损伤和果实内部的腐烂情况,初步验证了计算机视觉技术检测苹果表面的损伤和内部腐烂是可行的。冯斌等[11]通过计算机视觉技术对水果图像的边缘进行检测,然后确定水果的大小用以水果分级。试验表明,该方法比传统的检测方法速度快、准确率高,适用于计算机视觉的实时检测。朱伟[12]在模糊颜色的基础上,分析西红柿损伤部分和完好部分模糊颜色的差别,用分割方法对西红柿的缺陷进行分割,结果显示准确率高达96%。曹乐平等[13]人研究了温州蜜柑的果皮颜色与果实可滴定酸含量以及糖分含量之间的相关性,然而根据相关性,样品检测的正确识别率分别只有约74%和67%。刘刚等[14]从垂直和水平两个方向获取苹果的图像,并通过计算机自动分析图像数据,对苹果的外径、体积、以及圆形度等参数进行处理,与人工检测相比,计算机视觉技术具有检测效率高,检测标准统一性好等优点。Blasco.J[15]通过计算机视觉技术分析柑橘果皮的缺陷,进而对其在线分级,正确率约为95%。赵广华等[16]人综合计算机视觉识别系统、输送转换系统、输送翻转系统、差速匀果系统和分选系统,研制出一款适于实时监测、品质动态的智能分级系统,能够很好地实现苹果分级。王江枫等[17]建立了芒果重量与摄影图像的相互关系,应用计算机视觉技术检测桂香芒果和紫花芒果的重量和果面损伤,按重量分级其准确率均为92%,按果面损伤分级的准确率分别为76%和80%。

2.2计算机视觉技术在禽蛋检测中的应用研究

禽蛋企业在生产过程中,产品的分级、品质检测主要采用人工方法,不仅需要大量的物力人力,而且存在劳动强度大、人为误差大、工作效率低等缺点,计算机视觉技术可以很好的解决这类产品工业生产中存在的困扰。欧阳静怡等[18]利用计算机视觉技术来检测鸡蛋蛋壳裂纹,利用摄像机获取鸡蛋图像后,采用fisher、同态滤波和BET算法等优化后的图像处理技术,获得裂纹形状并判断,试验结果表明,计算机视觉技术对鸡蛋蛋壳裂纹的检测准确率高达98%。汪俊德等[19]以计算机视觉技术为基础,设计出一套双黄鸡蛋检测系统。该系统获取蛋黄指数、蛋黄特征和蛋形尺寸等特征,和设计的数学模型对比来实现双黄鸡蛋的检测和识别,检测准确率高达95%。郑丽敏等[20]人通过高分辨率的数字摄像头获取鸡蛋图像,根据图像特征建立数学模型来预测鸡蛋的新鲜度和贮藏期,结果表明,计算机视觉技术对鸡蛋的新鲜度、贮藏期进行预测的结果准确率为94%。潘磊庆等[21]通过计算机视觉技术和声学响应信息技术相结合的方法检测裂纹鸡蛋,其检测准确率达到98%。MertensK等[22]人基于计算机视觉技术研发了鸡蛋的分级检测系统,该系统识别带污渍鸡蛋的正确率高达99%。

2.3计算机视觉技术在检测食品中微生物含量的应用研究

计算机技术和图像处理技术在综合学科中的应用得到快速发展,在微生物快速检测中的应用也越来越多,主要是针对微生物微菌落的处理。食品工业中计算机视觉技术在微生物检测方面的研究和应用以研究单个细胞为主,并在个体细胞的研究上取得了一定的进展。殷涌光等[23]以颜色特征分辨技术为基础,设计了一套应用计算机视觉技术快速定量检测食品中大肠杆菌的系统,该系统检测结果与传统方法的检测结果具有很好的相关性,但与传统方法相比,可以节省5d时间,检测时间在18h以内,并且能够有效提高产品品质。Lawless等[24]人等时间段测定培养基上的细胞密度,然后通过计算机技术建立时间和细胞密度之间的动态关联,利用该关联可以预测和自动检测微生物的生长情况,如通过计算机控制自动定量采集检测对象,然后分析菌落的边缘形态,根据菌落的边缘形态计算机可以显示被检测菌落的具置,并且根据动态关联计算机视觉系统可以同时处理多个不同的样品。郭培源等[25]人对计算机视觉技术用于猪肉的分级进行了研究,结果显示计算机视觉技术在识别猪肉表面微生物数量上与国标方法检测的结果显著相关,该技术可以有效地计算微生物的数量。Bayraktar.B等[26]人采用计算机视觉技术、光散射技术(BARDOT)和模式识别技术相结合的方法来快速检测李斯特菌,在获取该菌菌落中的形态特征有,对图像进行分析处理达到对该菌的分类识别。殷涌光等[27]人综合利用计算机视觉、活体染色、人工神经网络、图像处理等技术,用分辨率为520万像素的数字摄像机拍摄细菌内部的染色效果,并结合新的图像处理算法,对细菌形态学的8个特征参数进行检测,检测结果与传统检测结果显著相关(相关系数R=0.9987),和传统检测方法相比该方法具有操作简单、快速、结果准确、适合现场快速检测等特点。鲁静[28]和刘侃[29]利用显微镜和图像采集仪器,获取乳制品的扫描图像,然后微生物的图像特征和微生物数量进行识别,并以此作为衡量乳制品质量是否达标的依据,并对产品进行分级。

2.4计算机视觉技术在其他食品产业中的应用研究

里红杰等[30]通过提取贝类和虾类等海产品的形状、尺寸、纹理、颜色等外形特征,对照数学模型,采用数字图像处理技术、计算机识别技术实现了对贝类和虾类等海产品的无损检测和自动化分类、分级和质量评估,并通过实例详细阐述了该技术的实现方法,证实了此项技术的有效性。计算机视觉技术还可以检验玉米粒形和玉米种子质量、识别玉米品种和玉米田间杂草[31]。晁德起等[32]通过x射线照射获取毛叶枣的透视图像后,运用计算机视觉技术对图像进行分析评估,毛叶枣可食率的评估结果与运用物理方法测得的结果平均误差仅为1.47%,因此得出结论:计算机视觉技术可以应用于毛叶枣的自动分级。GokmenV等[33-34]通过对薯片制作过程中图像像素的变化来研究薯片的褐变率,通过分析特色参数来研究薯片中丙烯酰胺的含量和褐变率的关系,结果显示两项参数相关性为0.989,从而可以应用计算机视觉技术来预测加热食品中丙烯酰胺的含量,该方法可以在加热食品行业中得到广泛应用。韩仲志等[35]人拍摄和扫描11类花生籽粒,每类100颗不同等级的花生籽粒的正反面图像,利用计算机视觉技术对花生内部和外部采集图像,并通过图像对其外在品质和内在品质进行分析,并建立相应的数学模型,该技术在对待检样品进行分级检测时的正确率高达92%。另外,郭培源等[36]人以国家标准为依据,通过数字摄像技术获取猪肉的细菌菌斑面积、脂肪细胞数、颜色特征值以及氨气等品质指标来实现猪肉新鲜程度的分级辨认。

3展望

新技术的研究与应用必然伴随着坎坷,从70年代初计算机视觉技术在食品工业中进行应用开始,就遇到了很多问题。计算机视觉技术在食品工业中的研究及应用主要存在以下几方面的问题。

3.1检测指标有限

计算机视觉技术在检测食品单一指标或者以一个指标作为分级标准进行分级时具有理想效果,但以同一食品的多个指标共同作为分级标准进行检测分级,则分级结果误差较大[37]。例如,Davenel等[38]通过计算机视觉对苹果的大小、重量、外观损伤进行分析,但研究结果显示,系统会把花萼和果梗标记为缺陷,还由于苹果表面碰压伤等缺陷情况复杂,造成分级误差很大,分级正确率只有69%。Nozer[39-40]等以计算机视觉为主要技术手段,获取水果的图像,进而通过分析图像来确定水果的形状、大小、颜色和重量,并进行分级,其正确率仅为85.1%。

3.2兼容性差

计算机视觉技术针对单一种类的果蔬分级检测效果显著,但是,同一套系统和设备很难用于其它种类的果蔬,甚至同一种类不同品种的农产品也很难公用一套计算机视觉设备。Reyerzwiggelaar等[41]利用计算机视觉检查杏和桃的损伤程度,发现其检测桃子的准确率显著高于杏的。Majumdar.S等[42]利用计算机视觉技术区分不同种类的麦粒,小麦、燕麦、大麦的识别正确率有明显差异。

3.3检测性能受环境制约

    【公文范文】栏目
  • 上一篇:水路运输的特点范例(12篇)
  • 下一篇:教师合作协议要求(整理10篇)
  • 相关文章

    推荐文章

    本站专题