2023年,在省局党组的坚强领导下,在处室领导的正确带领下,紧紧围绕省局党组高质量发展战略目标,按照省局专卖管理工作部署和专卖处的工作安排,我认真履行职责,严以律己,立足本职,努力工作,积极协助处室领导开展打假打私等各项工作,在同志们的大力支持和配合下,圆满完成全省打掉符合国家局标准的网络案件工作任务。成绩的取得离不开省局党组正确的方向指引,离不开处室领导的正确决策,更离不开大家的关心和支持。现就2023年所做的主要工作总结及下年度计划汇报如下:
一、加强理论学习、不断提升工作能力
为了适应新形势、新任务下不断发展的专卖管理工作的需要,进一步提高驾驭工作的能力和水平,我始终把学习放在重要位置,努力提高自身综合素质,拓宽思路,提高修养,完善自我。不断加强政治理论学习,积极参加省局机关、支部、党小组的学习,认真学习领会党的及二中、三中、四中、五中全会精神和新时代中国特色社会主义思想,学习党章、增强党性、坚定信念,不断提高政治理论水平,始终在政治上和党中央保持高度一致。学习国家局、省局领导领导重要讲话,力求准确吃透精神,明确工作要求,把握工作方向和重点,坚决落实执行省局党组的工作要求,自觉加强专业业务知识学习,认真学习相关法律、法规和党的路线、方针、政策。通过学习不断完善知识结构,提高理论层次,提高自己的专业水平和驾驭专卖工作、服务指导基层工作的能力。
二、尽职尽责工作,推动卷烟打假打私工作深入开展
(一)加强对卷烟打网络工作的监督指导。为了保证实现省局提出的卷烟打假打私打网络工作目标任务。在处长的正确带领下,加强对全省卷烟打假打网络工作的督促指导,有力地推动了全省卷烟打假打私打网络工作的扎实开展,取得了明显成效。一是对涉烟网络案做到及时了解,掌握案件情况、做到心中有数,高度关注各市局的网络案件查办情况,通过报表和深入实地等形式多种渠道及时掌握全省情况,加强案件督查,指导案件查办。我亲自带领打网办人员赴打假打私一线对基层查办的案件进行督办,推动打网络工作扎实开展。二是协调公安、烟草联合开展全省卷烟打假打私专项行动,对各市局办案中遇到的难题,积极协调解决,特别是对重点案件,紧抓不放,一督到底。三是积极协调省法院、省检察院、省公厅、省交通厅、省邮管局、太原海关等相关部门建立完善打假打私协作机制,使得机制建设进一步闭环提升。
(二)加强对卷烟打假工作的总结研究。参与了对全省案件查处情况的收集、统计、汇总和分析上报工作,与打网办同志一起对各市局上报的报表进行认真审核,核对分析,按时汇总上报,确保给领导决策提供准确、真实、无误的数据支撑。通过认真分析,研究全省卷烟打假打私情况,把握我省卷烟打假工作的特点和规律,及时发现打假工作中存在的问题和不足,提出解决问题的办法和措施,有效推动了卷烟打假工作深入开展。
(三)其他工作完成情况。参与了全省专卖工作会议,参与修订《烟草专卖局专卖经费管理办法》,针对我省举报费偏低、办案人员费用不足等基层反映强烈的难点问题进行了深入细致的研究论证,加大了奖励激励力度,为打假打私提供了必要的经费保障。
关键词:计算机视觉;D像理解;卷积神经网络;多层感知器
中图分类号:TN915.63?34;TP311文献标识码:A文章编号:1004?373X(2017)14?0170?04
Abstract:Theopticalnetworkisalightweight,versatileandpurelyMatlab?baseddeeplearningframework.Theideaunderlyingitsdesignistoprovideaneasy?to?understand,easy?to?useandefficientcomputationalplatformfordeeplearningresearch.Theframeworksupportsmajordeeplearningarchitecturessuchasmultilayerperceptron(MLP)networks,convolutionalneuralnetworks(CNN)andrecurrentneuralnetworks(RNN).TheframeworkalsosupportsthestraightforwardswitchbetweenbothCPUandGPUforcomputation.Theexperimentresultindicatesthattheframeworkhasdifferentapplicationsincomputervision,naturallanguageprocessingandrobotictechnology.
Keywords:computervision;imageunderstanding;convolutionalneuralnetwork;multilayerperceptron
0引言
深层神经网络[1]已经给出了许多机器智能问题的主要进展,最新的神经网络模型的实现主要强调效率。这些框架可以由20万~50万行代码组成,并经常涉及多个编程语言[2?4]。它需要付出巨大的努力来彻底理解和改进模型。一个简单的和自我解释的深层学习框架是高度预期的且加快深层神经网络模型的理解和应用。
在此提出的光网络是一个轻便的、整理的和纯基于Matlab的深层神经网络模型。简洁、高效的Matlab编程技术已被用来实现所有的计算模块。许多神经网络流行的类型,如多层感知器、卷积神经网络、神经网络都在光网络中得以实现,是结合随机梯度下降的几个变化(SDG)为基础的优化算法。
自从光网络仅用Matlab实现,主要的计算用几百行代码来矢量化和执行,数量级比现有的框架更简洁。所有基本操作都可以轻松定制,只需有Matlab编程基本知识。数学化研究人员可以专注于数学建模的一部分而不是工程部分。
应用程序的用户可以很容易地理解和修改任何部分的框架,开发新的网络架构,使他们适应新的应用。除了简单,光网络还具有以下特点:光网络包含最现代的网络架构;计算机视觉中的应用、自然语言处理和强化学习已被证明;光网络提供了一个综合的优化算法的收集;光网络支持在CPU和GPU之间计算的简单切换;快速傅里叶变换来有效地计算卷积,从而使大卷积核被支持;光网络自动化的超参数优化了新型选择性的SGD算法。
1模块
主要的计算模块包括前馈过程和向后/反向传播过程。前馈过程评估模型,反向传播报告网络梯度。随机梯度下降算法是用来优化模型参数。
1.1核心计算模块
光网络能够专注于数学部分而不是低层次的工程细节。为了使本文更完备,在此说明光网络中的主要计算模块。本文的所有网络和相关实验都是建立在这些模块的基础之上。
1.1.1线性感知器层
一个线性感知器层可以表示为y=Wx+b。在这里,x表示input_dim×1大小的输入数据,W表示output_dim×input_dim大小的权重矩阵,b是一个output_dim×1大小的偏置向量,y表示output_dim×1大小的线性层输出。
从线性感知器输入映射到最终的网络输出可以表示为z=f(y)=f(Wx+b),f是一个非线性函数,它表示在更深层次的网络的计算;z是网络输出,通常是一个损失值。
1.1.2卷积层
卷积层由一个多维滤波器组kio将输入特征图Nmap_in映射到输出特征图Nmap_out。每个输入特征图xi与相对应的滤波器组kio进行卷积,卷积的结果是求和并添加偏置值Bo生成o?th输出图:。允许使用大的卷积核,快速傅里叶变换(FFT)是用来计算卷积(及相关)。根据卷积定理[5],在空间域卷积等价于在频域的逐点乘法。因此,ki*xi可以用傅里叶变换计算:ki*xi=F-1{F{ki}・F{xi}}。在这里,F表示傅里叶变换,“”表示逐点乘法运算,卷积层支持填充和跨越。
从o?th输出特征图到网络输出的映射可以表示为z=f(yo)。这里f是从o?th输出特征图yo到最终的网络输出的非线性映射。与第1.1.1节类似,,,需要在反向的过程中计算。
1.1.3Max?pooling层
最大pooling层计算在窗口中的最大元素与步幅大小,一个定制的im2col_ln功能是实现转换pooling补丁为列向量,来矢量化在Matlab中的pooling计算。内置的最大功能是这些列向量可以返回pooling结果和这些最大值的指数,然后,在原来的批量数据恢复相应指数。此外,零填充可应用于输入数据。
不失一般性,从Max?pooling层输入到最终的网络输出的映射可以表示为z=f(y)=f(Sx),其中S是选择矩阵,x是一个列向量,它表示输入数据到这层。
在反向的过程中,被计算并传递给浅层:。
当pooling范围小于或等于该步长大小时,可以用Matlab中简单的矩阵索引技术计算出。具体来说,与输入数据相同大小的一个空的张量dzdx被创建。dzdx(from)=dzdy,from是pooling指数,dzdy是一个记录pooling结果的张量。当pooling范围大于步长大小时,x中的每一个条目都可以被汇集多次,并且反向传播梯度需要为这些多个汇集条目积累。在这种情况下,计算可以利用Matlab自带的功能accumarray()。
1.1.4修正线性单元
修正线性单元(ReLU)作为一个主要的非线性映射函数被实现,一些其他的函数包括sigmoid和tanh这里的讨论就省略了。ReLU函数是很独特的函数,如果输入大于0,则输出0,否则y=ReLU(x)=x・ind(x>0)。在反向的过程中,如果输入数据是非负的,则梯度传递到较浅层,否则,梯度被忽略。
1.2损失函数
通常,一个损失函数会和最深核心计算模块的输出相连。目前,为了达到分类任务光网络还支持softmax中的LogLoss函数。
1.3优化算法
随机梯度下降(SGD)为基础的优化算法是训练深层神经网络的主要工具。标准的SGD算法和它的一些流行的变型如adagrad[6],rmsprop[7],Adam[8],同样实现了深度学习的研究。值得一提的是,在此实现了一个新的选择性的SGD算法便于参数尤其是学习速率的选择。
2实验
2.1多层感知器网络
在MNIST数据上[9]构造一个多层感知器网络来测试光网络的性能。网络从MNIST图像数据集取得28×28输入,在接下来的两层分别有128个节点。然后,128维特征连接10个节点来计算softmax输出。实验结果见图1。
和测试阶段的损失和错误率
2.2卷积神经网络
在cifar?10数据[10]上由4个卷积层构建一个卷积网络来测试光网络的性能。此结构与来自MatConvNet的一个报告相同[3]。32,32,64,64在前三层有5×5大小的卷积核,最后一层有4×4大小的内核。ReLU函数应用到每一个卷积层之后作为非线性映射函数。光网络自动选择和调整学习速率并可以达到非常精确。与有固定的学习速率的SGD标准比较,选择性SGD具有更好的精度。最重要的是,使用选择性SGD避免手动调谐的学习速率。图2为实验结果。计算在一个Inteli56600KCPU和NvidiaTitanXGPU(12GB内存)的台式电脑上进行。当前版本的光网络用这种网络结构在GPU上每秒可以处理750个图像,大约比使用的CPU速度快5倍。
2.3LSTM网络
长短期记忆(LSTM)[11]是一个流行的递归神经网络模型。由于光网络的整理性,LSTM网络作为一个特定的应用程序可以在光网络包中实现。值得注意的是,在光网络中的核心计算模块用于执行时域前向过程和反向传播为LSTM。
在一个LSTM模型中的前向过程可以用公式表示为:
和测试阶段的损失和错误率
优化LSTM模型,在LSTM中通过时间的反向传播实现和计算最关键值:
采用一个关键的迭代属性来计算上述值:
一些其他的梯度可以通过使用上述计算输出的链规则计算:
LSTM网络测试一个字符语言建模任务,该数据集由选自莎士比亚作品的20000个句子组成,每个句子断成67字(和标点符号),LSTM模型可以根据前一个字符预测下一个字符。网络模型中使用30个隐含节点并且RMSProp用于训练。在后10次训练,下一个字符的预测精度提高到70%。
2.4Q?网络
作为强化学习中的应用,创建一个和MLP网络一致的Q?network[12]。然后将Q?network应用到经典的Cart?Pole的问题中[13]。Cart?Pole系统的动力学可以在一个两层网络数百次迭代中学习到。对Q?network更新过程的一次迭代为:
式中,act是由概率ε随机选择的。所需的网络输出值Qnew是利用观测到的reward和由此产生的状态的贴现值γV(statenew)计算出来的,通过均衡器预测当前的网络。通过使用最小平方损失函数:
3结论
为了深层神经网络模型的理解与发展,光网络提供了一个易于扩展的生态系统。在Matlab环境下,整个计算过程可以很容易地跟踪和可视化。这些设置的主要功能可以对深度学习研究界提供独特的便利。
⒖嘉南
[1]KRIZHEVSKYA,SUTSKEVERI,HINTONGE.Imagenetclassificationwithdeepconvolutionalneuralnetworks[J].Advancesinneuralinformationprocessingsystems,2012,25(2):1097?1105.
[2]JIAY,SHELHAMERE,DONAHUEJ,etal.Caffe:Convolutionalarchitectureforfastfeatureembedding[C]//ProceedingsoftheACMInternationalConferenceonMultimedia.[S.l.]:ACM,2014:675?678.
[3]VEDALDIA,LENCK.Matconvnet:ConvolutionalneuralnetworksforMatlab[C]//Proceedingsofthe23rdAnnualACMConferenceonMultimedia.[S.l.]:ACM,2015:689?692.
[4]BASTIENF,LAMBLINP,PASCANUR,etal.Theano:newfeaturesandspeedimprovements[J].arXivpreprintarXiv,2012,20:42?51.
[5]MALLATSG.Awavelettourofsignalprocessing:thesparseway[J].Academicpress,1998,31(3):83?85.
[6]DUCHIJ,HAZANE,SINGERY.Adaptivesubgradientmethodsforonlinelearningandstochasticoptimization[J].Thejournalofmachinelearningresearch,2011(12):2121?2159.
[7]TIELEMANT,HINTONG.Lecture6.5?rmsprop:Dividethegradientbyarunningaverageofitsrecentmagnitude[J].Neuralnetworksformachinelearning,2012,4(2):20?26.
[8]KINGMAD,BAJ.Adam:Amethodforstochasticoptimization[C]//Proceedingsofthe3rdInternationalConferenceforLearningRepresentations.SanDiego:[s.n.],2015:1412?1418.
[9]LECUNY,BOTTOUL,BENGIOY,etal.Gradient?basedlearningappliedtodocumentrecognition[J].ProceedingsoftheIEEE,1998,86(11):2278?2324.
[10]KRIZHEVSKYA,HINTONG.Learningmultiplelayersoffeaturesfromtinyimages[M].[S.l.:s.n.],2009.
[11]HOCHREITERS,SCHMIDHUBERJ.Longshort?termmemory[J].Neuralcomputation,1997,9(8):1735?1780.
P键词:深度学习;文本分类;多类型池化
中图分类号:TP393文献标识码:A文章编号:1009-3044(2016)35-0187-03
1引言
为了进行分类,我们建立句子模型来分析和表示句子的语义内容。句子模型问题的关键在于一定程度上的自然语言理解。很多类型的任务需要采用句子模型,包括情感分析、语义检测、对话分析、机器翻译等。既然单独的句子很少或基本不被采用,所以我们必须采用特征的方式来表述一个句子,而特征依赖于单词和词组。句子模型的核心是特征方程,特征方程定义了依据单词和词组提取特征的过程。求最大值的池化操作是一种非线性的二次抽样方法,它返回集合元素中的最大值。
各种类型的模型已经被提出。基于成分构成的方法被应用于向量表示,通过统计同时单词同时出现的概率来获取更长的词组。在有些情况下,通过对词向量进行代数操作生成句子层面的向量,从而构成成分。在另外一些情况下,特征方程和特定的句法或者单词类型相关。
一种核心模型是建立在神经网络的基础上。这种模型包含了单词包或者词组包的模型、更结构化的递归神经网络、延迟的基于卷积操作的神经网络。神经网络模型有很多优点。通过训练可以获得整理的词向量来预测一段上下文中单词是否会出现。通过有监督的训练,神经网络能够根据具体的任务进行良好的调节。除了作为强大的分类器,神经网络模型还能够被用来生成句子[6]。
我们定义了一种卷积神经网络结构并将它应用到句子语义模型中。这个网络可以处理长度不同的句子。网络中的一维卷积层和多类型动态池化层是相互交错的。多类型动态池化是一种对求最大值池化操作的范化,它返回集合中元素的最大值、最小值、平均值的集合[1]。操作的范化体现在两个方面。第一,多类型池化操作对一个线性的值序列进行操作,返回序列中的多个数值而不是单个最大的数值。第二,池化参数k可以被动态的选择,通过网络的其他参数来动态调整k的值。
卷积层的一维卷积窗口对句子特征矩阵的每一行进行卷积操作。相同的n-gram的卷积窗口在句子的每个位置进行卷积操作,这样可以根据位置独立地提取特征。一个卷积层后面是一个多类型动态池化层和一个非线性的特征映射表。和卷积神经网络在图像识别中的使用一样,为丰富第一层的表述,通过不同的卷积窗口应用到句子上计算出多重特征映射表。后续的层也通过下一层的卷积窗口的卷积操作计算出多重特征映射表。最终的结构我们叫它多类型池化的卷积神经网络。
在输入句子上的多层的卷积和动态池化操作产生一张结构化的特征图。高层的卷积窗口可以获取非连续的相距较远的词组的句法和语义关系。特征图会引导出一种层级结构,某种程度上类似于句法解析树。这种结构不仅仅是和句法相关,它是神经网络内部所有的。
我们将此网络在四种场景下进行了尝试。前两组实验是电影评论的情感预测[2],此网络在二分和多种类别的分类实验中的表现都优于其他方法。第三组实验在TREC数据集(LiandRoth,2002)上的6类问题的分类问题。此网络的正确率和目前最好的方法的正确率持平。第四组实验是推特的情感预测,此网络将160万条微博根据表情符号自动打标来进行训练。在手工打标的测试数据集上,此网络将预测错误率降低了25%。
本文的概要如下。第二段主要阐述MCNN的背景知识,包括核心概念和相关的神将网络句子模型。第三章定义了相关的操作符和网络的层。第四章阐述生成的特征图的处理和网络的其他特点。第五章讨论实验和回顾特征学习探测器。
2背景
MCNN的每一层的卷积操作之后都伴随一个池化操作。我们先回顾一下相关的神经网络句子模型。然后我们来阐述一维的卷积操作和经典的延迟的神经网络(TDNN)[3]。在加了一个最大池化层到网络后,TDNN也是一种句子模型[5]。
2.1相关的神经网络句子模型
已经有很多的神经网络句子模型被描述过了。一种比较整理基本的模型是神经网络词包模型(NBoW)。其中包含了一个映射层将单词、词组等映射到更高的维度;然后会有一个比如求和之类的操作。结果向量通过一个或多个全连接层来进行分类。
有以外部的解析树为基础的递归神经网络,还有在此基础上更进一步的RNN网络。
最后一种是以卷积操作和TDNN结构为基础的神经网络句子模型。相关的概念是动态卷积神经网络的基础,我们接下来介绍的就是它。
2.2卷积
一维卷积操作便是将权重向量[m∈Rm]和输入向量[s∈Rs]进行操作。向量m是卷积操作的过滤器。具体来说,我们将s作为输入句子,[si∈R]是与句子中第i个单词相关联的单独的特征值。一维卷积操作背后的思想是通过向量m和句子中的每个m-gram的点积来获得另一个序列c:
[ci=mTsi-m+1:i(1)]
根据下标i的范围的不同,等式1产生两种不同类型的卷积。窄类型的卷积中s>=m并且会生成序列[c∈Rs-m+1],下标i的范围从m到s。宽类型的卷积对m和s的大小没有限制,生成的序列[c∈Rs+m-1],下标i的范围从1到s+m-1。超出下标范围的si窄(i<1或者i>s)置为0。窄类型的卷积结果是宽类型的卷积结果的子序列。
宽类型的卷积相比于窄类型的卷积有一些优点。宽类型的卷积可以确保所有的权重应用到整个句子,包括句子收尾的单词。当m被设为一个相对较大的值时,如8或者10,这一点尤其重要。另外,宽类型的卷积可以确保过滤器m应用于输入句子s始终会生成一个有效的非空结果集c,与m的宽度和s句子的长度无关。接下来我们来阐述TDNN的卷积层。
4验与结果分析
我们对此网络进行了4组不同的实验。
4.1电影评论的情感预测
前两组实验是关于电影评论的情感预测的,数据集是StanfordSentimentTreebank.实验输出的结果在一个实验中是分为2类,在另一种试验中分为5类:消极、略微消极、中性、略微积极、积极。而实验总的词汇量为15448。
表示的是电影评论数据集情感预测准确率。NB和BINB分别表示一元和二元朴素贝叶斯分类器。SVM是一元和二元特征的支撑向量机。在三种神经网络模型里――Max-TDNN、NBoW和DCNN――模型中的词向量是随机初始化的;它们的维度d被设为48。Max-TDNN在第一层中滤波窗口的大小为6。卷积层后面紧跟一个非线性化层、最大池化层和softmax分类层。NBoW会将词向量相加,并对词向量进行非线性化操作,最后用softmax进行分类。2类分类的MCNN的参数如下,卷积层之后折叠层、动态多类型池化层、非线性化层。滤波窗口的大小分别7和5。最顶层动态多类型池化层的k的值为4。网络的最顶层是softmax层。5类分类的MCNN有相同的结构,但是滤波窗口的大小分别为10和7,k的值为5。
我们可以看到MCNN的分类效果远超其他算法。NBoW的分类效果和非神经网络算法差不多。而Max-TDNN的效果要比NBoW的差,可能是因为过度池化的原因,丢弃了句子太多重要的特征。除了RecNN需要依赖外部的解析树来生成结构化特征,其他模型都不需要依赖外部资源。
4.2问题分类
问题分类在问答系统中应用非常广泛,一个问题可能属于一个或者多个问题类别。所用的数据集是TREC数据集,TREC数据集包含6种不同类别的问题,比如一个问题是否关于地点、人或者数字信息。训练集包含5452个打标的问题和500个测试集。
4.3Twitter情感预测
在我们最后的实验里,我们用tweets的大数据集进行训练,我们根据tweet中出现的表情符号自动地给文本进行打标签,积极的或是消极的。整个数据集包含160万条根据表情符号打标的tweet以及400条手工标注的测试集。整个数据集包含76643个单词。MCNN的结构和4.1节中结构相同。随机初始化词向量且维度d设为60。
我们发现MCNN的分类效果和其他非神经网络的算法相比有极大的提高。MCNN和NBoW在分类效果上的差别显示了MCNN有极强的特征提取能力。
5结语
在本文中我们阐述了一种动态的卷积神经网络,它使用动态的多类型池化操作作为非线性化取样函数。此网络在问题分类和情感预测方面取得了很好的效果,并且不依赖于外部特征如解析树或其他外部资源。
参考文献
[1].YannLeCun,Le?onBottou,YoshuaBengio,andPatrickHaffner.1998.Gradient-basedlearningappliedtodocumentrecognition.ProceedingsoftheIEEE,86(11):2278-2324,November.
[2].RichardSocher,AlexPerelygin,JeanWu,JasonChuang,ChristopherD.Manning,AndrewY.Ng,andChristopherPotts.2013b.Recursivedeepmod-elsforsemanticcompositionalityoverasentimenttreebank.InProceedingsofthe2013ConferenceonEmpiricalMethodsinNaturalLanguageProcess-ing,pages1631C1642,Stroudsburg,PA,October.AssociationforComputationalLinguistics.
[3].GeoffreyE.Hinton.1989.Connectionistlearningprocedures.Artif.Intell.,40(1-3):185C234.
[4].AlexanderWaibel,ToshiyukiHanazawa,GeofreyHinton,KiyohiroShikano,andKevinJ.Lang.1990.Readingsinspeechrecognition.chapterPhonemeRecognitionUsingTime-delayNeuralNetworks,pages393C404.MorganKaufmannPublishersInc.,SanFrancisco,CA,USA.