机器识别原理的图像识别技术是如何像人脑一样认识、学习图像特征的呢?其核心是深度学习理论(DeepLearning)。深度学习就是人工神经网络(ArtificialNeuralNetwork,以下简称ANN)。要了解ANN,让我们先来看看人类的大脑是如何工作的。:
人脑的视觉处理系统
上图所表达的,就是人理解外界视觉信息的过程。
从视网膜(Retina)出发,经过低级的V1区提取边缘特征,到V2区的基本形状或目标的局部,再到高层的整个目标(如判定为一张人脸),以及到更高层的PFC(前额叶皮层)进行分类判断等。也就是说高层的特征是低层特征的组合,从低层到高层的特征表达越来越抽象和概念化,也即越来越能表现语义或者意图。
深度学习,恰恰就是通过组合低层特征形成更加抽象的高层特征(或属性类别)。然后在这些低层次表达的基础上,通过线性或者非线性组合,来获得一个高层次的表达。此外,不仅图像存在这个规律,声音也是类似的。
现在来看深度学习的简易模型。
深度学习的一个主要优势在于可以利用海量训练数据(即大数据),在学习的过程中不断提高识别精度,但是仍然对计算量有很高的要求。而近年来,得益于计算机速度的提升、大规模集群技术的兴起、GPU的应用以及众多优化算法的出现,耗时数月的训练过程可缩短为数天甚至数小时,深度学习才逐渐可以用于工业化。
对于开发团队来说,做该领域的产品困难在于如何获取大规模已标注数据、集成有GPU的计算集群以及针对自己的项目调参数,团队需要不断地输入新数据,持续迭代以提高机器识别准确率。
北京治疗白癜风费多少钱北京中科白癜风医院郑华国