什么是「核算机视觉」？「核算机视觉」触及哪些范畴？

发布时间：2023-07-28 20:49:51 人气：来源：bob平台官网入口

　　俗话说，眼睛是人类心灵的窗户。人类和绝大多数动物的眼睛相同，都是感知外界最首要的器官之一，人类80%左右的信息均是从视觉获取的。与此一起，人类大脑皮层功用分区中占有面积最大的一块也是与视觉相关的。因而，假如咱们可以充沛了解人类视觉感知的机制，便能推进人工智能在核算机视觉范畴取得突破性的开展。为此，也有许多的科研作业者投入到这项研讨傍边，致力于推进核算机视觉范畴的繁荣开展。

　　可是，实践中人眼的视觉感知和处理机制是十分杂乱的，至今也远没有被研讨透彻。人眼，本身是一个十分精细的器官，可用于接纳光学信号输入，经过由虹膜、瞳孔及晶状体等组成的光学成像结构将外界的图画映射到视网膜上，随后将光学信息转换为电信号影响视觉神经并发送给至大脑皮层，由大脑皮层指定相应的功用区进行处理。其间，大脑皮层中处理视觉的部分可按功用划分为六层，分别为 V1 ~ V6 。

　　每一层担任不同的功用。现在仅有第一层被人类研讨透彻，经过研讨细胞对光照的反响，可以发现当时层细胞对特定方向的明暗改变即边际较为灵敏。其间，简略的细胞只对特定区域的边际特征灵敏，杂乱细胞对全规模特定方向或许特定长度规模的边际特征灵敏。在此根底上，V2 ~ V3对形状灵敏，V4对色彩灵敏，V5则与运动感知强相关。

　　David Courtnay Marr，大卫·考特尼·马尔 [3]，出生于英国的心理学家和神经学家，担任美国麻省理工学院的心理系教授。他将心理学、人工智能和神经生理学的研讨结果结合起来，提出了全新的关于视觉处理的理论，为后续的核算视觉开展奠定了根底，是核算视觉之父一起也是核算神经科学的创始人。其作业被收拾于《视觉核算理论》一书，树中提出了一个视觉核算结构，该结构包括初级视觉、中级视觉和高档视觉三个层次：

　　总的来说，马尔以为核算视觉的要害是怎么标明，他以为人类视觉首要完结的作业便是从外部国际映射到内部标明的一个进程。

　　前期的研讨开展首要是依据传统的数字图画处理技能，其首要处理的使命归于马尔视觉核算结构中的第一层，即初级特征提取，提取特征的意图之一便是在图画中找到适宜的阈值，且当时特征应当具有不变形。前期的研讨首要经过专家剖析图画中的边际、角点等特征，规划相应的算子去进行特征提取。跟着形式辨认和核算机的开展，特征提取从简略的线性算子开展为依据鲁棒核算特性所提出的算法（如HOG、SIFT特征等）。近来来，跟着核算机算力的不断开展以及大数据的布景下，深度神经网络得到了繁荣的开展，在无需专家手动规划特征便能依据优化理论（如随机梯度下降）运用机器（显卡）练习模型，然后找到比人工总结的更好的特征标明（权重）。但随同而来的价值便是成百上千倍的算力需求以及巨大的练习标签数据。

　　除了以上坏处，深度学习还有一个丧命的缺点，便是现在大多数模型仅支撑离线练习无法进行在线学习。与人的学习机制不同，DNN练习出来的模型仍不具有通用性和鲁棒性，反观人类只需少数的练习要素便能很好的学习概括出一类新事物的特征。类似于大脑的分层机制，DNN学习也是经过逐层的提取笼统的特征，如下图所示人脸辨认网络的分层提取特征标明：

　　大脑的视觉皮层可以被了解为感知进程，首要是从实践国际中抽取特征，转化为内部的标明。马尔的理论结构的中心便是树立这一映射。马尔提出的内部标明是要得到3维的物体模型，这是一个高难度的使命，至今仍未被处理，有待进一步研讨。而DNN的当时开展现已处理部分的初级和中级视觉问题，但由于深度学习“黑盒子”的机制，现在无法取得更高层的笼统。不过，跟着神经科学中对大脑的视觉认知进程的进一步研讨标明，视觉活动并不仅限于视觉核算皮层，还会和大脑皮层的其他部分（比方回忆和言语）相关的机制一起效果。核算机视觉仅仅人工智能范畴的一个分支，核算机视觉的中心是从图画中获取标明，这个标明应当和其他智能进程（比方回忆、自然言语）结合起来，这也将是核算机视觉未来的重要探究方向。因而，未来伴跟着神经网络可解释性的开展以及穿插方向技能的进一步交融，必定能推进核算机视觉朝着高档视觉之路行进。

　　关于核算机视觉范畴触及到哪些详细运用方向以及核算机视觉怎么入门等可参阅：

　　假如我让你罗列下面图片中的物品，你或许会毫不犹豫地说出一串词语，像“桌布、篮子、草地、男孩、女孩、男人、女性、瓶子、西红柿、生菜、餐盘......”。现在，假如我让你描绘下面的图片，你或许会再次毫不犹豫地说，“这是一张家庭野餐的相片”。

　　这些是两个十分简略的使命，年龄在六七岁以上的人都可以很好的答复上面的问题。可是，背面的进行的进程是十分杂乱的。人类视觉可以说是一个十分杂乱的有机技能，触及到咱们的眼睛和视觉皮层，但也考虑了咱们对物体的感知、咱们对概念的笼统了解以及咱们在日子中与国际进行的数以亿万计的互动所带来的个人阅历。

　　数字设备可以以逾越人类视觉体系的分辨率和细节捕捉图画。核算机也可以十分精确地检测和丈量色彩之间的差异。可是让核算机了解这些图画的内容是一个核算机多年来一直在尽力处理的问题。关于核算机而言，上面的图片是一组像素或标明色彩的数字值。

　　核算机视觉是核算机科学的一个范畴，它专心于仿制人类视觉体系的某些杂乱性，并使核算机可以以与人类相同的办法辨认和处理图画和视频中的物体。虽然现阶段的核算机视觉只能在有限的规模内发挥效果，但由于人工智能的行进和深度学习和神经网络的立异，该范畴近年来现已可以大步行进，并在一些与检测和符号物体相关的使命中可以逾越人类。

　　核算机视觉的重要性在于它所能处理的问题。它是数字国际与物理国际互动的首要技能之一。

　　核算机视觉使主动驾驶轿车可以了解周围环境。相机从轿车不同的视点捕捉视频，并将其供给给核算机视觉软件/算法，然后实时处理图画以查找路途的边际、读取交通标志、检测其他车辆、物体和行人。主动驾驶轿车可以在大街和高速公路上自主行进，防止磕碰障碍物，并（期望）安全地将乘客送到意图地。

　　核算机视觉在面部辨认运用中也扮演着重要人物，该技能使核算机可以将人脸图画与其身份进行匹配。核算机视觉算法在图画中检测面部特征，并将其与人脸数据库进行比较。消费设备运用面部辨认来验证其一切者的身份（如刷脸付出）。交际媒体运用程序运用面部辨认来检测和符号用户。法律组织还依赖于面部辨认技能在视频中辨认罪犯。

　　核算机视觉在增强和混合实践中也扮演着重要人物，该技能使智能手机、平板电脑和智能眼镜等核算设备可以将虚拟目标掩盖和嵌入实在国际的图画中。运用核算机视觉，AR设备可以检测实在国际中的物体，然后确定在设备显现屏幕上放置虚拟目标的方位。核算机视觉算法可以协助AR运用程序检测平面，如桌面、墙面和地板，这是树立深度和尺度以及将虚拟目标放置在显现物理国际中的十分重要的部分。

　　在线相片库运用核算机视觉技能检测图画中的物体，并主动依据内容类型对相片进行分类。这可以节约许多时刻，防止手动为相片增加标签和描绘。核算机视觉还可以协助注释视频内容，并答运用户经过输入所需内容类型来查找数小时的视频，而无需手动检查整个视频。

　　核算机视觉在医疗技能的开展中也扮演着重要人物。核算机视觉算法可以协助主动化使命，例如在皮肤图画中检测癌症痣或在X光和MRI扫描中寻觅症状。

　　核算机视觉还具有其他更奇妙的运用。例如，幻想一下一个智能家居安全摄像头，它不断将家中的视频发送到云端，并答应长途检查录像。运用核算机视觉技能，可以装备云运用程序，以便在产生反常情况时主动告知你，例如有入侵者埋伏在家中或房内着火。这可以经过保证有一只警惕的眼睛不断凝视你的家，为你节约许多时刻。

　　进一步深化，可以指示安全运用程序仅存储核算机视觉算法符号为反常的录像。这将协助咱们在云端节约许多存储空间，由于在简直一切情况下，安全摄像机捕获的大部分录像都是良性的，不需求审阅。此外，假如可以在安全摄像头本身上布置核算机视觉技能，将可以指示它仅在符号内容需求进一步检查和查询时将其视频源发送到云端。这将使咱们可以经过仅发送必要的内容到云端来节约网络带宽。

　　在深度学习呈现之前，核算机视觉所能履行的使命十分有限，需求开发人员和人工操作员进行许多手动编码和尽力。例如，假如想履行面部辨认，需求履行以下进程：

　　注释图画：然后，关于每个个别图画，有必要输入几个要害数据点，例如眼睛之间的间隔、鼻梁的宽度、上唇和鼻子之间的间隔以及数十个界说每个人一起特征的丈量值。

　　捕获新图画：接下来，需求捕获新的图画，无论是来自相片仍是视频内容。然后，有必要再次进行丈量进程，符号图画上的要害点。还有必要考虑图画拍照的视点。

　　经过一切这些手动操作，运用程序总算可以将新图画中的丈量值与其数据库中存储的值进行比较，并告知你它是否与其正在盯梢的任何个人资料相符。事实上，这儿简直没有主动化参加，大部分作业都是手动完结的。并且差错规模依然很大。

　　机器学习供给了处理核算机视觉问题的不同办法。有了机器学习，开发人员不再需求手动编写每个规矩来构建视觉运用程序。相反，他们编写了“特征”，这是一些可以检测图画中特定形式的小型运用程序。然后，他们运用核算学习算法，如线性回归、逻辑回归、决策树或支撑向量机（SVM），来检测形式、分类图画和检测其间的目标。

　　机器学习协助处理了许多历史上对传统软件开发工具和办法具有应战性的问题。例如，几年前，机器学习工程师可以创立一个软件，比人类专家更好地猜测乳腺癌的生计时刻。可是，正如人工智能专家杰里米·霍华德所说的：构建软件的特征需求数十名工程师和乳腺癌专家的尽力，并需求很长时刻来开发。

　　深度学习供给了一种底子不同的机器学习办法。深度学习依赖于神经网络，这是一种通用的函数，可以处理任何可以经过示例标明的问题。当你供给一个神经网络许多符号好的特定数据类型的示例时，它将可以提取这些示例之间的一起形式，并将其转换为数学方程，以协助分类未来的信息。

　　例如，只需运用深度学习创立一个面部辨认运用程序，你就需求开发或挑选一个预先构建好的算法，并用需求检测的人脸的示例对其进行练习。只需有满足的示例（许多示例），神经网络将可以检测出人脸，而不需求进一步的特征或丈量指令。

　　深度学习是进行核算机视觉的十分有用的办法。在大多数情况下，创立一个好的深度学习算法归结为搜集许多符号好的练习数据和调整参数，如神经网络的类型和层数以及练习周期。与曾经的机器学习类型比较，深度学习的开发和布置都更简单和更快速。

　　现在大部分的核算机视觉运用程序，如癌症检测、主动驾驶和人脸辨认都采用了深度学习。由于硬件和云核算资源的可用性和行进，深度学习和深度神经网络早已从概念范畴进入了实践运用。可是，深度学习算法也有其本身的局限性，其间最为明显的是缺少透明度和可解释性。

　　有了深度学习，核算机视觉现已可以处理本文最初说到的第一个问题，即在图画和视频中检测和分类目标。事实上，深度学习现已可以在图画分类方面逾越人类体现。

　　可是，虽然神经网络的命名办法让人联想到人类智能，但它们的功用与人类思想底子不同。人类视觉体系依赖于在咱们大脑中树立的三维模型来辨认目标。咱们还可以将知识从一个范畴转移到另一个范畴。例如，假如咱们第一次看到一个新的动物，咱们可以快速辨认大多数动物都具有的身体部位，比方鼻子、耳朵、尾巴、腿等。

　　而深度神经网络对这些概念没有概念，它们会独自为每一类数据开发自己的知识。在本质上，神经网络是比较像素批次的核算模型，虽然以十分杂乱的办法进行比较。这便是为什么它们需求看到许多示例才干开展必要的根底以辨认每个目标的原因。因而，假如没有经过恰当的练习，神经网络或许会犯愚笨（且风险）的过错。

　　但核算机视觉真实面对应战的是了解图画的上下文以及它们所看到的目标之间的联络。咱们人可以很快地无需再考虑，就能知道文章最初的相片是一家人野餐的相片，由于咱们有对其所代表的笼统概念的了解。咱们知道什么是家庭，咱们知道草地是一个愉快的当地。咱们知道人们通常在桌子上吃饭，而在户外在桌布上坐在地上的活动很或许是休闲活动，特别是当相片中的一切人都很高兴时。当咱们看到这张相片时，咱们脑海中敏捷涌现出咱们日子中很多其他小阅历的形象。相同，假如我告知你一些不寻常的工作，比方“冬天野餐”或“火山野餐”，你可以快速幻想出这种异国情调的事情会是什么姿态。

　　关于核算机视觉算法而言，相片依然是由色彩像素组成的数组，可以经过核算学办法映射到某些描绘中。除非专门练习一种神经网络处理家庭野餐的图片，不然它将无法在相片中看到的不同物体之间树立联络。即便经过练习，网络也只能具有一个核算模型，或许会将任何具有许多草地、多个人和桌布的相片符号为“家庭野餐”。它不会从上下文中了解野餐的概念。

　　专家以为，只要当咱们破解通用人工智能的暗码时（具有人类思想的笼统和知识才干的人工智能），才干真实完成核算机视觉。不知道这会在上面时分，或许是否会产生。在这之前，或许直到咱们找到其他办法以一种可以运用神经网络优势的办法来标明概念，咱们将不得不向咱们的核算机视觉算法供给越来越多的数据，期望可以包括它们应该可以辨认的每种或许的物体和环境。

上一篇：做机器视觉哪个软件好？下一篇：北京展会-2025北京展会信息排期会议预告_CNENA

返回相关新闻

什么是「核算机视觉」？「核算机视觉」触及哪些范畴？

在线留言