产品中心

芝士最强大脑+火眼金睛一文读懂视觉智能技术的现状与未来

发布时间：2024-02-15 22:06:41 来源：bob平台官网入口

随着5G、AI及移动互联技术的迅猛发展，视频已全面融入了我们的日常生活，影响着我们与世界的连接方...

产品介绍

随着5G、AI及移动互联技术的迅猛发展，视频已全面融入了我们的日常生活，影响着我们与世界的连接方式与沟通形式。同时也带来一个严峻的挑战：如何有效处理爆炸性增长的海量数据？视觉智能技术也许就是最佳答案。

通过场景与算法的有效结合，视觉智能技术已在平安城市、智能交通、智能医疗、智能金融、视频侦查和移动互联网等多种场景中得到了广泛应用。视觉计算和识别的技术都是怎么样发展的？让我们大家一起跟随中国科学院自动化研究所研究员王金桥，去探寻展望视觉智能技术的美好未来。

经过六十多年的发展，上升到国家战略地位的AI已经敲响了“未来之门”，为人类拉开了第四次工业革命的序幕，除了成为军事、工业核心的竞争力，更成为大国之间竞争的新焦点。

第四次工业革命到来之前，中国、美国、欧盟、英国、日本，都围绕着深度学习、超级算力、工业软件、智能系统这几方面做了深入布局，其中，最有代表性的就是中国和美国。从中、美对比来看，美国在自然语言处理、机器学习、计算机视觉领域很强大，而中国更多在应用与计算机视觉和图像、机器人和NLP自然语言处理领域有更多积累。

2020年，中国人工智能的论文数量第一次超过了美国，但引用次数、论文影响力比美国稍差一点。在一些大公司的布局上，人工智能的竞争核心也由一些高等院校不断转入到现在的“巨无霸”企业，美国主要是谷歌、Facebook、亚马逊、微软，中国更多则是阿里、腾讯、字节跳动、华为等。人工智能的竞争从研究层面到企业层面，再到应用层面，目前发展得非常快。

更重要的是数据和人才的对比。相比美国，中国拥有更丰富的C端企业和C端数据——比如交通出行、网上购物，各种各样的直播等，勇于探索商业模式的公司也在持续不断的增加，数据迎来了持续性的、爆炸性的增长，在数据可当作生产力重要要素的新时代，数据可当作智能发展的强驱动力，这让中美之间的差距不断缩小。

另外，还有计算资源的极大丰富。中国现在的计算力有了大幅度跃升，给智能化提供了条件。2012年，深度学习的出现，把一个两层的神经网络变成了几百层、上千层，而其他没有过大变化。

算法的提升，助力机器学习的性能一下提升了30%，这是大数据时代人工智能的条件。数据爆炸性的增长、算力的丰富和深度学习的复兴，给智能化时代提供了充分的条件。

不过，这也并不意味着目前人工智能的智能性就特别高。人工智能分为两部分：感知智能和认知智能。所谓感知智能，就是在数据基础上，让数据去驱动智能化的应用，没有人类的高级感知和认知概念。而认知智能是通过对数据的加工，能够理解数据，提炼出数据包含的褒贬情绪、个人自己的观点以及作者观点；在理解基础上，要像写作文一样，上段写完把下段写出来。现在的人工智能仍是感知智能，还处在非常弱的起步阶段，所以现阶段不需要过多的担心机器会超过人类。

作为一个生命体，人类感受世界70%是依靠视觉——这也是怎么回事在AI领域，目前应用最广的是各种视觉技术，因为能代替人的眼睛。

远在寒武纪时期，一个生命体进化出了具有视觉感知的细胞，能感受很近范围的太阳光，出现了最早的视力系统。视觉产生的原理是小孔成像：光线通过视网膜映射在我们的瞳孔中，成为一个倒立的像，再通过视神经传导到大脑的视觉神经中枢，视觉神经中枢再把它正过来，就是视觉成像。

光的作用结束后，视觉形象在视神经并不立即消失，这种残留的视觉称为“视觉暂留”，但是非常遗憾，这个成像时间仅仅不到1秒。也就是说，无论面前站了多美的人，你也只能“看见”他1秒。1秒之后，你对他面部特征的记忆点，就都是通过大脑加工出来的。下次再见面，你就是依靠这些大脑加工后的特征记忆，从茫茫人海中来辨认他。

视觉技术的进化和人眼进化的过程类似。第一代照相机胶卷的整个成像过程是模拟可见光，通过化学元素的调配，使感光胶片记录下来的影像与人眼看到的图像一致，这是化学成像阶段。后来，随技术发展变为第二代电子管成像，等有了数字化后，电子管又进化成第三代LED液晶屏，一直到现在的触摸屏OLED屏，成像过程从原来的模拟信号到了数字信号。

这一阶段出现了视频编解码技术，从算法角度来看，之前很多安防场景，靠的是保安天天盯着监视器屏幕，后来有了变化检测，通过一系列分析检测前一帧和后一帧的影像，让机器自主学习人脸模型特征，把人脸图像投影到非线性的空间，但整个特征空间比较小，算法很难得到保证。

从2012年开始，迎来了第四代视觉技术阶段，通过深度学习网络来模拟人的感知过程，对视觉的理解从被动防御变为了主动预警，视觉识别应用处在落地关键期。

2014年，人脸识别在上一阶段的基础上，针对姿态、光照、表情、遮挡等外界影响因素，提出了一系列的改进算法与新的理论，但在现实场景中应用还不够好，经常有人坐高铁刷不了脸。

当数据积累到某些特定的程度，2019年至今，迎来了人脸识别快速成长期，图像识别、视觉识别的技术在交通出行、住宿、手机解锁、手机转账等多个领域百花齐放，得到了广泛应用。

零售领域用视觉智能技术分析人的行为，机器人领域应用在物流机器人，实现自动搬运、自动运输、自动抓取，在新零售领域商品自动识别、场景的OCR（Optical Character Recognition，光学字符识别，是指电子设备检查纸上打印的字符，通过检验测试暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程）和无人驾驶领域发展也特别快，进入了人工智能视觉应用的关键时期。

视觉智能技术主要涉及三个方面。第一，提取关键特征来表示。比如一堆蓝色口罩中的红色口罩；第二，实现语义的理解。语义的理解分为几个层次，比如最底层是目标级语义：土地、矿泉水、椅子、人坐着；还有场景级的语义，这个人在站着喝水、他们在握手，这类行为语义涉及人和人之间的交互。再往上一级，涉及环境和人之间的交互，比如两人在报告厅坐着，台上有人在演讲，可以推理这两个人在听报告；第三，关联和推理。我们不难发现了场景之后，应该做什么样的判断和执行，通过场景行为动作的理解和分析，来预设下一步应该做什么。

在细颗粒度的差异上，经过大量数据训练，机器练就了“火眼金睛”：当你在路上看到一个行驶中的汽车，可能并不知道它是哪年生产的，甚至不知道它是哪个型号，机器通过大量的数据学习后，可以把这些精细化的差异有效地分辨出来。

在无人驾驶领域，视觉智能用来解决交通场景分割、目标探测、目标速度、目标距离、障碍物检测等问题。比如识别车道线和可行驶区域，哪条线是我要走的，哪条线是别人要走的，前面是否有红绿灯，周围是否有行人或障碍物。机器学习最大的难点是，面对没见过的事物就手足无措，这时就需要让其跑更多的路，“喂到”更多的场景数据。这里也涉及AI的边界和局限，机器跟人还是有差异的。如果在数据标注过程中要识别一辆只露出1/3或者更少画面的车，在机器学习领域称之为困难样本，机器学起来就会特别困难，所以在训练机器的时候，为了能够更好的保证识别准确度，必须要给它很清晰的模型。

无人驾驶通用很难，简单的场景就是公园园区或者码头，点到点的路线和场景基本是单一和固定的，所以就不会有太多安全事故，而在交通复杂的场景下，就变得异常困难。因为除了需要感知，还牵涉到决策的问题，前一段时间出了一个新闻，无人驾驶的特斯拉行驶中撞上了一辆白色货车。特斯拉有8个视觉摄像头，为什么还撞了呢？因为它的视觉无法测距，也没有推理和常识能力，把近在咫尺的白色货车看成了远在天边的一朵白云，结果就发生了交通事故。

还有用于交通信息的采集，应用场景是车的识别。识别的特征包括车停得歪不歪、司机的行为（有没有打电话、有没有抽烟、有没有系安全带）、车的挂件摆件、车的类型品牌等。

▲车纹识别系统目前已可以精细识别5000多种车型车款，检索假牌和，协助公安部门快速查找嫌疑车辆、帮助交通部门做违章车限行、大货车收费等管理（图源：中科视语）

识别车是否套牌是应用最广的，通过对类似人类指纹一样“车纹”的身份识别，能够迅速地查找到真牌和假牌。可能拍一张照片，就能了解这辆车的载重、排放是多少。通过一个摄像头，就能够直接进行多种角度对车的属性、身份、行为的识别，知道每个车的行为轨迹。

在大众传媒领域，目前应用比较普遍的是，在一个播放器上叠加一个透明播放器，通过预估摄像头的运动轨迹，把目标做有效替换，来做场景广告的植入。

电影行业里，未来虚拟的合成演员数量也会因此而增长。通过人脸上的256个关键点，精确地拟合出XYZ轴的角度，把人脸肌肉的运动用注意力模型来模拟真实演员的动作。合成演员的优点是能集所有优秀演员的表演特征为“一脸”，而且成本也比较低，所以未来市场空间巨大。目前一些电视台也有了自己的虚拟主播，它的声音是合成出来的，人脸的表情也很自然。

应用在体育领域，比如NBA勇士队当年夺冠，数据分析就出了大力。一个篮球场有六个相机，对球员进行识别和分析，比普通的识别难度大。除了要精准地定位每个衣着相同的球员的行为和轨迹，判断每个球员分别跑了多少公里，起跳多少次，多少次投篮，多少次持球，多少次运球，还要对其进行精准的数据分析，制定应对战术。视觉智能技术也将应用在北京2022年冬奥会，对各种冰上运动中运动员的动作标准化做多元化的分析，应用场景非常多。

通用的物品商品识别，现在应用得慢慢的变多。很多无人商店智能货架都是靠视觉来识别商品，每个重量不同的商品下面都有一个重力传感器，通过人进去之后抓取的动作实现人和商品的精准绑定，其他应用也包括一些智能家电。比如智能冰箱食品生鲜识别系统，你打开冰箱门的时候会自动拍照，识别冰箱内的食物，分析食物中的营养成分，告诉使用者应该吃什么。当然，目前也仍存在一些识别难点，比如土豆和姜、苹果和梨，机器有时就难以做到“窥一斑而知全豹”。

另外，这也会牵涉数据隐私等问题，今年的3·15晚会就曝光了一些通过数据侵害用户隐私的案例，目前我国也为此成立了人工智能治理专业委员会来保护个人隐私，防止大数据杀熟等行为的发生。

身份识别是大家见得最多的。通过人脸、年龄、性别、姿态、衣着进行身份识别，虽然目前判断人的情绪方面精度还不是非常高，但已能通过呼吸时人脸部血管的伸缩变化，精确“看见”这个人的心跳和呼吸次数。

当下是人工智能加快速度进行发展的阶段，现有条件下数据爆炸性地增长，人工智能也会在数据的偏见里形成智能的偏见。像中国的人脸识别系统，比起其他人种，对黄色人种识别效果就更好，因为学习的数据样本更丰富。

视觉智能技术在所有的领域里的辅助应用也慢慢变得多。工业质检和农业也是视觉智能应用非常多的领域，通过替代人工的重复性劳动来提高生产效率。iPhone的生产线个工人，其中很多特别精细的操作，是目前机器搞不定的，但一些重复性的质检过程，就能够正常的使用智能化检测来代替。

我所带领研究团队的一些技术成果，也在央视一些节目中进行了展示。在央视《加油！向未来》节目中，我们团队的机器人守门员挡住了130公里时速射过来的足球。130公里时速射过来的足球是什么概念？如果是真人守门员，这威力足以把人打穿。这里的上限在于电机的响应速度，从这一点看，机器有时候比人要厉害，如果用机器人守门员的话，中国足球的大门就非常安全了。

可以说，目前人工智能技术还处在爬升期。视觉、文本、NLP、自然语言、感知技术已相对来说还是比较成熟，只要数据足够多，场景的边界掌控得比较好，就会发展得更为迅速。生物芯片、全自动驾驶、下一代脑机接口、量子计算等领域可能还需要二十年，高性能芯片也还有很大的发展空间，现在还处于高速成长期。

2017年，人工智能作为独立的学科，中国科学院大学设立了国内第一个人工智能学院。目前在国内人工智能领域，中科院自动化所是中国最强的单位，所里的模式识别国家重点实验室排在全球第七位，培养了很多人才。人工智能学院招生也特别火热，成长的空间非常大。

未来几年，机器人的理解能力、行为分析、地图定位的能力将越来越强。三至五年后，家务机器人可能会成为每个家庭的普遍配置；十年左右，随着机器人情感学习能力的提升，它也可能成为人很好的陪伴。通过日常生活中的观察学习，可能你回家只给机器人一个眼神，它就知道怎样为你提供最好的服务。

认知智能现在还没有看到，但随着未来机器人的数据不断增加，等到它自己能主动获取数据、加工数据，优化自己模型的时候，机器人可能就有了意识。当机器人有了自我意识，有了推理能力的时候，就会涉及到生命体如何定义的问题：机器和人的区别在哪里，机器什么时候是生命体，机器人是不是有生存的价值观，是不是有它的权利、能力、生存的空间⋯⋯这些都会带来很大的挑战。

随着智能技术的发展，人类要管控机器的边界，使机器有效地为人类服务。在技术发展中人类如何管控智能，人和机器怎么和谐共存，在智能制造领域、无人驾驶领域，在操作机器过程中如何保证人的安全，对人工智能的安全管理也非常重要。

从技术角度来讲，当下语音技术很成熟，但囿于方言、噪声、专业度等问题，语音识别还有一定的限制。相对而言，图像识别的应用会更多，只要人眼睛可以干的事，都可以用AI代替，视觉是主流应用的落地场景。安防行业中的车辆数据提取、医疗行业的影像诊断、电子商务行业中的精准营销，以及辅助驾驶都为图像识别技术提供了许多落地变现机会。

从行业角度来看，安防是AI在中国最容易变现的行业：中国的城市管理者已经积累了强大的视频数据采集能力，交通拥堵和反恐等应用场景又急需最先进的人工智能技术。互联网广告和电商蕴含大量数据，也为AI在这两个领域的应用提供了广阔的资源和空间。比如2020年新冠肺炎疫情期间，电商外卖业务成倍增长，通过数据优化外卖行进路径，效率变得更高。“电动化+智能化”重构了汽车的生产的全部过程，许多工厂都是机械臂加自动化流水线进行智能生产，在这一领域，计算机视觉的应用空间也非常大。

从理论发展上，AI将从感知智能向认知智能发展，通过编码进行快速计算，降低功耗，从“后深度学习”到量子计算，从情感计算到伦理思考，让机器做到“察言观色”。从产业高质量发展来看，会从人脸识别慢慢向各行各业延伸，在各领域百花齐放。软件、芯片、算法、5G⋯⋯特别是5G大幅度提高通信带宽后，怎样把软件算法芯片和5G融合到一起是产业高质量发展的重要潮流。

在未来，“人机耦合，取长补短”的状态将是一个长期过程，让我们继续期待智能产业不断改变我们的工作和生活方式，谢谢大家。

上一篇：2023机器人职业相关研讨报告合集100份打包下载下一篇：2025年【江门职业技术学院-广东成考】模具设计与制造专业详解

芝士 最强大脑+火眼金睛一文读懂视觉智能技术的现状与未来

芝士最强大脑+火眼金睛一文读懂视觉智能技术的现状与未来