AI的“眼睛”不好使 | AI|行业新闻|新闻动态

新闻动态

AI的“眼睛”不好使

2021-03-01

将一辆黄色出租车和一副双筒望远镜区别开是很容易的，大多数人哪怕倒立时都能做到这一点。但对于人工智能（AI）可不是这样：把出租车翻过来，它就会将之认作双筒望远镜。

这只是美国人工智能专家阮安收集到的几十个例子中的一个，这些例子表明AI识别物体的本领比我们想象的要差远了。这让我们对AI在某些领域的应用（如无人驾驶汽车）更加谨慎。

人类是如何识别图像的？

图像识别是人工智能的一个重要领域。对于人来说，识别图像并不是一件难事。我们通常是依靠图像本身所具有的特征来将它们识别出来的。每个图像都有它的特征，如字母A有个尖，P有个圈，而Y的中心有个锐角等。研究表明，当我们识别一个图像时，视线总是集中在图像的主要特征上，也就是集中在图像轮廓曲度最大或轮廓方向突然改变的地方——这些地方的信息量最大。如果图像有多个特征，眼睛的扫描路线也总是依次从一个特征转到另一个特征上。

由此可见，在我们识别图像的过程中，知觉必须排除多余的输入信息,只抽取出关键的信息。然后将这些关键信息进行分门别类，存储在记忆中。当下次遇到类似图像时，将陌生图像中的关键信息提取出来，与存储在记忆中的信息进行比较，从而将其识别出来。依据这种办法，我们不仅能识别某个具体的字母A,也能识别印刷体的、手写体的、方向不正的（甚至倒立过来）、大小不同的各种字母A。

AI产生错觉的原因

但是，当前的AI图像识别技术还远远达不到人类的水平。它们更多地依赖模式识别。

所谓模式识别，就是说识别某个图像，必须在过去的经验中有这个图像的记忆模式（又叫模板）。当前的图像如果能与记忆中的模板相匹配，这个图像就能被识别。例如有一个字母A，如果在记忆中有个A模板，字母A的大小、方位、形状都与这个A模板完全一致，字母A就被识别了。这种方法强调图像必须与记忆中的模板完全符合才能加以识别。

这就怪不得AI经常会被人为篡改的图片迷惑。比如，将图片上的一只乌龟配上特殊的外壳之后，并不影响人类的基本判断，但AI却很容易将其误认为是一把枪。

然而，这还好说。这些图像毕竟是专门设计用来迷惑AI的，它们在现实中不太可能存在，现在问题严重的是，你几乎不需要专为AI篡改一个图象，就足以引起它混乱。

阮安和他的同事从一个用来训练AI的数据库中选择了一些常见物体的图像，然后随机旋转并改变物体在图片中的位置。他们发现，这足以难倒目前世界上最先进的几个图像识别系统，所有系统平均97%的时间里都识别错了。在一个案例中，原始图像是一辆校车，所有图像识别系统能正确识别。但是，把图像特写放大之后，却被它们误认为是一只口袋；当图像被倒置着立在道路上时，又被它们误认作是一辆铲雪机。

这是因为AI的图像识别本领是通过大数据训练出来的，但当初接受训练的时候，在海量的图片里，物体很少有倒立或放大的。

让AI向人类靠齐

这种状况向我们提出了一个重要问题：使用AI是否安全？

比如在战场或者地震现场，你希望图像识别系统能从多个不同角度识别物体。同样，基于AI的机场安检扫描仪也需要能够从多个角度识别行李中的物体。

对于无人驾驶汽车，这个问题尤其关键。对一辆车来说，当遇到一个不能识别的物体，避开就行了。但是，假如把前方路上的一个可乐罐误认作消防车而紧急刹车，那就很危险。

遗憾的是，迄今没有人知道该如何解决这些问题。最大的障碍是，当AI看到一个图像时，它还无法抽取出有关该对象的关键信息，或者分不清什么是关键信息，什么是次要信息。

所以，为了达到人类的推理水平，我们还需要赋予AI一种能从图像中抽取关键信息的本领。

来源: 百度百家号:大科技杂志社 https://baijiahao.baidu.com/s?id=1693014989136415868&wfr=spider&for=pc

上一篇: 波士顿的机器狗能靠工业4.0概念盈利吗？

下一篇: 专家探讨健康管理领域AI技术应用