出行圈 | 婴儿到成年,无人驾驶系统养成计

文章来源:腾讯汽车 发布时间:2018-05-09
分享到
在某些情形下,无人驾驶车辆对其他车辆不可预测行为的反应,并不比人类做得更好。将AI决策与人类比较,可能是不合适的。这反过来促使人们思考基于人类经验的训练系统有效性。人类在汽车时代所积累并奉为圭臬的准则,很可能被替代。车祸揭示了有人和无人车辆混行可能造成的混乱,但也让我们更期待全新的无人驾驶交通。到那时,无人系统的工作可能更简单。

无人驾驶汽车

无人驾驶汽车

继Uber之后,Waymo的无人驾驶测试车也撞了。幸运的是,没有人从这起事故中去世。5月4日,在亚利桑那州钱德勒市,有人驾驶车辆由于某种原因跨过中间线撞向对向行驶的Waymo测试车,导致双方车辆受损,无人驾驶安全员受轻伤。警方认为,Waymo车辆和安全员无须承担责任。

看上去,该市警方已经适应了无人驾驶车辆是责任主体之一的现状。尽管无责,也让公众认识到,在某些情形下,无人驾驶车辆对其他车辆不可预测行为的反应,并不比人类做得更好。在近乎对撞的过程中,Waymo没有采取令人惊叹的规避动作(也许保持车道更明智),但毫无反应就有点令人失望,无人驾驶测试车甚至没有采取刹车等惯常措施。

Waymo将在内部彻查无人系统的训练日志,但他们不会蠢到试图搞懂车辆在“想”什么。他们只会从结果逆推,发现训练系统中尚未完善、甚至尚未涉足的部分。

 

如何训练一个“黑盒子”

这导致了谷歌“城堡”计划曝光。谷歌一直宣称自己用实际路测和虚拟测试相结合的方式来训练自动驾驶系统。两者如何融合,谷歌一直秘而不宣。

新的事故表明,谷歌仍然领先,但不再独一无二。

无人系统制造出来,就像刚出生的婴儿一样,拥有用于感知外界环境的“感官”(摄像头、毫米波雷达、激光雷达),也拥有高速大脑(计算单元、图像处理单元),但“大脑”功能尚在分化中,需要教它识别环境中一切可能出现的人和物体。也可以教它一些基本的对策,但实际中它如何决策,研究人员并不知晓。对于人类来说,AI决策机制是一个“黑盒子”。这是很多人对此忧心忡忡的原因。

教无人系统分辨道路和其他可能遇到的一切,是训练的第一步。就像教婴儿看图识物一样。因为图像的信息太丰富,难以建模,深度学习似乎能发挥特殊优势。人类基于数百万年的进化,往往只须直觉就可以在复杂局面中找到解决路径,AI正在学习这一点,只不过遵循另一套规则。

深度学习既可以用于感知,也可以用于决策。比如的AlphaGo的走子网络,就是一套DNN训练系统。用最简单的话说,就是根据当前状态做出决策。它的设计者和训练师不是要教它决策(事实上人类不知道系统将如何决策),而是教它一些基本知识。

在这个阶段,识别环境是核心任务。物体、什么地方可以行驶(不能开上路肩和花坛)、合法行驶路径等。

首先,在一大批车的图像中提取基本特征,比如车的正面和侧面大致的几何形状,令系统分辨出车的左侧和右侧(用不同特征标记)。

有了连续多帧的图像,根据其间的连续变化,可以分辨车的行驶方向。并可以辨识出远处视野中很小的车辆,比任何人类都看得远、看得清楚。如何评估它们对自身的影响,将放在后面训练。

其次,传统图像中,路肩和马路本身颜色难以区分、立体视觉也很难辨别(毕竟高程差太小)。人类是如何轻易识别的?靠阴影。区区10厘米的路肩,将形成一条连续暗色的窄带区域。系统你学会了吗?

用连续窄带阴影(断开的个别路段,正好可以做高危提醒信号),结合道线识别,勾勒出可行驶区域。

看上去很完美,可是有时候没有道线、或者由于天气道线难以识别。这种情况下,人类是如何驾驶的?断续的树木、街边的排水明渠、两侧走动的行人,都可以成为判断依据。而系统需要从大量的视频中(实际上是多帧图像)提取出人类策略,并加以优化。

Waymo期待自己的AI系统和明智的人类驾驶员一样,采取几乎相同的步骤,但比任何人类反应更迅捷、处置更果断。但在5月4日的车祸中,这一点没有得到体现,究竟是哪里出了问题?

 

训练系统的局限

这表明,大量的虚拟环境训练,至少有一部分没有被用于实际场景中。也就是说,融合出了问题。

当无人系统具备的了辨识能力之后,它需要面对两类场景:一类是真实世界,另一类是数字世界。从前者取得“实操”经验后,在后者里面变换各种条件(比如将障碍物移动位置、让行人的行为更加不可预测),不断磨练应对策略,直到最优。

谷歌的专家承认,模拟不靠谱的人类行为极为困难。即便简单的十字路口,无人系统也对不遵循信号的行人和摩托车感到困惑。经历了一连串的刹车之后,无数车辆试图从旁边挤入,导致局面更混乱。

在数字化训练系统中,Waymo再次简化了路况。譬如两条同向高速车道、只涉及两辆车。A车搭载无人系统,B车将作为阻碍出现。

当A车以90公里的速度在内侧道路直行,右侧B车猛然超车并到A车前方,并且紧接着刹车。A车能否迅速、平稳地刹车,同时还要给后面车辆留出足够的刹车时间?

B以各种方式、从不同角度阻挡A车,对于A车刹车过程的测试重复上百次。训练系统记录下来无人系统的表现,并对其中失败的情形进行分析,优化后者的处置动作。

然后局面被设置得更复杂:城市多条车道,遇到在车道上后退车辆、路上突然出现滚动的篮球或者从隔离带上突然蹿出行人,考查无人系统将如何应对。

当然,程序中无法穷尽所有输入条件。程序员们希望无人系统在数万种情景中提炼出方法,以便在其他情景中也能做出理智决策。

5月4日的车祸,对于当前的Waymo测试车来说,可能属于“超纲”情形。面对对向车辆猛冲过来,人类的问题在于没有足够的观察、决策时间,以至于慌了手脚。

但无人系统不是这样,在毫秒级的传感器数据解算下,CPU准确地获知了周围所有车辆的即时位置,斜冲过来的车辆瞬时速度和加速度,预测了此后数秒内对方的连续位置。并算出如果不采取紧急制动+变换方向,1.5秒后将发生危及车内人员的剧烈碰撞。

是什么促使Waymo车辆做出不予理会的决定呢?是右侧车道没有机动空间,还是预测变换方向后无法保持车辆的稳定,抑或是急剧刹车也无法改变碰撞的结果,反而会因路面摩擦的不平衡使车辆侧翻、从而导致更严重的后果?我们无法获知决策过程,Waymo工程师们读取数据可能解决一部分困惑。如果他们的结论和无人车当时的决策一样——什么都不做更有利,那么就毫无问题。

问题在于,这样的结论超出了人类的认知。面对危机我们总要做点什么,我们迅速提高肾上腺素水平、瞳孔放大、肌肉绷紧,血压上升,以迎接挑战。

将AI决策与人类比较,可能是不合适的。这反过来促使人们思考基于人类经验的训练系统有效性。

 

虚拟世界可能设置得太简单了

Waymo的专家们吹嘘他们是唯一一个采用“加速训练系统”的公司,实际上,福特、优步和通用也都在硅谷建立了类似的训练系统。Waymo只不过是开始得最早的一个。当然,他们取得的数据也是最多的。

虚拟世界的训练,在24小时内可能跑出上千万公里。每一分钟都能模拟出10年前两周的工作量。有专家提出模拟和真实公路测试的比例应该是100:1。同时,模拟部分应该把无聊的地方切断,专注于有趣的部分(尽可能的复杂场景),达到加速训练的目的。

有人认为,一旦无人系统在虚拟城市中的数量达到数百万个,其群体行为模式,已经非常接近真实的超级城市日常。而在其背后,必须部署足够的实际车辆和传感器,建立公路数据库。完全依靠虚拟场景训练出来的无人系统,可能面对真实路况时表现“不大一样”。

这提示了人们,虚拟城市的模型过于简单,会不会导致无人车无法驾驭大城市的复杂局面。

不过,钱德勒市是旅游胜地,实际上人口只有几十万。而且通常阳光充足、对传感器正常工作有正面作用。环境影响似乎可以排除。

让我们回到开始。训练虽然开始时借鉴了人类司机应对的场景,但最终人工智能可能会采取不同的策略。随着无人系统对人类行为理解的深入,促使它形成自己的驾驶风格。令人吃惊的是,无人系统面对另一个无人系统时采取的策略,与它面对人类驾驶车辆时不一样。而我们还没有想过城市里完全充斥着无人驾驶车辆的情形。

这意味着,无人系统统治整个城市的时候,可能自发形成全新的交通准则。更高效、更默契。人类在汽车时代所积累并奉为圭臬的准则,很可能被替代。车祸揭示了有人和无人车辆混行可能造成的混乱,但也让我们更期待全新的无人驾驶交通。到那时,无人系统的工作可能更简单。

收藏
赞一下
0