Wayve利用强化学习技术及“奖惩制度” 实现雷诺Twizy的自动驾驶导航

文章来源：盖世汽车发布时间：2018-07-11

分享到

Wayve近日发布了一个视频，展示了改款雷诺Twizy车型（双座版电动车）是如何自学自动驾驶导航的。该车辆利用强化学习（机器学习技术的一种），该系统在作出理想的操作后，会获得“奖赏”，而作出不理想的操作后，将会受到“惩罚”。

据外媒报道，人工智能初创企业Wayve认为，应该寻找更好的方式来为自动驾驶汽车提供驾驶培训，而非致力于配置更为成熟的硬件及详细的3D地图。该公司于近日发布了一个视频，展示了改款雷诺Twizy车型（双座版电动车）是如何自学自动驾驶导航的。该车辆利用强化学习（机器学习技术的一种），该系统在作出理想的操作后，会获得“奖赏”，而作出不理想的操作后，将会受到“惩罚”。

目前，大部分在研发的自动驾驶系统均依赖3D明细地图来提供导航，全球各大公司竞相创建新地图，利用成熟的传感器及摄像头技术，绘制详细的城市街道及高速地图。换言之，自动驾驶系统需要其摄像头及传感器复杂体系的支持，从而实现导航操作。

不幸的是，3D地图是一项劳动密集型的工作，需要频繁更新地图中的建筑物。从事3D地图业务的各公司计划优先关注并绘制交通量高的道路，再绘制郊区地图。

Wayve的技术或将淘汰3D地图。在视频中，雷诺Twizy车型只搭载了一款前置摄像头（大多数的自动驾驶车辆均配置了多款摄像头。以特斯拉的Autopilot为例，其车型搭载了8个摄像头）。相较之下，雷诺Twizy车型采用一个摄像头向图像处理单元（graphics processing unit，GPU）提供实时信息，该款GPU可运行Wayve公司的强化学习算法，可控制车辆的加速、制动及转向。

在车辆学习过程中，后备驾驶员坐在驾驶座内，每当车辆偏离道路时，会“惩罚”一次系统。当人为干预操作的间隔期越久，系统所获得的“奖励”就越多。

在近20分钟时间里，车辆能够指出应如何解决多弯道路况的行驶问题。

若Wayve持续研发其强化学习算法，未来自动驾驶车辆似乎不再依赖3D地图，这意味着所有人都将因自动驾驶车辆而获益，享受出行乐趣。（本文图片选自wayve.ai）