Wayve利用强化学习技术及“奖惩制度” 实现雷诺Twizy的自动驾驶导航

文章来源:盖世汽车 发布时间:2018-07-11
分享到
Wayve近日发布了一个视频,展示了改款雷诺Twizy车型(双座版电动车)是如何自学自动驾驶导航的。该车辆利用强化学习(机器学习技术的一种),该系统在作出理想的操作后,会获得“奖赏”,而作出不理想的操作后,将会受到“惩罚”。

Wayve利用强化学习技术及“奖惩制度” 实现雷诺Twizy的自动驾驶导航

Wayve利用强化学习技术及“奖惩制度” 实现雷诺Twizy的自动驾驶导航

据外媒报道,人工智能初创企业Wayve认为,应该寻找更好的方式来为自动驾驶汽车提供驾驶培训,而非致力于配置更为成熟的硬件及详细的3D地图。该公司于近日发布了一个视频,展示了改款雷诺Twizy车型(双座版电动车)是如何自学自动驾驶导航的。该车辆利用强化学习(机器学习技术的一种),该系统在作出理想的操作后,会获得“奖赏”,而作出不理想的操作后,将会受到“惩罚”。

目前,大部分在研发的自动驾驶系统均依赖3D明细地图来提供导航,全球各大公司竞相创建新地图,利用成熟的传感器及摄像头技术,绘制详细的城市街道及高速地图。换言之,自动驾驶系统需要其摄像头及传感器复杂体系的支持,从而实现导航操作。

不幸的是,3D地图是一项劳动密集型的工作,需要频繁更新地图中的建筑物。从事3D地图业务的各公司计划优先关注并绘制交通量高的道路,再绘制郊区地图。

Wayve的技术或将淘汰3D地图。在视频中,雷诺Twizy车型只搭载了一款前置摄像头(大多数的自动驾驶车辆均配置了多款摄像头。以特斯拉的Autopilot为例,其车型搭载了8个摄像头)。相较之下,雷诺Twizy车型采用一个摄像头向图像处理单元(graphics processing unit,GPU)提供实时信息,该款GPU可运行Wayve公司的强化学习算法,可控制车辆的加速、制动及转向。

在车辆学习过程中,后备驾驶员坐在驾驶座内,每当车辆偏离道路时,会“惩罚”一次系统。当人为干预操作的间隔期越久,系统所获得的“奖励”就越多。

在近20分钟时间里,车辆能够指出应如何解决多弯道路况的行驶问题。

若Wayve持续研发其强化学习算法,未来自动驾驶车辆似乎不再依赖3D地图,这意味着所有人都将因自动驾驶车辆而获益,享受出行乐趣。(本文图片选自wayve.ai)

收藏
赞一下
0