Hot-Standby技术助力微车AI黑科技：老司机是如何养成的？ - 码农俱乐部 - Golang中国

首先来问在座的老司机一个问题：你能快速说出下面这张图中每一个指示灯、告警标志的准确释义吗？

在生活中，我们经常会遇到汽车仪表盘故障标志亮起的情况，但很多人对此却是茫然无措。面对突发的小状况，大家通常会打电话求助身边的朋友或是咨询4S店。当你急切的想得到答案时，又往往由于口述表达的不清晰、或对方不了解具体情况，不能及时解决问题。并且目前汽车上各种故障灯、提示灯种类繁多，有时甚至连各种老司机、4S店工作人员对某些故障灯的信息也不是非常明确。

这个时候，就需要用到了微车APP的黑科技——AI智能识别汽车故障。

一

微车AI黑科技：汽车故障识别功能

微车是一个一站式车主服务平台，目前已经拥有1.3亿车主用户，深度服务于中国亿万车主和汽车生态圈。针对车主的痛点，微车新推出了AI智能识别汽车故障服务，车主只要用手机一扫，即可了解各种故障灯及解决方式。

图：微车AI智能识别汽车故障应用界面

基于1.3亿注册车辆，微车在服务车主的养车、用车过程中，积累了大量的数据和专家知识，通过识别车辆故障图像中的每一个对象，将其分类、建立标签，依靠深度学习能力来识别图中的信息，最终达到基于不同车辆的故障进行智能识别的目的。故障识别产品是微车最新的AI产品，也是微车AI智能转型的重要一步。

在此过程中，微车采用UCloud提供的UAI-Inference在线服务平台作为海量数据的平台支撑，当微车业务突增时也可实现算力的平滑拓展升级。除此之外，UAI-Inference还帮助微车免去了搭建底层技术架构和运维的工作，技术人员只需专注于AI智能识别汽车故障业务的研发，大大提高了AI算法的开发效率。

但同时，微车还提出了其他的业务痛点诉求。

二

微车的痛点：业务实时性与算力高投入的矛盾

微车开发的汽车故障识别功能对于业务的实时性要求非常高，为了保证用户每次都能有流畅迅速的使用体验，微车需要充足的GPU算力资源支撑，而业务的实时性需求则意味着GPU的高成本投入。

同时，该业务还有着非常典型的波峰波谷差异，如下图，可以看到：在部分时间段服务QPS甚至趋于零点，那也就意味着这段时间内GPU算力资源势必会被浪费。

图：微车汽车故障识别功能监控信息

起初为了控制成本，微车考虑过使用CPU资源进行算力支撑，我们列出了UCloud的GPU和CPU的价格及延时对比示意图，供参考。

计算资源	延时	收费标准	24h价格
CPU	20秒	0.32RMB/h	7.68RMB
GPU	0.5秒	5.1RMB/h	122.4RMB

如上表，可以看到，CPU虽然在价格上具备更大的优势，但是在延时上的差距非常明显，这是因为GPU拥有更多的计算单元与更大的吞吐量环境。而微车要做的是对车辆信息大数据进行深度学习，深度学习的特点是需要大量并行的重复计算，从这一点来讲，GPU能够提供更加高效流畅的使用体验。

最终，微车选择使用GPU算力资源优先保障用户的使用体验，同时高成本投入的难题也得到了解决。那么，微车是怎么做的呢？↓↓↓

三

Hot-Standby：微车实现高算力+低成本的定心丸

微车采用UAI-Inference新增的的Hot-Standby功能，同时实现了高可靠GPU算力支持与超高性价比的双重保障。

1、什么是Hot-Standby？

Hot-Standby是UCloud开发的一种高性价比的算力支持特性。它归属于UAI-Inference在线服务平台，当用户选择使用算力独占模式（GPU节点）时，为减少独占资源在用户无访问时的资源浪费，用降配资源支持服务待机的一种模式。

开启Hot-Standby功能后，当AI在线服务在30分钟内无任何请求时，系统会自动将AI在线服务迁移至降配资源池，大幅减少费用支出，但降配节点仍然保证为GPU节点算力。同时，一旦有用户请求，就会立刻恢复GPU独占节点模式。

2、Hot-Standby究竟能省多少钱？

同样我们列出了Hot-Standby模式与GPU、CPU模式下的价格与延时对比数据。

计算资源	延时	收费标准
CPU	20秒	0.32RMB/h
GPU	0.5秒	5.1RMB/h
Hot-Standby	0.5秒	0.99RMB/h

接下来我们用一个简单的案例来算算Hot-Standby究竟能省多少钱？

某用户新上线APP的AI在线服务功能还处于新产品推广期间，用户访问量不大，每天只有1个半小时的高峰集中请求，平时几乎无请求。为了保证应用的实时性，根据业务量大小，用户选择了1个P40 GPU节点作为算力支撑。问题来了：使用一个月后，Hot-Standby功能可以为用户省下多少钱？

* 不使用Hot-Standby：

（5.1/小时*节点*1节点）*24小时/天*30天=3672元

* 使用Hot-Standby：

（（0.99元/小时*1节点）*22.5小时/天+（5.1元/小时*1节点）*1.5小时/天）*30天=897.75元

* 可节省：

（3672-897.75)/3672=75%

可以看到，Hot-Standby功能开启后，单GPU节点下可为用户节省75%的开销，微车正是应用了该功能才解决了高成本投入的难题。

3、Hot-Standby如何在UCloud控制台上开启？

最后，我们为大家奉上Hot-Standby的功能使用指南。

（1）确认服务类型为算力独占模式

UAI-Inference分为两种模式，在弹性服务模式下，平台本身已经精确按量计费，在用户无请求时是不收取任何费用的，无需再设置Hot-Standby模式。因此首先需要确认服务类型为独占模式。

（2）开启Hot-Standby功能

Hot-Standby被定义在自动伸缩规则下，用户需要进入伸缩管理界面打开Hot-Standby功能，由自动伸缩引擎统一执行调整算力到降配节点及恢复算力到独占节点等步骤。

（3）Hot-Standby的触发规则

Hot-Standby主要受QPS影响，当QPS降为0且维持30分钟后，此时自动伸缩引擎会将当前所有节点逐渐迁移到降配节点上，Hot-Standby特性被触发。同时针对实际业务量大小，用户可通过设置最小节点数量决定Hot-Standby降配的节点值。

最后我们来总结下， Hot-Standby功能适用于以下场景的用户：

（1）业务本身对单节点算力要求高，需要使用独占算力服务（GPU节点）；

（2）业务存在明显的闲置期（无用户访问时段），但又需要随时待命实时响应需求。

目前，Hot-Standby功能已经在北京二和上海二地域提供，欢迎前来试用体验。

关于UAI，如果你想了解更多，敬请关注“UCloud技术”公众号，后台回复“AI”即可获取AI技术干货福利包：UAI 技术讲义、实操演示视频、实践案例分享......更多干货等待你来解锁！