理想 i8 上線,隨即又對配置和價(jià)格進(jìn)行了調(diào)整。這一系列的操作,圍繞它的爭議著實(shí)不少,不管是造型、價(jià)格或是小桌板,大家對這臺車的評價(jià)褒貶不一。
但也有不少人認(rèn)為,大家其實(shí)并沒有真正認(rèn)識到理想 i8 的殺手锏。理想的 VLA 司機(jī)大模型與 i8 同步發(fā)布,按照計(jì)劃也會(huì)同步升級到所有 AD Max 車型上,包括了 Thor-U 平臺和 Orin-X 平臺,這意味著除了 i8 的用戶,還會(huì)有大量的理想車主能在第一時(shí)間體會(huì)到 VLA 司機(jī)大模型的智駕實(shí)力。
VLA 司機(jī)大模型到底有什么不一樣?今天,結(jié)合著上周基于 i8 的 VLA 司機(jī)大模型的上車體驗(yàn)簡單來說一說。
BEV → 端到端 +VLM → VLA
應(yīng)該說理想在過去幾年,每年都有在智駕上的大動(dòng)作。前年是 BEV,去年是端到端 +VLM,到了今年變成了 VLA。不明所以的人難免覺得理想一年一套東西,新概念頻出,感覺都要去「考研」了。但其實(shí),這三年一步一個(gè)臺階,其實(shí)一切都在同一個(gè)線路上穩(wěn)步提升。
VLA 本身代表的就三個(gè)層面的結(jié)合,分別是:V 是 Vision(視覺),L 是 Language(語言),A 則是 Action(行動(dòng))。如果要把三代路徑打通,那么 BEV 的本質(zhì)是鳥瞰試圖,對應(yīng)的是視覺層面的大模型。而端到端 +VLM 則是兩段的融合,端到端結(jié)合了視覺和行動(dòng)兩個(gè)層面的大模型,而 VLM 則是視覺語言大模型,簡單來說在這個(gè)階段其實(shí) VLA 里面的三個(gè)層面都已經(jīng)出現(xiàn),唯一的問題是并沒有做到三個(gè)層面的一個(gè)維度里的完整結(jié)合。
所以,端到端 + VLM 的本質(zhì)是模仿學(xué)習(xí),李想自己也把這套雙系統(tǒng)架構(gòu)比喻為「猴子開車」,雖然智駕能力提升了很多,但是還是無法達(dá)到人類頂級職業(yè)司機(jī)的水平。而在 VLA 則是強(qiáng)化學(xué)習(xí),它解決了端到端的模仿學(xué)習(xí)不具備深度的邏輯思維能力的挑戰(zhàn),打破了端到端和 VLM 之間的溝通壁壘,以端到端 + VLM 的上限為起點(diǎn),把整個(gè)智駕表現(xiàn)又進(jìn)行了一次提升。
思考、溝通、記憶、自我學(xué)習(xí)
在這種能力的加持下,VLA 司機(jī)大模型在思考、溝通、記憶和自我學(xué)習(xí)四項(xiàng)能力上都有提升,在實(shí)際路面表現(xiàn)中,在一些場景下展示出不同以往的一些特點(diǎn)。
比如說最直觀的一個(gè)感受,VLA 司機(jī)大模型在大屏上是可以看到完整的 CoT 推理過程的。對此,理想的工程師也反饋,其實(shí)如果沒有 CoT 而是直接讓模型來做決策,也是完全可行的。但理想希望在這個(gè)過程中,在決策偏復(fù)雜或是路口場景比較豐富的時(shí)候,展示模型「多兩步」的思考決策過程,同時(shí)借助這個(gè)過程和用戶建立一些溝通和信任。

另外就是,對于語義指令的理解能力的確有明顯的提升。在實(shí)際試駕中,印象比較深的其實(shí)是在根據(jù)要求完成靠邊停車之后,用戶還可以對 VLA 司機(jī)大模型提出「往前再走 XX 米」這種訴求,展現(xiàn) VLA 司機(jī)大模型對于距離的準(zhǔn)確判斷和控制。(事實(shí)上,人眼對于距離的判斷反而不那么準(zhǔn)確,實(shí)際試駕中就出現(xiàn)過我希望車向前挪 30 米但其實(shí) 30 米位置上有其他的障礙車輛已經(jīng)占據(jù)位置的情形)

而在 workshop 的演示中也有一個(gè)類似的場景,我們可以通過語音助手要求 VLA 司機(jī)大模型「在藍(lán)色車前面靠邊停一下」,這樣一個(gè)指令可以算是對于 VLA 三個(gè)層面的統(tǒng)一調(diào)度的最佳演示,不管是對于顏色還是距離還是周邊障礙的識別,VLA 都給出了比較讓人滿意的表現(xiàn)。

類似的,在記憶的層面上,理想是可以通過語音助手實(shí)現(xiàn)比如「這條路以后開 XX 速度」的指令,并且實(shí)現(xiàn)對這一路段的記憶。這并不是說這個(gè)功能「無可挑剔」,在 workshop 上一位媒體老師提出的問題就很有意思:這條路以后開 70 的記憶指令 VLA 的確能記住,但這條路非常非常長,路況復(fù)雜多變,這個(gè)記憶是會(huì)完整適配到這條路上,還是說只會(huì)在這一段上生效呢?

當(dāng)然大家不用很擔(dān)心,在 VLA 司機(jī)大模型下,根據(jù)實(shí)際路面情況做出判斷一定是必備技能,記住喜好是一回事,而保證安全才是更重要的指標(biāo)。
所以很多時(shí)候,面對 VLA 司機(jī)大模型,我們的確可以做到「動(dòng)動(dòng)嘴皮子」就能開車,這也符合 VLA 司機(jī)大模型打造一個(gè)更好的家庭司機(jī)的理念。但如果開口就能開車,后排或者乘客是不是也可以借助語音助手介入駕駛環(huán)節(jié)呢?在這一點(diǎn)上理想早早做出了預(yù)案,借助語音的定位,屏蔽了除主駕以外的其他座位發(fā)出的和駕駛相關(guān)的所有命令。
數(shù)據(jù)、算法、算力、工程能力
在 workshop 中,理想自動(dòng)駕駛高級算法專家詹錕就反復(fù)強(qiáng)調(diào)了四點(diǎn):數(shù)據(jù)、算法、算力和工程能力。這四點(diǎn)對于理想率先推出 VLA 有著重大意義。

在銷量增長下,理想的有效數(shù)據(jù)已經(jīng)在上個(gè)月來到 12 億公里。以海量用戶行駛數(shù)據(jù)為基礎(chǔ),理想還有強(qiáng)大的生成數(shù)據(jù)能力,可以在仿真世界里創(chuàng)造出無數(shù)的 Corner Case 來訓(xùn)練模型,全面提升評測效率,縮減測試周期,降低測試成本。同時(shí),13EFLOPS 的龐大算力,也為這種復(fù)雜的訓(xùn)練和仿真提供了算力保障。
一個(gè)數(shù)據(jù)說明了現(xiàn)階段理想研發(fā) VLA 司機(jī)大模型的效率優(yōu)勢:在 2023 年時(shí),理想對于自動(dòng)駕駛的評測成本是每公里 18.4 元;這個(gè)數(shù)據(jù)在去年已經(jīng)下降到 4.84 元/公里;而今年上半年,這一成本已經(jīng)進(jìn)一步壓縮到 0.53 元/公里。同時(shí),今年上半年借助仿真測試,理想已經(jīng)完成了超過 4000 萬公里的評測,這個(gè)數(shù)字是去年全年的 8 倍。

在這樣的基礎(chǔ)上,我們也很容易好奇:VLA 司機(jī)大模型的上限到底在哪里?詹錕認(rèn)為,這取決于模型、芯片和數(shù)據(jù)三者的共同進(jìn)化。隨著大模型推理效率的提升和芯片算力的增強(qiáng),VLA 處理未知場景的 Few-shot 能力會(huì)越來越強(qiáng)。也許過不了很久,它就能看懂全國各地各不相同的紅綠燈信號燈,也能準(zhǔn)確判斷大部分的交警手勢,成為一名真正的老司機(jī)。

應(yīng)該說,現(xiàn)階段的 VLA 司機(jī)大模型肯定不是那個(gè)能讓你在后排安心睡去的完美代駕。但其實(shí)我們在理想園區(qū)內(nèi),已經(jīng)體驗(yàn)到了基于 VLA 司機(jī)大模型打造的 L4 級別無人小巴,也讓我們感受到了 VLA 的上限卻有更多暢想空間。VLA 已經(jīng)初步具備了思考能力,這標(biāo)志著智能駕駛正在進(jìn)入由 AI 驅(qū)動(dòng)的全新時(shí)代。這條路的終點(diǎn)依然遙遠(yuǎn),但 VLA 的出現(xiàn)還是讓未來更加明晰了一些。