理想 i8 上線，隨即又對配置和價(jià)格進(jìn)行了調(diào)整。這一系列的操作，圍繞它的爭議著實(shí)不少，不管是造型、價(jià)格或是小桌板，大家對這臺車的評價(jià)褒貶不一。

但也有不少人認(rèn)為，大家其實(shí)并沒有真正認(rèn)識到理想 i8 的殺手锏。理想的 VLA 司機(jī)大模型與 i8 同步發(fā)布，按照計(jì)劃也會(huì)同步升級到所有 AD Max 車型上，包括了 Thor-U 平臺和 Orin-X 平臺，這意味著除了 i8 的用戶，還會(huì)有大量的理想車主能在第一時(shí)間體會(huì)到 VLA 司機(jī)大模型的智駕實(shí)力。

VLA 司機(jī)大模型到底有什么不一樣？今天，結(jié)合著上周基于 i8 的 VLA 司機(jī)大模型的上車體驗(yàn)簡單來說一說。

BEV → 端到端 +VLM → VLA

應(yīng)該說理想在過去幾年，每年都有在智駕上的大動(dòng)作。前年是 BEV，去年是端到端 +VLM，到了今年變成了 VLA。不明所以的人難免覺得理想一年一套東西，新概念頻出，感覺都要去「考研」了。但其實(shí)，這三年一步一個(gè)臺階，其實(shí)一切都在同一個(gè)線路上穩(wěn)步提升。

VLA 本身代表的就三個(gè)層面的結(jié)合，分別是：V 是 Vision（視覺），L 是 Language（語言），A 則是 Action（行動(dòng)）。如果要把三代路徑打通，那么 BEV 的本質(zhì)是鳥瞰試圖，對應(yīng)的是視覺層面的大模型。而端到端 +VLM 則是兩段的融合，端到端結(jié)合了視覺和行動(dòng)兩個(gè)層面的大模型，而 VLM 則是視覺語言大模型，簡單來說在這個(gè)階段其實(shí) VLA 里面的三個(gè)層面都已經(jīng)出現(xiàn)，唯一的問題是并沒有做到三個(gè)層面的一個(gè)維度里的完整結(jié)合。

所以，端到端 + VLM 的本質(zhì)是模仿學(xué)習(xí)，李想自己也把這套雙系統(tǒng)架構(gòu)比喻為「猴子開車」，雖然智駕能力提升了很多，但是還是無法達(dá)到人類頂級職業(yè)司機(jī)的水平。而在 VLA 則是強(qiáng)化學(xué)習(xí)，它解決了端到端的模仿學(xué)習(xí)不具備深度的邏輯思維能力的挑戰(zhàn)，打破了端到端和 VLM 之間的溝通壁壘，以端到端 + VLM 的上限為起點(diǎn)，把整個(gè)智駕表現(xiàn)又進(jìn)行了一次提升。

思考、溝通、記憶、自我學(xué)習(xí)

在這種能力的加持下，VLA 司機(jī)大模型在思考、溝通、記憶和自我學(xué)習(xí)四項(xiàng)能力上都有提升，在實(shí)際路面表現(xiàn)中，在一些場景下展示出不同以往的一些特點(diǎn)。

比如說最直觀的一個(gè)感受，VLA 司機(jī)大模型在大屏上是可以看到完整的 CoT 推理過程的。對此，理想的工程師也反饋，其實(shí)如果沒有 CoT 而是直接讓模型來做決策，也是完全可行的。但理想希望在這個(gè)過程中，在決策偏復(fù)雜或是路口場景比較豐富的時(shí)候，展示模型「多兩步」的思考決策過程，同時(shí)借助這個(gè)過程和用戶建立一些溝通和信任。

另外就是，對于語義指令的理解能力的確有明顯的提升。在實(shí)際試駕中，印象比較深的其實(shí)是在根據(jù)要求完成靠邊停車之后，用戶還可以對 VLA 司機(jī)大模型提出「往前再走 XX 米」這種訴求，展現(xiàn) VLA 司機(jī)大模型對于距離的準(zhǔn)確判斷和控制。（事實(shí)上，人眼對于距離的判斷反而不那么準(zhǔn)確，實(shí)際試駕中就出現(xiàn)過我希望車向前挪 30 米但其實(shí) 30 米位置上有其他的障礙車輛已經(jīng)占據(jù)位置的情形）

而在 workshop 的演示中也有一個(gè)類似的場景，我們可以通過語音助手要求 VLA 司機(jī)大模型「在藍(lán)色車前面靠邊停一下」，這樣一個(gè)指令可以算是對于 VLA 三個(gè)層面的統(tǒng)一調(diào)度的最佳演示，不管是對于顏色還是距離還是周邊障礙的識別，VLA 都給出了比較讓人滿意的表現(xiàn)。

類似的，在記憶的層面上，理想是可以通過語音助手實(shí)現(xiàn)比如「這條路以后開 XX 速度」的指令，并且實(shí)現(xiàn)對這一路段的記憶。這并不是說這個(gè)功能「無可挑剔」，在 workshop 上一位媒體老師提出的問題就很有意思：這條路以后開 70 的記憶指令 VLA 的確能記住，但這條路非常非常長，路況復(fù)雜多變，這個(gè)記憶是會(huì)完整適配到這條路上，還是說只會(huì)在這一段上生效呢？

當(dāng)然大家不用很擔(dān)心，在 VLA 司機(jī)大模型下，根據(jù)實(shí)際路面情況做出判斷一定是必備技能，記住喜好是一回事，而保證安全才是更重要的指標(biāo)。

所以很多時(shí)候，面對 VLA 司機(jī)大模型，我們的確可以做到「動(dòng)動(dòng)嘴皮子」就能開車，這也符合 VLA 司機(jī)大模型打造一個(gè)更好的家庭司機(jī)的理念。但如果開口就能開車，后排或者乘客是不是也可以借助語音助手介入駕駛環(huán)節(jié)呢？在這一點(diǎn)上理想早早做出了預(yù)案，借助語音的定位，屏蔽了除主駕以外的其他座位發(fā)出的和駕駛相關(guān)的所有命令。

數(shù)據(jù)、算法、算力、工程能力

在 workshop 中，理想自動(dòng)駕駛高級算法專家詹錕就反復(fù)強(qiáng)調(diào)了四點(diǎn)：數(shù)據(jù)、算法、算力和工程能力。這四點(diǎn)對于理想率先推出 VLA 有著重大意義。

在銷量增長下，理想的有效數(shù)據(jù)已經(jīng)在上個(gè)月來到 12 億公里。以海量用戶行駛數(shù)據(jù)為基礎(chǔ)，理想還有強(qiáng)大的生成數(shù)據(jù)能力，可以在仿真世界里創(chuàng)造出無數(shù)的 Corner Case 來訓(xùn)練模型，全面提升評測效率，縮減測試周期，降低測試成本。同時(shí)，13EFLOPS 的龐大算力，也為這種復(fù)雜的訓(xùn)練和仿真提供了算力保障。

一個(gè)數(shù)據(jù)說明了現(xiàn)階段理想研發(fā) VLA 司機(jī)大模型的效率優(yōu)勢：在 2023 年時(shí)，理想對于自動(dòng)駕駛的評測成本是每公里 18.4 元；這個(gè)數(shù)據(jù)在去年已經(jīng)下降到 4.84 元/公里；而今年上半年，這一成本已經(jīng)進(jìn)一步壓縮到 0.53 元/公里。同時(shí)，今年上半年借助仿真測試，理想已經(jīng)完成了超過 4000 萬公里的評測，這個(gè)數(shù)字是去年全年的 8 倍。

在這樣的基礎(chǔ)上，我們也很容易好奇：VLA 司機(jī)大模型的上限到底在哪里？詹錕認(rèn)為，這取決于模型、芯片和數(shù)據(jù)三者的共同進(jìn)化。隨著大模型推理效率的提升和芯片算力的增強(qiáng)，VLA 處理未知場景的 Few-shot 能力會(huì)越來越強(qiáng)。也許過不了很久，它就能看懂全國各地各不相同的紅綠燈信號燈，也能準(zhǔn)確判斷大部分的交警手勢，成為一名真正的老司機(jī)。

應(yīng)該說，現(xiàn)階段的 VLA 司機(jī)大模型肯定不是那個(gè)能讓你在后排安心睡去的完美代駕。但其實(shí)我們在理想園區(qū)內(nèi)，已經(jīng)體驗(yàn)到了基于 VLA 司機(jī)大模型打造的 L4 級別無人小巴，也讓我們感受到了 VLA 的上限卻有更多暢想空間。VLA 已經(jīng)初步具備了思考能力，這標(biāo)志著智能駕駛正在進(jìn)入由 AI 驅(qū)動(dòng)的全新時(shí)代。這條路的終點(diǎn)依然遙遠(yuǎn)，但 VLA 的出現(xiàn)還是讓未來更加明晰了一些。

久久av偷拍,日韩成人亚洲,国产婷婷精品,国产精品亚洲成在人线

理想VLA司機(jī)大模型，它真能聽懂人話

BEV → 端到端 +VLM → VLA

思考、溝通、記憶、自我學(xué)習(xí)

數(shù)據(jù)、算法、算力、工程能力

干貨教程更多>>

久久av偷拍,日韩成人亚洲,国产婷婷精品,国产精品亚洲成在人线

理想VLA司機(jī)大模型，它真能聽懂人話

BEV → 端到端 +VLM → VLA

思考、溝通、記憶、自我學(xué)習(xí)

數(shù)據(jù)、算法、算力、工程能力

干貨教程更多>>

理想VLA司機(jī)大模型，它真能聽懂人話

思考、溝通、記憶、自我學(xué)習(xí)

數(shù)據(jù)、算法、算力、工程能力