好幾年以前,竇文濤把圓桌派搬上了某家車企的新車發(fā)布會(huì),談話間他問出了一個(gè)幾乎人人都設(shè)想過的問題:
“如果一輛自動(dòng)駕駛車失控了,它會(huì)選擇撞障礙物,還是撞人?”
當(dāng)時(shí),關(guān)于這個(gè)問題,車企負(fù)責(zé)人給出的答案比較含糊,近似于“我們一個(gè)都不要撞”,相當(dāng)于母親、女朋友落水的話我們都要救。
實(shí)際上這個(gè)問題也確實(shí)不好回答,畢竟在手寫規(guī)則主導(dǎo)智能駕駛的時(shí)代,沒有一個(gè)程序員會(huì)寫下一條代碼,讓一臺(tái)失控的車輛主動(dòng)選擇碰撞對(duì)象,以換取更小的損失。而車企負(fù)責(zé)人又不能說,我們會(huì)盡量規(guī)避碰撞,至于失控后撞到哪個(gè)目標(biāo)又不是我們能控制的。
當(dāng)智能駕駛?cè)鎿肀I之后,當(dāng)智駕系統(tǒng)具備類人的思維之后,這種尋求最小損失的博弈是不是有可能存在?或許真有可能,因?yàn)锳I會(huì)讓智駕越來越像人。
「端到端時(shí)代」轟然到來
二十年前的汽車廣告,主打冷風(fēng)空調(diào)和沙發(fā)式座椅;兩三年前的智能汽車發(fā)布會(huì),主打激光雷達(dá)和高精地圖;今年的智能汽車發(fā)布會(huì),最高頻的詞匯已經(jīng)變成了端到端、神經(jīng)網(wǎng)絡(luò)、感知大模型、大語言模型等等。
今年,小鵬汽車發(fā)布了自家的端到端大模型架構(gòu),該架構(gòu)由感知大模型XNet+規(guī)控大模型XPlanner+大語言模型XBrain三部分組成;華為發(fā)布了ADS 3.0,其端到端架構(gòu)由GOD感知大網(wǎng)+PDP預(yù)測(cè)決策規(guī)劃+本能安全網(wǎng)絡(luò)構(gòu)成。
這模型那大網(wǎng)的,都啥意思?
自從端到端這個(gè)概念突然空降,與智能電動(dòng)汽車相關(guān)的媒體、大V都在盡力解讀這個(gè)概念,主要知識(shí)來源包括企業(yè)官方素材、發(fā)布會(huì)領(lǐng)導(dǎo)講話、智駕工程師專訪等等。對(duì)于非研發(fā)人員來說,如同天書的代碼肯定是讀不懂了,而媒體對(duì)于新概念的學(xué)習(xí),更像是拿“各種想象”去和專業(yè)研發(fā)人員碰,最終把顆粒度大概對(duì)齊。
所以今天我們盡量不引用官方話術(shù)和專業(yè)詞匯,就通過大白話來解讀這些概念,我們先從游戲的AI訓(xùn)練展開比較合適。
《Flappy Bird》相信大家都了解,這是一款通過點(diǎn)擊屏幕穿越管道,最終讓人撞管道、上頭、砸手機(jī)的小游戲。
而通過AI訓(xùn)練,小鳥可以很好的掌握飛行技巧,在足夠大的訓(xùn)練量積累之下,小鳥將具備超越人腦的得分能力。
以上是一段采用「Python遺傳算法」進(jìn)行AI自我學(xué)習(xí)的案例,通過不斷的嘗試,小鳥能夠通過不斷試錯(cuò)找到獲得高分的技巧。為了應(yīng)對(duì)隨機(jī)生成的管道障礙物,自我學(xué)習(xí)將是上限最高的一種方式。
而當(dāng)游戲難度升級(jí),維度拓寬,AI的思維也需要升級(jí),因此更復(fù)雜的神經(jīng)網(wǎng)絡(luò)也就產(chǎn)生了。
以上是一段標(biāo)準(zhǔn)的“神經(jīng)網(wǎng)絡(luò)”結(jié)構(gòu)圖,由于結(jié)合不到實(shí)際所以很難理解。但如果和游戲結(jié)合一下,下面這段就很好理解了。
在維度更寬的《超級(jí)馬里奧》中,「神經(jīng)網(wǎng)絡(luò)」在AI訓(xùn)練中的意義更加凸顯,因?yàn)轳R里奧有更復(fù)雜的任務(wù),包括踩小怪獸、頂蘑菇、吃蘑菇、避免跌落懸崖等等。
如圖右上角所示,馬里奧關(guān)于生存、得分、過關(guān)的需求最終通過8個(gè)控制按鍵來輸出,“動(dòng)機(jī)與輸出結(jié)果”所形成的這個(gè)密密麻麻的玩楞就是「神經(jīng)網(wǎng)絡(luò)」了。之所以形成網(wǎng)絡(luò),是因?yàn)轳R里奧不能用單一動(dòng)作解決各種問題,而8個(gè)控制按鍵的不同動(dòng)作為無規(guī)則、高機(jī)動(dòng)性的隨機(jī)組合,于是輸入端與輸出端之間就產(chǎn)生了這樣一個(gè)網(wǎng)絡(luò)。
再進(jìn)一步解釋什么是端到端和神經(jīng)網(wǎng)絡(luò)的話,人類本身正是它們的最高體現(xiàn)。
比如我們見到地上有一捆錢,我們不會(huì)糾結(jié)先彎腰還是先伸手,我們大腦自帶的神經(jīng)網(wǎng)絡(luò)會(huì)驅(qū)使我們做出一套非常復(fù)雜的動(dòng)作:奔跑、彎腰、撿錢、藏起來。多線程動(dòng)作協(xié)同完成互不沖突,從感知到一捆錢到撿起來僅由一個(gè)端完成。
在此我們可以把整個(gè)人看作一個(gè)端,不必把人體理解為大腦、眼睛、肢體、骨骼等獨(dú)立的部分的縫合體。
而說回智能駕駛,憑借多傳感器冗余+手寫規(guī)則的技術(shù)雖然能做到很強(qiáng),但也無異于將人拆分成很多個(gè)部分,一定程度上相當(dāng)于人撿錢都要先蹲好、再彎腰、再伸手,多個(gè)流程之前存在信息損失。而端到端就不同了,辦事只需要一個(gè)動(dòng)機(jī)和一個(gè)解決方案,這也如同端到端的英文名稱——「end to end」。
條條大路通羅馬尼亞
端到端智駕的特點(diǎn),就是能通過學(xué)習(xí)“人類成熟駕駛習(xí)慣”來獲得進(jìn)化。用車企的話術(shù)說,“我們會(huì)不斷喂給系統(tǒng)視頻讓它學(xué),通過大量積累,它就能非常擬人?!?/p>
那如果把“人類危險(xiǎn)駕駛習(xí)慣”喂給系統(tǒng),它是不是也能學(xué)會(huì)?那還用說,當(dāng)然能學(xué)會(huì)。
如果把大量“行駛遇到斑馬線有行人”的視頻喂給系統(tǒng),系統(tǒng)就能輕易的學(xué)習(xí)到一條知識(shí):“有的情況下”需要停車等待。
但是,“有的情況下”具體指什么,系統(tǒng)完全有可能理解錯(cuò)。比如系統(tǒng)可能會(huì)認(rèn)為,見到斑馬線就應(yīng)該停車,并不是因?yàn)榘唏R線上有行人所以需要停車;另外,在斑馬線前停車,還可能是因?yàn)橛龅搅思t燈,系統(tǒng)就不一定能Get到。
AI很可能學(xué)到你不想讓它學(xué)的,即便是喂給它大量“人類成熟駕駛習(xí)慣”,它仍然有可能學(xué)個(gè)牛馬??刍亻_篇所說的,如果不加以約束,系統(tǒng)完全有可能通過學(xué)習(xí),做出主動(dòng)選擇碰撞對(duì)象的決策。
這也是為什么,同樣一個(gè)端到端的大方向,不同車企玩出了百家爭(zhēng)鳴的感覺,而沒有車企去做完全類人的「One Model端到端」。
華為ADS 3.0端到端架構(gòu)圖
在華為ADS 3.0中,GOD大網(wǎng)能識(shí)別異形障礙物,能夠深度感知道路結(jié)構(gòu)和場(chǎng)景語義,對(duì)物理世界具有全面的理解能力;PDP預(yù)測(cè)決策規(guī)控與規(guī)劃網(wǎng)絡(luò)的加持使決策效率大幅提升,通過端到端模型能夠處理極端復(fù)雜的路面環(huán)境,大幅提升ADS模型的類人駕駛能力。
其中,本能安全網(wǎng)絡(luò)是非常重要的一環(huán)。根據(jù)官方描述,本能安全網(wǎng)絡(luò)類似于人的皮膚觸碰到火苗,會(huì)本能的退縮。
在端到端架構(gòu)天馬行空的決策中,ADS 3.0的本能安全網(wǎng)絡(luò)將“掐”掉不能執(zhí)行的部分。
華為ADS 3.0:自主通過閘機(jī)
華為ADS 3.0:無保護(hù)左轉(zhuǎn)
前段時(shí)間,搭載華為ADS 3.0的享界S9實(shí)現(xiàn)了“車位到車位”智駕,系統(tǒng)能夠自主完成從地庫到公路再過閘機(jī)、過環(huán)島、掉頭、自動(dòng)超車、無保護(hù)左轉(zhuǎn),上下車自己開,下車自己停等一系列高階操作。
幾年前的“HI版”車型其實(shí)已經(jīng)做到了類似自動(dòng)超車、無保護(hù)左轉(zhuǎn)這樣的高階操作,而在端到端時(shí)代,華為ADS未來得泛化理解能力還將不斷提升,擬人化也將不斷提升。
小鵬汽車端到端大模型 示意圖
小鵬汽車的端到端架構(gòu)由神經(jīng)網(wǎng)絡(luò)XNet+規(guī)控大模型XPlanner+大語言模型XBrain組成,其中AI大語言模型XBrain架構(gòu)類似大腦,善于泛化處理復(fù)雜及未知場(chǎng)景;規(guī)控大模型XPlanner像小腦,通過海量數(shù)據(jù)訓(xùn)練不斷實(shí)現(xiàn)擬人進(jìn)化;大語言模型XBrain能夠深度理解各種令行禁止、快慢緩急的行為指令,進(jìn)而做出擬人的決策。
盡管小鵬的端到端架構(gòu)沒有像華為ADS 3.0一樣提出“本能安全網(wǎng)絡(luò)”的概念,但實(shí)際上這種模塊化的端到端架構(gòu)一樣起到約束作用,不會(huì)將決策完全交給AI。
理想汽車端到端架構(gòu) 示意圖
理想汽車提出了端到端模型+VLM視覺語言模型+世界模型的方案,此外理想汽車還提出了“快系統(tǒng)與慢系統(tǒng)”的概念。
在理想發(fā)布的端到端概念中:
1、端到端模型主要用于處理常規(guī)駕駛行為,傳感器輸入到行駛軌跡輸出,只經(jīng)過一個(gè)模型,信息傳遞、推理計(jì)算、模型迭代更高效,駕駛行為也更擬人;
2、VLM視覺語言模型具備強(qiáng)大的邏輯思考能力,能夠理解導(dǎo)航地圖、復(fù)雜路況和交通規(guī)則,以應(yīng)對(duì)未知場(chǎng)景。同時(shí),系統(tǒng)將在基于世界模型構(gòu)建的場(chǎng)景中進(jìn)行學(xué)習(xí)和測(cè)試。構(gòu)建的測(cè)試場(chǎng)景,既符合人類世界的真實(shí)規(guī)律,也具備強(qiáng)大的泛化能力。
新架構(gòu)還將具有「快系統(tǒng)」與「慢系統(tǒng)」:
「快系統(tǒng)」:善于處理簡(jiǎn)單的任務(wù),類似人類的直覺,應(yīng)對(duì)覆蓋95%的常規(guī)場(chǎng)景。
「慢系統(tǒng)」:類似人類深入的理解與學(xué)習(xí),形成復(fù)雜的邏輯和計(jì)算,用于解決復(fù)雜未知的5%場(chǎng)景。
快系統(tǒng)與慢系統(tǒng)配合,目的在于確保大部分場(chǎng)景下的高效率,和少數(shù)場(chǎng)景下的高上限。
對(duì)于公眾甚至是媒體來說,端到端都是一個(gè)很新的概念,但業(yè)內(nèi)人士認(rèn)為這個(gè)概念至少已經(jīng)出現(xiàn)了5、6年以上的時(shí)間。
早期,端到端幾乎沒有實(shí)際上車的可能性,而隨著大語言模型的引入,端到端的通用識(shí)別能力已經(jīng)可以突破,不可能已經(jīng)變成可能。在端到端架構(gòu)中,大語言模型具有非常高的上限,智駕系統(tǒng)既可以越來越具備接近人腦的思考方式。
目前,我們還沒有看到絕對(duì)純粹的端到端智能駕駛架構(gòu),如上所列的案例中可見,目前車企會(huì)對(duì)端到端智駕進(jìn)行必要的約束。但由于AI自我訓(xùn)練機(jī)制的介入,我們還是可以確認(rèn),以端到端為架構(gòu)的智能駕駛有難以估量的前景。
說一千道一萬,智駕全面擁抱AI,還是為了突破最后1%甚至0.01%的極端場(chǎng)景,業(yè)內(nèi)人士稱之為「corner case」。
以前,智能電動(dòng)車企談黑盒色變,因?yàn)樵谑謱懸?guī)則時(shí)代,采購一套“不可解釋”的黑盒是一套快速達(dá)到行業(yè)平均水平,但后續(xù)升級(jí)受限的方案。而兜兜轉(zhuǎn)轉(zhuǎn)一番之后,實(shí)際端到端智駕所追求的正是打造一枚黑盒,為了突破極端場(chǎng)景,盒子里的規(guī)則是否能解釋已經(jīng)不是重點(diǎn),重點(diǎn)是只有讓智駕更類人,極端場(chǎng)景才可能被攻破。
智能電動(dòng)車企想跳過原始積累階段,一步進(jìn)入端到端也是偽命題。以特斯拉FSD為例,軟件的每一次迭代并不會(huì)摒棄此前的積累。當(dāng)前,V12以后版本的FSD在美國(guó)本土已經(jīng)展現(xiàn)出很強(qiáng)的類人駕駛能力,而在高速等場(chǎng)景中V12系統(tǒng)存在降級(jí)為V11的情況,但顯然隨著系統(tǒng)不斷迭代,F(xiàn)SD將逐步提升端到端的占比,逐步將規(guī)則代碼取代。
盡管現(xiàn)在高喊端到端智駕的車企有一大票,但很顯然不是搭上端到端,就能成事。一方面,已經(jīng)有深厚積累的車企有更大的空間逐步轉(zhuǎn)型,讓AI取代手寫代碼;另一方面,誰更能適應(yīng)馬拉松,在健康運(yùn)營(yíng)的條件下持續(xù)吃透數(shù)據(jù)、打造數(shù)據(jù)閉環(huán),誰才能真正把端到端的意義做出來。
邦點(diǎn)評(píng)
上一階段,激光雷達(dá)幾乎是高階智能駕駛的唯一代言人,但咱也見過搭載4顆激光雷達(dá)的車型還沒上市就折了。目前,視覺感知+AI的智能駕駛路線重回主流,采用激光雷達(dá)的方案也不再追求激光雷達(dá)的數(shù)量,最具代表性的就是華為ADS自從進(jìn)化到2.0之后,激光雷達(dá)就由3顆變1顆了。
多模塊化的端到端智能駕駛已經(jīng)以AI為核心,而數(shù)據(jù)本地處理和云端計(jì)算的需求也來到的新高度。在手寫規(guī)則時(shí)代,智駕數(shù)據(jù)多到算不過來,而在端到端智駕時(shí)代,AI能夠大幅度簡(jiǎn)化數(shù)據(jù)學(xué)習(xí)的人工成本,但智駕確來到了自發(fā)追求向上、主動(dòng)希望獲取更多學(xué)習(xí)機(jī)會(huì)的階段,因此智駕更加是一場(chǎng)馬拉松,智駕的研發(fā)也將演化成更漫長(zhǎng)、更學(xué)無止境的過程。
在端到端智駕的時(shí)代,肯定不是誰搭上端到端誰就上岸,而是誰能更好的吃透數(shù)據(jù)、學(xué)習(xí)得更深,誰才能在難度升級(jí)的智駕賽道中跑出差距。