好幾年以前,竇文濤把圓桌派搬上了某家車企的新車發(fā)布會,談話間他問出了一個幾乎人人都設想過的問題:
“如果一輛自動駕駛車失控了,它會選擇撞障礙物,還是撞人?”
當時,關于這個問題,車企負責人給出的答案比較含糊,近似于“我們一個都不要撞”,相當于母親、女朋友落水的話我們都要救。
實際上這個問題也確實不好回答,畢竟在手寫規(guī)則主導智能駕駛的時代,沒有一個程序員會寫下一條代碼,讓一臺失控的車輛主動選擇碰撞對象,以換取更小的損失。而車企負責人又不能說,我們會盡量規(guī)避碰撞,至于失控后撞到哪個目標又不是我們能控制的。
當智能駕駛全面擁抱AI之后,當智駕系統(tǒng)具備類人的思維之后,這種尋求最小損失的博弈是不是有可能存在?或許真有可能,因為AI會讓智駕越來越像人。
「端到端時代」轟然到來
二十年前的汽車廣告,主打冷風空調(diào)和沙發(fā)式座椅;兩三年前的智能汽車發(fā)布會,主打激光雷達和高精地圖;今年的智能汽車發(fā)布會,最高頻的詞匯已經(jīng)變成了端到端、神經(jīng)網(wǎng)絡、感知大模型、大語言模型等等。
今年,小鵬汽車發(fā)布了自家的端到端大模型架構,該架構由感知大模型XNet+規(guī)控大模型XPlanner+大語言模型XBrain三部分組成;華為發(fā)布了ADS 3.0,其端到端架構由GOD感知大網(wǎng)+PDP預測決策規(guī)劃+本能安全網(wǎng)絡構成。
這模型那大網(wǎng)的,都啥意思?
自從端到端這個概念突然空降,與智能電動汽車相關的媒體、大V都在盡力解讀這個概念,主要知識來源包括企業(yè)官方素材、發(fā)布會領導講話、智駕工程師專訪等等。對于非研發(fā)人員來說,如同天書的代碼肯定是讀不懂了,而媒體對于新概念的學習,更像是拿“各種想象”去和專業(yè)研發(fā)人員碰,最終把顆粒度大概對齊。
所以今天我們盡量不引用官方話術和專業(yè)詞匯,就通過大白話來解讀這些概念,我們先從游戲的AI訓練展開比較合適。
《Flappy Bird》相信大家都了解,這是一款通過點擊屏幕穿越管道,最終讓人撞管道、上頭、砸手機的小游戲。
而通過AI訓練,小鳥可以很好的掌握飛行技巧,在足夠大的訓練量積累之下,小鳥將具備超越人腦的得分能力。
以上是一段采用「Python遺傳算法」進行AI自我學習的案例,通過不斷的嘗試,小鳥能夠通過不斷試錯找到獲得高分的技巧。為了應對隨機生成的管道障礙物,自我學習將是上限最高的一種方式。
而當游戲難度升級,維度拓寬,AI的思維也需要升級,因此更復雜的神經(jīng)網(wǎng)絡也就產(chǎn)生了。
以上是一段標準的“神經(jīng)網(wǎng)絡”結構圖,由于結合不到實際所以很難理解。但如果和游戲結合一下,下面這段就很好理解了。
在維度更寬的《超級馬里奧》中,「神經(jīng)網(wǎng)絡」在AI訓練中的意義更加凸顯,因為馬里奧有更復雜的任務,包括踩小怪獸、頂蘑菇、吃蘑菇、避免跌落懸崖等等。
如圖右上角所示,馬里奧關于生存、得分、過關的需求最終通過8個控制按鍵來輸出,“動機與輸出結果”所形成的這個密密麻麻的玩楞就是「神經(jīng)網(wǎng)絡」了。之所以形成網(wǎng)絡,是因為馬里奧不能用單一動作解決各種問題,而8個控制按鍵的不同動作為無規(guī)則、高機動性的隨機組合,于是輸入端與輸出端之間就產(chǎn)生了這樣一個網(wǎng)絡。
再進一步解釋什么是端到端和神經(jīng)網(wǎng)絡的話,人類本身正是它們的最高體現(xiàn)。
比如我們見到地上有一捆錢,我們不會糾結先彎腰還是先伸手,我們大腦自帶的神經(jīng)網(wǎng)絡會驅(qū)使我們做出一套非常復雜的動作:奔跑、彎腰、撿錢、藏起來。多線程動作協(xié)同完成互不沖突,從感知到一捆錢到撿起來僅由一個端完成。
在此我們可以把整個人看作一個端,不必把人體理解為大腦、眼睛、肢體、骨骼等獨立的部分的縫合體。
而說回智能駕駛,憑借多傳感器冗余+手寫規(guī)則的技術雖然能做到很強,但也無異于將人拆分成很多個部分,一定程度上相當于人撿錢都要先蹲好、再彎腰、再伸手,多個流程之前存在信息損失。而端到端就不同了,辦事只需要一個動機和一個解決方案,這也如同端到端的英文名稱——「end to end」。
條條大路通羅馬尼亞
端到端智駕的特點,就是能通過學習“人類成熟駕駛習慣”來獲得進化。用車企的話術說,“我們會不斷喂給系統(tǒng)視頻讓它學,通過大量積累,它就能非常擬人?!?/p>
那如果把“人類危險駕駛習慣”喂給系統(tǒng),它是不是也能學會?那還用說,當然能學會。
如果把大量“行駛遇到斑馬線有行人”的視頻喂給系統(tǒng),系統(tǒng)就能輕易的學習到一條知識:“有的情況下”需要停車等待。
但是,“有的情況下”具體指什么,系統(tǒng)完全有可能理解錯。比如系統(tǒng)可能會認為,見到斑馬線就應該停車,并不是因為斑馬線上有行人所以需要停車;另外,在斑馬線前停車,還可能是因為遇到了紅燈,系統(tǒng)就不一定能Get到。
AI很可能學到你不想讓它學的,即便是喂給它大量“人類成熟駕駛習慣”,它仍然有可能學個牛馬??刍亻_篇所說的,如果不加以約束,系統(tǒng)完全有可能通過學習,做出主動選擇碰撞對象的決策。
這也是為什么,同樣一個端到端的大方向,不同車企玩出了百家爭鳴的感覺,而沒有車企去做完全類人的「One Model端到端」。
華為ADS 3.0端到端架構圖
在華為ADS 3.0中,GOD大網(wǎng)能識別異形障礙物,能夠深度感知道路結構和場景語義,對物理世界具有全面的理解能力;PDP預測決策規(guī)控與規(guī)劃網(wǎng)絡的加持使決策效率大幅提升,通過端到端模型能夠處理極端復雜的路面環(huán)境,大幅提升ADS模型的類人駕駛能力。
其中,本能安全網(wǎng)絡是非常重要的一環(huán)。根據(jù)官方描述,本能安全網(wǎng)絡類似于人的皮膚觸碰到火苗,會本能的退縮。
在端到端架構天馬行空的決策中,ADS 3.0的本能安全網(wǎng)絡將“掐”掉不能執(zhí)行的部分。
華為ADS 3.0:自主通過閘機
華為ADS 3.0:無保護左轉
前段時間,搭載華為ADS 3.0的享界S9實現(xiàn)了“車位到車位”智駕,系統(tǒng)能夠自主完成從地庫到公路再過閘機、過環(huán)島、掉頭、自動超車、無保護左轉,上下車自己開,下車自己停等一系列高階操作。
幾年前的“HI版”車型其實已經(jīng)做到了類似自動超車、無保護左轉這樣的高階操作,而在端到端時代,華為ADS未來得泛化理解能力還將不斷提升,擬人化也將不斷提升。
小鵬汽車端到端大模型 示意圖
小鵬汽車的端到端架構由神經(jīng)網(wǎng)絡XNet+規(guī)控大模型XPlanner+大語言模型XBrain組成,其中AI大語言模型XBrain架構類似大腦,善于泛化處理復雜及未知場景;規(guī)控大模型XPlanner像小腦,通過海量數(shù)據(jù)訓練不斷實現(xiàn)擬人進化;大語言模型XBrain能夠深度理解各種令行禁止、快慢緩急的行為指令,進而做出擬人的決策。
盡管小鵬的端到端架構沒有像華為ADS 3.0一樣提出“本能安全網(wǎng)絡”的概念,但實際上這種模塊化的端到端架構一樣起到約束作用,不會將決策完全交給AI。
理想汽車端到端架構 示意圖
理想汽車提出了端到端模型+VLM視覺語言模型+世界模型的方案,此外理想汽車還提出了“快系統(tǒng)與慢系統(tǒng)”的概念。
在理想發(fā)布的端到端概念中:
1、端到端模型主要用于處理常規(guī)駕駛行為,傳感器輸入到行駛軌跡輸出,只經(jīng)過一個模型,信息傳遞、推理計算、模型迭代更高效,駕駛行為也更擬人;
2、VLM視覺語言模型具備強大的邏輯思考能力,能夠理解導航地圖、復雜路況和交通規(guī)則,以應對未知場景。同時,系統(tǒng)將在基于世界模型構建的場景中進行學習和測試。構建的測試場景,既符合人類世界的真實規(guī)律,也具備強大的泛化能力。
新架構還將具有「快系統(tǒng)」與「慢系統(tǒng)」:
「快系統(tǒng)」:善于處理簡單的任務,類似人類的直覺,應對覆蓋95%的常規(guī)場景。
「慢系統(tǒng)」:類似人類深入的理解與學習,形成復雜的邏輯和計算,用于解決復雜未知的5%場景。
快系統(tǒng)與慢系統(tǒng)配合,目的在于確保大部分場景下的高效率,和少數(shù)場景下的高上限。
對于公眾甚至是媒體來說,端到端都是一個很新的概念,但業(yè)內(nèi)人士認為這個概念至少已經(jīng)出現(xiàn)了5、6年以上的時間。
早期,端到端幾乎沒有實際上車的可能性,而隨著大語言模型的引入,端到端的通用識別能力已經(jīng)可以突破,不可能已經(jīng)變成可能。在端到端架構中,大語言模型具有非常高的上限,智駕系統(tǒng)既可以越來越具備接近人腦的思考方式。
目前,我們還沒有看到絕對純粹的端到端智能駕駛架構,如上所列的案例中可見,目前車企會對端到端智駕進行必要的約束。但由于AI自我訓練機制的介入,我們還是可以確認,以端到端為架構的智能駕駛有難以估量的前景。
說一千道一萬,智駕全面擁抱AI,還是為了突破最后1%甚至0.01%的極端場景,業(yè)內(nèi)人士稱之為「corner case」。
以前,智能電動車企談黑盒色變,因為在手寫規(guī)則時代,采購一套“不可解釋”的黑盒是一套快速達到行業(yè)平均水平,但后續(xù)升級受限的方案。而兜兜轉轉一番之后,實際端到端智駕所追求的正是打造一枚黑盒,為了突破極端場景,盒子里的規(guī)則是否能解釋已經(jīng)不是重點,重點是只有讓智駕更類人,極端場景才可能被攻破。
智能電動車企想跳過原始積累階段,一步進入端到端也是偽命題。以特斯拉FSD為例,軟件的每一次迭代并不會摒棄此前的積累。當前,V12以后版本的FSD在美國本土已經(jīng)展現(xiàn)出很強的類人駕駛能力,而在高速等場景中V12系統(tǒng)存在降級為V11的情況,但顯然隨著系統(tǒng)不斷迭代,F(xiàn)SD將逐步提升端到端的占比,逐步將規(guī)則代碼取代。
盡管現(xiàn)在高喊端到端智駕的車企有一大票,但很顯然不是搭上端到端,就能成事。一方面,已經(jīng)有深厚積累的車企有更大的空間逐步轉型,讓AI取代手寫代碼;另一方面,誰更能適應馬拉松,在健康運營的條件下持續(xù)吃透數(shù)據(jù)、打造數(shù)據(jù)閉環(huán),誰才能真正把端到端的意義做出來。
邦點評
上一階段,激光雷達幾乎是高階智能駕駛的唯一代言人,但咱也見過搭載4顆激光雷達的車型還沒上市就折了。目前,視覺感知+AI的智能駕駛路線重回主流,采用激光雷達的方案也不再追求激光雷達的數(shù)量,最具代表性的就是華為ADS自從進化到2.0之后,激光雷達就由3顆變1顆了。
多模塊化的端到端智能駕駛已經(jīng)以AI為核心,而數(shù)據(jù)本地處理和云端計算的需求也來到的新高度。在手寫規(guī)則時代,智駕數(shù)據(jù)多到算不過來,而在端到端智駕時代,AI能夠大幅度簡化數(shù)據(jù)學習的人工成本,但智駕確來到了自發(fā)追求向上、主動希望獲取更多學習機會的階段,因此智駕更加是一場馬拉松,智駕的研發(fā)也將演化成更漫長、更學無止境的過程。
在端到端智駕的時代,肯定不是誰搭上端到端誰就上岸,而是誰能更好的吃透數(shù)據(jù)、學習得更深,誰才能在難度升級的智駕賽道中跑出差距。