定位中
熱門城市:
北京
上海
廣州
深圳
杭州
南京
退出
智能駕駛這一塊,誰搭上「端到端」誰就能上岸?
來自:電動邦
作者:邦老師
2024-09-19 15:36:36
手機瀏覽

好幾年以前,竇文濤把圓桌派搬上了某家車企的新車發(fā)布會,談話間他問出了一個幾乎人人都設想過的問題:

如果一輛自動駕駛車失控了,它會選擇撞障礙物,還是撞人?

撞哪個 副本.jpg

當時,關于這個問題,車企負責人給出的答案比較含糊,近似于“我們一個都不要撞”,相當于母親、女朋友落水的話我們都要救。

實際上這個問題也確實不好回答,畢竟在手寫規(guī)則主導智能駕駛的時代,沒有一個程序員會寫下一條代碼,讓一臺失控的車輛主動選擇碰撞對象,以換取更小的損失。而車企負責人又不能說,我們會盡量規(guī)避碰撞,至于失控后撞到哪個目標又不是我們能控制的。

當智能駕駛全面擁抱AI之后,當智駕系統(tǒng)具備類人的思維之后,這種尋求最小損失的博弈是不是有可能存在?或許真有可能,因為AI會讓智駕越來越像人。

「端到端時代」轟然到來

二十年前的汽車廣告,主打冷風空調(diào)和沙發(fā)式座椅;兩三年前的智能汽車發(fā)布會,主打激光雷達和高精地圖;今年的智能汽車發(fā)布會,最高頻的詞匯已經(jīng)變成了端到端、神經(jīng)網(wǎng)絡、感知大模型、大語言模型等等。

今年,小鵬汽車發(fā)布了自家的端到端大模型架構,該架構由感知大模型XNet+規(guī)控大模型XPlanner+大語言模型XBrain三部分組成;華為發(fā)布了ADS 3.0,其端到端架構由GOD感知大網(wǎng)+PDP預測決策規(guī)劃+本能安全網(wǎng)絡構成。

這模型那大網(wǎng)的,都啥意思?

自從端到端這個概念突然空降,與智能電動汽車相關的媒體、大V都在盡力解讀這個概念,主要知識來源包括企業(yè)官方素材、發(fā)布會領導講話、智駕工程師專訪等等。對于非研發(fā)人員來說,如同天書的代碼肯定是讀不懂了,而媒體對于新概念的學習,更像是拿“各種想象”去和專業(yè)研發(fā)人員碰,最終把顆粒度大概對齊。

所以今天我們盡量不引用官方話術和專業(yè)詞匯,就通過大白話來解讀這些概念,我們先從游戲的AI訓練展開比較合適。

鳥的封面.jpg

《Flappy Bird》相信大家都了解,這是一款通過點擊屏幕穿越管道,最終讓人撞管道、上頭、砸手機的小游戲。

而通過AI訓練,小鳥可以很好的掌握飛行技巧,在足夠大的訓練量積累之下,小鳥將具備超越人腦的得分能力。

D001.gif

D002.gif

以上是一段采用「Python遺傳算法」進行AI自我學習的案例,通過不斷的嘗試,小鳥能夠通過不斷試錯找到獲得高分的技巧。為了應對隨機生成的管道障礙物,自我學習將是上限最高的一種方式。

而當游戲難度升級,維度拓寬,AI的思維也需要升級,因此更復雜的神經(jīng)網(wǎng)絡也就產(chǎn)生了。

神經(jīng)網(wǎng)絡2.jpg

以上是一段標準的“神經(jīng)網(wǎng)絡”結構圖,由于結合不到實際所以很難理解。但如果和游戲結合一下,下面這段就很好理解了。

超級瑪麗.jpg

在維度更寬的《超級馬里奧》中,「神經(jīng)網(wǎng)絡」在AI訓練中的意義更加凸顯,因為馬里奧有更復雜的任務,包括踩小怪獸、頂蘑菇、吃蘑菇、避免跌落懸崖等等。

如圖右上角所示,馬里奧關于生存、得分、過關的需求最終通過8個控制按鍵來輸出,“動機與輸出結果”所形成的這個密密麻麻的玩楞就是「神經(jīng)網(wǎng)絡」了。之所以形成網(wǎng)絡,是因為馬里奧不能用單一動作解決各種問題,而8個控制按鍵的不同動作為無規(guī)則、高機動性的隨機組合,于是輸入端與輸出端之間就產(chǎn)生了這樣一個網(wǎng)絡。

再進一步解釋什么是端到端和神經(jīng)網(wǎng)絡的話,人類本身正是它們的最高體現(xiàn)。

比如我們見到地上有一捆錢,我們不會糾結先彎腰還是先伸手,我們大腦自帶的神經(jīng)網(wǎng)絡會驅(qū)使我們做出一套非常復雜的動作:奔跑、彎腰、撿錢、藏起來。多線程動作協(xié)同完成互不沖突,從感知到一捆錢到撿起來僅由一個端完成。

在此我們可以把整個人看作一個端,不必把人體理解為大腦、眼睛、肢體、骨骼等獨立的部分的縫合體。

而說回智能駕駛,憑借多傳感器冗余+手寫規(guī)則的技術雖然能做到很強,但也無異于將人拆分成很多個部分,一定程度上相當于人撿錢都要先蹲好、再彎腰、再伸手,多個流程之前存在信息損失。而端到端就不同了,辦事只需要一個動機和一個解決方案,這也如同端到端的英文名稱——「end to end」。

條條大路通羅馬尼亞

端到端智駕的特點,就是能通過學習“人類成熟駕駛習慣”來獲得進化。用車企的話術說,“我們會不斷喂給系統(tǒng)視頻讓它學,通過大量積累,它就能非常擬人?!?/p>

那如果把“人類危險駕駛習慣”喂給系統(tǒng),它是不是也能學會?那還用說,當然能學會。

640.gif

如果把大量“行駛遇到斑馬線有行人”的視頻喂給系統(tǒng),系統(tǒng)就能輕易的學習到一條知識:“有的情況下”需要停車等待。

但是,“有的情況下”具體指什么,系統(tǒng)完全有可能理解錯。比如系統(tǒng)可能會認為,見到斑馬線就應該停車,并不是因為斑馬線上有行人所以需要停車;另外,在斑馬線前停車,還可能是因為遇到了紅燈,系統(tǒng)就不一定能Get到。

AI很可能學到你不想讓它學的,即便是喂給它大量“人類成熟駕駛習慣”,它仍然有可能學個牛馬??刍亻_篇所說的,如果不加以約束,系統(tǒng)完全有可能通過學習,做出主動選擇碰撞對象的決策。

這也是為什么,同樣一個端到端的大方向,不同車企玩出了百家爭鳴的感覺,而沒有車企去做完全類人的「One Model端到端」。

華為ADS.jpg

華為ADS 3.0端到端架構圖

在華為ADS 3.0中,GOD大網(wǎng)能識別異形障礙物,能夠深度感知道路結構和場景語義,對物理世界具有全面的理解能力;PDP預測決策規(guī)控與規(guī)劃網(wǎng)絡的加持使決策效率大幅提升,通過端到端模型能夠處理極端復雜的路面環(huán)境,大幅提升ADS模型的類人駕駛能力。

其中,本能安全網(wǎng)絡是非常重要的一環(huán)。根據(jù)官方描述,本能安全網(wǎng)絡類似于人的皮膚觸碰到火苗,會本能的退縮。

在端到端架構天馬行空的決策中,ADS 3.0的本能安全網(wǎng)絡將“掐”掉不能執(zhí)行的部分。

D003.gif

華為ADS 3.0:自主通過閘機

D005.gif

華為ADS 3.0:無保護左轉

前段時間,搭載華為ADS 3.0的享界S9實現(xiàn)了“車位到車位”智駕,系統(tǒng)能夠自主完成從地庫到公路再過閘機、過環(huán)島、掉頭、自動超車、無保護左轉,上下車自己開,下車自己停等一系列高階操作。

幾年前的“HI版”車型其實已經(jīng)做到了類似自動超車、無保護左轉這樣的高階操作,而在端到端時代,華為ADS未來得泛化理解能力還將不斷提升,擬人化也將不斷提升。

image.jpg

小鵬汽車端到端大模型 示意圖

小鵬汽車的端到端架構由神經(jīng)網(wǎng)絡XNet+規(guī)控大模型XPlanner+大語言模型XBrain組成,其中AI大語言模型XBrain架構類似大腦,善于泛化處理復雜及未知場景;規(guī)控大模型XPlanner像小腦,通過海量數(shù)據(jù)訓練不斷實現(xiàn)擬人進化;大語言模型XBrain能夠深度理解各種令行禁止、快慢緩急的行為指令,進而做出擬人的決策。

盡管小鵬的端到端架構沒有像華為ADS 3.0一樣提出“本能安全網(wǎng)絡”的概念,但實際上這種模塊化的端到端架構一樣起到約束作用,不會將決策完全交給AI。

image.jpg

理想汽車端到端架構 示意圖

理想汽車提出了端到端模型+VLM視覺語言模型+世界模型的方案,此外理想汽車還提出了“快系統(tǒng)與慢系統(tǒng)”的概念。

在理想發(fā)布的端到端概念中:

1、端到端模型主要用于處理常規(guī)駕駛行為,傳感器輸入到行駛軌跡輸出,只經(jīng)過一個模型,信息傳遞、推理計算、模型迭代更高效,駕駛行為也更擬人;

2、VLM視覺語言模型具備強大的邏輯思考能力,能夠理解導航地圖、復雜路況和交通規(guī)則,以應對未知場景。同時,系統(tǒng)將在基于世界模型構建的場景中進行學習和測試。構建的測試場景,既符合人類世界的真實規(guī)律,也具備強大的泛化能力。

新架構還將具有「快系統(tǒng)慢系統(tǒng)

「快系統(tǒng):善于處理簡單的任務,類似人類的直覺,應對覆蓋95%的常規(guī)場景。

慢系統(tǒng):類似人類深入的理解與學習,形成復雜的邏輯和計算,用于解決復雜未知的5%場景。

快系統(tǒng)與慢系統(tǒng)配合,目的在于確保大部分場景下的高效率,和少數(shù)場景下的高上限。

微信圖片_20240911111505.png

對于公眾甚至是媒體來說,端到端都是一個很新的概念,但業(yè)內(nèi)人士認為這個概念至少已經(jīng)出現(xiàn)了5、6年以上的時間。

早期,端到端幾乎沒有實際上車的可能性,而隨著大語言模型的引入,端到端的通用識別能力已經(jīng)可以突破,不可能已經(jīng)變成可能。在端到端架構中,大語言模型具有非常高的上限,智駕系統(tǒng)既可以越來越具備接近人腦的思考方式。

目前,我們還沒有看到絕對純粹的端到端智能駕駛架構,如上所列的案例中可見,目前車企會對端到端智駕進行必要的約束。但由于AI自我訓練機制的介入,我們還是可以確認,以端到端為架構的智能駕駛有難以估量的前景。

犄角旮旯 副本.jpg

說一千道一萬,智駕全面擁抱AI,還是為了突破最后1%甚至0.01%的極端場景,業(yè)內(nèi)人士稱之為「corner case」。

以前,智能電動車企談黑盒色變,因為在手寫規(guī)則時代,采購一套“不可解釋”的黑盒是一套快速達到行業(yè)平均水平,但后續(xù)升級受限的方案。而兜兜轉轉一番之后,實際端到端智駕所追求的正是打造一枚黑盒,為了突破極端場景,盒子里的規(guī)則是否能解釋已經(jīng)不是重點,重點是只有讓智駕更類人,極端場景才可能被攻破。

智能電動車企想跳過原始積累階段,一步進入端到端也是偽命題。以特斯拉FSD為例,軟件的每一次迭代并不會摒棄此前的積累。當前,V12以后版本的FSD在美國本土已經(jīng)展現(xiàn)出很強的類人駕駛能力,而在高速等場景中V12系統(tǒng)存在降級為V11的情況,但顯然隨著系統(tǒng)不斷迭代,F(xiàn)SD將逐步提升端到端的占比,逐步將規(guī)則代碼取代。

盡管現(xiàn)在高喊端到端智駕的車企有一大票,但很顯然不是搭上端到端,就能成事。一方面,已經(jīng)有深厚積累的車企有更大的空間逐步轉型,讓AI取代手寫代碼;另一方面,誰更能適應馬拉松,在健康運營的條件下持續(xù)吃透數(shù)據(jù)、打造數(shù)據(jù)閉環(huán),誰才能真正把端到端的意義做出來。

邦點評

上一階段,激光雷達幾乎是高階智能駕駛的唯一代言人,但咱也見過搭載4顆激光雷達的車型還沒上市就折了。目前,視覺感知+AI的智能駕駛路線重回主流,采用激光雷達的方案也不再追求激光雷達的數(shù)量,最具代表性的就是華為ADS自從進化到2.0之后,激光雷達就由3顆變1顆了。

多模塊化的端到端智能駕駛已經(jīng)以AI為核心,而數(shù)據(jù)本地處理和云端計算的需求也來到的新高度。在手寫規(guī)則時代,智駕數(shù)據(jù)多到算不過來,而在端到端智駕時代,AI能夠大幅度簡化數(shù)據(jù)學習的人工成本,但智駕確來到了自發(fā)追求向上、主動希望獲取更多學習機會的階段,因此智駕更加是一場馬拉松,智駕的研發(fā)也將演化成更漫長、更學無止境的過程。

在端到端智駕的時代,肯定不是誰搭上端到端誰就上岸,而是誰能更好的吃透數(shù)據(jù)、學習得更深,誰才能在難度升級的智駕賽道中跑出差距。

* 部分圖片來源于網(wǎng)絡,如有侵權請告知刪除
收藏
分享到:
最新文章
年終『好東西』?埃安再造A級電轎爆款!
2026(第十九屆)北京國際汽車展覽會將于2026年4月在北京盛大亮相
星紀元ET增程四驅(qū)上市,劍指理想L6?
限時僅售9.49萬,綜合續(xù)航超2000,年輕人開得起的『大A8L』
又一個“998”誕生,四驅(qū)僅售13.98萬,這款“平民版”大G能賣爆?
蔚來ET9先進數(shù)字架構正式發(fā)布,智能化的最后一塊拼圖
10歲的蔚來,穩(wěn)字當?shù)?,三品牌齊頭并進
眼看YU7熱度被搶,小米直接把第三款車放出來了?
小米YU7新車申報,中大型純電SUV,雙電機四驅(qū),營銷從此刻開始
9.98萬起售,純電能跑120km,這款插混SUV“迪”對性真強
“行走的外交名片”,全新嵐圖夢想家成為阿盟駐華代表處官方用車
智能化時代,誰說合資純電沒法選?