色婷婷av一区二区三区之红樱桃,欧美午夜精品久久久久免费视

收藏
評(píng)論

從諸多大佬的表態(tài)來看，端到端+大模型可能就是自動(dòng)駕駛技術(shù)路線的終局。

不過，正如各家的端到端千姿百態(tài)一樣，大模型也沒有標(biāo)準(zhǔn)答案。

兵無常勢(shì)，水無常形。

在真實(shí)世界中，技術(shù)也是高度可重構(gòu)的，隨著時(shí)間的推移、新技術(shù)的出現(xiàn)，未來在不斷改進(jìn)，不斷進(jìn)化。

自2022年年底OpenAI發(fā)布大語言模型ChatGPT以后，生成式AI大模型逐漸演化出了兩大分支：語言模型和世界模型。

語言模型繼續(xù)在數(shù)字世界深耕，從單一的文本模態(tài)走向包含圖片、視頻在內(nèi)的多模態(tài)，使其具備了文生圖、看圖說話、圖生圖、文生視頻的能力，比較典型的代表有今年2月份發(fā)布的Sora和4月份發(fā)布的GPT4-o。

世界模型則從數(shù)字世界走向物理世界，從一維形式的數(shù)字智能走向三維形式的空間智能。

根據(jù)出生于北京、大成于美國的AI教母李飛飛的表述，空間智能指的是AI在三維空間和時(shí)間中以三維方式感知、推理和行動(dòng)，并與現(xiàn)實(shí)世界進(jìn)行交互。

兩者的區(qū)別在于，大語言模型的基礎(chǔ)是通過文本序列對(duì)世界進(jìn)行一維表示。

具備圖像理解和視頻理解能力的多模態(tài)語言模型不過是將其它模態(tài)的數(shù)據(jù)進(jìn)行Token化，然后硬塞進(jìn)文本這個(gè)一維的序列表示中。

空間智能則是把三維當(dāng)成了表達(dá)的核心。

換個(gè)角度思考一下它們的區(qū)別：語言本質(zhì)上來說是一種純粹生成的信號(hào)，世界上原本沒有語言，說的人多了，也就成了語言。

不過，既然是純粹生成，當(dāng)然可以信口胡說，從而無視這個(gè)世界的物理規(guī)律。

但是，世界模型旨在理解并掌握物理規(guī)律，遵循物理規(guī)律跟物理世界產(chǎn)生交互，物理規(guī)律不可欺，自盤古開天辟地以來，3D世界及其物理規(guī)律就一直存在在那里。

從這種劃分來看，在自動(dòng)駕駛大模型的賽道上，小鵬汽車的全域大語言模型和理想汽車的視覺語言模型都是在文本之上疊加了圖片和視頻模態(tài)的語言模型，而蔚來汽車和特斯拉的世界模型則屬于空間智能這一陣營。

樹欲靜而風(fēng)不止。

智能電動(dòng)汽車行業(yè)的玩家們除了要在產(chǎn)品、技術(shù)、渠道層面展開競(jìng)爭(zhēng)，營銷層面的拉高踩低、明吹暗諷也是一直暗流涌動(dòng)。

在7月31日的智能駕駛系統(tǒng)發(fā)布會(huì)上，何小鵬暗懟理想汽車數(shù)據(jù)為王的觀點(diǎn)。

何小鵬表示：如果有廠商說他們數(shù)據(jù)多，所以能力強(qiáng)，千萬不要相信他。

因?yàn)樵谛碌亩说蕉朔妒街?，很多?shù)據(jù)需要重新標(biāo)注。

即便有了自動(dòng)標(biāo)注工具的幫助，數(shù)據(jù)標(biāo)注也是一項(xiàng)非常非常繁重的工作，2022年夏天，馬斯克在接受車友訪談時(shí)表示，特斯拉大約有1500名人類標(biāo)注師！

不過，這并不意味著姿勢(shì)不對(duì)，起來重睡，端到端來了，之前積累的很多精標(biāo)BEV+OCC數(shù)據(jù)通通作廢。

而是說，在規(guī)則+算法為主的分模塊時(shí)代，車企的主要精力放在了增強(qiáng)感知能力上。

到了端到端時(shí)代，需要在BEV和占用空間之外做進(jìn)一步的標(biāo)注，比如與規(guī)劃決策密切相關(guān)的自車和其它交通參與者的位姿、速度、加速度，這一類數(shù)據(jù)標(biāo)注需要重新補(bǔ)齊，以構(gòu)建預(yù)測(cè)與規(guī)劃數(shù)據(jù)集。

端到端+大模型之后，大模型引入了新的數(shù)據(jù)標(biāo)注需求。

在基于語言模型的自動(dòng)駕駛大模型中，其輸入是當(dāng)前駕駛場(chǎng)景的圖片，其輸出是各類交通參與者、道路拓?fù)?、交通信?hào)標(biāo)識(shí)的語義信息，這種模型不具備自回歸特性，進(jìn)行有監(jiān)督學(xué)習(xí)，其訓(xùn)練需要海量的數(shù)據(jù)標(biāo)注工作。

在基于世界模型的自動(dòng)駕駛大模型中，其輸入是當(dāng)前攝像頭數(shù)據(jù)，輸出是下一個(gè)時(shí)間步長后的攝像頭數(shù)據(jù)，這類自回歸模型和GPT大語言模型依靠過去的Token預(yù)測(cè)下一個(gè)Token非常類似，其訓(xùn)練過程是無需數(shù)據(jù)標(biāo)注的無監(jiān)督學(xué)習(xí)。

無監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí)的核心區(qū)別就是不需要進(jìn)行數(shù)據(jù)標(biāo)注。

也就是說，世界模型可以從此告別勞動(dòng)密集型的人工智能，應(yīng)對(duì)比海量更海量的數(shù)據(jù)驅(qū)動(dòng)新范式。

據(jù)說東北老鐵在干仗前會(huì)先吼一句你瞅啥？湖南人則是人狠話不多，先干了再說。

語言模型就像東北大哥，先是一聲吼，然后再?zèng)Q定出手不出手，只給出對(duì)當(dāng)前駕駛場(chǎng)景的理解，輸入給決策神經(jīng)網(wǎng)絡(luò)做參考，自己并不直接輸出最終的決策結(jié)果-車輛的行駛軌跡。

世界模型就像湖南老表，相當(dāng)干脆利索，直接出手給出車輛的行駛軌跡。

從理想汽車展示的VLM的能力可以看出，它給出的都是車道選擇、是否減速這些中間層面的建議，并不直接給出車輛最終的行駛軌跡。

蔚來汽車的世界模型則是推演萬千平行世界，從中選擇最優(yōu)解，在0.1秒之內(nèi)生成216種可能的行駛軌跡，選擇出最優(yōu)的行駛軌跡，行駛軌跡可以直接給到下游的執(zhí)行模塊，控制車輛的駕駛行為。

直接給出行駛軌跡是世界模型的第1個(gè)優(yōu)勢(shì)，第2個(gè)優(yōu)勢(shì)則在于它可以通過海量的無監(jiān)督學(xué)習(xí)訓(xùn)練出對(duì)駕駛場(chǎng)景的深度理解能力，實(shí)現(xiàn)了從感知到認(rèn)知的能力躍升。

BEV+OCC的感知能力對(duì)安全、舒適、高效的完全自動(dòng)駕駛是不夠的。

一個(gè)很明顯的例子就是，BEV和OCC不清楚當(dāng)前的光照條件如何，天氣情況怎么樣，而光照和天氣恰恰是可以影響自動(dòng)駕駛車輛行駛的關(guān)鍵要素。

世界模型顯然具備比BEV+OCC更加細(xì)力度的場(chǎng)景理解能力。

因?yàn)樗谋举|(zhì)是建立對(duì)當(dāng)下空間的深度理解能力，然后基于物理規(guī)律和當(dāng)前世界，對(duì)未來時(shí)刻的世界做想象推演，為了準(zhǔn)確推演下一時(shí)刻的世界，世界模型必須建立對(duì)當(dāng)前世界的深度理解能力。

這種能力是通過對(duì)海量數(shù)據(jù)的無監(jiān)督訓(xùn)練學(xué)習(xí)得來的，拿一個(gè)15-30秒的視頻片段Clips，劃分好時(shí)間刻度，將下一時(shí)刻的傳感器數(shù)據(jù)作為世界模型的真值進(jìn)行訓(xùn)練，通過一次又一次的刷題，世界模型就具備了場(chǎng)景的深度理解能力。

從世界模型的能力來看，它會(huì)消耗比語言模型更加多的算力，也許這才是采用4顆Orin的蔚來選擇世界模型、采用兩顆Orin的理想和小鵬選擇語言模型的真正原因。

隨著算力的升級(jí)，理想和小鵬從語言模型過渡到世界模型將會(huì)是一個(gè)大概率事件。

引用地址：大模型沒有標(biāo)準(zhǔn)答案，世界模型才是終極方案

上一篇：這屆廣州車展，BBA的智能化支棱起來了
下一篇：智能化，比亞迪到了不得不突圍的時(shí)候