理想汽車自動(dòng)駕駛負(fù)責(zé)人郎咸朋發(fā)表長文,回應(yīng)宇樹科技CEO王興興對(duì)VLA模型(視覺-語言-動(dòng)作)的質(zhì)疑,王興興表示當(dāng)下火熱的 VLA 模型(視覺-語言-動(dòng)作)是“相對(duì)比較傻瓜式的架構(gòu)”,并表示“保持比較懷疑的態(tài)度”。郎咸朋認(rèn)為,脫離海量真實(shí)數(shù)據(jù)的模型架構(gòu)是“空中樓閣”,看療效,而非空談架構(gòu)。理想之所以堅(jiān)持VLA,是因?yàn)樗麄儽澈笥谐^150萬輛車的真實(shí)行駛數(shù)據(jù)(已超3.12億公里)作為支撐,這讓模型能不斷學(xué)習(xí)、進(jìn)化。他強(qiáng)調(diào),理想的VLA本質(zhì)上是生成式模型,通過GPT方式生成軌跡和控制信號(hào),已在某些場景下展現(xiàn)出對(duì)物理世界的認(rèn)知涌現(xiàn)。此外,郎咸朋指出,世界模型更適合云端數(shù)據(jù)生成和仿真測試,而理想的VLA模型則依賴于數(shù)百萬輛車構(gòu)建的數(shù)據(jù)閉環(huán),以實(shí)現(xiàn)接近人類的駕駛水平。
郎咸朋進(jìn)一步闡述了具身智能系統(tǒng)的重要性,包括感知、模型、操作系統(tǒng)、芯片和本體等部分的協(xié)同作用。他以底盤的VMM模塊為例,說明了精細(xì)化調(diào)校對(duì)自動(dòng)駕駛控制信號(hào)的重要性,以及如何實(shí)現(xiàn)“身體”和“大腦”的協(xié)同價(jià)值。郎咸朋還提到,理想汽車能夠比友商更早落地VLA,得益于公司在數(shù)據(jù)、算法、算力、工程方面的優(yōu)勢。目前,理想汽車的總算力為13EFLOPS,其中3EFLOPS用于推理,10EFLOPS用于訓(xùn)練。郎咸朋預(yù)測,如果明年理想汽車能做到1000MPI,VLA將迎來ChatGPT時(shí)刻。

CONTACT US
ICC APP