VLA(Vision Language Action)的根子是让语言模型理解物理任务。Jim Fan在红杉闭门会上直接给VLA画了个墓碑RIP。原因很简单:"绝大部分参数给了语言",而语言在物理世界里是有损压缩——"把可乐罐放在Taylor Swift照片旁边"这种任务靠语义指代能行,"把这件衣服叠成刚好能塞进抽屉的样子""绕着这盆花的形状擦桌子"——全是"差不多""刚好""大概",文字编码不了。
Podden och tillhörande omslagsbild på den här sidan tillhör
托马斯白. Innehållet i podden är skapat av 托马斯白 och inte av,
eller tillsammans med, Poddtoppen.