发布日期:2025-12-05 00:34 点击次数:126
AI圈这内卷程度,真是卷到家了。
前脚大家还在为视频生成吵得不可开交,后脚字节就把3D重建的桌子给掀了。
这不,连AI圈大神谢赛宁都亲自下场点赞,直呼“Impressive”,主角就是字节Seed团队捣鼓出的一个叫“Depth Anything 3”(DA3)的新玩意儿。
你可能会问,一个3D重建模型,至于这么大动静吗?
这事儿好玩就好玩在,它不是“又一个”模型,而是想当那个“终结者”。
以前搞3D视觉,那叫一个“术业有专攻”。
你想从一张照片里估算个远近深浅?
行,请出门左转用单目深度估计模型。
想用好几张图拼个3D场景?
好,再右转换一套多视角重建的家伙事儿。
就连算个相机在哪儿拍的,都得配个专属的“小跟班”模块。
整个流程下来,跟攒一台电脑似的,主板、CPU、显卡、内存条,少一个都开不了机。
不仅费钱费力,各个部件还各说各话,没法拧成一股绳,数据稍微差点意思,就集体罢工。
成年人的世界里没有圣诞老人,一切都得自己亲手去拼。
但DA3这哥们儿,偏不信这个邪。
它直接把这一堆瓶瓶罐罐全扔了,揣着一把瑞士军刀就上了战场。
无论是孤零零的一张风景照,还是你手机里随手拍的一段Vlog,甚至是几张从不同角度拍的散装图片,它都能给你安排得明明白白。
这把“瑞士军刀”的神奇之处,就在于它只干两件事:算深度,算光线。
听着是不是特简单?
大道至简嘛。
它的核心,就是一个平平无奇的视觉Transformer。
没错,就是那个在AI界已经不算新鲜的Transformer。
但字节这帮人给它开了个“天眼”,让它学会了“左右互搏”。
通过所谓的“单视角自注意力”和“跨视角自注意力”,模型能自己琢磨:这张图里的桌子角,在另一张图里是哪个点?
这段视频里,镜头是怎么移动的?
它把所有输入都看成是拼图的碎片,自己找线索给拼起来。
整个过程就像一个经验老到的侦探破案。
图片和相机信息(有就用,没有就猜一个)作为“案卷”送进去,这个基于DINO预训练模型的“侦探大脑”就开始疯狂推理,在不同“证据”(视角)之间建立联系。
最后,推理结果兵分两路,一路输出每个像素点的深度图,告诉你哪里远哪里近;另一路输出光线参数,还原现场光照。
顺手再把相机移动的轨迹给你描出来,误差小到惊人。
官方数据显示,在他们自己搭建的一个涵盖了室内、室外、物体等各种场景的“地狱级”考场里,DA3的相机定位精度平均提升了35.7%,几何重建准确率更是涨了23.6%。
这已经不是优化了,这简直是开着挖掘机在刨对手的墙角。
那么,搞出这么个“怪物”的,究竟是何方神圣?
带头人叫康炳易,一个95后的研究科学家。
这就有意思了,这位小哥的履历,简直就是“别人家的孩子”模板。
浙大本科,然后加州伯克利、新加坡国立大学一路读到博士,导师还是冯佳时这样的大牛。
更绝的是,他读博期间就在Facebook AI Research实习,跟谁合作呢?
谢赛宁。
这下破案了。
难怪谢赛宁这次不吝赞美之词,原来是看到了自家曾经带过的“实习生”,如今已经成长为能独当一面的猛将,顺手还把自己当年可能也头疼过的问题给解决了。
这感觉,就像武林前辈看到后生晚辈练成了自己没练成的绝世武功,除了拍手叫好,还能说啥?
这种学术圈的传承和互动,比模型本身的技术细节更有嚼头。
它不是冷冰冰的代码和参数,而是活生生的人,是智慧的碰撞和延续。
康炳易和他团队的这个DA3,就像是在告诉整个行业:别再往那个泥潭里摸爬滚打了,条条大路通罗马,有时候,最简单直接的那条路,反而最快。
当然,也有人会嘀咕,这种“大一统”的模型会不会是“样样通,样样松”?
毕竟,专才和通才的争论,到哪儿都存在。
但DA3的数据摆在那儿,至少在目前这个版本,它不仅通,而且还挺精。
至于未来它会把3D视觉带向何方?
是让电影特效、自动驾驶、VR/AR的成本打到“白菜价”,还是催生出我们现在还想象不到的新应用?
谁知道呢。
也许用不了多久,我们就能用手机对着家里扫一圈,直接在虚拟世界里复刻一个一模一样的家,然后随心所欲地“云装修”了。
到那时,现实和虚拟的边界,可能真的就只剩下一层窗户纸了。
你说,这刺激不刺激?