來源:消費(fèi)者報(bào)道
本文來源:消費(fèi)者報(bào)道 作者:馮戀閣
4月16日,騰訊正式發(fā)布并開源混元3D世界模型2.0(HY-World2.0)。
HY-World2.0是一個(gè)多模態(tài)世界模型,能夠理解文字、圖片、視頻等不同類型輸入,自動(dòng)生成、重建和模擬3D世界。據(jù)悉,這個(gè)世界模型同時(shí)支持多格式3D資產(chǎn)(Mesh/3DGS/點(diǎn)云等)導(dǎo)出。
(資料圖)
實(shí)測(cè)混元3D世界模型2.0
《消費(fèi)者報(bào)道》實(shí)測(cè)發(fā)現(xiàn),目前該網(wǎng)站界面上,有世界生成、世界重建、360°全景圖、實(shí)時(shí)生成世界四個(gè)不同類型的按鈕,可以體驗(yàn)不同的3D場(chǎng)景生成功能。每一個(gè)按鈕對(duì)應(yīng)不同互動(dòng)類型的場(chǎng)景,而這些場(chǎng)景都可以借助圖片或視頻生成。
(圖源:官網(wǎng)截圖)
世界生成功能主要是文本或單視角圖像合成可沉浸式探索的三維世界。目前,只有獲得內(nèi)測(cè)權(quán)限的用戶可以自主生成場(chǎng)景。
(圖源:官網(wǎng)截圖)
世界生成的可互動(dòng)性是最高的,在生成自己的3D場(chǎng)景之后,用戶還可以選擇角色在3D場(chǎng)景中探索。行走、跳躍、轉(zhuǎn)換視角等都不會(huì)影響3D場(chǎng)景的空間結(jié)構(gòu)與一致性。
(圖源:官網(wǎng)截圖)
世界重建功能則試圖從多視角輸入還原三維特征。
《消費(fèi)者報(bào)道》嘗試環(huán)繞一個(gè)4平方米左右的空間錄了一段21秒的視頻,最后還原的3D模型,對(duì)空間大小、空間內(nèi)部各個(gè)家具對(duì)應(yīng)的位置關(guān)系展示得比較準(zhǔn)確。
(圖源:官網(wǎng)截圖)
在同一個(gè)空間內(nèi),《消費(fèi)者報(bào)道》嘗試通過照片來重建空間,這一次《消費(fèi)者報(bào)道》拍攝了10張照片,但(如圖所示)重建結(jié)果相比視頻不夠準(zhǔn)確,出現(xiàn)了家具重疊等問題。
(圖源:官網(wǎng)截圖)
《消費(fèi)者報(bào)道》猜測(cè),這可能是因?yàn)槠胀ㄓ脩魶]有專業(yè)建模經(jīng)驗(yàn),并不知道如何拍攝能夠囊括較多的空間位置信息,簡單說就是普通用戶如果要對(duì)空間重新建模,最好采用視頻方式而不是簡單的照片方式,如果是以照片方式,最好是提供多張多角度、且空間關(guān)系相對(duì)清楚的照片。
《消費(fèi)者報(bào)道》注意到,混元世界模型提供的樣例里,提交32張相對(duì)位置關(guān)系比較清晰的圖片后,能夠生成較為精確的建筑外觀3D模型。
(圖源:官網(wǎng)截圖)
另外,360°全景圖則是輸入文本或單張圖片后,生成一個(gè)可以環(huán)繞觀看的全景畫面。
(圖源:官網(wǎng)截圖)
實(shí)時(shí)生成世界功能同樣也是輸入文本或單張圖片后,生成一個(gè)3D場(chǎng)景,用戶可以以第一人稱視角探索整個(gè)世界。
(圖源:官網(wǎng)截圖)
這意味著,用混元世界模型2.0生成的內(nèi)容已經(jīng)可以和游戲工作流無縫對(duì)接,生成游戲地圖和關(guān)卡原型。
世界模型的世界賽道
一個(gè)值得注意的事情是,這個(gè)世界模型是騰訊首席AI科學(xué)家姚順雨官宣加入該公司之后升級(jí)的第一個(gè)世界模型。
去年12月,騰訊成立AI Infra部、AI Data部、數(shù)據(jù)計(jì)算平臺(tái)部,全面強(qiáng)化其大模型的研發(fā)體系與核心能力。2025年12月17日姚順雨入職騰訊 ,出任“CEO/總裁辦公室”首席AI科學(xué)家,向騰訊總裁劉熾平匯報(bào);同時(shí)兼任AI Infra部、大語言模型部負(fù)責(zé)人,向技術(shù)工程事業(yè)群總裁盧山匯報(bào)。
同天混元世界模型1.5發(fā)布。
自姚順雨加入以來,騰訊多條 AI 產(chǎn)品線迎來更新,最受關(guān)注的是 “龍蝦矩陣” 系列智能體。
騰訊的龍蝦矩陣今年3月開始顯山露水,目前已經(jīng)有包括自研全場(chǎng)景桌面智能體WorkBuddy、直連微信的本地AI助手QClaw、騰訊云Lighthouse云端方案、企業(yè)級(jí)智能體開發(fā)平臺(tái)ADP等在內(nèi)的多個(gè)獨(dú)立龍蝦產(chǎn)品。
4月初,騰訊旗下QQ瀏覽器AI發(fā)布瀏覽器“龍蝦”——QBotClaw后,QClaw V2 版本上線,更新了多Agent機(jī)制,利用不同Agent解決復(fù)雜問題。
而最新發(fā)布的混元3D世界模型2.0,其實(shí)是在騰訊去年發(fā)布的混元世界模型1.5基礎(chǔ)上升級(jí),4個(gè)月后,升級(jí)后混元世界模型的主要亮點(diǎn)在于可以實(shí)時(shí)生成多格式的3D資產(chǎn)。
騰訊的技術(shù)報(bào)告提到,這些技術(shù)可賦能多元應(yīng)用場(chǎng)景,涵蓋機(jī)器人仿真、環(huán)境建模等領(lǐng)域。
(圖源:報(bào)告截圖)
關(guān)于世界模型,目前還沒有一個(gè)放之四海而皆準(zhǔn)的定義,不過在業(yè)界觀點(diǎn)看來,世界模型是一類能夠?qū)ΜF(xiàn)實(shí)世界環(huán)境進(jìn)行仿真,預(yù)測(cè)未來狀態(tài)的生成式人工智能模型。世界模型需要具備能夠表示世界、預(yù)測(cè)未來、在世界里規(guī)劃和行動(dòng)三種特征。
簡言之,如果大語言模型的原理是預(yù)測(cè)下一個(gè)詞匯,那世界模型預(yù)測(cè)并決策的則是下一秒環(huán)境的狀態(tài)和相應(yīng)的動(dòng)作。
其實(shí)目前科技巨頭們也在不斷投入對(duì)世界模型的建設(shè),世界模型背后,有一個(gè)正在形成和擴(kuò)大的AI細(xì)分市場(chǎng)。
谷歌在去年8月公布了通用世界模型Genie 3。2026年1月,谷歌向外部開放了Genie 3的實(shí)驗(yàn)性研究原型——Project Genie。用戶輸入文字描述,能實(shí)時(shí)生成可交互、可探索的3D世界。
李飛飛的世界模型公司W(wǎng)orld Labs也在今年2月完成10億美元融資。此前據(jù)媒體報(bào)道,Meta的超級(jí)智能AI實(shí)驗(yàn)室也與機(jī)器人團(tuán)隊(duì)合作試圖構(gòu)建世界模型。
中信證券研究認(rèn)為,從內(nèi)容生成時(shí)長、內(nèi)在一致性、客觀物理規(guī)律遵從、體驗(yàn)可重復(fù)性等方面,Project Genie仍處在較為早期階段,對(duì)于游戲引擎、游戲開發(fā)商的商業(yè)模式、競(jìng)爭格局尚無法形成實(shí)質(zhì)性影響,對(duì)于游戲廣告行業(yè)可能帶來潛在利好。
關(guān)鍵詞: 財(cái)經(jīng)頻道 財(cái)經(jīng)資訊
創(chuàng)2007年以來最低值!人民幣怎么了,還能漲回來嗎?
文 邱牧子進(jìn)入9月份,人民幣對(duì)美元匯率走勢(shì)又起波瀾。以在岸人民幣為例
老公醉酒出上聯(lián):“抱貂蟬,遇貴妃,問昭君,想西施”,老婆下聯(lián)牛
?圖片源于網(wǎng)絡(luò)如有侵權(quán)請(qǐng)及時(shí)聯(lián)系文末點(diǎn)擊在看感謝支持??
魔獸世界德魯伊變熊任務(wù)攻略 魔獸世界德魯伊變熊任務(wù)
1、放棄是可以再接的,你看你放棄的是哪一步,就去找哪一步給任務(wù)的那
張九齡詩《西江夜行》楷書全文,切切故鄉(xiāng)情。
西江夜行張九齡〔唐〕遙夜人何在,澄潭月里行。悠悠天宇曠,切切故
打破開發(fā)商壟斷的“集資建房”模式,為何如此難以落地?
打破開發(fā)商壟斷的“集資建房”模式,為何如此難以落地?,住宅,開發(fā)商,

關(guān)于我們 加入我們 聯(lián)系我們 商務(wù)合作 京ICP備2023000331號(hào)
創(chuàng)氪網(wǎng) www.esmkug.com 版權(quán)所有 技術(shù)支持:北京中業(yè)網(wǎng)網(wǎng)絡(luò)科技有限公司
投稿投訴聯(lián)系郵箱:317 493 128 @qq.com