
摘編自《空間計算》
隨著2024年Vision Pro的發(fā)布,蘋果公司迎來了下一個iPhone 時刻。類似于2007年的革命,蘋果公司通過智能化、沉浸式空間計算平臺,再次改變了計算行為的軌跡。就像2007年一樣,世界再度煥然一新。一款全新的操作系統(tǒng)開啟了全新的維度。這些無限的、分層的畫布賦予了用戶“超能力”?,F(xiàn)在,在任何環(huán)境中,人們都可以憑借超凡的能力,在傳統(tǒng)物理世界和數(shù)字世界之外的空間里與信息、內(nèi)容以及他人交互。我們每天都可以進入前所未有的世界,體驗在虛擬和增強領(lǐng)域中形成的奇妙世界。

空間計算是很多商界人士在蘋果公司于2023年6月發(fā)布Vision Pro設(shè)備時第一次聽到的術(shù)語。但是,這并不是一個新術(shù)語。有人可能會說,我們的手機是原始的空間設(shè)備。事實上,AR、VR、XR(擴展現(xiàn)實)和AI領(lǐng)域的很多專業(yè)人士多年來一直致力于空間計算。
為了理解空間計算的商業(yè)價值,我們首先必須為商業(yè)世界創(chuàng)建一個工作定義,并解釋它將帶來的市場機遇。
很多人追溯到西蒙·格林沃爾德(Simon Greenworld)2003年在麻省理工學(xué)院發(fā)表的碩士論文,在其中,空間計算首次被定義為學(xué)術(shù)術(shù)語。在論文中,他探討了計算結(jié)構(gòu)的空間環(huán)境,并這樣定義空間計算:“空間計算是人類與機器的交互,其中機器保留并操縱真實物體和真實空間的參照物。它是讓我們的機器在工作和娛樂中成為更好伙伴的重要組成部分。”
他進一步定義:“作為人類與機器的交互,在其中機器保留并操縱真實物體和真實空間的參照物。在理想情況下,這些真實的物體和空間對用戶具有優(yōu)先意義。空間計算更關(guān)注體驗質(zhì)量。在大多數(shù)情況下,這意味著設(shè)計的系統(tǒng)能夠突破屏幕和鍵盤的傳統(tǒng)界限,而不會陷入一種界面或溫和的模擬。為了讓機器在我們的工作和娛樂中成為更全面的伙伴,它們需要加入我們的物理世界。它們將不得不操作我們操作的物體,而我們需要使用我們的物理直覺操作它們。”
格林沃爾德的定義并非獨一無二。很早以前,曾是風(fēng)險投資界和科技界寵兒的Magic Leap(美國增強現(xiàn)實公司)將他們正在打造的設(shè)備描述為空間計算設(shè)備。他們將空間計算定義為一種新的計算形式,利用AI和計算機視覺將虛擬內(nèi)容無縫融入我們周圍的物理世界。
他們通過一款名為Magic Leap One的設(shè)備做到了這一點。在2018年由前CEO(首席執(zhí)行官)羅尼·阿博維茨(Rony Abovitz)和其他幾名著名 Magic Leap(美國增強現(xiàn)實公司)員工撰寫的一篇題為《空間計算:給我們技術(shù)朋友的概述》的文章中,他們解釋了該公司如何將空間計算定義為一種新的計算形式,讓數(shù)字內(nèi)容超越當(dāng)今2D(二維)屏幕和計算機的限制,并深入研究了其中的一些技術(shù)構(gòu)件。從那以后,Magic Leap就不再使用空間計算這個術(shù)語,而是使用AR一詞,這一變化可以從其最近的媒體采訪和網(wǎng)站上可以看到。
在蘋果公司2023年6月召開全球開發(fā)者大會(WWDC)期間,該公司公開表示,空間計算“將數(shù)字內(nèi)容與物理世界無縫融合,同時讓用戶可以身處其中并與他人保持聯(lián)系。”這一信息進一步反映在其網(wǎng)站和針對開發(fā)者的visionOS(蘋果的空間計算操作系統(tǒng))資料中。
在Meta Connect 2023開發(fā)者大會期間,Meta公司宣布推出其Meta Quest 3(頭戴裝置),該產(chǎn)品采用新的芯片,使設(shè)備能夠更好地穿過混合現(xiàn)實,通過先進的空間映射更好地掃描物理世界,以及實現(xiàn)虛擬物品的空間錨定,讓佩戴者每次使用設(shè)備時都可以返回起點。Meta高管還談到通過智能眼鏡的發(fā)展迎來下一代計算平臺,并表示該公司的新款眼鏡將是“未來很長一段時間內(nèi)市場上最具價值的空間計算眼鏡”。
該公司還宣布了新的雷朋Meta智能眼鏡,該眼鏡將在2024年實現(xiàn)多模態(tài),能夠利用AI了解佩戴者周圍的環(huán)境。微軟將其定義為設(shè)備感知周圍環(huán)境并以數(shù)字方式表現(xiàn)這種感知的能力,以及在人機交互中提供新功能的能力。
AWS(亞馬遜云計算服務(wù))將空間計算定義為虛擬世界與物理世界的結(jié)合,通過將物理世界虛擬化,并將虛擬信息疊加到物理世界上,用戶可以通過自然和直觀的方式與數(shù)字內(nèi)容進行交互。對AWS來說,這種結(jié)合增強了我們在物理或虛擬場景上進行數(shù)據(jù)可視化、數(shù)據(jù)模擬以及與數(shù)據(jù)交互的方式。亞馬遜技術(shù)副總裁比爾·瓦斯(Bill Vass)在他的博文《預(yù)測未來的最佳方式是模擬未來》中表示,“空間計算是協(xié)作體驗的動力”。
英偉達(dá)公司通過Omniverse產(chǎn)品為其開發(fā)人員引入了空間框架,而Niantic(游戲公司)通過其視覺定位系統(tǒng)(VPS)專注于空間映射,該系統(tǒng)使用戶能夠?qū)⑻摂M物品放置在特定的現(xiàn)實世界位置,并讓該物品持續(xù)存在,因此一個人可以留下一個物品供其他人尋找,從而使現(xiàn)實世界的全球桌上游戲變得栩栩如生。
空間計算世界依賴于一系列基礎(chǔ)技術(shù)來驅(qū)動其沉浸式體驗。這些技術(shù)包括AI和內(nèi)容創(chuàng)作工具,以及連接解決方案和云計算。AI是空間計算的基石,包含多個子領(lǐng)域。
機器學(xué)習(xí)(Machine Learning,ML)
空間計算的支柱,使系統(tǒng)能夠從數(shù)據(jù)中學(xué)習(xí)并適應(yīng),而無須明確編程。它讓機器可以識別模式、做出決策,并隨著時間的推移提高其性能。在空間計算中,機器學(xué)習(xí)為AR導(dǎo)航中的路線規(guī)劃等應(yīng)用提供了支持,這些應(yīng)用通過分析實時傳感器數(shù)據(jù)為用戶提供最有效和最友好的路線。通過不斷完善其對環(huán)境的理解,機器學(xué)習(xí)在增強用戶體驗方面發(fā)揮著關(guān)鍵作用。
深度學(xué)習(xí)(Deep Learning,DL)
機器學(xué)習(xí)的一個子集,專注于使用多層神經(jīng)網(wǎng)絡(luò)來對復(fù)雜模型進行建模。在空間計算中,深度學(xué)習(xí)能夠創(chuàng)建處理大量數(shù)據(jù)的復(fù)雜模型,這對于AR和VR應(yīng)用中的圖像識別和對象檢測至關(guān)重要。該技術(shù)增強了空間設(shè)備識別用戶周圍環(huán)境中的物體和空間并與之交互的能力。
強化學(xué)習(xí)(Reinforcement Learning,RL)
機器學(xué)習(xí)的一種形式,其中智能體通過采取行動和接收反饋或獎勵來學(xué)習(xí)如何做出決策。在空間計算中,強化學(xué)習(xí)用于開發(fā)游戲和娛樂應(yīng)用中的動態(tài)角色行為。它讓角色能夠根據(jù)用戶的輸入調(diào)整自己的動作,從而創(chuàng)造更具沉浸感和互動性的體驗。此外,強化學(xué)習(xí)有助于空間設(shè)備中使用的實時決策過程,以改善用戶交互。
程序化生成(Procedural Generation)
一種用于通過算法生成內(nèi)容的技術(shù),可以創(chuàng)建大量不同的風(fēng)景、物體和場景。在空間計算中,程序化生成為沉浸式環(huán)境帶來了動態(tài)且不斷變化的維度。這項技術(shù)通常用于生成3D世界,使每個用戶的體驗都是獨一無二的。它對于游戲、虛擬模擬和AR等應(yīng)用至關(guān)重要,這些應(yīng)用需要即時生成內(nèi)容以保持新鮮度和多樣性。
神經(jīng)網(wǎng)絡(luò)(Neural Networks)
受人腦結(jié)構(gòu)啟發(fā)的計算模型。它們是各種AI任務(wù)的基礎(chǔ),包括模式識別和數(shù)據(jù)分析。在空間計算中,神經(jīng)網(wǎng)絡(luò)有助于處理復(fù)雜的任務(wù)。例如,它們在計算機視覺中發(fā)揮著關(guān)鍵作用, 能夠識別現(xiàn)實世界中的物體和形狀。這種功能對于在AR應(yīng)用中增強物理環(huán)境至關(guān)重要,可以提供實時信息并增強用戶理解。
計算機視覺(Computer Vision,CV)
一種讓機器能夠理解和解釋來自物理世界的視覺信息的技術(shù)。在空間計算中,計算機視覺處于最前沿,它幫助空間設(shè)備識別用戶周圍的物體和空間,并與之交互。它在AR導(dǎo)航等應(yīng)用中發(fā)揮著重要作用,可以將數(shù)字信息疊加到現(xiàn)實世界中,為用戶提供實時方向和導(dǎo)引。
傳感器技術(shù)(Sensor Technology)
傳感器技術(shù)是空間計算的感覺神經(jīng)系統(tǒng),為設(shè)備提供感知物理世界的能力??臻g設(shè)備配備了各種傳感器,包括攝像頭、陀螺儀、加速度計、GPS、光探測和測距(激光雷達(dá)) 等。這些傳感器采集與用戶周圍環(huán)境相關(guān)的數(shù)據(jù),如運動、位置、光照水平甚至深度信息。在空間計算中, 傳感器在理解用戶的環(huán)境和移動、促進精確跟蹤、手勢識別和物理空間映射方面發(fā)揮著關(guān)鍵作用。這些傳感器是空間設(shè)備的眼睛和耳朵,使它們能夠為用戶提供實時的、環(huán)境感知的體驗。
空間音頻改變了我們感知聲音的方式,讓我們沉浸在與環(huán)境視覺協(xié)調(diào)一致的3D聽覺情境之中。無論你是在探索虛擬世界、參加虛擬音樂會,還是在聽AR講故事,空間音頻都可以為體驗的聽覺部分增加深度、維度和真實感。它可以讓聲音從空間中的特定位置發(fā)出,從而使用戶產(chǎn)生方向感和距離感,甚至可以模擬不同環(huán)境的聲學(xué)效果。
通過精確監(jiān)測眼球運動和注視方向,它可以實現(xiàn)與空間設(shè)備更自然、更直觀的交互。從VR和AR到游戲和醫(yī)療健康應(yīng)用,眼動追蹤都可以增強用戶體驗。它讓設(shè)備可以根據(jù)用戶的視線進行調(diào)整,從而提供有針對性的信息,增強沉浸感,甚至提供個性化的內(nèi)容。除了娛樂之外,眼動追蹤在幫助行動障礙患者和協(xié)助診斷程序等醫(yī)療健康方面也具有很好的前景。借助這項技術(shù),觀看行為成為一種強大的工具,以之前難以想象的方式駕馭和塑造數(shù)字世界和物理世界。
借助語音的力量,用戶可以自然地與空間設(shè)備進行交互,僅用聲音就可以發(fā)出指令、提出問題并接收響應(yīng)。AI算法是語音識別的基礎(chǔ),其使這些系統(tǒng)能夠理解人類語言、口音和語境的細(xì)微差別。這項技術(shù)不僅為日常工作帶來了便利,還為無障礙交流打開了大門,讓具備各種能力的個人都能參與空間環(huán)境。無論是在AR界面導(dǎo)航、控制智能家居設(shè)備,還是觸手可及的實時語言翻譯方面,AI增強的語音識別都已經(jīng)成為連接人類意圖與數(shù)字行動的橋梁。在快速發(fā)展的空間計算領(lǐng)域,語音識別就像一首交響樂,使我們的言語與我們想要的行動和體驗協(xié)調(diào)起來。
通過分析傳感器數(shù)據(jù)并識別異常情況,空間設(shè)備可以提醒用戶潛在的問題。異常檢測在與預(yù)測性維護相關(guān)的應(yīng)用中尤為重要,它有助于預(yù)測設(shè)備故障并減少停機時間。
基于物理的模擬(Physics-Based Simulation)
空間應(yīng)用程序可以模仿現(xiàn)實世界的物理交互,增強用戶的存在感和互動感。醫(yī)療培訓(xùn)模擬、建筑設(shè)計和游戲等應(yīng)用程序利用這項技術(shù)來提供逼真的場景和用戶體驗。
優(yōu)化算法(Optimization Algorithms)
在零售商店布局優(yōu)化等應(yīng)用中,這些算法分析客戶的移動數(shù)據(jù),并幫助零售商通過優(yōu)化商店布局和產(chǎn)品擺放來增強顧客的購物體驗。
自然語言處理(Natural Language Processing,NLP)
自然語言處理促進用戶和空間設(shè)備之間的無縫交流。這對于涉及實時語言翻譯的應(yīng)用尤為關(guān)鍵,AR 眼鏡可以將口語即時翻譯成字幕或音頻,讓講不同語言的人可以輕松交流。
這項技術(shù)有助于用戶交互。它使用戶能夠發(fā)出語音指令并接收來自空間設(shè)備的響應(yīng),使語音控制界面成為 AR 和 VR 應(yīng)用程序不可或缺的一部分。
生成式 AI(Generative AI,GenAI)
一項為空間計算帶來一個新的創(chuàng)造力維度的技術(shù)。它讓應(yīng)用程序能夠創(chuàng)建 3D 內(nèi)容和模擬,從而擴展了沉浸式體驗的可能性。例如,在時尚設(shè)計和奢侈品領(lǐng)域,生成式 AI 可用來處理體積數(shù)據(jù)、分析供應(yīng)鏈信息以及生成產(chǎn)品及設(shè)計的虛擬 3D 模型。
這些技術(shù)共同構(gòu)成了空間計算的 AI 框架,為其注入了在現(xiàn)實世界中交互、適應(yīng)和創(chuàng)新的能力。

---------------(正文結(jié)束)-----------------