萬眾矚目的英偉達GPU技術大會(GTC)如期舉行,備受期待的最新AI芯片也被如期推出。
當地時間3月18日,黃仁勛發表主題演講《見證AI的變革時刻》。在兩個小時的演講中,黃仁勛圍繞五大板塊,介紹了英偉達的最新研發進展:新的產業發展、Blackwell平臺、創新軟件NIMs、AI平臺NEMO和AI工坊(AI foundry)服務,以及仿真平臺Omniverse和適用于自主移動機器人的Isaac Robotics平臺。
黃仁勛在演講中重點介紹的五大板塊。英偉達直播截圖
毫不夸張地說,英偉達本次GTC大會可能決定美股科技股的未來命運。英偉達股價在19日當天早盤一度上漲超過4%,隨后回落,收于每股884.55美元,漲0.7%,總市值2.21萬億美元。
在大會現場,18日下午四點,身穿經典黑色皮衣的黃仁勛登臺亮相。面對座無虛席的美國加州圣何塞SAP中心,他笑著說道“希望你們知道,這可不是一場演唱會”。
隨后,黃仁勛用一張手繪圖回顧了計算機產業的發展史,以及英偉達的發家史。從1964年IBM推出世界首個通用計算機開始,伴隨著Windows 95、加速計算乃至深度學習模型AlexNet的出現,再到2016年,黃仁勛親手將第一臺DGX-1超級計算機送給了OpenAI。而在2022年,隨著聊天機器人ChatGPT橫空出世,生成式AI帶來了全新一輪產業革命。
黃仁勛手繪計算機發展史。英偉達直播截圖
隨后,便到了本次主題演講眾望所歸的大戲:最新一代AI芯片Blackwell GPU的亮相。
黃仁勛一邊說著“Hopper很棒,但我們需要更大的GPU”,一邊在現場展示了英偉達的首款Blackwell芯片。這款芯片被命名為B200,計劃于今年晚些時候上市。
英偉達目前按照平均兩年一次的更新頻率升級GPU架構,對產品性能進行大幅提升。英偉達于2022年發布了基于Hopper架構的H100加速卡,而現在推出基于Blackwell的加速卡在性能上也得到了全面提升,更擅長處理AI相關任務。
從外觀來看,Blackwell GPU的體積明顯大于H100,采用臺積電的4納米(4NP)工藝蝕刻而成,整合了兩個獨立制造的裸晶(Die),共有2080億個晶體管。英偉達使用傳輸速度達到10 TB每秒的NVLink 5.0技術來連接每塊裸晶。
左邊B200,右邊H100。英偉達直播截圖
據黃仁勛介紹,一個B200 GPU能夠從其2080億個晶體管中提供高達20 petaflops(每秒千萬億次浮點運算)的FP4八精度浮點運算能力。相比之下,英偉達H100芯片所包含的晶體管數量為800億個,提供4 petaflops的FP4八精度浮點運算能力。
在此基礎上,一個GB200加速卡結合了兩個B200 GPU和一個獨立的Grace CPU,將能夠使大模型推理工作負載的性能提升30倍,同時提高效率。相比于H100,它可以“將成本和能源消耗降至1/25”。
這就意味著,以前訓練一個擁有1.8萬億參數的模型需要8000個Hopper GPU 和15兆瓦的功耗。而今天,黃仁勛表示,同樣的工作只需要2000個Blackwell GPU就能完成,功耗僅為4兆瓦。同時,取決于各種Blackwell設備的內存容量和帶寬配置,工作負載的實際性能可能會更高。
黃仁勛展示GB200加速卡開發板(左側),稱其“可能價值100億美元”。來源:英偉達直播截圖
而在參數為1750億的GPT-3 LLM基準測試中,GB200的性能達到了H100的7倍,而訓練速度則達到了H100的4倍。
對此,黃仁勛也自豪地曬出了AI芯片技術的發展圖,并表示:“在過去,計算能力平均每十年性能提升100倍。而在過去的八年中,我們已經將性能提升了1000倍,距離十年還有兩年。”
AI芯片技術的發展圖。英偉達直播截圖
英偉達還將面向有大型需求的企業提供成品服務,例如體積龐大的GB200 NVL72服務器,共包含36個CPU和72個Blackwell GPU,并提供完整的一體水冷散熱方案,可實現總計720 petaflops的AI訓練性能,或高達1440 petaflops的推理性能。其內部使用的電纜長度累計接近2英里,共有5000條獨立電纜。
不過,英偉達并沒有公布關于B200和其相關產品的價格,只表示亞馬遜、谷歌、微軟和甲骨文等公司都已計劃在其云服務產品中裝配NVL72機架,但沒有公布這些公司的購買數量,只透露了亞馬遜AWS已計劃采購由2萬片GB200芯片組建的服務器集群,可以部署27萬億個參數的模型。
黃仁勛表示,Blackwell帶來了“令人難以置信的興奮”:“我們將會把Blackwell推廣給全球的AI公司,現在有很多這樣的公司都在不同領域做著令人驚奇的工作……全球各地都在簽約啟動Blackwell,這款Blackwell將成為我們歷史上最成功的產品發布。”
GB200 NVL72服務器的外觀和內部。英偉達直播截圖
在硬件之外,英偉達在AI軟件領域也取得了新的進展。
黃仁勛宣布,英偉達推出數十項企業級生成式AI微服務,其中最新的NIM微服務,可適用于對英偉達及合作伙伴生態系統中20多個熱門的AI模型進行推理優化。這些云原生微服務目錄在英偉達CUDA平臺上開發,企業可以利用這些微服務在自己的平臺上創建和部署定制應用,同時保留對知識產權的完整所有權和控制權。
其中,重點介紹的NIM微服務將提供基于英偉達推理軟件的預構建容器,使開發者能夠將部署時間從幾周縮短至幾分鐘,并為語言、語音和藥物發現等領域提供行業標準API,使開發者能夠利用在自己基礎設施中的專有數據來快速構建AI應用,而不是在云服務器上運行。
英偉達希望通過這些服務來吸引購買英偉達服務器的客戶來注冊英偉達企業版NVIDIA AI Enterprise 5.0,對每個GPU每年收取4500美元的費用。企業可以自己選擇基礎設施來部署這些微服務,包括亞馬遜云科技(AWS)、谷歌云、Azure 和 Oracle Cloud Infrastructure 等云平臺。超過400個英偉達認證系統也支持 NVIDIA 微服務,包括思科、戴爾科技、慧與(HPE)、惠普、聯想和超微的服務器和工作站。
除了硬件和軟件,黃仁勛還在演講中花大篇幅來介紹英偉達的仿真平臺Omniverse和適用于自主移動機器人的Isaac Robotics平臺。
對于Omniverse,黃仁勛重點介紹了英偉達研究團隊利用其在預測氣候問題方面的進展。黃仁勛還提到,Omniverse Cloud將可以連接到蘋果的混合現實(MR)頭顯Vision Pro。黃仁勛在現場展示了一款可以完全交互的汽車模型,能夠通過流媒體技術傳輸到Vision Pro中。
關于機器人領域,黃仁勛在現場宣布,英偉達推出名為Project GROOT Foundation的AI模型,旨在創建性能更好的人形機器人。此外,還發布了一款專用于機器人的名為Thor的系統芯片。
黃仁勛表示:“機器人領域出現ChatGPT時刻的可能性近在咫尺,我們已經花了一段時間來構建端到端的機器人系統。”