GPU 作為顯示卡的 “大腦”,是芯片領(lǐng)域的核心產(chǎn)品之一,并且 GPU 作為支撐眾多科技領(lǐng)域發(fā)展的底層核心,是數(shù)據(jù)計算的核心底座,在商業(yè)計算、人工智能等諸多板塊均有著較為廣泛的使用,是科技行業(yè)的重要支撐。當(dāng)前國內(nèi) GPU 市場仍由外商主導(dǎo),近年來,受政策、資本和需求的三重共振,國產(chǎn) GPU 賽道景氣,國內(nèi)企業(yè)加速追趕海外大廠。2022 年美國通過涉臺法案、對中國禁售高端計算芯片等,使中美摩擦尤其是科技領(lǐng)域限制進一步加大,GPU 國產(chǎn)替代緊迫性和重要性進一步提升。
以下我們將對 GPU 行業(yè)進行分析,從概念入手,對 GPU 具備的優(yōu)勢、核心功能、行業(yè)發(fā)展歷程、市場情況等方面展開具體論述,同時,將針對 GPU 產(chǎn)業(yè)鏈、重點布局企業(yè)及競爭格局進行分析,希望對大家了解 GPU 行業(yè)有所啟發(fā)。
一、行業(yè)概述
1、GPU 定義
GPU 一般指圖形處理器(graphics processing unit,縮寫 GPU),又稱顯示核心、視覺處理器、顯示芯片,是一種專門在個人電腦、工作站、游戲機和一些移動設(shè)備(如平板電腦、智能手機等)上做圖像和圖形相關(guān)運算工作的微處理器。
GPU 是顯卡的處理器。顯卡全稱顯示適配卡,又稱顯示適配器,用于協(xié)助 CPU 進行圖像處理,作用是將 CPU 送來的圖像信號經(jīng)過處理再輸送到顯示器上,由主板連接設(shè)備、監(jiān)視器連接設(shè)備、處理器和內(nèi)存組成,GPU 即是顯卡處理器。
2、GPU 在并行運算層面具備一定優(yōu)勢
當(dāng)前主要興起的計算芯片分別為 GPU、ASIC、FPGA 等,其中 GPU 最初專用于圖形處理制作,后逐漸應(yīng)用于計算。GPU 的工作通俗的來說就是完成 3D 圖形的生成,將圖形映射到相應(yīng)的像素點上,對每個像素進行計算確定最終顏色并完成輸出,一般分為頂點處理、光柵化計算、紋理貼圖、像素處理、輸出五個步驟。GPU 采用流式并行計算模式,可對每個數(shù)據(jù)行獨立的并行計算。
CPU 基于低延時設(shè)計,由運算器(ALU)和控制器(CU),以及若干個寄存器和高速緩沖存儲器組成,功能模塊較多,擅長邏輯控制,串行運算。GPU 基于大吞吐量設(shè)計,擁有更多的 ALU 用于數(shù)據(jù)處理,適合對密集數(shù)據(jù)進行并行處理,擅長大規(guī)模并發(fā)計算,因此 GPU 也被應(yīng)用于 AI 訓(xùn)練等需要大規(guī)模并發(fā)計算場景。
GPU 內(nèi)部大量的運算單元核心,盡管單個核心緩存較小,邏輯功能簡單,僅能執(zhí)行有限類型的邏輯運算操作,但其多核心架構(gòu)天然適合執(zhí)行復(fù)雜的數(shù)學(xué)和幾何計算,且科學(xué)計算領(lǐng)域通用性較高,相比 CPU,綜合性能更好。當(dāng)前缺點在于功耗過高,效率不足。
3、GPU 按應(yīng)用端細分
GPU 按應(yīng)用端劃分為 PC GPU、服務(wù)器 GPU、智能駕駛 GPU、移動端 GPU。
PC GPU 可以進一步劃分為獨立顯卡和集成顯卡。獨立顯卡是一種與處理器(CPU)分離的 GPU,具備的專用內(nèi)存,不與 CPU 共享,擁有自己的內(nèi)存源和電源,因此性能更高,功率更大,產(chǎn)生熱量更多。獨立顯卡常見于臺式機、筆記本電腦,小型 PC 也可以包含獨立顯卡,主要的廠商包括英偉達和 AMD。集成顯卡是一種內(nèi)置于處理器的 GPU。集成 GPU 使用與 CPU 共享系統(tǒng)內(nèi)存,由于集成顯卡內(nèi)置于處理器中,性能較低,因此通常功耗更低,產(chǎn)生的熱量更少。集成顯卡的處理器通常位于外形較小的系統(tǒng)中,例如筆記本電腦,主要產(chǎn)商包括 Intel 和 AMD。
服務(wù)器 GPU 通常應(yīng)用在深度學(xué)習(xí)、科學(xué)計算、視頻編解碼等多種場景,主要的廠商包括英偉達和 AMD,英偉達占主導(dǎo)地位。
自動駕駛領(lǐng)域,GPU 通常用于自動駕駛算法的車端 AI 推理,英偉達占據(jù)主導(dǎo)地位。
4、GPU 的核心功能
(1)圖形渲染
GPU 憑借其較強的并行計算能力,已經(jīng)成為個人電腦中圖像渲染的專用處理器。圖形渲染具體實現(xiàn)要通過五階段:頂點著色、形狀裝配、光柵化、紋理填充著色、測試與混合。
GPU 渲染流程為三維圖像信息輸入 GPU 后,讀取 3D 圖形外觀的頂點數(shù)據(jù)后,1)在流處理器中構(gòu)建 3D 圖形的的整體骨架,即頂點處理;2)由光柵化處理單元把矢量圖形轉(zhuǎn)化為一系列像素點,即光柵化操作;3)在紋理映射單元實現(xiàn)紋理填充;4)在流處理器中完成對像素的計算和處理,即著色處理;5)在光柵化處理單元中實現(xiàn)測試與混合任務(wù)。至此,實現(xiàn)一個完整的 GPU 渲染流程。
(2)通用計算
2003 年,GPGPU(General Purpose computing on GPU,基于 GPU 的通用計算)的概念首次被提出,意指利用 GPU 的計算能力在非圖形處理領(lǐng)域進行更通用、更廣泛的科學(xué)計算。GPGPU 概念的提出,為 GPU 更為廣泛的應(yīng)用開拓了思路,GPGPU 在傳統(tǒng) GPU 的基礎(chǔ)上進行了優(yōu)化設(shè)計,部分 GPGPU 會去除 GPU 中負責(zé)圖形處理加速的硬件組成,使之更適合高性能并行計算。
GPGPU 在數(shù)據(jù)中心被廣泛地應(yīng)用在人工智能和高性能計算、數(shù)據(jù)分析等領(lǐng)域。GPGPU 的并行處理結(jié)構(gòu)非常適合人工智能計算,人工智能計算精度需求往往不高,INT8、FP16、FP32 往往可以滿足大部分人工智能計算。GPGPU 同時可以提供 FP64 的高精度計算,使得 GPGPU 適合信號處理、三維醫(yī)學(xué)成像、雷達成像等高性能計算場景。
5、GPU 中常見的數(shù)據(jù)格式和應(yīng)用場景
計算機中常用的數(shù)據(jù)格式包括定點表示和浮點表示。定點表示中小數(shù)點位置固定不變,數(shù)值范圍相對有限,GPU 中常用的定點表示有 INT8 和 INT16,多用于深度學(xué)習(xí)的推理過程。浮點表示中包括符號位、階碼部分、尾數(shù)部分。符號位決定數(shù)值正負,階碼部分決定數(shù)值表示范圍,尾數(shù)部分決定數(shù)值表示精度。FP64(雙精度)、FP32(單精度)、FP16(半精度)的數(shù)值表示范圍和表示精度依次下降,運算效率依次提升。
除此以外還有 TF32、BF16 等其他浮點表示,保留了階碼部分但是截斷了尾數(shù)部分,犧牲數(shù)值精度換取較大的數(shù)值表示范圍,同時獲得運算效率的提升,在深度學(xué)習(xí)中得到廣泛應(yīng)用。
6、應(yīng)用程序接口是 GPU 和應(yīng)用軟件的連接橋梁
GPU 應(yīng)用程序接口(API):API 是連接 GPU 硬件與應(yīng)用程序的編程接口,有利于高效執(zhí)行圖形的頂點處理、像素著色等渲染功能。早期由于缺乏通用接口標準,只能針對特定平臺的特定硬件編程,工作量極大。隨著 API 的誕生以及系統(tǒng)優(yōu)化的深入,GPU 的 API 可以直接統(tǒng)籌管理高級語言、顯卡驅(qū)動及底層的匯編語言,提高開發(fā)過程的效率和靈活性。
GPU 應(yīng)用程序接口主要涵蓋兩大陣營,分別是 Microsoft DirectX 和 Khronos Group 技術(shù)標準。DirectX 提供一整套多媒體解決方案,3D 渲染表現(xiàn)突出,但是只能用于 windows 系統(tǒng)。OpenGL 的硬件匹配范圍更廣,同時在 CAD、游戲開發(fā)、虛擬現(xiàn)實等高端繪圖領(lǐng)域得到廣泛應(yīng)用。此外還包括蘋果的 MetalAPI 等。
7、CUDA 架構(gòu)實現(xiàn)了 GPU 并行計算的通用化
GPGPU 相比于 CPU,其并行計算能力更強,但是通用靈活性相對較差,編程難度相對較高。在 CUDA 出現(xiàn)之前,需要將并行計算映射到圖形 API 中從而在 GPU 中完成計算。
CUDA 大幅降低 GPGPU 并行計算的編程難度,實現(xiàn) GPU 的通用化。CUDA 是英偉達 2007 年推出的適用于并行計算的統(tǒng)一計算設(shè)備架構(gòu),該架構(gòu)可以利用 GPU 來解決商業(yè)、工業(yè)以及科學(xué)方面的復(fù)雜計算問題。CUDA 架構(gòu)的里程碑意義在于,GPU 的功能不止局限于圖形渲染,實現(xiàn)了 GPU 并行計算的通用化,把 “個人計算機” 變成可以并行運算的“超級計算機”。英偉達在推出了 CUDA 以后,相當(dāng)于把復(fù)雜的顯卡編程包裝成了一個簡單的接口,可以利用 CUDA 直觀地編寫 GPU 核心程序,使得編程效率大幅提升。現(xiàn)在主流的深度學(xué)習(xí)框架基本都是基于 CUDA 加速 GPU 并行計算。
CUDA 采用了一種全新的計算體系結(jié)構(gòu)來調(diào)動 GPU 提供的硬件資源,本質(zhì)上是應(yīng)用程序和 GPU 硬件資源之間的接口。CUDA 程序組成包括 CUDA 庫、應(yīng)用程序編程接口(API)及運行庫(Runtime)、高級別的通用數(shù)學(xué)庫。
CUDA 經(jīng)過多年優(yōu)化,形成了獨特軟硬件配合的生態(tài)系統(tǒng)。其中包括諸多編程語言的開發(fā)環(huán)境,各種 API 的第三方工具鏈,自帶的應(yīng)用于代數(shù)運算和圖形處理的 CUDA 庫、龐大的應(yīng)用程序庫,從而實現(xiàn)輕松高效的編寫、調(diào)試優(yōu)化過程。
CUDA 提供了對其它編程語言的支持,如 C/C++,Python,Fortran 等語言。CUDA 支持 Windows、Linux、Mac 各類操作系統(tǒng)。
二、行業(yè)發(fā)展階段回顧
GPU 的發(fā)展大致經(jīng)歷了五個階段:
1、前 GPU 時代,圖形處理器初具雛形
1981 年世界上第一臺個人電腦 IBM5150 由 IBM 公司發(fā)布,其搭配黑白顯示適配器與彩色圖形適配器,是最早的圖形顯示控制器。20 世紀 80 年代初期,出現(xiàn)了以 GE 芯片為標志的圖形處理器,GE 芯片的具備四位向量的浮點運算功能,可以實現(xiàn)圖形渲染過程中的矩陣,裁剪,投影等運算,其出現(xiàn)標志著計算機圖形學(xué)進入以圖形處理器為主導(dǎo)的階段。后續(xù)隨著 GE 等圖形處理器功能不斷完善,圖形處理功能逐漸由 CPU 向 GPU(前身)轉(zhuǎn)移。
2、GeForce256 橫空出世,GPU 正式誕生
20 世紀 90 年代,NVIDIA 進入個人電腦 3D 市場,并于 1999 年推出具有標志意義的圖形處理器 GeForce256,真正意義上的 GPU 第一次出現(xiàn)。相較過往圖形處理器,第二代 GPU GeForce 256 將 T&L 硬件(用于處理圖形的整體角度旋轉(zhuǎn)與光暈陰影等三維效果)從 CPU 中分離出來并整合進 GPU 中,使得 GPU 可以獨立進行三維頂點的空間坐標變換,將 CPU 從繁重的光照計算中解脫出來。即便是低端 CPU,搭配了支持硬件 T&L 的顯卡也可以流暢地玩游戲,這使得英偉達在市場競爭中能以產(chǎn)品價格獲得較大優(yōu)勢,市占率持續(xù)提升。
頂點編程確立 GPU 編程思路:經(jīng)過了 2000 年的顯卡廠商洗牌。2002 年第三代 GPU 芯片陸續(xù)推出(如英偉達的 GeForce 4Ti 與 ATI 的 8500),其均具備頂點編程能力,可以通過賦予特定算法在工作中改變?nèi)S模型的外形。頂點編程能力的出現(xiàn)確立了 GPU 芯片的編程思路,使后續(xù) GPU 芯片用于其他計算領(lǐng)域成為可能。但本時期 GPU 尚不支持像素級編程能力(片段編程能力),其編程自由度尚不完備。
3、GPU 用于通用計算,GPGPU 概念出現(xiàn)
2003 年 SIGGRAPH 大會上首次提出將 GPU 運用于通用運算,為 GPGPU 的出現(xiàn)打下基礎(chǔ)。其后 3 年,通過用統(tǒng)一的流處理器取代 GPU 中原有的不同著色單元的設(shè)計釋放了 GPU 的計算能力,第四代 GPU 均具有頂點編程和片段編程能力,完全可編程的 GPU 正式誕生。由于 GPU 的并行處理能力強于 CPU,因此 GPU 可以在同一時間處理大量頂點數(shù)據(jù),使其在人體 CT、地質(zhì)勘探、氣象數(shù)據(jù)、流體力學(xué)等科學(xué)可視化計算處理上具備較大優(yōu)勢,足以滿足各項實時性任務(wù)。后續(xù)伴隨線性代數(shù)、物理仿真和光線跟蹤等各類算法向 GPU 芯片移植,GPU 由專用圖形顯示向通用計算逐漸轉(zhuǎn)型。
4、架構(gòu)持續(xù)迭代,AI 計算關(guān)注度漸起
2010 年英偉達發(fā)布了全新 GPU 架構(gòu) Fermi,其是支持 CUDA 的第三代 GPU 架構(gòu)(第一代與第二代分別是 G80 架構(gòu)與 GT200 架構(gòu))。彼時英偉達在 Fermi 架構(gòu)的設(shè)計上并未對 AI 計算場景做特定設(shè)置,但 GPU 芯片在 AI 計算領(lǐng)域相較 CPU 芯片已擁有了較大優(yōu)勢。隨后在 2012、2014 年陸續(xù)發(fā)布的 Kepler 架構(gòu)、Maxwell 架構(gòu)中,盡管英偉達并未在硬件層面對 AI 計算做特定優(yōu)化,但在軟件層面卻引入了深度神經(jīng)網(wǎng)絡(luò)加速庫 cuDNN v1.0,使英偉達 GPU 的 AI 計算性能與易用性得到提升。
Pascal 架構(gòu)發(fā)布,AI 計算專精版本到來:Pascal 架構(gòu)在 2016 年 3 月被推出,是英偉達面向 AI 計算場景發(fā)布的第一版架構(gòu)。其硬件結(jié)構(gòu)中加入了諸如 FP16(半精度浮點數(shù)計算)、NVLink(總線通信協(xié)議,用于可用于單 CPU 配置多 GPU)、HBM(提升訪存帶寬)、INT8 格式支持(支持推理場景)等技術(shù),而軟件層面也發(fā)布了面向推理加速場景的 TensorRT 與開源通信函數(shù)庫 NCCL,Pascal 架構(gòu)在 AI 計算領(lǐng)域的前瞻性布局使得英偉達后續(xù)架構(gòu)在競爭中具有著較大優(yōu)勢。
5、細分場景不斷追趕,GPU 迎來高速發(fā)展期
繼 Pascal 架構(gòu)后,面對 Google TPU 在 AI 計算層面帶來的壓力,英偉達先后更新了 Volta(2017)、Turing(2018)、Ampere(2020)架構(gòu)。AI 計算領(lǐng)域的技術(shù)代差在 Volta 架構(gòu)通過引入第一代 Tensor Core 在訓(xùn)練場景進行了拉平,隨后 Turing 架構(gòu)的第二代 Tensor Core 在推理場景上進行了拉平,直到 Ampere 時代,NV 才算再次鞏固了自己在 AI 計算領(lǐng)域的龍頭地位。雙方激烈競爭下,GPU 迎來高速發(fā)展期。
三、影響 GPU 性能的關(guān)鍵因素
1、微架構(gòu)設(shè)計是 GPU 性能提升的關(guān)鍵所在
評估 GPU 物理性能的參數(shù)主要包括:微架構(gòu)、制程、圖形處理器數(shù)量、流處理器數(shù)量、顯存容量 / 位寬 / 帶寬 / 頻率、核心頻率。其中微架構(gòu)設(shè)計是 GPU 性能提升的關(guān)鍵所在。
GPU 微架構(gòu)(Micro Architecture)是兼容特定指令集的物理電路構(gòu)成,由流處理器、紋理映射單元、光柵化處理單元、光線追蹤核心、張量核心、緩存等部件共同組成。圖形渲染過程中的圖形函數(shù)主要用于繪制各種圖形及像素、實現(xiàn)光影處理、3D 坐標變換等過程,期間涉及大量同類型數(shù)據(jù)(如圖像矩陣)的密集、獨立的數(shù)值計算,而 GPU 結(jié)構(gòu)中眾多重復(fù)的計算單元就是為適應(yīng)于此類特點的數(shù)據(jù)運算而設(shè)計的。
微架構(gòu)的設(shè)計對 GPU 性能的提升發(fā)揮著至關(guān)重要的作用,也是 GPU 研發(fā)過程中最關(guān)鍵的技術(shù)壁壘。微架構(gòu)設(shè)計影響到芯片的最高頻率、一定頻率下的運算能力、一定工藝下的能耗水平,是芯片設(shè)計的靈魂所在。英偉達 H100 相比于 A100,1.2 倍的性能提升來自于核心數(shù)目的提升,5.2 倍的性能提升來自于微架構(gòu)的設(shè)計。
2、GPU 微架構(gòu)的硬件構(gòu)成
流處理器:是 GPU 內(nèi)基本運算單元,通常由整點運算部分和浮點運算部分共同組成,稱為 SP 單元,從編程角度出發(fā),也將其稱為 CUDA 核心。流處理器是 DirectX10 后引入的一種統(tǒng)一渲染架構(gòu),綜合了頂點處理和像素處理的渲染任務(wù),流處理器的數(shù)量和顯卡性能密切相關(guān)。
紋理映射單元:作為 GPU 中的獨立部件,能夠旋轉(zhuǎn)、調(diào)整和扭曲位圖圖像(執(zhí)行紋理采樣),將紋理信息填充在給定 3D 模型上。
光柵化處理單元:依照透視關(guān)系,將整個可視空間從三維立體形態(tài)壓到二維平面內(nèi)。流處理器和紋理映射單元分別把渲染好的像素信息和剪裁好的紋理材質(zhì)遞交給處于 GPU 后端的光柵化處理單元,將二者混合填充為最終畫面輸出,此外游戲中霧化、景深、動態(tài)模糊和抗鋸齒等后處理特效也是由光柵化處理單元完成的。
光線追蹤核心:是一種補充性的渲染技術(shù),主要通過計算光和渲染物體之間的反應(yīng)得到正確的反射、折射、陰影即全局照明等結(jié)果,渲染出逼真的模擬場景和場景內(nèi)對象的光照情況。通過采樣 BVH 算法,用來計算射線(光線、聲波)與物體三角形求交,與傳統(tǒng)硬件相比,RTCore 可以實現(xiàn)幾何數(shù)量級的 BVH 計算效率提升,讓實時光線追蹤成為可能。
張量核心:張量核心可以提升 GPU 的渲染效果同時增強 AI 計算能力。張量核心通過深度學(xué)習(xí)超級采樣(DLSS)提高渲染的清晰度、分辨率和游戲幀速率,同時對渲染畫面進行降噪處理以實時清理和校正光線追蹤核心渲染的畫面,提升整體渲染效果。同時張量核心通過低精度混合運算,極大加速了 AI 運算速度,讓計算機視覺、自然語言處理、語言識別和文字轉(zhuǎn)化、個性化推薦等過去 CPU 難以實現(xiàn)的功能也得以高速完成。
四、市場分析
1、GPU 市場規(guī)模及預(yù)測
根據(jù) Verified Market Research 的預(yù)測,2020 年 GPU 全球市場規(guī)模為 254 億美金,預(yù)計到 2028 年將達到 2465 億美金,行業(yè)保持高速增長,CAGR 為 32.9%,2023 年 GPU 全球市場規(guī)模預(yù)計為 595 億美元。
2、PC 顯卡市場
獨立顯卡市場開始逐漸回暖。根據(jù) Jon Peddie Research 的數(shù)據(jù),2022 年獨立 GPU 出貨量下降至 3808 萬臺,同比下降 22.5%,22Q3 單季度出貨 690 萬臺,同比下降 45.7%,是十年以來最大的一次下滑,獨立顯卡出貨情況 22Q4 開始逐漸轉(zhuǎn)暖。
集成顯卡出貨情況仍然不容樂觀。2022 年集成 GPU 出貨量為 2.83 億臺,同比下滑 29.8%。疫情期間的居家辦公需求帶動了筆記本電腦的消費增長,集成顯卡的購買激增一定程度上過早消耗了市場需求,后疫情時代,筆記本電腦端需求減弱疊加供應(yīng)商的過剩庫存導(dǎo)致集成顯卡出貨不斷走低。
2022 年獨立顯卡出貨遭遇巨大下滑的原因有三點:(1)受宏觀經(jīng)濟影響,個人電腦市場處于下行周期;(2)部分獨立 GPU 參與虛擬貨幣挖礦,以太坊合并對獨立 GPU 出貨造成巨大沖擊;(3)下游板卡廠商開啟降庫存周期。
(1)原因一:個人電腦市場依舊處于下行周期
個人電腦市場保持疲軟狀態(tài)。根據(jù) IDC 數(shù)據(jù),2022 年全年 PC 出貨量為 2.92 億臺,同比下降 15.5%,2022Q4 全球 PC 出貨量僅為 6720 萬臺,同比下降 28.1%。IDC 預(yù)測 2023 年個人電腦市場全年出貨 2.608 億臺,全年同比下降 10.7%。按照 2023 年的整體出貨量情況,對四個季度的出貨情況做了進一步預(yù)測,預(yù)計 2023Q2-2023Q3 后個人電腦出貨將迎來逐季度好轉(zhuǎn)。
下游 PC 廠商庫存情況得到改善。當(dāng)前個人電腦市場正處在 PC 廠商去庫存周期,根據(jù) PC 廠商的財報披露,華碩和聯(lián)想的庫存天數(shù)已經(jīng)開始減少,其余三家(惠普、戴爾、宏碁)的庫存天數(shù)并未顯著降低,由于所有廠商都在積極采取行動減少產(chǎn)量,預(yù)計下游 PC 廠商庫存情況會進一步改善,2023Q3 可能恢復(fù)到正常庫存情況。
(2)原因二:顯卡挖礦市場出現(xiàn)轉(zhuǎn)折,以太坊轉(zhuǎn)向權(quán)益證明
以太坊 ETH 占據(jù)顯卡挖礦主要市場。根據(jù) MESSARI 數(shù)據(jù),在采用 GPU 挖礦的前 7 名虛擬貨幣中,以太坊 ETH 挖礦收入占 GPU 礦工總收入的 97%。比特幣、萊特幣等虛擬貨幣多采用功耗更低的 ASIC 礦機。
2022 年 9 月 15 日,以太坊運行機制全面升級,從以太坊 1.0 的工作量證明機制(PoW)轉(zhuǎn)向以太坊 2.0 的權(quán)益證明機制(PoS),在工作量證明機制中,需要通過累積顯卡提升計算能力,計算能力越強獲得記賬收益的概率越大;在權(quán)益證明機制中,只需通過質(zhì)押虛擬貨幣獲得收益,質(zhì)押的虛擬貨幣數(shù)量越大獲得記賬收益的概率越高。以太坊全面合并后不再需要購入大量顯卡、投入計算資源用于挖礦,是顯卡挖礦市場的重要轉(zhuǎn)折點。
挖礦用顯卡平均哈希率為 46Mh/s。根據(jù) HiveOS 礦池數(shù)據(jù),通過不同型號顯卡的哈希率和占比情況統(tǒng)計,估算得到衡量顯卡挖礦能力的平均哈希率為 46Mh/s。
以太坊合并后顯卡需求降至零。根據(jù)以太坊全網(wǎng)算力,測算得到用于以太坊挖礦的 GPU 數(shù)量在 2022 年 5 月達到巔峰,大概為 2573 萬張,2022 年 9 月降至 2008 萬張,在以太坊合并之后,顯卡需求降至零。
如果按照 20% 回收比例測算,約 500 萬張存量顯卡將流入二手市場,預(yù)計帶來的不利影響在 2022Q4-2023Q1 之間結(jié)束。
(3)原因三:GPU 廠商庫存迎來好轉(zhuǎn),高端顯卡價格企穩(wěn)回升
GPU 廠商庫存情況即將迎來好轉(zhuǎn)。根據(jù) Bloomberg 數(shù)據(jù),GPU 下游四家臺灣板卡廠商(華碩、技嘉、微星、華擎)自 2022 年一季度原材料庫存達到歷史高位以后,連續(xù)兩個季度庫存環(huán)比降低,當(dāng)前原材料庫存相比最高峰下降 28%。復(fù)盤歷史可見,GPU 廠商成本庫存高峰多于臺灣板卡廠商原材料庫存 2-3 季度后到來,預(yù)計 GPU 廠商的成品庫存將于 2022Q4 到達頂峰。
高端顯卡價格開始企穩(wěn)回升。根據(jù) Amazon 上的顯卡價格跟蹤,英偉達和 AMD 的高端顯卡在 2022 年 10 月以后均實現(xiàn)了不同程度的價格回升,例如 RTX3080 價格上漲 30%,RTX3090 價格上漲 28%,顯卡價格的回升意味著渠道商庫存正逐步回歸到正常水平,高端顯卡受挖礦市場沖擊更為劇烈,高端顯卡價格上漲從側(cè)面也能觀察到挖礦市場帶來的不利影響正在逐漸消失。
3、GPU 在數(shù)據(jù)中心的應(yīng)用蘊藏巨大潛力
在數(shù)據(jù)中心,GPU 被廣泛應(yīng)用于人工智能的訓(xùn)練、推理、高性能計算(HPC)等領(lǐng)域。
預(yù)訓(xùn)練大模型帶來的算力需求驅(qū)動人工智能服務(wù)器市場快速增長。巨量化是人工智能近年來發(fā)展的重要趨勢,巨量化的核心特點是模型參數(shù)多,訓(xùn)練數(shù)據(jù)量大。Transformer 模型的提出開啟了預(yù)訓(xùn)練大模型的時代,大模型的算力需求提升速度顯著高于其他 AI 模型,為人工智能服務(wù)器的市場增長注入了強勁的驅(qū)動力。根據(jù) Omdia 數(shù)據(jù),人工智能服務(wù)器是服務(wù)器行業(yè)中增速最快的細分市場,CAGR 為 49%。
戰(zhàn)略需求推動 GPU 在高性能計算領(lǐng)域穩(wěn)定增長。高性能計算(HPC)提供了強大的超高浮點計算能力,可滿足計算密集型、海量數(shù)據(jù)處理等業(yè)務(wù)的計算需求,如科學(xué)研究、氣象預(yù)報、計算模擬、軍事研究、生物制藥、基因測序等,極大縮短了海量計算所用的時間,高性能計算已成為促進科技創(chuàng)新和經(jīng)濟發(fā)展的重要手段。
(1)大模型帶來人工智能算力的旺盛需求
自然語言大模型參數(shù)巨量化是行業(yè)發(fā)展趨勢所向。以 ChatGPT 為代表的人工智能模型表現(xiàn)出高度的智能化和擬人化,背后的因素在于自然語言大模型表現(xiàn)出來的涌現(xiàn)能力和泛化能力,模型參數(shù)到達千億量級后,可能呈現(xiàn)性能的跨越式提升,稱之為涌現(xiàn)能力;在零樣本或者少樣品學(xué)習(xí)情景下,模型仍表現(xiàn)較強的遷移學(xué)習(xí)能力,稱之為泛化能力。兩種能力都與模型參數(shù)量密切相關(guān),人工智能模型參數(shù)巨量化是重要的行業(yè)發(fā)展趨勢。
預(yù)訓(xùn)練大模型進入千億參數(shù)時代,模型訓(xùn)練算力需求邁上新臺階。自 GPT-3 模型之后,大規(guī)模的自然語言模型進入了千億參數(shù)時代,2021 年之后涌現(xiàn)出諸多千億規(guī)模的自然語言模型,模型的訓(xùn)練算力顯著增加。ChatGPT 模型參數(shù)量為 1750 億,訓(xùn)練算力需求為 3.14*1023flops,當(dāng)前各種預(yù)訓(xùn)練語言模型還在快速的更新迭代,不斷刷新自然語言處理任務(wù)的表現(xiàn)記錄,單一模型的訓(xùn)練算力需求也不斷突破新高。
(2)大模型帶來 AI 芯片需求的顯著拉動
大模型的算力需求主要來自于三個環(huán)節(jié):
預(yù)訓(xùn)練得到大模型的訓(xùn)練環(huán)節(jié)。該環(huán)節(jié)中,算力呈現(xiàn)海量需求且集中訓(xùn)練的特點,大模型通常在數(shù)天到數(shù)周內(nèi)在云端完成訓(xùn)練。模型的訓(xùn)練算力與模型參數(shù)量、訓(xùn)練數(shù)據(jù)量有關(guān),以 ChatGPT 的訓(xùn)練為例,單次模型訓(xùn)練需要 2000 張英偉達 A100 顯卡不間斷訓(xùn)練 27 天。
適應(yīng)下游領(lǐng)域時進一步 fine-tune 環(huán)節(jié)。算力需求取決于模型的泛化能力以及下游任務(wù)的難度情況。
大模型日常運行時的推理環(huán)節(jié)。大模型的日常運行中每一次用戶調(diào)用都需要一定的算力和帶寬作為支撐,單次推理的計算量為 2N(N 為模型參數(shù)量),例如 1750 億參數(shù)的 ChatGPT 模型 1ktokens 的推理運算量為 2*1750*108*103=3.5*1014flops=350 Tflops。近期 ChatGPT 官網(wǎng)吸引的每日訪客數(shù)量接近 5000 萬,每小時平均訪問人數(shù)約 210 萬人,若高峰時期同時在線人數(shù) 450 萬人,一小時內(nèi)每人問 8 個問題,每個問題回答 200 字,測算需要 14000 塊英偉達 A100 芯片做日常的算力支撐。大模型在融入搜索引擎或以 app 形式提供其他商業(yè)化服務(wù)過程中,其 AI 芯片需求將得到進一步的顯著拉動。
4、AI 服務(wù)器是 GPU 市場規(guī)模增長的重要支撐
根據(jù) Omdia 數(shù)據(jù),2019 年全球人工智能服務(wù)器市場規(guī)模為 23 億美金,2026 年將達到 376 億美金,CAGR 為 49%。根據(jù) IDC 數(shù)據(jù),2020 年中國數(shù)據(jù)中心用于 AI 推理的芯片的市場份額已經(jīng)超過 50%,預(yù)計到 2025 年,用于 AI 推理的工作負載的芯片將達到 60.8%。
人工智能服務(wù)器通常選用 CPU 與加速芯片組合來滿足高算力要求,常用的加速芯片有 GPU、現(xiàn)場可編程門陣列(FPGA)、專用集成電路(ASIC)、神經(jīng)擬態(tài)芯片(NPU)等。GPU 憑借其強大的并行運算能力、深度學(xué)習(xí)能力、極強的通用性和成熟的軟件生態(tài),成為數(shù)據(jù)中心加速的首選,90% 左右的 AI 服務(wù)器采用 GPU 作為加速芯片。
受云廠商資本開支影響 AI 服務(wù)器市場或?qū)⒍唐谠鏊俜啪彙?/span>
北美云廠商資本開支有所放緩。人工智能服務(wù)器多采取公有云、私有云加本地部署的混合架構(gòu),以北美四家云廠商資本開支情況來跟蹤人工智能服務(wù)器市場需求變動,2022 年四家云廠商資本開支合計 1511 億美元,同比增長 18.5%。Meta 預(yù)計 2023 年資本開支的指引為 300-330 億美元之前,與 2022 年基本持平,低于此前 22Q3 預(yù)計的 340 億到 390 億美元;谷歌預(yù)計 2023 年資本開支將于 2022 年基本持平,但是會加大 AI 及云服務(wù)的建設(shè)投資。
信驊科技短期營收下滑有所緩解。作為全球最大的 BMC 芯片企業(yè),信驊科技(Aspeed)的營收變化情況一般領(lǐng)先云廠商資本開支一個季度,其月度營收數(shù)據(jù)可以作為云廠商資本開支的前瞻指標,信驊科技近期營收下滑有所緩解。
5、GPU 在超算服務(wù)器中的市場規(guī)模保持穩(wěn)定增長
GPGPU 在高性能計算領(lǐng)域滲透率不斷提升。在高性能計算領(lǐng)域,CPU+GPU 異構(gòu)協(xié)同計算架構(gòu)得到越來越多的應(yīng)用,全球算力前 500 的超級計算機中,有 170 套系統(tǒng)采用了異構(gòu)協(xié)同計算架構(gòu),其中超過 90% 以上的加速芯片選擇了英偉達的 GPGPU 芯片。
GPU 在超算服務(wù)器中的市場規(guī)模保持穩(wěn)定增長。根據(jù) Hyperion Research 數(shù)據(jù),全球超算服務(wù)器的市場規(guī)模將從 2020 年的 135 億美金上升到 2025 年的 199 億美金,按照 GPU 在超算服務(wù)器中成本占比為 27.3% 核算,GPU 在超算服務(wù)器中的市場規(guī)模將從 2020 年的 37 億上升至 2025 年的 54 億美金,CAGR 為 8%。
6、自動駕駛領(lǐng)域 GPU 市場保持高成長性
在自動駕駛領(lǐng)域,各類自動駕駛芯片得到廣泛的應(yīng)用。根據(jù) Yole 數(shù)據(jù),全球自動駕駛市場 2025 年將達到 780 億美金,其中用于自動駕駛的 AI 芯片超過 100 億美元。
自動駕駛 GPU 市場保持較高高成長性。根據(jù) ICVTank 的自動駕駛滲透數(shù)據(jù),假設(shè) GPU 在 L2 中滲透率 15%,在 L3-L5 中滲透率 50%,估算得到 GPU 在自動駕駛領(lǐng)域的市場規(guī)模,整體規(guī)模將從 2020 年的 7.1 億美元上升至 2025 年的 44 億美金,CAGR 為 44%。
五、產(chǎn)業(yè)鏈及競爭格局分析
1、GPU 產(chǎn)業(yè)鏈
GPU 行業(yè)的產(chǎn)業(yè)鏈主要涉及三個環(huán)節(jié):設(shè)計、制造、封裝。供給模式有 IDM、Fab+Fabless 和 Foundry 三種。IDM 模式:指將 GPU 產(chǎn)業(yè)鏈的三個環(huán)節(jié)整體化,充分結(jié)合自主研發(fā)和外部代工,集設(shè)計、制造、封裝為一體,公司垂直整合 GPU 整體產(chǎn)業(yè)鏈。Fab+Fabless:充分發(fā)揮各企業(yè)比較優(yōu)勢,僅負責(zé)芯片電路設(shè)計,將產(chǎn)業(yè)鏈其他環(huán)節(jié)外包,分散了 GPU 研發(fā)和生產(chǎn)的風(fēng)險。Foundry:公司僅負責(zé)芯片制造環(huán)節(jié),不負責(zé)上游設(shè)計和下游封裝,可以同時為多家上游企業(yè)服務(wù)。
2、競爭格局
全球 GPU 市場中,基本被 Nvidia、Intel 和 AMD 三家壟斷。據(jù) JPR 統(tǒng)計,全球 PC GPU 在 2022 年 Q2 出貨量達到 8400 萬臺,同比下降 34%,預(yù)計 2022-2026 年 GPU 復(fù)合增長率為 3.8%。從市場格局來看,Nvidia、Intel 和 AMD 三家在 2022 年 Q2 市場占有率分別為 18%、62% 和 20%,Intel 憑借其集成顯卡在桌面端的優(yōu)勢占據(jù)最大的市場份額。
獨顯市場中,Nvidia 占據(jù)領(lǐng)先地位。不同于整體市場,在獨顯市場中,Nvidia 與 AMD 雙雄壟斷市場,其 2022 年 Q2 市占率分別約為 80% 和 20%,可以看到近年來 Nvidia 不斷鞏固自己的優(yōu)勢,其獨立顯卡市占率整體呈現(xiàn)上升趨勢。
國內(nèi)市場來看,國產(chǎn) GPU 賽道持續(xù)景氣。近年來,國產(chǎn) GPU 公司如雨后春筍般涌現(xiàn),璧韌科技、摩爾線程、芯動科技、天數(shù)智能等公司紛紛發(fā)布新品。但是 IP 授權(quán)來看,國內(nèi)主要的 GPU 創(chuàng)業(yè)公司,如芯動、摩爾線程、壁仞等采用的是 Imagination IP 或芯原授權(quán)的 IP。但是 IP 授權(quán)來看,國內(nèi)主要的 GPU 創(chuàng)業(yè)公司,如芯動、摩爾線程、壁仞等采用的是 Imagination IP 或芯原授權(quán)的 IP。芯動科技發(fā)布的首款高性能 4K 級顯卡 GPU 芯片 “風(fēng)華 1 號”,使用了 Imagination 的 IMG B 系列 GPU IP,是 Imagination IP 在中國市場的首個高端 GPU 應(yīng)用。據(jù)報道,摩爾線程芯片設(shè)計的關(guān)鍵部分也來自 Imagination Technologies。
Imagination 是一家總部位于英國,致力于打造半導(dǎo)體和軟件知識產(chǎn)權(quán)(IP)的公司。公司的圖形、計算、視覺和人工智能以及連接技術(shù)可以實現(xiàn)出眾的 PPA(功耗、性能和面積)指標、強大的安全性、快速的上市時間和更低的總體擁有成本(TCO)。2017 年 9 月,私募投資公司 Canyon Bridge 以 5.5 億英鎊收購 Imagination,Canyon Bridge 其背后投資方為中國國新。
3、美國對華禁令如何應(yīng)對
根據(jù)路透社報道,2022 年 8 月 31 日,美國政府要求英偉達的 A100、H100 系列和 AMD 的 MI250 系列及未來的高端 GPU 產(chǎn)品,是否可以售賣給中國客戶,需要獲得美國政府的許可。這幾款芯片均為用于通用計算的高端 GPGPU,通常應(yīng)用在人工智能計算的云端訓(xùn)練和推理場景和超級計算機中,在中國的客戶多為云計算廠商及高校和科研院所。
為應(yīng)對封鎖,短期來看可以選擇英偉達和 AMD 的還沒有被禁止的中低性能 GPU 芯片。對于云端計算,算力既可以通過產(chǎn)品升級得以提升,也可以通過增加計算卡的數(shù)量進行提升,因此短期內(nèi)可以通過使用多個算力較低的 CPU、GPU 和 ASIC 芯片來復(fù)制高端 GPU 芯片的處理能力,基本可以滿足云端訓(xùn)練和高性能計算的要求。長期來看,選擇國產(chǎn) GPU 進行替代。雖然芯片是算力的主要來源和最根本的物質(zhì)基礎(chǔ),但是算力的生產(chǎn)、聚合、調(diào)度和釋放是一個完整過程,需要復(fù)雜系統(tǒng)的軟硬件生態(tài)共同配合,才能實現(xiàn) “有效算力”。因此短期內(nèi)可能會因為無法兼容在人工智能領(lǐng)域廣泛使用的 CUDA 架構(gòu)而遭遇替換困難,但是長期來看,國產(chǎn) CPU、通用 GPU、AI 芯片將獲得前所未有的發(fā)展機會,通過軟硬件技術(shù)提升,逐步實現(xiàn)高端 GPU 領(lǐng)域的國產(chǎn)化替代。
六、相關(guān)公司
1、國外公司
(1)英偉達
英偉達是一家專注于 GPU 半導(dǎo)體設(shè)計的企業(yè)。公司成立于 1993 年,1999 年英偉達推出 GeForce256 芯片,并首次定義了 GPU 的概念;隨后創(chuàng)新性的提出 CUDA 架構(gòu),讓此前只做 3D 渲染的 GPU 實現(xiàn)通用計算功能;進入 2010 年代后,英偉達在 AI 行業(yè)發(fā)展初期市場皆不看好的情況下,前瞻性預(yù)見了 GPU 在 AI 市場的應(yīng)用并全力以赴開展相關(guān)布局;當(dāng)前,公司以數(shù)據(jù)中心、游戲、汽車、專業(yè)視覺四大類芯片為收入基礎(chǔ),完成了硬件、系統(tǒng)軟件、軟件平臺、應(yīng)用框架全棧生態(tài)的建設(shè)。
追溯公司歷史,英偉達以技術(shù)創(chuàng)新為基,持續(xù)推動 GPU 行業(yè)的發(fā)展,可以稱得上是 GPU 時代奠基人。英偉達公司發(fā)展史可簡單劃分為四個階段:
(1)蓄力階段:1993 年黃仁勛聯(lián)合 Sun Microsystem 公司兩位年輕工程師共同創(chuàng)立英偉達,早期致力于圖形芯片的研發(fā)。1997 年公司推出 RIVA128,這是公司第一款真正意義上取得成功的產(chǎn)品。
(2)崛起階段:1999 年公司推出 GeForce256 并定義 GPU 芯片,此英偉達走上了重塑顯卡行業(yè)的道路。
(3)制霸階段:2006 年英偉達創(chuàng)新性推出 CUDA 架構(gòu)。CUDA 是英偉達基于自有 GPU 的一個并行計算平臺和編程模型。CUDA 帶來兩方面巨大影響,于 GPU 行業(yè)而言,CUDA 使得只做 3D 渲染的 GPU 得以實現(xiàn)通用計算功能,而對于英偉達公司本身來說,其在早期大力推廣 CUDA,并對 CUDA 進行了編程語言擴展,使得開發(fā)人員能夠輕易地對 GPU 進行編程,目前 CUDA 是最主流的兩個 GPU 編程庫之一,奠定了英偉達 GPU 生態(tài)得以成型的基礎(chǔ)。
(4)騰飛階段:押注 AI,數(shù)據(jù)中心業(yè)務(wù)開啟第二成長曲線。2012 年 Alex Krizhevsky 利用 GPU 進行深度學(xué)習(xí),通過幾天訓(xùn)練在 ImageNet 競賽中獲得冠軍,其將深度卷積神經(jīng)網(wǎng)絡(luò) AlexNet 的準確率提高了 10.8%,震撼了學(xué)術(shù)界,從此開啟 GPU 應(yīng)用于深度學(xué)習(xí)的大門,其使用的正是 NVIDIA GTX 580GPU 芯片和 CUDA 計算模型。此后,英偉達 GPU 和 CUDA 模型成為深度學(xué)習(xí)(尤其是訓(xùn)練環(huán)節(jié))的首選芯片,而英偉達也順勢推出海量專用于 AI 的芯片及配套產(chǎn)品,從顯卡硬件公司華麗轉(zhuǎn)型成為人工智能公司。
英偉達平均每兩年推出一代芯片架構(gòu)、每半年推出一款新的產(chǎn)品,多年以來堅持不輟。從 2009 年的 Fermi 架構(gòu)到當(dāng)前的 Hopper 架構(gòu),公司產(chǎn)品性能穩(wěn)步提升,并始終引領(lǐng) GPU 芯片技術(shù)發(fā)展。
目前,英偉達 GPU 芯片已形成覆蓋數(shù)據(jù)中心、游戲、專業(yè)視覺和汽車業(yè)務(wù)幾大場景的芯片產(chǎn)品陣列,其中消費級 GPU 和數(shù)據(jù)中心 GPU 是最核心場景。NVIDIA 數(shù)據(jù)中心業(yè)務(wù)自 2017 年開始快速擴張,先后發(fā)布 V100、A100 等高性能通用計算顯卡,為全球提供頂尖的 AI 算力。最新產(chǎn)品代際下 NVIDIA 已經(jīng)在 2022 年 9 月 20 日推出 GeForce 40 系列首款產(chǎn)品。
(2)AMD
美國超威半導(dǎo)體公司(AMD)創(chuàng)立于 1969 年,專門為計算機、通信和消費電子行業(yè)提供各類微處理器以及提供閃存和低功率處理器方案,公司是全球領(lǐng)先的 CPU、GPU、APU 和 FPGA 設(shè)計廠商,掌握中央處理器、圖形處理器、閃存、芯片組以及其他半導(dǎo)體技術(shù),具體業(yè)務(wù)包括數(shù)據(jù)中心、客戶端、游戲、嵌入式四大部分。公司采用 Fabless 研發(fā)模式,聚焦于芯片設(shè)計環(huán)節(jié),制造和封測環(huán)節(jié)則委托給全球?qū)I(yè)的代工廠處理。目前全球 CPU 市場呈 Intel 和 AMD 寡頭壟斷格局,Intel 占主導(dǎo)地位。在獨立 GPU 市場中,主要是英偉達(NVIDIA)、AMD 進行角逐,Intel 目前憑借其銳炬 Xe MAX 產(chǎn)品也逐步進入獨立 GPU 市場。
公司營收主要包括四部分。數(shù)據(jù)中心業(yè)務(wù)主要包括用于數(shù)據(jù)中心服務(wù)器的各類芯片產(chǎn)品;客戶端業(yè)務(wù)主要包括用于 PC 的各類處理器芯片;游戲業(yè)務(wù)主要包括獨立 GPU 及其他游戲產(chǎn)品開發(fā)服務(wù);嵌入式業(yè)務(wù)主要包括適用于邊緣計算的各類嵌入式計算芯片。
AMD 可以提供集成 GPU 和獨立 GPU 兩類 PC GPU。集成 GPU 主要被運用在臺式機和筆記本的 APU 產(chǎn)品、嵌入式等產(chǎn)品中,主要用于游戲、移動設(shè)備、服務(wù)器等應(yīng)用。APU 帶有集成的板載 GPU,CPU 和 GPU 的高度融合在一起協(xié)同計算、彼此加速,相比于獨立 GPU 更具性價比優(yōu)勢。
獨立 GPU 為 Radeon 系列。AMD 的 Radeon 系列獨立 GPU 按推出時間先后順序可以分為 RX500 系列、Radeon7、RX5000 系列、RX6000 系列、RX7000 系列。Radeon 系列顯卡具備一定的性價比優(yōu)勢,市場份額有進一步上升的空間。
RDNA3 架構(gòu)采用 5nm 工藝和 chiplet 設(shè)計,比 RDNA2 架構(gòu)有 54% 每瓦性能提升,包括 2.7 倍 AI 吞吐量、1.8 倍第二代光線追蹤技術(shù),5.3TB/s 的峰值帶寬、4K480Hz 和 8K165HZ 的刷新率等。AMD 預(yù)計 2024 年推出 RDNA4 架構(gòu),將采用更為先進的工藝制造。
2018 年,AMD 推出用于數(shù)據(jù)中心的 Radeon Instinct GPU 加速芯片,Instinct 系列基于 CDNA 架構(gòu)。在通用計算領(lǐng)域,最新的 CDNA2 架構(gòu)相比 CDNA1 架構(gòu),實現(xiàn)計算能力和互聯(lián)能力的顯著提升,MI250X 采用 CDNA2 架構(gòu)。在向量計算方面,CDNA2 對向量流水線進行了優(yōu)化,FP64 的工作頻率與 FP32 相同,具備同樣的向量計算能力。在矩陣計算方面,CDNA2 引入了新的矩陣乘指令級,特別適用于 FP64 精度,此外 MattrixCore 還支持 FP32、FP16(BF16)和 INT8 的計算精度。在互聯(lián)方面,通過 AMD infinityfabric 接口實現(xiàn)加速器之間的 P2P 或者 I/O 通信,提供 800GB/s 的總理論帶寬,相比上一代提升了 235%。
AMD ROCm 是 2015 年 AMD 公司為了對標 CUDA 生態(tài)而開發(fā)的一套用于 HPC 和超大規(guī)模 GPU 計算提供的開源軟件開發(fā)平臺。ROCm 之于 AMD GPU 相當(dāng)于 CUDA 之于英偉達 GPU。
AMD ROCm 是一個開放式軟件平臺,為追求高靈活性和高性能而構(gòu)建,針對加速式計算且不限定編程語言,讓機器學(xué)習(xí)和高性能計算社區(qū)的參與者能夠借助各種開源計算語言、編譯器、庫和重新設(shè)計的工具來加快代碼開發(fā),適合大規(guī)模計算和支持多 GPU 計算,其創(chuàng)立目標是建立可替代 CUDA 的生態(tài)。
2、國內(nèi)公司
(1)海光信息
海光信息成立于 2014 年,主營業(yè)務(wù)是研發(fā)、設(shè)計和銷售應(yīng)用于服務(wù)器、工作站等計算、存儲設(shè)備中的高端處理器。產(chǎn)品包括海光通用處理器(CPU)和海光協(xié)處理器(DCU),目前已經(jīng)研發(fā)出多款新能達到國際同類主流產(chǎn)品的高端 CPU 和 DCU 產(chǎn)品。2018 年 10 月,公司啟動深算一號 DCU 產(chǎn)品設(shè)計,目前海光 DCU 系列深算一號已經(jīng)實現(xiàn)商業(yè)化應(yīng)用,2020 年 1 月,公司啟動了第二代 DCU 深算二號的產(chǎn)品研發(fā)工作。
海光 DCU 屬于 GPGPU 的一種,海光 DCU 的構(gòu)成與 CPU 類似,其結(jié)構(gòu)邏輯相 CPU 簡單,但計算單元數(shù)量較多。海光 DCU 的主要功能模塊包括計算單元(CU)、片上網(wǎng)絡(luò)、高速緩存、各類接口控制器等。深度計算處理器(Deep-learning Computing Unit,DCU)是公司基于通用的 GPGPU 架構(gòu),設(shè)計、發(fā)布的適合計算密集型和運算加速領(lǐng)域的一類協(xié)處理器,定義為深度計算處理器 DCU。兼容通用的 “類 CUDA” 環(huán)境以及國際主流商業(yè)計算軟件和人工智能軟件,軟硬件生態(tài)豐富,可廣泛應(yīng)用于大數(shù)據(jù)處理、人工智能、商業(yè)計算等應(yīng)用領(lǐng)域。海光 8100 采用先進的 FinFET 工藝,典型應(yīng)用場景下性能指標可以達到國際同類型高端產(chǎn)品的同期水平,在國內(nèi)處于領(lǐng)先地位。2021 年下半年 DCU 正式實現(xiàn)商業(yè)化應(yīng)用。
海光信息 DCU 協(xié)處理器全面兼容 ROCm GPU 計算生態(tài),由于 ROCm 和 CUDA 在生態(tài)、編程環(huán)境等方面具有高度的相似性,CUDA 用戶可以以較低代價快速遷移至 ROCm 平臺,因此 ROCm 也被稱為 “類 CUDA”。因此,海光 DCU 協(xié)處理器能夠較好地適配、適應(yīng)國際主流商業(yè)計算軟件和人工智能軟件,軟硬件生態(tài)豐富,可廣泛應(yīng)用于大數(shù)據(jù)處理、人工智能、商業(yè)計算等計算密集類應(yīng)用領(lǐng)域,主要部署在服務(wù)器集群或數(shù)據(jù)中心,為應(yīng)用程序提供高性能、高能效比的算力,支撐高復(fù)雜度和高吞吐量的數(shù)據(jù)處理任務(wù)。
(2)景嘉微
長沙景嘉微電子股份有限公司成立于 2006 年,2015 年推出首款國產(chǎn) GPU,是國內(nèi)首家成功研制具有完全自主知識產(chǎn)權(quán)的 GPU 芯片并實現(xiàn)工程應(yīng)用的企業(yè),2016 年在深交創(chuàng)業(yè)板成功上市。公司業(yè)務(wù)布局圖形顯示、圖形處理芯片和小型專用化雷達領(lǐng)域,產(chǎn)品涵蓋集成電路設(shè)計、圖形圖像處理、計算與存儲產(chǎn)品、小型雷達系統(tǒng)等方向。
公司 GPU 研發(fā)歷史悠久,技術(shù)積淀深厚。公司成立之初承接神舟八號圖形加速任務(wù),為圖形處理器設(shè)計打下堅實基礎(chǔ);公司 2007 年自主研發(fā)成功 VxWorks 嵌入式操作系統(tǒng)下 M9 芯片驅(qū)動程序,并解決了該系統(tǒng)下的 3D 圖形處理難題和漢字顯示瓶頸,具備了從底層上駕馭圖形顯控產(chǎn)品的能力。2015 年具有完全自主知識產(chǎn)權(quán)的 GPU 芯片 JM5400 問世,具備高性能、低功耗的特點;此后公司不斷縮短研發(fā)周期,JM7200 在設(shè)計和性能上有較大進步,由專用市場走向通用市場;JM9 系列定位中高端市場,是一款能滿足高端顯示和計算需求的的通用型芯片。
JM7200 采用 28nm CMOS 工藝,內(nèi)核時鐘頻率最大 1300MHz,存儲器內(nèi)存為 4GB,支持 OpenGL1.5/2.0,能夠高效完成 2D、3D 圖形加速功能,支持 PCIe2.0 主機接口,適配國產(chǎn) CPU 和國產(chǎn)操作系統(tǒng)平臺,可應(yīng)用于個人辦公電腦顯示系統(tǒng)以及高可靠性嵌入式顯示系統(tǒng)。JM9 系列面向中高端通用市場,可以滿足地理信息系統(tǒng)、媒體處理、CAD 輔助設(shè)計、游戲、虛擬化等高性能顯示需求和人工智能計算需求。2022 年 5 月,JM9 系列第二款芯片已完成初步測試工作。
(3)壁仞科技
公司主營業(yè)務(wù)為高端通用智能計算芯片。壁仞科技創(chuàng)立于 2019 年,公司致力于開發(fā)原創(chuàng)性的通用計算體系,建立高效的軟硬件平臺,同時在智能計算領(lǐng)域提供一體化的解決方案。從發(fā)展路徑上,公司將首先聚焦云端通用智能計算,逐步在人工智能訓(xùn)練和推理、圖形渲染等多個領(lǐng)域趕超現(xiàn)有解決方案,實現(xiàn)國產(chǎn)高端通用智能計算芯片的突破。2022 年 3 月,公司首款通用 GPU 芯片 BR100 成功點亮,后于 2022 年 8 月正式發(fā)布,創(chuàng)下全球算力的新紀錄。
公司的產(chǎn)品體系主要涵蓋 BR100 系列通用 GPU 芯片、BIRENSUPA 軟件開發(fā)平臺以及開發(fā)者云三大板塊。其中,BR100 系列通用 GPU 芯片是公司的核心產(chǎn)品,目前主要包括 BR100、BR104 兩款芯片。BR100 系列針對人工智能(AI)訓(xùn)練、推理,及科學(xué)計算等更廣泛的通用計算場景開發(fā),主要部署在大型數(shù)據(jù)中心,依托 “壁立仞” 原創(chuàng)架構(gòu),可提供高能效、高通用性的加速計算算力。
BR100 系列在性能、安全等方面具備多項核心優(yōu)勢。公司致力于打造性能先進、競爭力強的 GPU 芯片,并為此采取了大量技術(shù)措施,具體包括:支持 7nm 制程,并創(chuàng)新性應(yīng)用 Chiplet 與 2.5D CoWoS 封裝技術(shù),兼顧高良率與高性能;支持 PCIe 5.0 接口技術(shù)與 CXL 通信協(xié)議,雙向帶寬最高達 128GB/s 等。2022 年公司正式推出壁礪™100,其峰值算力達到國際廠商在售旗艦的 3 倍以上,超越了國際廠商同類的在售旗艦產(chǎn)品,競爭優(yōu)勢十分顯著。同時,在安全方面,BR100 系列最高支持 8 個獨立實例,每個實例物理隔離并配備獨立的硬件資源,可獨立運行。
(4)摩爾線程
摩爾線程是一家以 GPU 芯片設(shè)計為主的集成電路高科技公司。公司誕生于 2020 年 10 月,專注于研發(fā)設(shè)計全功能 GPU 芯片及相關(guān)產(chǎn)品,支持 3D 高速圖形渲染、AI 訓(xùn)練推理加速、超高清視頻編解碼和高性能科學(xué)計算等多種組合工作負載,兼顧算力與算效,為中國科技生態(tài)合作伙伴提供強大的計算加速能力。在 “元計算” 賦能下一代互聯(lián)網(wǎng)的愿景下,公司將持續(xù)創(chuàng)新面向元計算應(yīng)用的新一代 GPU,構(gòu)建融合視覺計算、3D 圖形計算、科學(xué)計算及 AI 計算的綜合計算平臺,建立基于云原生 GPU 計算的生態(tài)系統(tǒng),助力驅(qū)動數(shù)字經(jīng)濟發(fā)展。
公司的產(chǎn)品體系主要包括:MTTS60、MTTS2000、MTTS100 等硬件產(chǎn)品;MTSmart Media Engine、MT GPU Management Center、MT DirectStream、MT OCR 等軟件產(chǎn)品;以及 MUSA 統(tǒng)一系統(tǒng)架構(gòu)、DIGITALME 數(shù)字人解決方案、元計算應(yīng)用解決方案等其他產(chǎn)品。
MTTS60 顯卡由基于 MUSA 架構(gòu)的 GPU 蘇堤核心晶片制成,采用 12nm 制程,包含 2048 個 MUSA 核心,單精度算力最高可達 6TFlops,配置 8GB 顯存,基于 MUSA 軟件運行庫和驅(qū)動程序等軟件工具。在先進硬件規(guī)格的支撐下,MTTS60 顯卡能夠在不同應(yīng)用場景中展現(xiàn)多重優(yōu)勢:豐富圖形 API、4K/8K 超高清顯示、領(lǐng)先的硬件視頻編解碼能力、通用 AI 功能支持等。
MTTS2000 采用 12nm 制程,使用 4096 個 MUSA 核心,最大配置 32GB 顯存,單精度算力最高可達到 12TFlops,支持 H.264、H.265、AV1 多路高清視頻編解碼,以及廣泛的 AI 模型算法加速。同時,MTTS2000 還采用了被動散熱、單槽設(shè)計,以滿足數(shù)據(jù)中心高密度 GPU 配置方式。目前,MTTS2000 已經(jīng)能夠兼容 X86、ARM 等 CPU 架構(gòu)以及主流 Linux 操作系統(tǒng)發(fā)行版,并與浪潮、新華三、聯(lián)想、清華同方等多家服務(wù)器合作伙伴建立了合作關(guān)系,產(chǎn)品生態(tài)持續(xù)完善。作為公司面向數(shù)據(jù)中心領(lǐng)域的 GPU 芯片,除了生態(tài)外,MTTS2000 還具備全功能 GPU、豐富的圖形 API 支持、綠色計算等優(yōu)勢。基于多維算力、生態(tài)完善等優(yōu)勢,MTTS2000 有望助力公司賦能 PC 云桌面、安卓云游戲、音視頻云處理、云端 Unreal/Unity 應(yīng)用渲染和 AI 推理計算等多類應(yīng)用場景。
七、未來展望
1、未來部分廠商有望迎來爆發(fā)式增長
GPU 作為數(shù)據(jù)計算核心底座,戰(zhàn)略地位高,國家高度重視,中美科技摩擦背景下,自主可控勢在必行。從成長性維度看,全球市場空間廣闊,國內(nèi)市場規(guī)模也達到百億量級,同時伴隨下游需求提升而加速提升。在數(shù)字化驅(qū)動總需求提升背景下,疊加國產(chǎn)化趨勢,國產(chǎn) GPU 產(chǎn)業(yè)迎來總量和份額雙提升機遇,國產(chǎn) GPU 廠商發(fā)展提速。大市場需求下,GPU 國產(chǎn)化空間廣闊,優(yōu)秀廠商稀缺性凸顯,加速成長,部分廠商有望爆發(fā)式增長。
2、中國 GPU 市場將快速增長,有望為相應(yīng)細分領(lǐng)域帶來更快的成長
龐大的需求 + 逐漸成熟的產(chǎn)業(yè)預(yù)示著廣闊的發(fā)展空間。在人工智能、云游戲、自動駕駛等新場景和需求爆發(fā)式增長的背景下,能夠判斷中國 GPU 市場將快速增長,相比于 PC 市場,新增市場空間或更大。相比于 PC 等傳統(tǒng) IT 應(yīng)用場景,中國在人工智能、自動駕駛領(lǐng)域與強國處于同一競爭水平,且中國龐大市場有望為相應(yīng)細分領(lǐng)域帶來更快的成長。
八、參考研報
1. 中信建投 - GPU 行業(yè)深度研究:AI 大模型浪潮風(fēng)起,GPU 芯片再立潮頭
2. 長江證券 - 軟件與服務(wù)行業(yè)信創(chuàng)系列深度之 GPU:破曉而生,踏浪前行
3. 安信證券 - 半導(dǎo)體行業(yè) AI 算力產(chǎn)業(yè)鏈梳理~ 技術(shù)迭代推動瓶頸突破,AIGC 場景增多驅(qū)動算力需求提升
4. 華創(chuàng)證券 - 景嘉微 - 300474 - 深度研究報告:國產(chǎn) GPU 龍頭,民用開啟第二成長曲線
5. 中信證券 - 計算機行業(yè) “構(gòu)筑中國科技基石” 系列報告 25:GPU,研究框架(100 頁)