一:RSX圖形芯片就是Geforce 7800 GTX翻版?
Sony電腦娛樂(SCEI)與Nvidia公司合作開發(fā)下一代PlayStation 3游戲機(jī),搭載了Nvidia公司開發(fā)的代號為“RSX(Reality Synthesizer現(xiàn)實合成器)”的圖形芯片,這個圖形芯片可以看作是Nvidia GeForce GPU 7800 GTX(G70)的兄弟版本。
Nvidia的首席工程師David B. Kirk稱,關(guān)于兩款GPU芯片的“Shader架構(gòu)”,RSX和G70并沒有什么差別,兩者的差別集中在生產(chǎn)工藝,系統(tǒng)總線,記憶體頻寬等方面。如G70采用TSMC的110nm工藝制造,采用PCI-E x16接口,搭載256Bit帶寬的GDDR3記憶體,而RSX則采用SONY/Toshiba的90nm 工藝,F(xiàn)lexIO前端總線架構(gòu)搭配128bit記憶體寬度。
為什么說G70和RSX在Shader架構(gòu)上沒有區(qū)別呢,原因有幾個,最主要的根據(jù)來自與Nvidia在E3大展上公開發(fā)表的RSX規(guī)格說明,證實RSX每個周期能夠運(yùn)行136 shader運(yùn)算。Xbox 360所使用的GPU來自于ATI所開發(fā)的R500,根據(jù)微軟透露的資料顯示,R500每個周期可執(zhí)行96個Shader操作(運(yùn)行頻率500MHz),也就是每秒可執(zhí)行480億個Shader指令,這一數(shù)值要高過Nvidia的RSX!懊棵雸(zhí)行的Shader操作”這種叫法來源于ATI;而Nvidia則稱之為“每秒執(zhí)行的指令數(shù)”,這是因為Nvidia同時計算了一次Shader操作中所導(dǎo)致的復(fù)述操作,所以Nvidia在關(guān)于RSX Shader結(jié)構(gòu)的規(guī)格計算方法和ATI的截然不同,這在E3大展上面也曾成為議論點(diǎn)。
按照Nvidia的計算方法,RSX的“每周期136個Shader操作指令”的參數(shù)實際上與G70相同(因為G70的架構(gòu)為8VS/24PS,而G70的每個VS流水線等價于2個指令/周期,PS流水線等價于8指令/周期),故RSX和G70均為每周期136個Shader操作。換句話說,如果觀察周期指令運(yùn)算能力的話,你會發(fā)現(xiàn)G70和RSX的Shader架構(gòu)幾乎完全相同,因為RSX也是具備8VS和24PS流水線,這一點(diǎn)和G70完全相同。
事實上,公開表示G70和RSX擁有相同的架構(gòu)的著名業(yè)界人士透露,由于Nvidia直到去年的夏天才和Sony電腦娛樂(SCEI)最終確定合作事宜,Nvidia 實際上根本沒有足夠的時間來為PS3著身定制一款專門的圖形芯片。
目前我們可以假定,RSX實際上和G70是基本相同的同一架構(gòu)的圖形芯片,甚至連晶體管的個數(shù)都差不多(此前傳RSX是包括3億只晶體管,而G70為3.02億)由于G70的PCI-E x16架構(gòu)對于帶寬的要求比RSX的FlexIO前端總線高的多,因此G70的顯存帶寬是RSX的兩倍不難理解。
二:RSX的Shader運(yùn)算能力比G70增長28%?
G70的Shader架構(gòu),其實是以GeForce 6800(NV40)為基礎(chǔ),不過對Pixel Shader的并行運(yùn)算( parallelism )進(jìn)行了加強(qiáng);例如,NV40在Pixel Shder內(nèi)部擁有2個引導(dǎo)操作單元,不過其中的1個單元不能執(zhí)行1個周期內(nèi)芯片演算的數(shù)據(jù)量總和,而G70則能做到這一點(diǎn),而我們現(xiàn)在猜測RSX同G70一樣。
雖然G70和RSX的Shader架構(gòu)幾乎完全相同,但是兩者的性能還是有差距的,原因在于運(yùn)行頻率的高低,根據(jù)Nvidia的官方數(shù)據(jù),G70的默認(rèn)頻率為430MHz,而RSX為550MHz,頻率方面的差距在28%,那么兩者的Shader運(yùn)算性能差距能夠達(dá)到理論上的28%嗎?
根據(jù)Nvidia公布的G70資料顯示,Vertex Shader引擎具備4路 VLIW單元和1個梯狀單元,可以并行處理5個數(shù)據(jù);故計算得知一個周期內(nèi)包括10個浮點(diǎn)指令操作,而G70的Vertex Shader引擎數(shù)目是8條,因此,最近計算得到的G70浮點(diǎn)運(yùn)算能力為:
(4路+1梯形) X 2FP(浮點(diǎn)操作 MADD) = 10FP/周期;10個FP(浮點(diǎn)操作)×8Shader×430MHz=34.4GFlops
而G70的Pixel Shader引擎中,具備2個梯形操作單元以及4路×2 SIMD單元,此外還擁有可以處理處理算數(shù)指令(mini ALU)的FP16規(guī)格化處理單元(共7路),因此,G70的Pixel Shader引擎浮點(diǎn)效能如下:
((4路 x 2 單元 + 2梯形單元) x 2 FP) + 7 規(guī)格化處理器單元 = 27 FP操作/周期:27 FP x 24 Shader x 430MHz = 278.6GFLOPS
有了這樣的計算公式,我們可以很輕松地計算出頻率為550MHz的RSX的Vertex Shader和Pixel Shader引擎的浮點(diǎn)運(yùn)算能力:
Vertex Shader
10 FP x 8 Shader x 550MHz = 44GFLOPS
Pixel Shader
27 FP x 24 Shader x 550MHz = 356.4GFLOPS
總共為44GFLOPS + 356.4GFLOPS = 400.4GFLOPS
而 Xbox 360 GPU(R500)的Shader浮點(diǎn)運(yùn)算能力為240GFLOPS,雖然數(shù)值上僅為RSX的60%,但是由于R500和RSX在開發(fā)架構(gòu)上有不小的區(qū)別,RSX是分離的VS/PS設(shè)計,Xbox 360 GPU是一體化的設(shè)計,故R500的實際性能并不能僅從數(shù)字上來判斷。
三:FlexIO的帶寬決定了如何使用GPU
可以這么說,G70和RSX最大的不同在于其總線技術(shù)(Host bus),G70支援PCI-Express x16總線技術(shù),而RSX則使用Rambus的FlexIO(Redwood紅木)總線技術(shù)。
我們知道,總線的并行結(jié)構(gòu)與高頻率、布線難度素來就是矛盾:并行總線存在嚴(yán)重的信號干擾,無法穩(wěn)定工作在較高的頻率下、傳輸性能極為有限,且總線寬度越大、工作頻率越高,對布線工作要求就越苛刻,這就造成并行總線的性能很難有繼續(xù)提升的空間。為此,計算機(jī)內(nèi)的高速總線無一例外均轉(zhuǎn)向串行體系,如PCI Express、HyperTransport、Serial ATA、IEEE1394a/b、USB 2.0等等—但RAMBUS公司提出的FlexIO總線技術(shù)卻是一個例外,它以并行模式工作,工作頻率高達(dá)6.4GHz,且布線工作相當(dāng)容易,完全克服了并行總線的“先天弊病”。
眾所周知PCI-Express x16的帶寬為4GB/S,如果雙向傳輸則可達(dá)到8GB/S;但是FlexIO總線中Cell-RSX的傳輸速度最高可以達(dá)到20GB/S以上,RSX-Cell的傳輸速度可以達(dá)到15GB/S以上,是PCI-E x16的5倍以上。較高的總線帶寬,有利于CPU和GPU的協(xié)同工作和數(shù)據(jù)分配;而對于總線帶寬相對較小的PC來說,GPU與CPU的溝通則顯得不太方便。對于這點(diǎn),我們會進(jìn)行進(jìn)一步的細(xì)節(jié)說明。
使用的FlexIO的總線另外一個優(yōu)勢在于,即使裝備Cell 96bit帶寬其側(cè)面僅占據(jù)13.1平方mm,RSX的側(cè)面因為帶寬的變大而變得狹窄,并且有可能比13.1平方mm還要更小。
順便提及的是,具備并行接口的FlexIO總線很容易組成8bit運(yùn)算單元,標(biāo)準(zhǔn)傳輸率為6.4Gbps。但是SONY公布的PS3的資料中,20GB/S的Cell-RSX和15GB/S RSX-Cell的傳輸速率并不吻合。傳輸速率下降為5Gbps,符合下32bit和上24bit的計算,因為這個原因,F(xiàn)lexIO的傳輸速率有可能會掉到5Gbps。目前,PS3的Cell處理器以及XDR DRAM記憶體的運(yùn)行頻率已經(jīng)確定了,隨著CPU頻率的下降,XDR DRAM的傳輸速率也會下降。但是,F(xiàn)lexIO被看成是異步模式下工作的。
四:RSX和G70記憶體接口架構(gòu)對比
G70和RSX的另一個差別在于顯存記憶體的帶寬,為PC所設(shè)計的G70采用了256bit帶寬的GDDR3記憶體,而RSX采用了128bit帶寬的GDDR3記憶體,不過顯存的容量相同均為256MB。
目前RSX的記憶體控制器的架構(gòu)圖仍然只是處在猜測階段;根據(jù)NV40/G70的架構(gòu),顯存記憶體控制器分為4個分塊,每個分塊均連接到DRAM控制器,帶寬均為64bit。同時有每個分塊同時連接4個ROP(像素結(jié)果輸出處理器)像素單元,此外分塊之間也相互連接,因此總共具備16個ROP。這些ROP像素單元以每條2×2像素流水線為單位分為4組,在需要的情況下,這些ROP單元能實現(xiàn)alpha混合和附加的Z/Stencil功能,這讓它可以每個時鐘頻率處理32個Z/Stencil運(yùn)算,還完全支持Multiple Render Targets(多重著色目標(biāo))和加速的陰影著色能力。
我們假定RSX和G70采用同樣的設(shè)計,每個記憶體分塊連接有4個ROP像素單元,而每個記憶體分塊都連接到DRAM記憶體,并且被分配到32bit帶寬;如果我們假設(shè)有8個ROP像素單元的話,那么就表明連接到DRAM控制器的部分擁有64bit帶寬。
最后要提到的是,此前Nvidia透露的資料顯示PlayStation3游戲機(jī),具備256MB XDR DRAM@3.2GHz的系統(tǒng)內(nèi)存,以及256MB GDDR3@700MHz的顯存。
五:RSX和G70的制造工藝對比
前面也曾提到,RSX和G70采用了不同的制造工藝進(jìn)行生產(chǎn),G70采用了和NV4x相同的TSMC 0.11微米制造工藝,制造工藝相當(dāng)成熟,內(nèi)部集成3.02億個晶體管,這是迄今為止顯示芯片晶體管集成數(shù)目的世界紀(jì)錄;而RSX采用Sony/Toshibia的0.09微米制造,內(nèi)部集成了3.0億晶體管。在顯示核心面積上,0.11微米制程的G70面積為300平方mm,而90nm工藝的RSC面積僅為G70的70%左右,在200~250平方mm之間;而PS3的上一代PS2的顯示核心采用0.25微米制程,面積為279平方mm。而隨著芯片制造的進(jìn)步,未來65nm和45nm制造工藝的芯片表面積降可以控制在100平方mm以內(nèi)。
更多相關(guān): AV集成
©版權(quán)所有。未經(jīng)許可,不得轉(zhuǎn)載。