Uusimmat

Fermi-arkkitehtuurin "mid-life kicker": GF110

09.11.2010 16:27 Muropaketin toimitus

Fermi-arkkitehtuuriin perustuva GF110-grafiikkapiiri noudattaa GF100-grafiikkapiirin suunnitteluperiaatteita. Käytännössä voidaan sanoa, että GF110-grafiikkapiiri on sellainen kuin GF100:n oli alun perin tarkoitus olla. Lopputulokseen ei olla kuitenkaan päästy ilman massiivisia transistoritason muutoksia ja NVIDIA joutui työstämään suuren osan kolmesta miljardista transistorista rakentuvaa piiriä uudelleen ja uudelleenjärjestelemään vähän vuotavat transistorit vähemmän ajoituksesta riippuvaisiin prosessointipoluille ja nopeammat transistorit kriittisemmille prosessointipoluille.

”GF110 was re-engineered down to transistor level. We evaluated every block of the GPU, using lower leakage transistors on less timing sensitive processing paths, and higher speed transistors on more critical processing paths. A very large percentage of transistors on the chip were modified. Through this redesign, we were able to achieve faster clocks with less power”, kommentoi NVIDIA lehdistölle.

Suurempi versio kuvaa klikkaamalla

Transistoritason optimointien ansiosta NVIDIA pystyi ottamaan GF110-grafiikkapiirissä käyttöön kaikki Fermi-arkkitehtuurin 16 Streaming Multiprocessor -moduulia eli kaikki 512 CUDA-ydintä, 16 geometriayksikköä ja 64 tekstuuriyksikköä.

GF110:n suunnittelu rakentuu neljästä GPC:stä (Graphics Processing Cluster), joita NVIDIA itse kutsuu minigrafiikkapiireiksi. Jokaisessa GPC:ssä on neljä SM-moduulia (Streaming Multiprocessor) eli yhteensä niitä on GF110-grafiikkapiirissä 16 kappaletta.

Lohkokaavioon merkitty Host Interface lukee prosessorilta tulevat käskyt ja GigaThread Engine noutaa määrätyn datan keskusmuistista ja kopioi sen ruutupuskuriin (framebuffer). GF110-grafiikkapiirin kuusi 64-bittistä GDDR5-muistiohjainta (yhteensä 384-bittinen) huolehtivat riittävästä kaistanleveydestä ruutupuskurille. Seuraavaksi GigaThread Engine luo ja lähettää säieblokit SM-moduuleille, jotka puolestaan jakavat 32 säikeen ryhmät (Warp) CUDA-ytimille ja muille suoritusyksiköille.

GF110:n 48 ROP-yksikköä hoitavat pikseleiden sekoittamisen, reunojenpehmennyksen ja atomiset muistioperaatiot. Ne on järjestetty kuuteen kahdeksan ROP-yksikön ryhmään, joista jokaista tarjoilee yksi 64-bittinen muistiohjain. Muistiohjain, L2-välimuisti ja ROP-ryhmä ovat tiiviisti nipussa keskenään ja skaalautuvat yhdessä.

Jokaisessa GPC:ssä on yksi Raster Engine eli niitä on GF110-grafiikkapiirissä yhteensä neljä kappaletta. Raster Engine rakentuu kolmesta vaiheesta, jotka ovat Edge Setup, Rasterizer ja Z-Cull. Edge Setupissa verteksien sijainnit haetaan ja kolmion reunojen yhtälöt lasketaan. Kolmiot, jotka eivät ole kohti ruutua, poistetaan. Rasterizer laskee pikseleiden peiton ja sen tuottamat pikselit lähetetään Z-Cull-yksikölle, joka poistaa ruutupuskurissa olevien pikseleiden takana piilossa olevat pikselit tarpeettomina eikä niiden käsittelyä
jatketa.

Jokaisessa SM-moduulissa on 32 CUDA-ydintä, joita GF110-grafiikkapiirissä on yhteensä 512 kappaletta ja kaikki ovat käytössä. Yhdessä CUDA-ytimessä on täysin liukuhihnoitettu aritmeettis-looginen- (ALU) ja liukulukuyksikkö (FPU). GF110 tukee IEEE 754-2008 -liukulukustandardia, joka tarjoaa FMA-käskyn (fused multiply-add) single ja double precision -liukulukuformaateille. CUDA-ytimien rinnalla on 16 kappaletta Load/Store-yksiköitä, jotka mahdollistavat lähde- ja kohdeosoitteiden laskennan 16 säikeelle kellojaksossa sekä neljä Special Function -yksikköä (SFU), jotka kykenevät suorittamaan transkendenttisia käskyjä, kuten sini, käänteisluku ja neliöjuuri.

Jokaisella SM-moduulilla on oma PolyMorph Engine eli niitä on GF110-grafiikkapiirissä yhteensä 16 kappaletta ja näin vältytään turhilta geometrisilta pullonkauloilta. PolyMorph Engine koostuu viidestä vaiheesta, jotka ovat Vertex Fetch, Tessellator, Viewport Transform, Attribute Setup ja Stream Output. Jokaisessa yksikössä lasketut tulokset siirretään SM-moduulille, joka suorittaa 3D-sovelluksen shaderin ja palauttaa tuloksen PolyMorph Enginen seuraavalle vaiheelle. Kun kaikki vaiheet on suoritettu, tulokset siirretään eteenpäin Raster Engineille.

Yksi SM-mooduuli on varustettu neljällä tekstuuriyksiköllä, joten GF110:n 16 SM-moduulilla niitä on käytössä yhteensä 64 kappaletta. Jokainen tekstuuriyksikkö kykenee laskemaan tekstuuriosoitteen ja hakemaan neljä tekstuurinäytettä kellojaksossa. Tulokset voidaan palauttaa bilineaari-, trilineaari- tai anisotrooppisella suodatuksella sekä ei-suodatettuna.

GF110 tukee FP16-tekstuurisuodatusta täydellä nopeudella eli kykenee suodattamaan neljä komponenttia yhdessä kellojaksossa (FP16x4). Lisäksi Z-puskuriin tallennettujen objektien rajausta (Z-culling) on parannettu.

GF110 supports full-speed FP16 texture filtering. This can yield speedups in certain texture-heavy apps. Second, GF110 also supports new tile formats that improve Z-cull efficiency.

Ennen julkaisua netin keskustelupalstoilla ja IT-sivustoilla liikkuneet huhut 512-bittisestä muistiohjaimesta, 128 tekstuuriyksiköstä ja kahden gigatavun muistimäärästä olivat tuulesta temmattuja.

 

Uusi vapor chamber -jäähdytysratkaisu

GF110-grafiikkapiirin suorituskyky- ja tehonkulutusoptimoinnin lisäksi NVIDIAn toinen GeForce GTX 580:n suunnittelun avainominaisuuksista on ollut jäähdytysratkaisun radikaali melutason alentaminen.

GeForce GTX 580:n Vapor Chamber -jäähdytysratkaisussa kuparinen höyrykammio on yhteydessä GF110-grafiikkapiirin heatspreaderiin ja sen päällä on kahden korttipaikan korkuinen alumiinirivasto. Grafiikkapiirin tuottama lämpö höyrystää kammion sisälle suljetun nesteen kammion yläosaan, josta radiaalituulettimen ilmavirran jäähdyttämä höyry valuu nestemäiseksi kammion pohjalle uuteen kiertoon.

Radiaalituulettimen suunnitteluun on tehty useita muutoksia, joiden avulla vähennetään tuulettimen tärinää ja melutasoa, ja NVIDIAn mukaan seurauksena on lisäksi huomattavasti alhaisempi äänentaso. Lisäksi tuulettimen kierrosnopeuksista vastaa uusi ohjausalgoritmi, joka pehmentää tuulettimen kierrosnopeuden muutoksia.

Viimeisenä uudistuksena koko näytönohjaimen peittävän muovikuoren takaosa on kalteva, jonka ansiosta ilma ohjautuu paremmin kohti näyttöliittimien yläpuolella sijaitsevia ulostuloaukkoja ja parantaa ilmavirtausta useamman näytönohjaimen SLI-konfiguraatiossa korttien välissä.

 

Tehonkulutuksen monitorointi

NVIDIA on lisännyt GeForce GTX 580:n piirilevylle 8- ja 6-pinnisten PCI Express -lisävirtaliittimien 12 voltin jännitelinjaa ja virtaa mittaavan ja tarkkailevan rautapohjaisen piirin. NVIDIAn mukaan Advanced Power Management -ominaisuudessa ajuri tarkkailee monitorointipiirin arvoja ja säätää dynaamisesti näytönohjaimen kellotaajuuksia alhaisemmaksi, jos tehonkulutus ylittää näytönohjaimen spesifikaation. NVIDIAn mukaan ominaisuus tunnistaa lisäksi esimerkiksi Furmark- ja OCCT-rasitusohjelmat ja laskee niissä automaattisesti kellotaajuuksia yli 50 %. NVIDIA on ilmoittanut ettei se aio tarjota kuluttajalle mahdollisuutta kytkeä rajoituksia pois päältä.

Havaitsimme Muropaketin testeissä heti, että Furmark-ohjelman 1.8.2-versiolla näytönohjaimen tehonkulutus jäi alle 300 wattiin ja grafiikkapiirin lämpötila noin 75 asteeseen. Lisäksi ruudunpäivitysnopeus Furmarkin rullatessa jäi kolmasosaan GeForce GTX 480:ään verrattuna. Tällä hetkellä mikään monitorointiohjelma ei tunnista kellotaajuuksien laskemista, joten voimme vain arvailla mille tasolle ne on rajoitettu. Kun kokeilimme vanhempaa Furmark 1.7.0 -versiota, jota GeForce 262.99 -ajurit eivät tunnista eikä kellotaajuuksia rajoiteta, GeForce GTX 580:n tehonkulutus nousi 429 wattiin ja grafiikkapiirin lämpötila 91 asteeseen.

Advanced Power Management -ominaisuus kuulostaa vielä paperilla järkevältä, sillä nykypäivän pelit eivät rasita näytönohjainta läheskään yhtä raskaasti kuin esimerkiksi Furmark. Käytännön testeissä ominaisuudessa havaittiin kuitenkin pieni epäloogisuus. Kun GeForce GTX 580 ylikellotettiin GPU:n osalta 900 MHz:n kellotaajuudelle 1,1 voltin käyttöjännitteellä, kokoonpanon tehonkulutus nousi rasituksessa yli 400 wattiin, mutta suorituskykymittauksien perusteella Advanced Power Management ei reagoinut kellotaajuuksiin mitenkään. Tällä hetkellä tuntuisi siis siltä, että kyseinen ominaisuus on kehitetty ainoastaan eliminoimaan Furmarkin ja OCCT:n tapaisten rasitusohjelmien tuottama liioiteltu 3D-rasitus.

Sisältö

  1. NVIDIA GeForce GTX 580 (GF110)
  2. Fermi-arkkitehtuurin "mid-life kicker": GF110
  3. Näytönohjaimen esittely
  4. Testikokoonpano ja suorituskykymittaukset
  5. Tehonkulutus-, lämpötila- ja melumittaukset
  6. Ylikellotustestit
  7. NVIDIAn tulevaisuuden GPU-suunnittelmat ja loppuyhteenveto