Uusimmat

Bulldozer-arkkitehtuuri

12.10.2011 09:14 Muropaketin toimitus

Perinteisessä moniytimisessä prosessorissa piisirulle on ahdettu rinnakkain useita identtisiä ytimiä, jotka kommunikoivat keskenään. Intelin Hyper-Threading-ominaisuus osaa käsitellä yhdellä ytimellä kahta säiettä kerrallaan, mutta säikeiden tarvitsee odottaa ytimen resurssien vapautumista päästäkseen tehtävässään eteenpäin.

Bulldozer-konseptin suunnittelussa on lähdetty liikkeelle kahdesta erillisestä fyysisestä prosessoriytimestä, jotka jakaisivat tiettyjä ytimen sisäisiä resursseja keskenään. Jaettujen resurssien avulla pystytään tasapainottamaan suorituskykyä, kustannuksia ja tehonkulutusta monisäikeisissä sovelluksissa. AMD:n mukaan resursseja jakamalla on myös mahdollista säästää piisirun pinta-alaa ja samalla itsenäisten resurssien avulla saavutetaan parempi suorituskyky ja skaalautuvuus, eikä säikeiden tarvitse turhaan odottaa toisiaan. Bulldozer-arkkitehtuuri keskittyy korkeaan kellotaajuuteen ja resurssien jakamiseen, joiden avulla saavutetaan optimaalinen suoritusteho seuraavan sukupolven sovelluksissa.

Yhdessä Bulldozer-moduulissa on kaksi itsenäistä kokonaislukuyksikköä neljällä liukuhihnalla ja omalla L1-välimuistilla varustettuna. Bulldozer-moduuli kykenee dekoodaamaan neljä käskyä kellojaksossa, kun edellisen sukupolven Phenom II kykenee kolmeen käskyyn. Yksittäinen kokonaan uudelleensuunniteltu liukulukuyksikkö tukee uusia käskyjä ja mahdollistaa resurssien jakamisen ytimien kesken. Liukulukuyksikkö jakaa kokonaislukuyksiköiden L1-välimuistit. L2-välimuisti on jaettu kokonaislukuyksiköiden ja liukulukuyksikön kesken ja L3-välimuisti sekä muistiohjain puolestaan kaikkien prosessorissa olevien Bulldozer-moduulien kesken.

Suurempi versio kuvaa klikkaamalla

Bulldozer-moduuli koostuu kahdesta ytimestä eli kahdeksanytimisessä FX-prosessorissa on neljä moduulia. AMD itse mainostaa FX-prosessoreita kahdeksanytimisiksi, mutta asiaa voi tarkastella myös toisesta näkökulmasta. Jaettujen resurssien takia yksi moduuli voidaan laskea yhdeksi ytimeksi, joka kykenee käsittelemään kahta säiettä ja on terästetty ylimääräisellä L1-välimuistilla varustetulla kokonaislukuyksiköllä.

Suurempi versio kuvaa klikkaamalla

Globalfoundriesin 32 nm:n SOI + HKMG -prosessilla (Silicon on Insulator with High-k Metal Gate) valmistettavien FX-prosessoreiden piisiru rakentuu noin kahdesta miljardista transistorista ja sen pinta-ala on 315 neliömillimetriä. Vertailun vuoksi Intelin 32 nm:n Core i5- ja i7 Sandy Bridge -prosessoreissa on 1,16 miljardia transistoria ja piisirun pinta-ala on 216 neliömillimetriä. FX:n piisirussa on siis 72 % enemmän transistoreita ja se on noin 46 % suurempi kuin Sandy Bridge, johon on lisäksi integroitu grafiikkaohjain. Suurin syy FX:n huomattavasti korkeampaan transistorimäärään on iso ero L2-välimuistisuunnittelussa ja sen määrässä, jota on FX:ssä yhteensä kahdeksan megatavua (4 x 2 Mt) ja Sandy Bridgessä megatavu (4 x 256 kt).

FX-prosessorin piisirun kaaviokuvaan on eroteltu kahdeksan Bulldozer-ydintä, keskellä on ytimien kesken jaettu kahdeksan megatavun suuruinen L3-välimuisti ja jokaiselle moduulille oma kahden megatavun L2-välimuisti, jota on yhteensä kahdeksan megatavua. Oikeassa reunassa on DDR3-muistiohjain, vasemmalla on yhteensä neljä HyperTransport-linkkiä ja ylhäällä ja alhaalla sekalaisia I/O-liitäntöjä. Piisiruun integroitu 2,0-2,2 GHz:n kellotaajuudella toimiva northbridge ohjaa L3-välimuistia, DDR3-muistikanavia ja HyperTransport-linkkejä.

AMD esitteli Phenom II X6 -prosessoreiden yhteydessä Turbo Core -teknologian, joka mahdollistaa kolmen ytimen kellotaajuuden nostamisen 400-500 MHz:llä, kun rasitus kohdistuu 1-3 ytimelle. FX-prosessoreissa Turbo Corea on uudistettu siten, että kaikkien ytimien kellotaajuutta voidaan nostaa Turbolla rasituksessa (mallista riippuen 100-300 MHz), jos se on mahdollista TDP-arvon sallimissa rajoissa. Kun käytössä on sovellus, joka rasittaa maksimissaan puolta prosessoriytimistä, rasitettavien ytimien kellotaajuus nousee vieläkin korkeammalle (200-900 MHz) ja puolet ytimistä vaipuu C6-lepotilaan.

Bulldozer tuo mukanaan tuen SSSE3-käskykannalle sekä SSE4.1-laajennuksen 47 käskylle, jotka Intel lanseerasi 45 nm:n Penryn-prosessoreissa vuonna 2007 ja 4.2-laajennuksen lopuille seitsemälle käskylle, jotka otettiin käyttöön Intelin Nehalem-arkkitehtuurissa vuonna 2008.

Bulldozeriin on myös lisätty Intelin Sandy Bridgen tavoin lisätty tuki 256-bittiselle AVX-käskykannalle (Advanced Vector Extension), joka on parantaa liukulukulaskennan suorituskykyä sekä AES-NI- ja PCLMULQDQ-käskyt AES-salausalgoritmin (Advanced Encryption Standard) pakkaus- ja purkuoperaatioiden nopeuttamiseen.

AMD:n omista käskyistä FMA4 on suunnattu HPC-käyttöön ja XOP luku-, multimedia- ja äänen sekä radion algoritmiohjelmiin.

Sisältö

  1. AMD FX-8150 (Zambezi)
  2. Bulldozer-arkkitehtuuri
  3. FX-8150-prosessorin ja Socket AM3+ -kannan esittely
  4. Testikokoonpano ja suorituskykymittaukset
  5. Tehonkulutus- ja lämpötilamittaukset & ylikellotustestit
  6. Loppuyhteenveto