UUSIMMAT

Pelinkehittäjät ylistävät kilpaa asynkronisia varjostimia

05.06.2016 18:47 | Petrus Laine | 42

Asynkroniset varjostimet

Pelinkehittäjät ovat kehuneet Twitterissä kilpaa asynkronisten varjostimien tuomia etuja grafiikassa. Twitter-keskustelusta raportoi WCCFTech-sivusto. Asynkronisia varjostimia ylistävään Twitter-keskusteluun osallistuivat AMD:n Roy Taylor, Oxiden Dan Baker, id Softwaren Tiago Sousa, Ubisoftin Mickael Gilabert ja Q-Gamesin James McLaren.

Dan Bakerin mukaan Oxide on saanut parannettua Ashes of the Singularityn suorituskykyä noin 15 % prosenttia AMD:n näytönohjaimilla kiitos asynkronisten varjostimien, ja uskoo että he pystyisivät vielä parempaankin. id:n Tiago Sousa puolestaan totesi, että Doom hyötyy konsoleilla 3 – 5 millisekuntia jokaisessa ruudussa asynkronisesta laskennasta, ja sen olleen yksi avaintekijöistä 60 FPS:n ruudunpäivitysnopeuteen. Yhden ruudun renderöinti 60 FPS:n nopeudella saa kestää vain 16,6 millisekuntia. Sousa lisäsi myös, että PlayStation 4- ja Xbox One -konsoleiden profilointityökalut ovat huomattavasti edellä PC-maailmaa, mikä helpotti asynkronisten varjostimien hyödyntämistä. PC-puolella Doom pääsee hyödyntämään asynkronisia varjostimia ilmeisesti vasta Vulkan-version myötä.

PlayStation 4:lle The Tomorrow Children -peliä kehittävä James McLaren yhtyi Sousan sanoihin, ja totesi yhtiön saaneen asynkronisista varjostimista apua peräti 6 – 7 millisekuntia per ruutu 30 FPS:n ruudunpäivitysnopeudella. Ubisoftin Mickael Gilabert puolestaan kertoi Far Cry Primalin hyötyneen asynkronisilla varjostimilla noin 2,5 – 3 millisekuntia ruutua kohden.

Asynkroniset varjostimet mahdollistavat konsoleilla ja uusilla PC:n rajapinnoilla grafiikkapiirin laskentakapasiteetin hyödyntämisen aiempaa tehokkaammin. Asynkronisesten varjostimien kanssa grafiikkapiiri suorittaa samanaikaisesti sekä perinteisiä grafiikkaan liittyviä tehtäviä, että laskentatehtäviä. AMD:n GCN-arkkitehtuurin ACE-yksiköt mahdollistavat sekä grafiikka- että laskentatehtävien suorittamisen samanaikaisesti täysin saumattomasti. NVIDIAlla tuki on ollut heikommassa jamassa, sillä vaikka esimerkiksi Maxwell-arkkitehtuuri mahdollistaa jollain tasolla tehtävien yhtaikaisen suorittamisen, joutuu grafiikkapiiri odottelemaan tyhjänpanttina jos toisen tyyppiset tehtävät valmistuvat ennen toisia. Pascal-arkkitehtuuri parantaa tilannetta selvästi, mutta sitä ei pidetä vielä AMD:n ACE-yksiköiden tasoisena ratkaisuna.

Keskustelu

"Yhden ruudun renderöinti 60 FPS:n nopeudella saa kestää vain 16,6 millisekuntia."

Hyvä että tämä tuli selväksi. Saiko se ennen olla enemmän? :D

Eli käytännössä nämä useat pelit omaavat konsolilla joitakin DX12 ominaisuuksia, mutta PC:llä eivät. Miksei PC-pelaajat voi saada näissä samoissa titteleissä asynkronisia varjostimia käyttöönsä? Johtuuko tämä siihen nähtävästä vaivasta vai jostain Nvidian poikotoinnista?

Entäs Vulkan? Kun Doom saa Vulkan tuen niin pystyykö Nvidia saamaan saman laisia tehohyötyjä rajapinnasta kuin AMD? Näyttää ihan oikeasti siltä, että Nvidia koukkii asian kanssa jollain hämärällä tavalla, tai sitten vain luottaa siihen ettei ominaisuus yleisty PC-porteissa.

Onhan tämä ominaisuus sanomattakin hyödyllinen ja se muistuttaa lopputulokseltaan monella tavalla Intelin HyperThreading teknologiaa, vaikka kyse onkin ihan eri ympäristöstä.

samixz

"Yhden ruudun renderöinti 60 FPS:n nopeudella saa kestää vain 16,6 millisekuntia."

Hyvä että tämä tuli selväksi. Saiko se ennen olla enemmän? :D

Ei tietenkään, tuo antoi vain vähän kontekstia sille kuinka merkittävä esimerkiksi 3ms:n säästö on (ja vaikka moni muropaketin lukija varmasti tietää tuon 16,6ms:n, niin kaikki ei välttämättä tiedä)

Ihan jees, että latenssit pienenee. Huomaako tuota nyt sitten käytössä, jos verrataan kahta eri tilannetta jossa FPS on sama? VR-käyttö on sitten asia erikseen :kahvi:

Forgiven12

Ihan jees, että latenssit pienenee. Huomaako tuota nyt sitten käytössä, jos verrataan kahta eri tilannetta jossa FPS on sama? VR-käyttö on sitten asia erikseen :kahvi:

Ei se FPS ole sama.
Hypoteettinen skenaario Doom-lukuihin perustuen:
Ruudun renderöinti ilman asynciä 19,6 – 21,6ms > FPS 46 – 51
Ruudun renderöinti asyncillä 16,6 ms > FPS 60

Forgiven12

Ihan jees, että latenssit pienenee. Huomaako tuota nyt sitten käytössä, jos verrataan kahta eri tilannetta jossa FPS on sama? VR-käyttö on sitten asia erikseen :kahvi:

Ei tuossa ole kyse viiveistä, vaan piirtonopeudesta. Kun ruudun piirtoon menee enemmän aikaa, FPS on huonompi.

60 FPS = 16.66 ms/frame.

16.66 + 3 ms/frame = 19.66 ms/frame = 50.9 FPS.
16.66 + 5 ms/frame = 21.66 ms/frame = 46.1 FPS.

Eli peli pyörii esim. 60 FPS asynkroonisten varjostimien kanssa mutta 46-51 FPS ilman.

Jaahas, Kaotika ehtikin jo sanoa saman.

BOT

Eli käytännössä nämä useat pelit omaavat konsolilla joitakin DX12 ominaisuuksia, mutta PC:llä eivät. Miksei PC-pelaajat voi saada näissä samoissa titteleissä asynkronisia varjostimia käyttöönsä? Johtuuko tämä siihen nähtävästä vaivasta vai jostain Nvidian poikotoinnista

Konsolit eivät pyöri DX12-koodilla vaan omilla ohjelmoitirajapinnoillaan jotka ovat samankaltaisia mutteivat täysin samanlaisia kuten DX12/Vulkan joten koodia ei voi ihan 1:1 kääntää. Saatava hyöty ei siis liene vaivan arvoista.

Entäs Vulkan? Kun Doom saa Vulkan tuen niin pystyykö Nvidia saamaan saman laisia tehohyötyjä rajapinnasta kuin AMD? Näyttää ihan oikeasti siltä, että Nvidia koukkii asian kanssa jollain hämärällä tavalla, tai sitten vain luottaa siihen ettei ominaisuus yleisty PC-porteissa.

Molemmat hyötyvät ainakin sen verran mitä renderöinnin multithreadaamisesta hyötyy. Koodaajien asia sitten mitä muita featureita käytetään.

Konsoleilla aidosti yhtenäinen muistialue mahdollistaa sen, että monia tehtäviä voi laskea GPU:lla, mitkä PC:llä ovat käytännössä mahdottomia laskea GPU:lla. Async compute on käytännössä pakollinen asia, tai unified memorystä ei ole mitään hyötyä.

Zepi

Konsoleilla aidosti yhtenäinen muistialue mahdollistaa sen, että monia tehtäviä voi laskea GPU:lla, mitkä PC:llä ovat käytännössä mahdottomia laskea GPU:lla. Async compute on käytännössä pakollinen asia, tai unified memorystä ei ole mitään hyötyä.

Mutta sehän se on juuri devien tehtävä koodata niin että homma pyörii myös PC-puolella. Jos ei toimi niin peli saattaa jäädä kaupan hyllylle pölyttymään.

Anchoraged

Konsolit eivät pyöri DX12-koodilla vaan omilla ohjelmoitirajapinnoillaan jotka ovat samankaltaisia mutteivat täysin samanlaisia kuten DX12/Vulkan joten koodia ei voi ihan 1:1 kääntää. Saatava hyöty ei siis liene vaivan arvoista.

Xbox One itseasiassa käyttää ihan samaa DX12:sta kuin PC:kin.

Otor

Mutta sehän se on juuri devien tehtävä koodata niin että homma pyörii myös PC-puolella. Jos ei toimi niin peli saattaa jäädä kaupan hyllylle pölyttymään.

Mitä tekemistä tällä on asian kanssa? Jos jotain ei voi tehdä PC:llä ei sitä tietenkään tehdä PC:llä. Mutta ei se silti poista sitä faktaa, etteikö siitä olisi hyötyä jos se olisi mahdollista.

Karkeasti voisi sanoa, että konsoleilla ei ole ohjelmoijan näkökulmasta erillistä GPU:ta ja CPU:ta. On vain 8kpl keskinkertaisen nopeita erittäin general purpose laskentayksiköitä ja useita kymmeniä todella heikkoja, mutta sitäkin paremmin rinnakkaistuville laskutoimituksille sopivia Compute Unitteja. Kumpiakin voi käyttää kuten parhaakseen näkee ja muistia voi osoittaa kummastakin jotakuinkin vapaasti.

PC:llä on 2-8 erittäin nopeaa mahdollisesti hyperthreadaavaa general purpose laskentayksikköä, sekä hirvittävän pitkän latenssin päässä aivan käsittämätön määrä noita konsolin kansa verrannollisia varsin keskinkertaisia rinnakkaislaskentayksiköitä. Niitä on vaan 3-8x enemmän kun konsoleissa, mutta kiitos tuon valtaisan latenssin siinä välissä, niitä ei voi yhtä helposti käyttää mihinkään reaaliaikaiseen saman framen sisällä tapahtuvaan laskentaan, vaikka mitä async-juttuja olisikin tarjolla.

Zepi

Mitä tekemistä tällä on asian kanssa? Jos jotain ei voi tehdä PC:llä ei sitä tietenkään tehdä PC:llä. Mutta ei se silti poista sitä faktaa, etteikö siitä olisi hyötyä jos se olisi mahdollista.

Karkeasti voisi sanoa, että konsoleilla ei ole ohjelmoijan näkökulmasta erillistä GPU:ta ja CPU:ta. On vain 8kpl keskinkertaisen nopeita erittäin general purpose laskentayksiköitä ja useita kymmeniä todella heikkoja, mutta sitäkin paremmin rinnakkaistuville laskutoimituksille sopivia Compute Unitteja. Kumpiakin voi käyttää kuten parhaakseen näkee ja muistia voi osoittaa kummastakin jotakuinkin vapaasti.

PC:llä on 2-8 erittäin nopeaa mahdollisesti hyperthreadaavaa general purpose laskentayksikköä, sekä hirvittävän pitkän latenssin päässä aivan käsittämätön määrä noita konsolin kansa verrannollisia varsin keskinkertaisia rinnakkaislaskentayksiköitä. Niitä on vaan 3-8x enemmän kun konsoleissa, mutta kiitos tuon valtaisan latenssin siinä välissä, niitä ei voi yhtä helposti käyttää mihinkään reaaliaikaiseen saman framen sisällä tapahtuvaan laskentaan, vaikka mitä async-juttuja olisikin tarjolla.

Sen verran lisätään vielä, että niitä voi oikein hyvin käyttää async-juttuihin, mutta niiden juttujen pitää käytännössä olla sellaisia jotka suoritettaisiin joka tapauksessa siellä GPU:n päässä, kuten postprocessing jne

Zepi

Mitä tekemistä tällä on asian kanssa?

No mitä tekemistä? Pitääkö palapelillä vielä selittää. Kyllä se vain on niin jos ei koodi toimi PC-puolella tarpeeksi nopeasti ja varsinkin jos peli on huono niin kipinkapin tekele roskakoriin ja kauppa kiinni.

hkultala

Ei tuossa ole kyse viiveistä, vaan piirtonopeudesta. Kun ruudun piirtoon menee enemmän aikaa, FPS on huonompi.

60 FPS = 16.66 ms/frame.

16.66 + 3 ms/frame = 19.66 ms/frame = 50.9 FPS.
16.66 + 5 ms/frame = 21.66 ms/frame = 46.1 FPS.

Eli peli pyörii esim. 60 FPS asynkroonisten varjostimien kanssa mutta 46-51 FPS ilman.

Jaahas, Kaotika ehtikin jo sanoa saman.

Minusta tässä lasketaan väärinpäin.
Eli kyse ei ole siitä kuinka paljon asyncronisten shadereiden käyttäminen säästää renderöintiaikaa eikä siitä, kuinka niiden poissaolo lisää renderöintiaikaa.

FPS-erot ovat oikeasti sekä lukumäärällisesti FPS:nä että prosentuaalisesti suuremmat kuin väärään suuntaan laskettaessa.
16.66 – 3 ms/frame = 13.66 ms/frame = 73,21 FPS -> 22,0% enemmän FPS:ä
16.66 – 5 ms/frame = 11.66 ms/frame = 86.76 FPS -> 44,6% enemmän FPS:ä

demu

Minusta tässä lasketaan väärinpäin.
Eli kyse ei ole siitä kuinka paljon asyncronisten shadereiden käyttäminen säästää renderöintiaikaa eikä siitä, kuinka niiden poissaolo lisää renderöintiaikaa.

FPS-erot ovat oikeasti sekä lukumäärällisesti FPS:nä että prosentuaalisesti suuremmat kuin väärään suuntaan laskettaessa.
16.66 – 3 ms/frame = 13.66 ms/frame = 73,21 FPS -> 22,0% enemmän FPS:ä
16.66 – 5 ms/frame = 11.66 ms/frame = 86.76 FPS -> 44,6% enemmän FPS:ä

No asianhan voi ilmaista monella tapaa, ehkä taviksille helpointa on tämä sinun tapasi sanoa että FPSää tulee 44% lisää, kuin että ruudun laskemiseen tarvittava laskenta-aika on 1,44^(-1)=0,69 kertainen aikaisempaan nähden. Tottakai se, että ottaa 16ms:stä 5 pois on suhteessa parempi, kuin että ottaa sen 5ms pois 21ms:stä.

Wintec

Eikö AMD pysty parempaan?
[​IMG]

https://www.guru3d.com/articles-pages/msi-geforce-gtx-1080-gaming-x-8g-review,31.html

Kuvateksti mukaan:

And combined, the GTX 1080 and the R9 Fury from AMD. Though the cards perform well we do see more inconsistency with the Fury, especially in the final 5 seconds of our recording there's a lot of stuff going on. Though in their defense, none of that is really visible on screen. But yeah, it's a difference alright.

Edit:
Ja eikös Ashesin async ollut disabloitu nykyisin nvidian korteilta? Huono vertaus siis tähän uutiseen, paitsi siltä osin että 1080 on nopea ilmankin.

demu

Minusta tässä lasketaan väärinpäin.
Eli kyse ei ole siitä kuinka paljon asyncronisten shadereiden käyttäminen säästää renderöintiaikaa eikä siitä, kuinka niiden poissaolo lisää renderöintiaikaa.

FPS-erot ovat oikeasti sekä lukumäärällisesti FPS:nä että prosentuaalisesti suuremmat kuin väärään suuntaan laskettaessa.
16.66 – 3 ms/frame = 13.66 ms/frame = 73,21 FPS -> 22,0% enemmän FPS:ä
16.66 – 5 ms/frame = 11.66 ms/frame = 86.76 FPS -> 44,6% enemmän FPS:ä

Ei laskettu väärinpäin, koska nimenomaan se async oli oleellinen että kyettiin saavuttamaan se 60 FPS konsoleilla, eli ilman sitä renderöintiaika oli yli 16,6ms per frame

Näytä kaikki kommentit

Mitenköhän tilanne olisi tuossa benchissä jos AMD:lla olisi paremmat DX11-ajurit?

Smanci

Mitenköhän tilanne olisi tuossa benchissä jos AMD:lla olisi paremmat DX11-ajurit?

Täysin mahdoton spekuloida. Kuin myös sekin, että mikä olisi tilanne jos nvidialla olisi paremmat DX12 ajurit. Näin ulkopuolisena on mahdoton sanoa miten paljon optimoinnin varaa ajureissa on, ja kuinka paljon tulee performanssi hittiä raudan ja rajapinnan arkkitehtuurisista epäyhteensopivuuksista. Sekä AMD:n DX11, että nvidian DX12 toteutuksissa.

Smanci

Mitenköhän tilanne olisi tuossa benchissä jos AMD:lla olisi paremmat DX11-ajurit?

AMD: n arkkitehtuuri taipuu (heikkous) huonosti/ huonommin DX11: sta, se on jo valmiiksi tiedossa.

adder

Täysin mahdoton spekuloida. Kuin myös sekin, että mikä olisi tilanne jos nvidialla olisi paremmat DX12 ajurit. Näin ulkopuolisena on mahdoton sanoa miten paljon optimoinnin varaa ajureissa on, ja kuinka paljon tulee performanssi hittiä raudan ja rajapinnan arkkitehtuurisista epäyhteensopivuuksista. Sekä AMD:n DX11, että nvidian DX12 toteutuksissa.

Erohan tässä on se että DX11 vaati todella paljon ajuritason optimointeja, jotka nVidia tosiaan hoiti huomattavasti paremmin kuin AMD. DX12/Mantle/Vulkan kanssa tuo ajurin merkitys laskee ja tärkeämmäksi muodostuu sitten se pelin/ohjelman optimointi. Tähän toki auttaa se että nykyään pelit tehdään muutamalla eri pelimoottorilla jotka optimoidaan, eikä jokaiseen peliin rakenneta uutta moottoria tyhjästä.
AMD raudassa on selvästi tehoa joka on DX11 kanssa hukattu turhana. DX12 myötä näyttää siltä että tuota hukkaan heitettyä tehoa on saatu käyttöön, jolloin kortin kokonaisteho (ja käyttöaste) nousee.

En mensi sanomaan kummankaan valmistajan tuotteita "epäyhteensopiviksi" vaan lähinnä eri tavoin optimoiduiksi. nVidia on optimoinut sen mitä DX11 kanssa tarvitaan ja tuloksen näkee testeissä. Jatkuuko AMD "etumatka" DX12 tuen puolella on kysymysmerkki. Voihan olla että pascalin isommat piirit hyödyntävät asynkkiä ym. kuten AMD ja kuluttajat voittavat kun pelit optimoidaan sille paremmin.

Uutiseen liittyen voisi ainakin veikata että asynkki on tullut pysyvästi käyttöön. Mielestäni tämä on hyvä uutinen. :)

Smanci

Mitenköhän tilanne olisi tuossa benchissä jos AMD:lla olisi paremmat DX11-ajurit?

Ei ainakaan yhtä hyvä kuin NVIDIAlla, koska GCN-arkkitehtuurissa on rautaa jota ei yksinkertaisesti voida hyödyntää samaan tapaan DX11:ssä kuin DX12:ssa/Vulkanissa/Mantlessa/konsoleilla

Wintec

AMD: n arkkitehtuuri taipuu (heikkous) huonosti/ huonommin DX11: sta, se on jo valmiiksi tiedossa.

Suurempi heikkous on kylläkin tuo Nvidian DX12 featurelisti, joka on AMD:n nähden verrattain köyhä. Sinänsä hyvä homma, että tulevaisuudessa DX12 pelien yleistyessä Nvidialla tulee kiire päivittää arkkitehtuuriaan. DX11 alkaakin olemaan jo kaikin puolin ikivanha ja ylipaisunut arkkitehtuuri, joka vain hidastaa menoa. Tuosta ei voi kiistellä kun miettii DX12 hyötyjä DX11:sta.

Njaah, sitäkin on povattu jo ties kuinka monen näyttissukupolven ajan, että AMD tulee edistyksellisine ominaisuuksineen ja pyyhkii pöydän Nvidialla. Ei ole näkynyt…ainakin jo DX10.1 ajoista saakka on tätä virttä laulettu. Joten katsotaanpa nyt ihan rauhassa miten DX12 etenee ja nostetaan sitten vasta ne AMD-liput salkoon.

Vesa H.

Suurempi heikkous on kylläkin tuo Nvidian DX12 featurelisti, joka on AMD:n nähden verrattain köyhä. Sinänsä hyvä homma, että tulevaisuudessa DX12 pelien yleistyessä Nvidialla tulee kiire päivittää arkkitehtuuriaan. DX11 alkaakin olemaan jo kaikin puolin ikivanha ja ylipaisunut arkkitehtuuri, joka vain hidastaa menoa. Tuosta ei voi kiistellä kun miettii DX12 hyötyjä DX11:sta.

Koita nyt edes :facepalm:
NVIDIA on edellä D3D12-tuessa:

  • Direct3D Feature Level 12_1
  • Tiled Resources Tier 3
  • Conservative Rasterization Tier 2
  • Rasterizer-ordered Views

AMD on edellä D3D12-tuessa:

  • Resource Binding Tier 3
  • Stencil reference value from pixel shader
  • UAV slots for all stages
  • minimum floating point precision 16 bit
  • Resource heap Tier 2
  • Viewport and render target array index from shader feeding to the rasterizer

Intel on edellä D3D12-tuessa:

  • Kaikki muu, ja lopuissakin vähintään samalla tasolla kuin parempi parivaljakosta AMD & NVIDIA

Kyllä, AMD:lla on enemmän "yksittäisiä ominaisuuksia" paremmassa kuosissa, mutta siitä huolimatta GCN on toistaiseksi FL12_0 tasoa, ei FL12_1, saa nähdä tuoko 4th gen GCN tuohon muutosta

Kaotika

Koita nyt edes :facepalm:
NVIDIA on edellä D3D12-tuessa:

  • Direct3D Feature Level 12_1
  • Tiled Resources Tier 3
  • Conservative Rasterization Tier 2
  • Rasterizer-ordered Views

AMD on edellä D3D12-tuessa:

  • Resource Binding Tier 3
  • Stencil reference value from pixel shader
  • UAV slots for all stages
  • minimum floating point precision 16 bit
  • Resource heap Tier 2
  • Viewport and render target array index from shader feeding to the rasterizer

Intel on edellä D3D12-tuessa:

  • Kaikki muu, ja lopuissakin vähintään samalla tasolla kuin parempi parivaljakosta AMD & NVIDIA

Kyllä, AMD:lla on enemmän "yksittäisiä ominaisuuksia" paremmassa kuosissa, mutta siitä huolimatta GCN on toistaiseksi FL12_0 tasoa, ei FL12_1, saa nähdä tuoko 4th gen GCN tuohon muutosta

Jep AMD edellä 6:ssa asiassa, Nvidia 4:ssä. Pointtisi? Asynkronisten varjostimien käyttö tuntuu silti olevan Nvidialle ylitsepääsemätön este nykyisellä featurelistillä.

Vesa H.

Jep AMD edellä 6:ssa asiassa, Nvidia 4:ssä. Pointtisi? Asynkronisten varjostimien käyttö tuntuu silti olevan Nvidialle ylitsepääsemätön este nykyisellä featurelistillä.

Pointtina oli jotta todennäköisemmin kehittäjät hyödyntävät selkeitä featureleveleitä (11_0, 11_1, 12_0, 12_1), jotka vaativat tietyt ominaisuudet, kuin lähtisivät hyödyntämään esim 12_0-korteilla ominaisuuksia joita ei vaadita edes 12_1-korteilta

Kaotika

Pointtina oli jotta todennäköisemmin kehittäjät hyödyntävät selkeitä featureleveleitä (11_0, 11_1, 12_0, 12_1), jotka vaativat tietyt ominaisuudet, kuin lähtisivät hyödyntämään esim 12_0-korteilla ominaisuuksia joita ei vaadita edes 12_1-korteilta

Siitä huolimatta pelinkehittäjät haluavat käyttää asynkronisia varjostimia, mitkä ei tunnu Nvidialta jostain syystä onnistuvan. Veikkailin Nvidialta puutteellista DX12 featureleveliä näiltä osin siis. Vanhemmilla Nvidian korteilla etenkin DX12 tuki tuntuu olevan täysi vitsi.

Pari kk vanha video, mutta kaikki ei ole varmastikaan katsoneet.

mrkukov

Pari kk vanha video, mutta kaikki ei ole varmastikaan katsoneet.

Yhteenveto vaikutti olevan se, että Maxwell arkkitehtuuri ei tarvitse Asynciä performoidakseen hyvin, mutta Async tulee olemaan tulevaisuudessa yhä käytetympi ominaisuus. Lisäksi viimeisimmät AMD:n näytönohjaimet ovat varsin tehokkaita, mutta niistä ei useasti saada aivan kaikkea tehoa puristettua irti, ja tässä Async auttaa, mikä näyttää korttien todellisen tehokkuuden.

BOT

Yhteenveto vaikutti olevan se, että Maxwell arkkitehtuuri ei tarvitse Asynciä performoidakseen hyvin, mutta Async tulee olemaan tulevaisuudessa yhä käytetympi ominaisuus. Lisäksi viimeisimmät AMD:n näytönohjaimet ovat varsin tehokkaita, mutta niistä ei useasti saada aivan kaikkea tehoa puristettua irti, ja tässä Async auttaa, mikä näyttää korttien todellisen tehokkuuden.

Amd:n gcn tekniikan suorituskyky näyttää olevan merkittävästi heikompi kuin nvidian suorittimilla. Vaikka Fiji lastuissa on yli 30% enemmän ytimiä (4096 Stream prosessors) vs. rampautettu 980ti (2816 Cuda cores) niin jostain syystä jälkimmäinen vie fury kortteja kuin pässiä narussa huomattavasti pienemmällä kulutuksella,… puhumattakaan uusista gtx 1080/1070 ohjaimista (2560 tai 1920 cuda cores).

sChoOlmAStEr

Amd:n gcn tekniikan suorituskyky näyttää olevan merkittävästi heikompi kuin nvidian suorittimilla. Vaikka Fiji lastuissa on yli 30% enemmän ytimiä (4096 Stream prosessors) vs. rampautettu 980ti (2816 Cuda cores) niin jostain syystä jälkimmäinen vie fury kortteja kuin pässiä narussa huomattavasti pienemmällä kulutuksella,… puhumattakaan uusista gtx 1080/1070 ohjaimista (2560 tai 1920 cuda cores).

Riippuu ihan tehtävästä mikä arkkitehtuuri suoriutuu nopeiten. Pelikoodi (ainakin DX11-aikainen) on tosiaan aika sääntönä sellaista, ettei se saa GCN:stä kaikkea irti, DX12 ja async auttaa siinä jonkin verran.
Ytimien määrän vertailu on täysin turhaa ja järjetöntä, ne ovat erilaisia ytimiä. Ne ovat myös vain yksi osa isossa palapelissä nimeltä GPU, eikä suinkaan ainut tai ainut suorituskykyyn vaikuttava.

Pääasia että suorituskykyä löytyy, tulkoon se sitten arkitehtuurin mahdollistamista korkeista kelloista,Asynkistä Tms..
Kunhan sitä löytyy nyt ja tulevaisuudessa.

sChoOlmAStEr

Ytimien määrän vertailu on täysin turhaa ja järjetöntä, ne ovat erilaisia ytimiä. Ne ovat myös vain yksi osa isossa palapelissä nimeltä GPU, eikä suinkaan ainut tai ainut suorituskykyyn vaikuttava.

AMD:n ja nVidian ytimet ovat täysin vertailukelpoisia toistensa suhteen, pieni ero hyötysuhteessa voi tulla siitä että nVidian wawefront on puolta pienempi kuin AMD:llä. Ja kortin laskentanopeus on ytimet*kellotaajuus eli 980ti(ja 1080) kompensoi pienemmän ytimien määränsä korkeammilla kellotaajuuksilla. Korkeammat kellotaajuudet vaan ovat huonoksi piirien hyötysuhteelle, nVidia on ratkaissut ongelman yksinkertaistamalla Fermin jälkeisissä arkkitehtuureissaan laskentapuolen front-endin rautatoteutuksen ja käyttää sen sijaan softatoteutusta – muuten hyvä mutta ilman erinomaista ajuritotetutusta piirien suorituskyky floppaa. Nythän on käynyt niin että nVidian vanhempien arkkitehtuurien suorituskyky vs aikakauden AMD GCN kilpailijat uusilla ohjelmistoilla on suorastaan huonoa eli ei se hyvän hyötysuhteen ajaminen GPU:n hinnalla millä hyvänsä välttämättä kuluttajaa hyödytä pitkässä juoksussa.

sChoOlmAStEr

Amd:n gcn tekniikan suorituskyky näyttää olevan merkittävästi heikompi kuin nvidian suorittimilla. Vaikka Fiji lastuissa on yli 30% enemmän ytimiä (4096 Stream prosessors) vs. rampautettu 980ti (2816 Cuda cores) niin jostain syystä jälkimmäinen vie fury kortteja kuin pässiä narussa huomattavasti pienemmällä kulutuksella,… puhumattakaan uusista gtx 1080/1070 ohjaimista (2560 tai 1920 cuda cores).

Ero suorituskyvyssä ei tule pääsääntöisesti niistä itse GCN-suorittimista, vaan siitä mitä on ympärillä:

Fiji-piirissä on vain 64 ROPia, 980TI:ssä 96. Ja DX11-ajurit on nvidialla paljon paremmat kuin AMDllä.

Eli kun piirretään esim. z-only passia tai käytetään järeää AA-moodia, eikä shaderit ole todella pitkiä, Fijistä loppuu pikselinpiirtonopeus kesken, vaikka laskentatehoa riittäisi. Ja monet GCN-prossut idlaa kun ajurit ei saa annettua niille laskettavaa(ja samalla idlaa niihin kytketyt tekstuuriyksiköt)

Mutta energiatehokkuudessa Maxwell oli kyllä selvästi GCN1.2n edellä.

Ja "vie kuin pässiä narussa" pätee vain vanhoihin DX11-peleihin.

Sitä en ymmärrä, että miksi AMD päätyi laittamaan fijiin vain 64 ROPia, kun tällä kertaa olisi ollut muistikaistaakin niiden ruokkimiseen. (Aiemmilla muistiratkaisuilla ROPin vähyyden ymmärtää, niistä ei ole hyötyä jos ei ole kaistaa niiden ruokkimiseen)

Ja edes jonkinlainen aasinsilta threadin aiheeseen:

Asynkrooniset shaderit nimenomaan auttavat siihen, että ne näyttiksen ytimet saadaan suuremman osan ajasta laskemaan jotain eikä kuluttamaan aikansa CPUn odotteluun.

hkultala

Sitä en ymmärrä, että miksi AMD päätyi laittamaan fijiin vain 64 ROPia, kun tällä kertaa olisi ollut muistikaistaakin niiden ruokkimiseen. (Aiemmilla muistiratkaisuilla ROPin vähyyden ymmärtää, niistä ei ole hyötyä jos ei ole kaistaa niiden ruokkimiseen)

Piiri on nykyisellään maksimi minkä saivat tehtyä. Eli jos roppeja olisi lisätty olisi laskentayksiköitä täytynyt vähentää, eikä suuremmasta rop-määrästä olisi ollut iloa jos piiirin front-endiä olisi myös kasvatettu pystymään käsittelemään suurempia polygonimääriä. Eli rop-lisäyksellä piirin painotus olisi menny huomattavasti lähemmäs 980TI:tä ja koska piirin kellotaajuus olisi kuitenkin alhaisempi oltaisiin saatu aikaiseksi selvästi tehtyä hitaampi piiri.

Ja asyncroniset shaderit mahdollistavat piirin tasaisen hyödyntämisen framesta frameen paremmin, AMD:n ACE-määrän nosto kahdesta kahdeksaanhan oli Sonyn kehittäjien vaatimus mitä he GPU:lta haluavat – ja nyt jo näkyy että DX12-julkaisuissakin AMD:n 8 ACE:n piirit pystyvät todella tasaiseen ruudunpäivitysnopeuteen.

Muropaketin uusimmat