enfrdepluk
Suche finde 4120  disqus socia  tg2 f2 lin2 in2 X-Symbol 3 y2  p2 Tik steam2

Funktionen der Radeon HD 4870-Architektur

dvcsdcsc93_86610

Wenn im Fall des RV670 (Radeon HD 38x0) die Legitimität der Zuweisung der nächsten Ziffer zur Bezeichnung der Generation in Frage gestellt werden könnte, da dies der Fall ist GPU Während sich das Gerät nicht wesentlich vom Kern der Vorgängergeneration R600 (Radeon HD 2900) unterschied, gibt es beim RV770 keine derartigen Zweifel – es handelt sich tatsächlich um ein neues Produkt, auch wenn es die meisten Funktionen seiner Vorgänger übernommen hat. Die neue Familie heißt ATI Radeon HD 4800, und das Namensschema für verschiedene Grafikkartenmodelle, das ATI erstmals in der ATI Radeon HD 3800-Familie verwendet hat, bleibt erhalten: Die erste Ziffer gibt die Generation der Grafikarchitektur an, die zweite - die Familie und die letzten beiden - das Modell eines bestimmten Videoadapters.

Der Kern des RV770 besteht aus 956 Millionen Transistoren, was auf den ersten Blick durchaus beeindruckend ist, jedoch kein absoluter Branchenrekord ist; Die Palme in diesem Bereich gehört Nvidia mit seinem GT200-Chip, der über 1.4 Milliarden Transistoren verfügt. Die Überlegenheit kann als zweifelhaft bezeichnet werden, da der Konkurrent von ATI eine weniger fortschrittliche 65-nm-Prozesstechnologie verwendet, was angesichts der riesigen Fläche und Komplexität eines solchen Kerns automatisch eine geringere Anzahl von Kernen auf dem Substrat und eine geringere Ausbeute bedeutet, und, in der Folge ein deutlich höherer Produktionsaufwand, allerdings ist ein solches Vorgehen eine typische Nvidia-Taktik der letzten Jahre. Anders als die neuen ATI-Lösungen mit dem RV200 dürften Karten auf Basis des GT770 mit der Zeit nicht billig werden. Somit rechtfertigt sich die von ATI Technologies gewählte Strategie auf den ersten Blick voll und ganz.

Es ist zu beachten, dass die Frequenzen GPU wurden im Vergleich zu Karten, die darauf basieren, deutlich herabgestuft GPU vorherige Generation, RV670, was aufgrund der deutlich erhöhten Komplexität des neuen Kerns verständlich ist. Angesichts der erhöhten Verarbeitungs- und Texturleistung sollte dies kein Problem darstellen. Ein weiteres interessantes Detail, das Aufmerksamkeit verdient: Durch die Verwendung von schnellem GDDR4800-Speicher im älteren Modell der ATI Radeon HD 5 war es möglich, eine hohe Bandbreite zu erreichen, ohne auf die Erweiterung des externen Zugriffsbusses zurückgreifen zu müssen, wie es ATI letztes Jahr und Nvidia jetzt tut. Eine Vergrößerung der Speicherbusbreite über die herkömmlichen 256 Bit hinaus führt zu einer erheblichen Steigerung der Komplexität der Leiterplatte und damit zu einer Erhöhung ihrer Kosten. Natürlich ist GDDR5-Speicher teurer als der weit verbreitete GDDR3, aber dieser Unterschied wird offenbar durch das einfachere PCB-Design mehr als ausgeglichen.

Es ist deutlich zu sehen, dass die Topologie des Speicherzugriffs-Subsystems als Ganzes erhalten geblieben ist, obwohl es jetzt nicht mehr als Ring bezeichnet werden kann: Fast jeder Speichercontroller ist über eine bidirektionale Schnittstelle mit einem anderen verbunden, der "Ring" selbst ist es jedoch nicht mehr abgeschlossen. Die Speicherzugriffsschnittstelle befindet sich immer noch um den Umfang des Kristalls herum, und daneben befinden sich die Funktionsblöcke, die für den Durchsatz am kritischsten sind:

121951

Gleichzeitig erschien im Kern ein Switch, der Blöcke verbindet, die weniger Bandbreite beanspruchen - die PCI Express-Busschnittstelle, die CrossFireX-Schnittstelle, den UVD2-Videoprozessor, Display-Controller usw. Die Ressourcennutzungseffizienz des Speichersubsystems in früheren Generationen von ATI Radeon HD erreichte laut ATI bereits 85 %, und die RV770-Topologieoptimierung ermöglichte es, sie fast auf das Maximum zu bringen. Zusammen mit der Möglichkeit, schnellen GDDR5-Speicher zu verwenden, erübrigte sich dadurch für Entwickler die Verwendung eines externen Busses mit einer Kapazität von mehr als 256 Bit, was sich positiv auf die Einfachheit des Designs von ATI Radeon HD 4800-Leiterplatten auswirkte.

Ein wichtiger Bestandteil eines jeden Grafikkerns mit moderner Architektur ist der Task-Manager-Block, der mit der Aufgabe betraut ist, die verfügbaren Prozessorressourcen so zu verteilen, dass alle seine Teile maximal ausgelastet sind und daher die Leistung tendenziell steigt so hoch wie möglich.

Der Task-Manager-Block erschien erstmals als Teil der ATI Radeon X1000-Familie, wo er 512 Codezweige mit jeweils 16 Pixeln verwalten konnte. Die zweite Version des Task-Distribution-Prozessors wurde in der ATI Radeon HD 2000 eingeführt. Der neue Handler konnte nicht nur mehr Code-Zweige verarbeiten, sondern auch genauer und effizienter - die minimale Zweiggröße wurde von 16 auf 5 Pixel reduziert.

121940

Der Computerteil des R600 und RV670 bestand aus 64 Universalmodulen, von denen jedes fünf ALUs, eine Flusssteuereinheit und eine Reihe von Allzweckregistern enthielt. Vier von fünf ALUs waren recht einfache Geräte, die eine FP-MAD-Anweisung pro Zyklus ausführen konnten, und die vierte war komplex und konnte mit komplexen SIN-, COS-, LOG-, EXP- usw. Anweisungen arbeiten. Tatsächlich war jedes Rechenmodul ein Prozessor mit einer fünfstufigen Pipeline.

Theoretisch erlaubte eine solche Organisation, vom Vorhandensein von 320 Aktuatoren zu sprechen, aber tatsächlich galt dies nur für den Fall einer Volllast aller 64 Pipelines, was in der Praxis bei weitem nicht immer vorgesehen war: in drei Bei dimensionalen Anwendungen hängen viele Operationen von den Ergebnissen vorheriger Operationen ab, daher ist ein konsistenter Pipeline-Betrieb nicht einfach zu erreichen. Dies erfordert erhebliche Optimierungen für eine bestimmte Anwendung auf der Ebene der Catalyst-Treiber, aber es ist nicht immer möglich, Zugriff auf die Software-„Füllung“ des Spiels zu erhalten, zumindest bis zu seiner offiziellen Veröffentlichung.

Dadurch stellte sich in der Praxis oft heraus, dass nur eine ALU in jedem Rechenmodul sinnvolle Arbeit verrichtete, was das Potenzial der ATI Radeon HD-Architektur deutlich schmälerte und zu einem Lag bei Spielen von Lösungen auf Basis von Nvidia G80/G92 führte . Letztere hatten nicht nur eigenständigere Recheneinheiten, sondern diese Einheiten arbeiteten auch mit höheren Taktfrequenzen. Mit der Schaffung des RV770 löste das ATI-Entwicklungsteam das Problem der möglichen Ineffizienz der superskalaren Architektur auf direkte Weise, nämlich durch die Erhöhung der Anzahl der Rechenmodule von 64 auf 160. Natürlich erhöhte sich dadurch die Anzahl der Transistoren auf dem Kern jedoch durch den Einsatz der 55-nm-Prozesstechnologie möglich, dessen Fläche in vertretbaren Grenzen zu halten.

Die Architektur der Module selbst hat keine merklichen Änderungen erfahren, und sie bestehen immer noch aus 5 ALUs, einer Flusssteuereinheit und einer Reihe von Allzweckregistern:

121947

Laut ATI-Angaben wurde die Effizienz der Rechenmodule um 40 % gesteigert, aber schon eine einfache Erhöhung ihrer Anzahl von 64 auf 160 kann die Radeon HD 4800 auch unter für diese Architektur nicht sehr günstigen Bedingungen zu einer konkurrenzfähigen Lösung machen. Und das ist noch nicht alles; Wie oben erwähnt, sind Änderungen auch auf globalerer Ebene vorhanden – der Ebene der Kerntopologie. Unter teilweiser Beibehaltung der Ringtopologie wurde das Layout der Funktionsblöcke optimiert. Die RV770-Rechenmodule sind zu 10 SIMD-Kernen (vorher gab es 4 solcher Kerne) zu je 16 Modulen (80 ALUs) zusammengefasst.

Der Hauptengpass der Grafikkerne ATI R600 und RV670 war das Texturprozessor-Subsystem.

Erstens gab es nur 16 davon (4 große Blöcke), was aufgrund der Ausrichtung der Spieleentwickler auf Multiplattform trotz der Tendenz zur Vorherrschaft mathematischer Spezialeffekte gegenüber der Verwendung komplexer hochauflösender Texturen eindeutig zu wenig war . Zweitens gab es nur eine Filtereinheit für jeweils zwei Texturadresseinheiten, was die Effizienz von Textureinheiten bei der Durchführung der Texturfilterung, insbesondere der heute überall verwendeten anisotropen Filterung, erheblich verringerte, und es gibt keinen Grund anzunehmen, dass dies der Fall sein wird in der Zukunft aufgegeben.

Bei der Entwicklung des RV770 wurden diese Mängel berücksichtigt und der neue Kern erhielt neue Texturprozessoren:

121950

Ihr Design wurde komplett überarbeitet und jede TMU enthält nun 16 FP32-Texturabrufeinheiten, 4 Adressierungseinheiten und 4 Filtereinheiten. Es scheint, dass die Sampling-Effizienz sinken sollte, dies wird jedoch durch die verdoppelte Busbandbreite zwischen TMU und Textur-Caches ausgeglichen. ATI hat es geschafft, die Filtergeschwindigkeit von 2.5-Bit-Texturen um das 32-fache und bei 1.5-bit-Texturen um das 64-fache zu steigern, was theoretisch sehr gut aussieht und sich sicherlich sehr positiv auf die Leistung des neuen auswirken wird GPU unter realen Bedingungen.

Texturprozessoren werden immer noch zu großen Modulen von 4 TMUs kombiniert, und jedes dieser Module bedient einen der 10 SIMD-Kerne. Die Optimierung, die sich in der Ablehnung unnötiger Blöcke ausdrückt, ermöglichte es, die Anzahl der Transistoren, aus denen die TMU besteht, zu reduzieren und dementsprechend mehr davon mit relativ wenig Blutvergießen auf einem Chip zu platzieren, während die Komplexität und Fläche von beibehalten wurden der Kern in vernünftigen Grenzen.

Das Cache-Subsystem ist ein wichtiger Bestandteil des GPU-Textur-Subsystems und wurde im RV770 ebenfalls erheblich verbessert:

121941

Zunächst sollten wir die erhöhte Bandbreite beachten: Die Texturabrufrate aus den Caches der ersten Ebene beträgt jetzt beeindruckende 480 GB/s, während die Caches der ersten und zweiten Ebene mit einer Geschwindigkeit von 384 GB/s kommunizieren können. Zweitens verfügt nun jeder SIMD-Core über einen eigenen First-Level-Cache, was sich positiv auf die Effizienz der Datenspeicherung auswirkt. Drittens werden Second-Level-Caches mit Speichercontrollern koordiniert, und viertens schließlich verfügt RV770 über einen separaten Cache zum Speichern von Vertex-Daten. Die Verbesserungen sind zwar nicht so offensichtlich wie bei der Texturprozessor-Architektur, tragen aber sicherlich maßgeblich zum Leistungsschub der ATI Radeon HD 4800 in Spielen bei. Man kann mit Sicherheit sagen, dass der neue ATI-Grafikprozessor völlig frei von dem Hauptengpass der ATI Radeon HD-Architektur ist und nun auf Augenhöhe mit Nvidia-Lösungen konkurrieren kann, wo letztere traditionell stark waren, nämlich bei Operationen mit Texturen. Hier zeigt sich am deutlichsten ATIs Herangehensweise beim Design von GPUs – Optimierung statt direkter Leistungssteigerung.

Rasterprozessoren, in der ATI-Terminologie als Render-Backends bezeichnet, waren nie ein dramatischer Engpass in der ATI Radeon HD-Architektur, sie wurden jedoch im RV770 verbessert, obwohl sich die Gesamtzahl dieser Module nicht geändert hat: Es gibt sie immer noch vier davon im Kern, was uns erlaubt, über das Äquivalent von 16 klassischen ROPs zu sprechen.

Neben anderen Innovationen, die im ATI RV770 enthalten sind, sollten wir neue Funktionen der Video-Engine erwähnen, insbesondere einen neuen Sound-Controller und einige Software-Verbesserungen.

Der Achtkanal-Audiocontroller von Realtek, der Audiostreams mit bis zu 6.144 Mbit/s und 192 kHz Abtastraten in den Formaten AC3, DTS, Dolby True-HD und DTS-HD unterstützt, ist die wichtigste Erweiterung für HD-Inhalte. Die erweiterten Fähigkeiten des neuen Audiokerns sind von großer Bedeutung für diejenigen, die die ATI Radeon HD 4000 als Teil eines Heim-Multimedia-Centers verwenden möchten. Darüber hinaus sind die Radeon HD 4800 von ATI derzeit die einzigen Grafikkarten der Welt, die nativ XNUMX-Kanal-HD-Audio unterstützen, mit der Möglichkeit, es über HDMI auszugeben - ein erheblicher Vorteil gegenüber konkurrierenden Nvidia-Lösungen.

121952

Um die Radeon HD4870-Grafikkarte mit Strom zu versorgen, gibt es zwei 6-polige Anschlüsse am Ende der Grafikkarte, im Gegensatz zur jüngeren Radeon HD4850, die nur einen Anschluss hat. Für den stabilen Betrieb der Grafikkarte bei höheren Frequenzen war ein verstärktes Stromversorgungssystem erforderlich. Im Vergleich zur Radeon HD4850-Grafikkarte ist die Radeon HD4870-GPU-Frequenz also 125 MHz höher und gleich 750 MHz, und die effektive GDDR5-Videospeicherfrequenz beträgt 3600 MHz, was deutlich höher ist als 1986 MHz, die von verwendet wird der Videospeicher der Radeon HD4850 ​​​​Grafikkarte. Hier lohnt sich zwar eine Reservierung, die reale Frequenz des neuen GDDR5-Speichers liegt bei 900 MHz, nur überträgt er in einem Taktzyklus nicht doppelt, sondern viermal mehr Informationen im Vergleich zu „normalen“ Nicht-DDR-Speichern.

226074a7f05ee5587d

 

Technische Daten ATI Radeon HD 4870

Name Radeon HD 4870
Kern RV770XT
Verfahrenstechnik (µm) 55
Transistoren (Millionen) 956
Kernfrequenz 750
Speicherfrequenz (DDR) 900 (3600QDR)
Bus- und Speichertyp GDDR5 256-Bit
Bandbreite (Gb/s) 115,2
Einheitliche Shader-Blöcke 800
Häufigkeit einheitlicher Shader-Einheiten 750
TMU pro Förderer 40
ROP 16
Shader-Modell 4.1
Füllrate (Mtex/s) 30000
DirectX 10.1
Speicherkapazität 512/1024
Schnittstelle PCIe 2.0

 

Die Radeon HD4870-Grafikkarte erwies sich nicht nur in Worten als der realste Konkurrent für die GeForce GTX 260-Grafikkarte von NVIDIA. Das haben wir lange nicht mehr gesehen, denn die „Top“-Vertreter der beiden bisherigen Grafikkartenfamilien von AMD konnten NVIDIA-Produkten nur mit Worten Konkurrenz machen, waren in Wirklichkeit aber zu langsam. Offensichtlich erwies sich die neue Shader-Einheit mit einer erhöhten Anzahl von Stream-Prozessoren und einer geänderten Architektur als leistungsfähiger als die Shader-Einheit in der Grafikkarte GeForce GTX 260. Zwar bleibt das neue Produkt hinter der GeForce GTX 280 zurück, aber um Gleichzeitig bietet es ein komfortables Gameplay in fast allen modernen Spielen.

Mass Effect

06974