enfrdepluk
Suche finde 4120  disqus socia  tg2 f2 lin2 in2 X-Symbol 3 y2  p2 Tik steam2

Warum Upscaling und Frame-Generierung nicht auf allen Grafikkarten funktionieren

Upscaler DLSS vs. FSR

Upscaling- und Frame-Generation-Technologien sind in den letzten fünf Jahren zu einem integralen Bestandteil der Grafikwiedergabe bei Spielen geworden. Sie ermöglichen eine hohe Bildqualität bei geringeren Leistungskosten und sorgen zudem für ein flüssigeres Gameplay, selbst bei Ultra-Einstellungen. Die meisten dieser Lösungen – wie etwa NVIDIAs DLSS, AMDs FSR und Intels XeSS – sind jedoch nur eingeschränkt kompatibel: Einige funktionieren nur auf bestimmten Generationen. GPU, andere sind vollständig auf eine Architektur beschränkt. Warum passiert das? In diesem Artikel werden wir uns die Ursprünge, die Entwicklung und die Hardwarebeschränkungen der beliebtesten Upscaler genauer ansehen, um zu verstehen, warum sie nicht auf allen Grafikkarten unterstützt werden.

Wie Upscaling entstand: Am Beispiel von DLSS und DLSS Frame Generation

Modernes Upscaling ist das Ergebnis einer langen Entwicklung der Rendering-Technologien, die mit einfacher Filterung und Anti-Aliasing begann und zur Verwendung neuronaler Netzwerke und maschinellem Lernen führte. Der Wendepunkt kam 2018, als NVIDIA die erste Version von DLSS (Deep Learning Super Sampling) vorstellte. Obwohl die Technologie ursprünglich als intelligenter Anti-Aliasing-Algorithmus geplant war, erkannten ihre Entwickler unter der Leitung von Jensen Huang schnell, dass das Potenzial von DLSS weit über die bloße Bekämpfung von Treppeneffekten an den Kanten von Objekten hinausging. Der Schwerpunkt lag auf der Verbesserung der Leistung durch Hochskalieren von Bildern von einer niedrigeren auf eine höhere Auflösung, während gleichzeitig eine mit der nativen Darstellung vergleichbare visuelle Qualität beibehalten wurde.

dls 1

DLSS 1.0 verwendete neuronale Netzwerkmodelle, die anhand bestimmter Spiele trainiert wurden, was einen erheblichen Aufwand seitens der Entwickler erforderte: NVIDIA musste jedes Spiel vorab analysieren und das Modell unter Berücksichtigung der einzigartigen Merkmale der Szene und des Kameraverhaltens trainieren. Dies schränkte die Flexibilität ein und führte zu Qualitätsbeschwerden, da einige Titel übermäßige Unschärfe oder Artefakte aufwiesen.

DLSS-2.0

DLSS 2.0 hat den Ansatz völlig verändert und eine universelle Architektur geschaffen, die temporäre Puffer, Bewegungsdaten, Tiefen- und Farbkarten sowie einen verbesserten Detailnäherungsalgorithmus verwendet. Dadurch wurde die Qualität deutlich verbessert und die Integration in Spiele vereinfacht. DLSS 2.0 funktionierte bei vielen Projekten stabil und effizient ohne zusätzliche Schulung.

DLSS-3.0

Mit DLSS 3 ging NVIDIA noch weiter: Die Frame-Generierung wurde eingeführt (Frame Generation), bei dem das System nicht nur die Auflösung verbesserte, sondern auch neue Frames basierend auf der Analyse der Bewegung zwischen den beiden vorherigen erstellte. Möglich wird dies durch den Optical Flow Accelerator, einen Block, der Bewegungsvektoren und Szenenmerkmale auf Pixelflussebene interpretieren kann. Für eine vollwertige Frame-Generierung ist jedoch nicht nur ein guter Datenfluss, sondern auch eine schnelle Entscheidungsfindung in Echtzeit erforderlich. Deshalb ist DLSS 3 exklusiv für RTX 40: Die Ada Lovelace-Architektur ermöglicht dank der dritten Generation von Tensor Core und dem Reflex-System die erforderliche Verarbeitungsgeschwindigkeit.

DLSS-4

Der nächste Schritt, DLSS 4, kam 2025 und war exklusiv für die RTX 50. In dieser Version führte NVIDIA Multi Frame Generation – eine Methode, bei der zwischen jedem realen Frame mehrere „vorhergesagte“ Frames eingefügt werden. Dies wurde durch die Verwendung von Transformer-Neuralnetzwerkmodellen möglich – dieselben, die in der modernen NLP und generativen KI verwendet werden. Das Ausführen solcher Modelle erfordert enorme Rechenleistung und Bandbreite sowie spezielle Hardwareeinheiten für Training und Inferenz. RTX 50 führte erstmals die folgenden Komponenten ein: Tensor Core der fünften Generation, beschleunigte RT-Einheiten und erweiterte Caches. Somit entwickelte sich DLSS vom Anti-Aliasing zu einem vollwertigen Videogenerator, doch jeder Fortschritt ging mit erhöhten Hardwareanforderungen einher.

Wie es zu FSR und der FSR-Frame-Generierung kam

AMD ging einen völlig anderen Weg. Im Jahr 2021 stellte das Unternehmen die erste Version von FidelityFX Super Resolution (FSR) vor und begann mit der vielseitigsten Lösung: FSR 1.0 war ein vollständig räumlicher Upscaling-Algorithmus. Es war nicht auf Zeitinformationen angewiesen, erforderte kein maschinelles Lernen und lief auf jedem modernen GPU, einschließlich NVIDIA-Karten und sogar integrierter Intel-Grafik. Dieser Ansatz sorgte zwar für eine sofortige Verbreitung der Technologie, die Qualität war jedoch geringer als die von DLSS.

fsr 2.0

Mit der Einführung von FSR 2.0 im Jahr 2022 fügte AMD dem Algorithmus temporäre Puffer und Bewegungsvektoren hinzu. Dies ermöglichte einen qualitativen Sprung beim Upscaling, wodurch das Bild weniger verrauscht wurde und die Dynamikstabilität zunahm. Allerdings verwendete FSR noch immer keine neuronalen Netzwerke – sein Hauptziel war die Zugänglichkeit.

FSR3.0

Dies änderte sich mit FSR 3 im Jahr 2023, als AMD eine Frame-Generierung ähnlich DLSS 3 einführte. Während die Technologie „offen“ blieb, benötigte FSR 3 mehr Leistung, um ordnungsgemäß zu funktionieren, einschließlich einer effizienten Implementierung des optischen Flusses und eines Zeitpuffermanagements. Aus diesem Grund funktionierte die Frame-Generierung in FSR 3 nicht auf allen GPU.

fsr 4

FSR 4, das 2025 veröffentlicht wurde, wurde noch anspruchsvoller. In dieser Version hat AMD erstmals Elemente des maschinellen Lernens hinzugefügt: Es werden lokale neuronale Netzwerkfilter, zeitliche Bewegungsmodelle und die Vorhersage des Kameraverhaltens verwendet. Dies erforderte neue Blöcke innerhalb der RDNA 4-Architektur, die inoffiziell als KI-Beschleuniger bezeichnet wurden. Diese Komponenten sind nur in Radeon RX 9000 und neuer zu finden. Während der Kern von FSR 4 offen bleibt, sind seine erweiterten FG-Funktionen (Frame Generation) funktionieren ausschließlich auf den neuesten AMD-Grafikkarten.

Wie XeSS entstand

XeSS (Xe Super Sampling) wurde 2022 von Intel als Reaktion auf bestehende Lösungen von AMD und NVIDIA eingeführt. Anders als seine Konkurrenten hatte sich Intel zunächst zum Ziel gesetzt, seine Technologie universell und plattformübergreifend zu machen. XeSS verwendet maschinelles Lernen, implementiert es jedoch auf eine Weise, die Unterschiede in der Hardware berücksichtigt. Intel Arc-Grafikkarten verwenden Hardwarebeschleunigung über XMX-Blöcke (Xe Matrix Extensions) – spezialisierte Module ähnlich dem Tensor Core von NVIDIA. Diese Blöcke sind für die schnelle Durchführung von Matrixoperationen konzipiert, die für die Inferenz neuronaler Netzwerke erforderlich sind.

XeSS

Für andere Grafikkarten unterstützt XeSS einen Fallback-Modus basierend auf DP4a-Anweisungen, der eine Funktion beschleunigter Berechnungen über SIMD ist, die in GPU beginnend mit der NVIDIA GTX 10-Serie und AMD RDNA 1. Bildqualität und Leistung sind jedoch schlechter als im XMX-Modus. Diese flexible Architektur ermöglichte es Intel, eine minimale Kompatibilität mit einer breiten Palette von Hardware bereitzustellen.

Intel fördert XeSS als Technologie mit offener Spezifikation. Neuere Updates (Version 1.3 und höher) haben jedoch Unterstützung für experimentelle zeitbasierte Frame-Generierungsfunktionen hinzugefügt. Derzeit sind sie nur auf der Intel Battlemage-Grafik verfügbar, die die zweite Version der XMX-Kerne implementiert. Diese Kerne erhielten einen verbesserten Durchsatz, Unterstützung für Arbeiten mit variabler Präzision (FP8/INT4) und Optimierung für Echtzeitaufgaben.

Obwohl XeSS als maximal offenes und kompatibles Projekt begann, zeigt seine Entwicklung, dass auch erweiterte Funktionen zunehmend Hardware-Unterstützung erfordern. Und wenn grundlegendes Upscaling auf fast allen GPU, dann erfordern Funktionen ähnlich wie DLSS 3 und 4 die neuesten Intel-GPUs.

Warum DLSS 1 und 2 auf Nicht-RTX-Grafikkarten nicht unterstützt wurden

Die Beschränkung von DLSS 1 und 2 nur auf RTX-Grafikkarten erklärt sich durch die technische Architektur dieser Lösungen. Beide Versionen wurden ursprünglich im Hinblick auf Tensor Core entwickelt, die spezialisierten Module für neuronale Netzwerkoperationen, die erstmals in der Turing-Architektur eingeführt wurden. Diese Kerne bieten eine hohe Leistung für Matrixmultiplikationen, die für die Durchführung von Faltungsoperationen in tiefen neuronalen Netzwerken erforderlich ist.

Tensor-Kern

Grafikkarten der GTX-Serie (z. B. GTX 1080 Ti) und von AMD verfügen nicht über solche Blöcke. Selbst wenn Sie versuchen, DLSS mit normalen CUDA-Kernen oder Shader-Einheiten zu emulieren, sinkt die Leistung um ein Vielfaches und das Ergebnis wird unbrauchbar. Darüber hinaus verwendet DLSS das NGX SDK (Neural Graphics Acceleration), das auf Treiberebene nach Tensor Core und RTX-Architektur sucht.

Daher ist es selbst mit einem leistungsstarken Grafikchip (wie TITAN V) unmöglich, DLSS auszuführen: Die fehlende NGX-Integration und Tensor Core blockieren den Zugriff auf die API. Versuche Dritter, das SDK zu ändern oder DLSS durch externe Hacking-Methoden zu starten, bleiben erfolglos, da die Logik von DLSS auf einer engen Verbindung zwischen Hardware- und Softwarecode basiert.

Warum die DLSS 3-Frame-Generierung auf Grafikkarten nicht niedriger als RTX 40 unterstützt wird

Die Frame-Generierung in DLSS 3 basiert auf der Optical Multi Frame Flow-Technologie, die in der Ada Lovelace-Architektur implementiert ist. Zur Analyse der Bewegungen zwischen den Frames wird der Optical Flow Accelerator der dritten Generation verwendet – ein spezielles Hardwaremodul, das bei der RTX 30-Serie und niedrigeren Serien fehlt.

Optischer Multi-Frame-Flow

Dieser Beschleuniger berechnet Bewegungsvektoren zwischen Pixeln in zwei Frames mithilfe von Tiefenkarten, Geschwindigkeitspuffern und Schattenmasken. Ohne dieses Modul ist es unmöglich, einen Zwischenrahmen präzise zu erzeugen – das Ergebnis sind visuelle Artefakte und ein „Doppelbild“. Aus diesem Grund kann die RTX 30 trotz Tensor Core DLSS 3 nicht unterstützen Frame Generation.

Optischer Multi-Frame-Flow 2

Darüber hinaus erfordert DLSS 3 die Interaktion mit dem NVIDIA Reflex-System. Es synchronisiert Frames zwischen der CPU und GPU, wodurch die Eingabeverzögerung reduziert wird. Ohne Reflex würde die Einführung zusätzlicher Frames die Steuerungslatenz erheblich erhöhen. Die Reflex-Unterstützung in DLSS 3 ist streng an die Ada Lovelace-Architektur gebunden, was sie auf RTX 30 unmöglich macht.

Warum die DLSS 4-Frame-Generierung auf Grafikkarten nicht niedriger als RTX 50 unterstützt wird

DLSS 4 erfordert die Blackwell-Architektur und den neuen Tensor Core der 3. Generation. Diese Version verwendet Transformer-Modelle – komplexe neuronale Netzwerke, die in der Lage sind, die Szenendynamik 4–XNUMX Frames im Voraus vorherzusagen. Dazu ist es notwendig, mehrere zeitliche Ebenen zu puffern: optischer Fluss, Tiefenkarten, Bewegungsmasken, Partikelzustände und Kameraverhalten.

Blackwell Tensor Core

Diese mehrstufige Verarbeitung erfordert einen Hochgeschwindigkeitszugriff auf den Videospeicher, eine zusätzliche Cache-Zeile und eine neu gestaltete ALU-Hierarchie. Alle diese Komponenten werden erstmals nur in RTX 50 implementiert. Selbst RTX 40 mit seiner leistungsstarken Architektur kann keine gleichzeitige Verarbeitung von 4–6 Zeitpuffern in Echtzeit ermöglichen.

Darüber hinaus benötigt DLSS 4 die doppelte Bandbreite für Mixed-Mode-Operationen (FP16/INT8) und Transformationseinheiten für adaptive Skalierbarkeit – Funktionen, die in Tensor Core 5.0 integriert sind. Daher ist die Verlagerung hin zu Multi Frame Generation erforderte ein radikales Architektur-Update, das DLSS 4 auf älteren Karten unmöglich macht.

Warum die FSR-Frame-Generierung auf Grafikkarten nicht niedriger als RX 9000 unterstützt wird

AMDs FSR 4 war der erste, der eine ML-basierte adaptive Frame-Generierung implementierte. Anders als bei FSR 3, wo Frames mithilfe eines fest codierten, auf optischem Fluss basierenden Algorithmus generiert wurden, verwendet FSR 4 ein trainierbares Vorhersagesystem, das auf zeitlichen Mustern und der Analyse vorheriger Szenenzustände basiert. Zur Ausführung dieser Aufgaben werden Hardware-KI-Beschleuniger benötigt – AI Compute Units, die nur in der RDNA 4-Architektur auftauchten.

FSR 4 KI-Recheneinheiten

Grafikkarten der Serien RX 6000 und 7000 (RDNA 2 und 3) enthalten diese Blöcke nicht. Darüber hinaus fehlt ihnen die Speicherbusbreite, die für die parallele Verarbeitung von Bewegungspuffern und Vorhersagemodellen erforderlich ist. FSR 4 verwendet außerdem die aktualisierte FidelityFX SDK-Version 5.0, die mit der alten GCN- und RDNA 2-Treiber-Mikrocodebasis nicht kompatibel ist.

FSR 4 erfordert mindestens 64 KI-Kerne, BFLOAT16-Unterstützung, variable Befehlslänge und INT4-Verarbeitung – all dies wurde mit der RX 9000 eingeführt. Trotz der formalen Offenheit von FSR funktioniert die neue Frame-Generation daher ausschließlich auf den neuesten AMD-Grafikkarten.

Abschluss

Moderne Upscaler sind keine einfachen Algorithmen mehr zum Strecken von Bildern. Dabei handelt es sich um komplexe Systeme, die Elemente der Computervision, Bewegungsanalyse, Arbeit mit Zeitpuffern und sogar transformierende neuronale Netzwerke umfassen. Daher ist es nicht überraschend, dass sie für ihre ordnungsgemäße Funktion spezielle Hardware benötigen: Tensorkerne, optische Flussbeschleuniger, KI-Einheiten und erweiterte Caches. Jede neue Iteration von DLSS, FSR oder XeSS legt die Messlatte höher, bindet die Technologien aber auch stärker an bestimmte Generationen von Grafikkarten. Der Mangel an Unterstützung für alte GPU nicht durch die Gier der Produzenten, sondern durch objektive technische Rahmenbedingungen erklärt wird. Der Fortschritt erfordert neue Lösungen – und neue Chips, die die zunehmende Komplexität der Echtzeitgrafik bewältigen können.