← Zurück zum Journal
    ENDE
    18. Mai 2026·SEQNCE·4 min read·Aktualisiert 18. Mai 2026

    Runway Gen-4 Test: Was eine Produktionsagentur wirklich darüber denkt

    Die meisten KI-Video-Tools zwingen einen zu Kompromissen beim entscheidenden Punkt kommerzieller Arbeit: Das Motiv muss von Shot zu Shot gleich aussehen. Runway Gen-4 ist das erste Modell, bei dem das nicht mehr das dominante Problem ist.

    Wir setzen es seit dem Gen-4-Release auf echten Jobs ein. Das hier ist unsere ungeschminkte Einschaetzung, kein aufgewaermter Pressebericht.

    Was Runway Gen-4 wirklich gut kann

    KI Video Charakterkonsistenz

    Das ist das Kern-Feature und es haelt, was es verspricht. Ein einziges Referenzbild reicht und Gen-4 behaelt Gesicht, Kleidung und Hautton des Charakters über voellig verschiedene Lichtsituationen und Umgebungen hinweg bei. Kein Fine-Tuning, kein LoRA-Training, kein aufwaendiges Multi-Image-Training. Ein Foto, und das Modell sperrt die Identitaet ein.

    In unseren Tests hielt die Konsistenz bei rund 85 bis 90 Prozent der Generierungen, gegenüber etwa 60 Prozent bei Gen-3. Dieser Unterschied ist in der Praxis erheblich, wenn man eine Multi-Shot-Sequenz für einen Kunden baut. Fehlgeschlagene Frames waren frueheren KI-Video-Workflows immanent. Mit Gen-4 sind sie die Ausnahme.

    Narrative Shots und Kamerasteuerung

    Gen-4 versteht Kinematografie auf einem Niveau, das aelteren Modellen fehlte. Dolly-Moves folgen Motiven mit kompositorischem Bewusstsein. Rack-Fokus, Kranfahrten und Tracking-Shots wirken absichtsvoll statt zufaellig. Man kann eine spezifische Kamerabewegung prompten und sie funktioniert meist beim ersten oder zweiten Versuch.

    Für Konzeptvisualisierungen und Storyboards in Pitches spart das enorm Zeit. Wir generieren Kameratestsequenzen, für die frueher ein halber Drehtag mit einem kleinen Crew noetig gewesen waere.

    Prompt-Treue

    Runway beschreibt Gen-4 als Modell mit "erstklassigem Weltverstehen" und das ist keine leere Marketingformulierung. Komplexe Szenenbeschreibungen werden praezise umgesetzt: ein Charakter an einem spezifischen Ort, unter einer spezifischen Lichtstimmung, bei einer spezifischen Handlung. Die Luecke zwischen getippter Beschreibung und gerendertem Ergebnis ist hier kleiner als bei jeder Vorgaengergeneration.

    Wo es versagt

    4K ist langsam und teuer

    Die native Ausgabe ist 1080p. 4K erfordert einen zusaetzlichen Upscaling-Durchlauf, der extra Credits kostet, deutlich laenger dauert und gelegentlich die Cliplaenge als Nebeneffekt verkuerzt. Konkurrenten wie Kling 3.0 liefern natives 4K bei 60fps ohne separaten Schritt. Für Broadcast-Deliverables ist das ein echter Engpass, kein Kleinkram.

    Dialog-Szenen

    Zwei Charaktere, die miteinander sprechen, ist weiterhin schwierig. Lip-Sync driftet, der Eye-Line sitzt selten natuerlich, und raeumliche Beziehungen zwischen Charakteren brechen über Schnitte hinweg auf. Kling 3.0 beherrscht synchronisierten Dialog besser, auch mehrsprachigen Lip-Sync. Wenn Dialog zentral für den Shot ist, ist Gen-4 nicht das richtige Werkzeug.

    Brand-Logos und Text im Bild

    Text-Rendering in KI-Video ist ein branchenweites Problem und Gen-4 hat es nicht geloest. Schilder, Produktetiketten, Logos und jeder lesbare Text im Bild kommen unscharf, verzerrt oder schlicht falsch heraus. Shots, bei denen ein Markenname lesbar sein muss, sollte man nicht generieren. Das kommt in Post als Composite drauf.

    Clip-Laengen-Limit

    Die maximale Dauer betraegt 16 Sekunden pro Clip, die kuerzeste Obergrenze unter den grossen Tools. Veo 3.1 schafft 60 Sekunden, Kling AI bis zu 2 Minuten. Für alles, was laengere Aktionen oder ausgedehnte Narration braucht, zwingt Gen-4 zum Schneiden ums Limit herum oder zum Zusammenfuegen von Clips in Post.

    Wie Gen-4 in einen 2026-Produktionsstack passt

    Wir betrachten Gen-4 nicht als eigenstaendige Pipeline. Es ist ein Werkzeug in einem gezielten Stack.

    Gen-4 ist die richtige Wahl, wenn Charakteridentitaet Prioritaet hat: einen digitalen Schauspieler über mehrere Szenen hinweg zu etablieren, konsistente visuelle Referenzen für Pitch-Decks zu erstellen oder Hero-Shots zu generieren, bei denen das Motiv praezise aussehen muss. Es ist auch die staerkste Option für kinematografische Kameraarbeit und komplexe Szenenkomposition.

    Für Massenshots, bei denen natives 4K und Kosteneffizienz pro Clip gefragt sind, liefert Kling 3.0 besser. Für langformatige Sequenzen oder Szenen mit durchgehendem Dialog bleibt ein anderes Tool oder klassische Produktion die Antwort.

    Der Hybrid-Ansatz, den wir 2026 in professionellen Produktionen sehen: Charakteridentitaet und Shot-Sprache in Gen-4 festlegen, Massengenerierung von Fuell-Shots in Kling, Audio und Sound-Design separat fertigstellen. Das ist kein Workaround, sondern rationale Werkzeugwahl.

    WIE SEQNCE DAS NUTZT

    Wir setzen Gen-4 hauptsaechlich in der Pitch- und Preproduktionsphase ein. Wenn ein Kunde eine Kampagne visualisieren muss, bevor wir in die Kamera gehen, können wir mit Gen-4 charakterkonsistente Frames über mehrere Szenenkonzepte in einer Session generieren. Kunden sehen eine geschlossene visuelle Welt, keine Sammlung unzusammenhaengender KI-Bilder.

    Wir nutzen es auch für Hintergrundplatten und Atmosphaere-Shots, bei denen ein echter Location-Dreh ausser Verhaeltnis zum Budget stehen wuerde. Ein Charakter, der durch eine bestimmte urbane Umgebung laeuft, ein Produkt unter einer spezifischen Lichtstimmung, ein Moodboard das sich bewegt. Das sind Einsatzgebiete, in denen Gen-4 seinen Wert beweist, ohne vorzugeben, am eigentlichen Produktionstag einen Kameramann zu ersetzen.

    Das Act-Two Performance-Mapping-Feature hat sich bewaehrt, um Gesten aus Live-Referenzvideos auf KI-generierte Charaktere zu übertragen. Es ist nicht perfekt, aber das einzige Mainstream-Tool, das das anbietet. Für bestimmte stilisierte Formate funktioniert es gut genug, um Zeit in Post zu sparen.

    Was wir nicht damit machen: Endlieferungen, die lesbare Brand-Assets brauchen, Szenen mit drei oder mehr Charakteren, oder alles, das mehr als 16 Sekunden kontinuierliches Footage erfordert. Das geht an andere Tools oder an klassische Produktion.

    Quick Takeaways

    • Charakterkonsistenz ist das staerkste Argument für Gen-4. Single-Image Identity Lock über Szenen hinweg ist für kommerzielle Arbeit wirklich nuetzlich.
    • 4K, Dialog und Brand-Logos sind die drei Bereiche, in denen das Tool bricht. Diese Grenzen kennen, bevor man einen Job um Gen-4 herum pitcht.
    • Am besten in Kombination: Gen-4 für Identitaet und kinematografische Sprache, andere Tools für Volumen, natives 4K und laengere Laufzeit.

    LASS UNS WAS BAUEN

    lars@seqnce.ch
    ← Zurück zum Journal