Alibaba Cloud öffnet den Zugang zu seinen KI-Modellen für die Videogenerierung und unterstützt damit aktiv die Open-Source-Community. Am Dienstag kündigte das Unternehmen an vier Versionen seiner Modelle der Wan2.1-Serie mit 14 Milliarden (14B) und 1,3 Milliarden (1.3B) Parametern als Open Source bereitzustellen. Dabei handelt es sich um die neueste Version des Video-Grundlagenmodells Tongyi Wanxiang (Wan).

Die vier Modelle – T2V-14B, T2V-1.3B, I2V-14B-720P und I2V-14B-480P – generieren hochwertige Bilder und Videos aus Text- und Bildeingaben. Entwickler, Forscher und Unternehmen weltweit können sie über die KI-Modell-Community Model Scope von Alibaba Cloud sowie auf der Plattform Hugging Face herunterladen und direkt einsetzen.

Die Anfang des Jahres vorgestellte Wan2.1-Serie ist das erste Videogenerierungsmodell, das Texteffekte sowohl in Chinesisch als auch in Englisch unterstützt. Die Modelle überzeugen durch realistische Darstellungen, indem sie komplexe Bewegungen präzise erfassen die Pixelqualität steigern, physikalische Prinzipien einhalten und die Ausführung von Anweisungen optimieren. Diese Stärken haben Wan2.1 an die Spitze der VBench-Bestenliste katapultiert – einer Benchmark-Suite für Videogenerierungsmodelle. Es ist das einzige Open-Source-Modell unter den Top fünf der VBench-Bestenliste von Hugging Face für die Videogenerierung. Mit einer Gesamtbewertung von 86,22 Prozent übertrifft die Serie andere Modelle in zentralen Bereichen wie Dynamik, räumliche Beziehungen, Farbqualität und Interaktion zwischen mehreren Objekten.

Die Entwicklung von Video-Grundlagenmodellen erfordert enorme Rechenressourcen und große Mengen an hochwertigen Trainingsdaten. Durch die Veröffentlichung dieser Modelle als Open Source senkt Alibaba Cloud die Hürden für Unternehmen, um mit KI visuelle Inhalte kostengünstig auf hohem Niveau zu produzieren.

Das Modell T2V-14B eignet sich besonders für die Erstellung von Videos mit komplexen Bewegungsabläufen und hoher Bildqualität. Das T2V-1.3B-Modell bietet eine ausgewogene Kombination aus Rechenleistung und Generierungsqualität, was es ideal für Entwickler und akademische Forschungsprojekte macht. Mit einem Standard-Laptop lässt sich mit T2V-1.3B beispielsweise ein 5-sekündiges Video in 480p-Auflösung in rund vier Minuten erstellen.

Neben der Text-zu-Video-Funktionalität bieten die Modelle I2V-14B-720P und I2V-14B-480P auch Bild-zu-Video-Funktionen. Anwender müssen lediglich ein einzelnes Bild zusammen mit einer kurzen Beschreibung eingeben, um dynamische Videos zu generieren. Dabei akzeptiert die Plattform Bilder in normaler Größe und beliebigen Abmessungen.

Alibaba Cloud gehört zu den ersten großen internationalen Technologieunternehmen, die ihre selbst entwickelten, großskaligen KI-Modelle als Open Source zugänglich machen. Bereits im August 2023 veröffentlichte Alibaba sein erstes Open-Source-Modell Qwen (Qwen-7B). Seitdem führen Qwen-Modelle regelmäßig die Hugging Face Open LLM Leaderboards an und erzielen Leistungen auf Augenhöhe mit führenden KI-Modellen weltweit. Mittlerweile haben Entwickler auf Hugging Face über 100.000 abgeleitete Modelle auf Basis der Qwen-Modellfamilie erstellt – damit gehört sie zu den größten KI-Modellfamilien weltweit.

Alibaba Cloud ( www.alibabacloud.com) wurde 2009 gegründet und fungiert als IT-Kompetenzzentrum der Alibaba Group. Das Unternehmen bietet weltweit eine umfassende Suite von Cloud-Services an, darunter elastisches Computing, Datenbankdienste, Speicherlösungen, Netzwerkvirtualisierung, großangelegte Rechenleistung, Sicherheitsdienste, Big-Data-Analysen, maschinelles Lernen und künstliche Intelligenz (KI)-Services. Seit 2018 ist Alibaba laut Gartner der führende IaaS-Anbieter im Asien-Pazifik-Raum, gemessen am Umsatz in US-Dollar. Zudem gehört das Unternehmen seit 2018 zu den weltweit führenden Anbietern von Public-Cloud-IaaS-Diensten, wie IDC berichtet.

