Hochgeschwindigkeits Gen-AI

Swen Bauer zeigte zum Abschluss des Themenblocks eine beeindruckende Demo: Ein AI-Modell, das komplett in Hardware gegossen – also als ASIC realisiert – wurde. Das Projekt Taalas stammt aus dem Umfeld eines Kunden, dessen Firma Sicherheitstechnik entwickelt.

Hardware-beschleunigte AI-Inferenz

In der Live-Demo war der Geschwindigkeitsunterschied zu herkömmlichen Modellen sofort sichtbar: Die Antworten erschienen nahezu in Echtzeit, deutlich schneller als bei GPU- oder CPU-basierter Inferenz. Das Modell läuft auf dedizierter Hardware, die speziell für die Ausführung von Sprachmodellen optimiert ist.

Swen betonte, dass sich diese Technologie noch in der Entwicklung befindet und als Ausblick auf kommende Möglichkeiten zu verstehen ist. Die Idee: Wenn AI-Modelle direkt in Silizium implementiert werden, ergeben sich völlig neue Leistungsdimensionen bei gleichzeitig minimalem Stromverbrauch. Für bestimmte Aufgaben – insbesondere solche, die hohe Durchsätze bei definierten Modellen erfordern – könnte dies ein Game-Changer werden.

Adam Augustin wies allerdings auf eine zentrale Einschränkung hin: In Hardware gegossene Modelle lassen sich nicht aktualisieren. Angesichts der rasanten Entwicklungszyklen bei AI-Modellen stellt sich die Frage, wie schnell solche Hardware veraltet. Swen räumte ein, dass die Flexibilität bei Updates eine offene Frage bleibt – der Einsatz dürfte sich vor allem für Spezialanwendungen eignen, bei denen sich das Modell nicht mehr grundlegend ändern muss.

Der Chatbot auf der Taalas-Website wurde von den Teilnehmern direkt getestet und lieferte beeindruckend schnelle Antworten – ein greifbares Beispiel für das Potenzial hardwarebeschleunigter AI-Inferenz.

Taalas
https://taalas.com/

chat jimmy (Demo)
https://chatjimmy.ai

Diffusion-Modelle als alternativer Ansatz

Marcel Moré ergänzte einen zweiten Geschwindigkeitsansatz: Diffusion-Modelle für Textgenerierung. Im Gegensatz zur herkömmlichen Transformer-Architektur, die Token für Token generiert, erzeugen Diffusion-Modelle den gesamten Text quasi gleichzeitig – ähnlich wie bei der Bildgenerierung mit Midjourney.

In einem spontanen Vergleichstest wurde das Diffusion-Modell Inception (Mercury) gegen den Taalas-Chatbot antreten gelassen. Beide waren um Größenordnungen schneller als herkömmliche Chat-Modelle – ChatGPT brauchte für dieselbe Aufgabe 27-mal so lange. Allerdings zeigte sich bei der Qualitätsprüfung, dass das Diffusion-Modell FileMaker-XML produzierte, das nicht den Standards entsprach. Die Geschwindigkeit ist beeindruckend, die Ergebnisqualität muss aber noch aufholen.

Introducing Mercury 2 – Inception
https://www.inceptionlabs.ai/blog/introducing-mercury-2

inception - The fastest commercial-grade diffusion LLM
https://chat.inceptionlabs.ai

Beide Ansätze – Hardware-beschleunigte Inferenz und Diffusion-Modelle – zeigen, dass sich die KI-Landschaft auch auf der Infrastrukturebene rasant weiterentwickelt und perspektivisch deutlich schnellere Antwortzeiten ermöglichen wird.

Hardware-beschleunigte AI-Inferenz#

Diffusion-Modelle als alternativer Ansatz#

Hardware-beschleunigte AI-Inferenz

Diffusion-Modelle als alternativer Ansatz