Armin Egginger zeigte seinen aktuellen Stand beim Einsatz lokaler Sprachmodelle. Für ihn ist die DSGVO-konforme Verarbeitung sensibler Kundendaten der entscheidende Treiber: Die Daten dürfen das Unternehmen nicht verlassen, weshalb Cloud-basierte AI-Dienste für bestimmte Anwendungsfälle ausscheiden.

Setup und Erfahrungen

Armin nutzt einen Mac Studio mit M1 Ultra und 64 GB RAM und testet verschiedene lokale Modelle über LM Studio. Er demonstrierte live, wie er mehrere LLMs gleichzeitig laden und je nach Aufgabe das passende Modell ansprechen kann – etwa ein Qwen-Modell mit 5,8 GB und ein kleineres mit 3,9 GB parallel. Für Apple-Hardware empfahl er MLX-Modelle gegenüber GGUF, da diese für die Apple-Architektur optimiert sind.

Die Token-Geschwindigkeit war mit 74 Tokens/Sekunde respektabel, allerdings benötigte der erste Token 4,63 Sekunden - die gefühlte Wartezeit beim Start einer Antwort. Armin betonte den Vorteil von LM Studio gegenüber Ollama: Man kann Temperatur, Kontextlänge und andere Parameter bequem über die Oberfläche einstellen und hat einen besseren Überblick über die geladenen Modelle.

Ein zentraler Erfahrungswert: Lokale Modelle erreichen weder die Geschwindigkeit noch die Qualität der großen Cloud-Modelle. Armin empfiehlt daher, spezialisierte kleinere Modelle für definierte Aufgaben einzusetzen und diese zu orchestrieren – statt ein einzelnes großes Modell für alles nutzen zu wollen. Sein konkreter Anwendungsfall ist die lokale Verarbeitung von PDFs und Firmendaten, die nicht nach extern gegeben werden dürfen.

Jörg Köster ergänzte, dass er auf einem 64 GB Mac Mini ein 120B-Modell getestet hatte – mit dem Ergebnis, dass der Rechner dabei praktisch unbenutzbar wurde und 15 Minuten für ein simples „Hallo" brauchte. Die Herausforderung liegt nicht nur in der Geschwindigkeit, sondern auch in der Leistungsfähigkeit: Mit kleineren Modellen zum Ziel zu kommen ist deutlich schwieriger als mit den großen Cloud-Modellen. Jörg betonte: Wer produktiv mit AI arbeiten will, kommt um die großen Cloud-Anbieter nicht herum.

Hetzner AI-Server als Alternative

Swen Bauer berichtete ergänzend von einem Kunden aus dem Sicherheitsbereich, der sich für eine gemietete AI-Maschine bei Hetzner entschieden hat – für rund 1.000 Euro pro Monat. Der vergleichbare Server hätte im Eigenkauf rund 25.000 Euro gekostet. Die Mietlösung ermöglicht es, erst Erfahrungen zu sammeln und die Hardware bei Bedarf flexibel aufzurüsten. Vorteil: Die Daten bleiben in der eigenen Infrastruktur (Hetzner-Rechenzentrum in Deutschland), und die GPU-Ausstattung liefert deutlich bessere Performance als lokale Mac-Hardware.

Differenzierter Einsatz

In der Diskussion wurde deutlich, dass der richtige AI-Ansatz stark vom Anwendungsfall abhängt. Armin wies darauf hin, dass man für strukturierte Aufgaben wie PDF-Auslesen nicht unbedingt eine Cloud AI benötigt – spezialisierte OCR-Tools (wie etwa von IBM) liefern hier oft bessere und schnellere Ergebnisse. Die AI sollte erst für die weitergehende Analyse und Verarbeitung der bereits extrahierten Daten zum Einsatz kommen.

Swen Bauer erwähnte ergänzend Docling als Tool für die Dokumentenverarbeitung.
https://www.docling.ai/