Makubri Technologies

Was es bedeutet, Sprachmodelle lokal in der eigenen Organisation zu betreiben

Viele Organisationen experimentieren derzeit mit KI-Werkzeugen wie ChatGPT, Microsoft Copilot oder anderen KI-Assistenten. Sehr schnell taucht dabei eine technische Frage auf: Können ähnliche Systeme innerhalb der eigenen Infrastruktur betrieben werden, anstatt Anfragen an externe Dienste zu senden? Um diese Frage zu beantworten, hilft es zu verstehen, was ein Sprachmodell eigentlich ist, wie Unternehmen sie heute meist nutzen und was sich verändert, wenn ein Modell lokal betrieben wird.

Um was geht es

(Grosse) Sprachmodelle (Large Language Models, LLMs) sind Machine-Learning-Systeme, die auf sehr grossen Textsammlungen trainiert wurden. Sie sind darauf ausgelegt, das nächste Wort in einer Sequenz vorherzusagen. Durch diesen Mechanismus können sie Texte generieren, Fragen beantworten, Dokumente zusammenfassen oder beim Programmieren unterstützen.

Wenn Menschen Werkzeuge wie ChatGPT verwenden, interagieren sie in der Regel mit einem Produkt, das mehrere Ebenen kombiniert: eine Benutzeroberfläche, eine Anwendungsschicht, welche die Anfrage strukturiert, und ein Sprachmodell, das die Antwort erzeugt.

In den meisten Fällen läuft das Modell selbst weder auf dem Gerät der Nutzer*innen noch innerhalb der Infrastruktur des Unternehmens. Stattdessen sendet die Anwendung eine Anfrage über eine API an einen Modellanbieter. Der Anbieter betreibt das Modell in seiner eigenen Cloud-Umgebung und liefert die generierte Antwort zurück.

Aus technischer Sicht sind viele heutige KI-Anwendungen daher API-Clients für externe Modelldienste.

LLMs lokal zu betreiben bedeutet, diese Architektur zu verändern. Anstatt eine externe API aufzurufen, hostet die Organisation das Modell selbst und stellt eine eigene interne API bereit, die von Anwendungen genutzt werden kann.

Warum das relevant ist

Es gibt mehrere Gründe, warum Organisationen diesen Ansatz prüfen.

Der erste ist die Kontrolle über Daten. Bei der Nutzung externer APIs werden Prompts und manchmal auch interne Dokumente an externe Infrastruktur übertragen. Viele Anbieter geben starke vertragliche und technische Garantien. Für bestimmte Datenkategorien bevorzugen Organisationen jedoch, dass die Verarbeitung innerhalb der eigenen Umgebung bleibt.

Der zweite Grund ist Flexibilität in der Architektur. Wenn das Modell intern betrieben wird, können Teams es tiefer in interne Systeme integrieren, mit Dokument-Retrieval-Pipelines verbinden oder mit verschiedenen Modellen experimentieren, ohne die Anwendungsschicht zu verändern.

Der dritte Grund ist das wachsende Ökosystem offener Modelle und kleinerer Sprachmodelle. Nicht jeder Anwendungsfall benötigt die grössten verfügbaren Modelle. Viele interne Aufgaben, etwa das Zusammenfassen von Berichten, das Extrahieren von Informationen aus Dokumenten oder die Unterstützung strukturierter Arbeitsabläufe, können von kleineren Modellen übernommen werden, die lokal einfacher zu betreiben sind.

Hier wird die Unterscheidung zwischen Large Language Models und Small Language Models (SLMs) relevant. SLMs sind in der Regel kompaktere Modelle, die weniger Rechenleistung benötigen und häufig auf einem einzelnen GPU-Server laufen können, während sie für bestimmte Aufgaben dennoch eine gute Leistung bieten.

Welche Auswirkungen das für Dich hat

Ein LLM lokal zu betreiben bedeutet nicht einfach, einen Chatbot auf einem Server zu installieren. Es bedeutet, einen Model-Inference-Dienst innerhalb der eigenen Infrastruktur zu betreiben.

Eine typische Architektur umfasst mehrere Komponenten.

Zunächst das Modell selbst. Das kann ein offenes Modell sein, etwa Llama, Mistral oder andere Modelle, die für den lokalen Einsatz optimiert sind. Die Modellgewichte müssen auf Maschinen mit ausreichend GPU-Speicher gespeichert und geladen werden.

Zweitens eine Model-Serving-Schicht. Das ist das System, das das Modell lädt, Anfragen verwaltet und Antworten zurückgibt. Werkzeuge wie vLLM oder ähnliche Frameworks werden häufig dafür eingesetzt. Sie optimieren Speichernutzung, Batching und Token-Generierung, um die Inferenz effizient zu machen.

Diese Dienste stellen eine API bereit, die häufig mit dem OpenAI-API-Format kompatibel ist. Aus Sicht der Anwendung erscheint das Modell daher als normaler API-Endpunkt.

Drittens die Anwendungsschicht. Hier werden Chat-Oberflächen, Dokumentensuchsysteme oder interne KI-Assistenten entwickelt. Die Anwendung sendet Prompts an die Modell-API und verarbeitet die Ergebnisse.

Eine wichtige Designentscheidung ist Abstraktion. Viele Organisationen bauen ihre Anwendungen so, dass sie zwischen verschiedenen Modell-Endpunkten wechseln können. Beispielsweise kann dieselbe Anwendung Anfragen entweder an einen externen API-Anbieter oder an ein intern gehostetes Modell senden.

Diese Architektur macht es möglich, das Modell je nach Aufgabe auszuwählen. Eine komplexe Reasoning-Aufgabe könnte weiterhin ein leistungsstarkes externes Modell verwenden, während die Verarbeitung interner Dokumente auf einem lokalen Modell läuft.

Der entscheidende Punkt ist, dass Benutzeroberfläche und Anwendungslogik weitgehend gleich bleiben. Was sich ändert, ist der Ort, an dem das Modell ausgeführt wird.

Nächste Schritte

Für Organisationen, die den lokalen Einsatz von LLMs prüfen, gibt es einige praktische Aspekte, die frühzeitig verstanden werden sollten.

Der erste ist Infrastruktur. Selbst mittelgrosse Modelle zu betreiben erfordert in der Regel GPU-Server mit ausreichend VRAM. Der genaue Bedarf hängt von Modellgrösse, Quantisierungsmethode und erwartetem Durchsatz ab. Kleine Modelle können auf einer einzelnen GPU laufen, grössere Modelle benötigen möglicherweise mehrere GPUs.

Der zweite Aspekt ist die Modellauswahl. Das Ökosystem offener Modelle entwickelt sich schnell, und verschiedene Modelle sind für unterschiedliche Aufgaben optimiert, etwa Programmierung, allgemeines Reasoning oder mehrsprachige Unterstützung. In vielen Fällen ist es notwendig, mehrere Modelle zu testen, um die richtige Balance zwischen Qualität und Ressourcenbedarf zu finden.

Der dritte Aspekt ist Systemintegration. Nützliche KI-Systeme kombinieren ein Modell meist mit zusätzlichen Komponenten wie Dokument-Retrieval, Vektor-Datenbanken oder Workflow-Automatisierung. Das Modell allein löst das Geschäftsproblem selten.

Schliesslich sollte auch Governance und Wartung berücksichtigt werden. Ein lokal betriebenes Modell bedeutet, die Serving-Infrastruktur zu betreiben, Modelle zu aktualisieren, Leistung zu überwachen und einen sicheren Zugriff zu gewährleisten.

Für viele Organisationen besteht ein pragmatischer Ansatz nicht in einer strikten Entscheidung zwischen lokalen oder Cloud-Modellen. Stattdessen wird eine Architektur aufgebaut, in der beide Optionen über eine einheitliche API-Schicht verfügbar sind. So können Teams experimentieren, Kosten evaluieren und schrittweise entscheiden, welche Workloads intern laufen sollen.

LLMs lokal zu betreiben kann daher eine sehr leistungsfähige Fähigkeit sein. Am besten versteht man es jedoch als Infrastrukturprojekt und nicht einfach als Installation eines weiteren Software-Werkzeugs.

Wenn dieses Thema für Deine Organisation relevant ist, melde Dich gerne.