Implementieren · Compliance

On-Premise KI für Schweizer Unternehmen

Eine Lenovo ThinkStation PGX bei dir vor Ort. Leistungsfähig genug für ernsthafte LLM-Inferenz, klein genug für jedes Büro. revDSG-aware. Deine Daten verlassen das Haus nicht.

Architektur-Gespräch buchen (1 h, kostenlos) On-Prem vs. Cloud: Entscheidungs-Guide

Lenovo ThinkStation PGX
NVIDIA GB10 Grace-Blackwell, 128 GB
Ollama + Open-WebUI
Hardware steht bei dir
CHF 2’200 / Tag Aufbau & Umsetzung

Du bist hier, weil Cloud-KI für dich keine Option ist. Vielleicht verarbeitest du Mandantendaten in einer Treuhand. Vielleicht hast du eine Codebase, die nicht bei OpenAI landen darf. Vielleicht hat deine Compliance-Abteilung gesagt: „Daten verlassen das Haus nicht."

Wir bauen dir ein lokales LLM-Setup auf einer Lenovo ThinkStation PGX. Eine Workstation mit NVIDIA GB10 Grace-Blackwell-Superchip und 128 GB Unified Memory, die bei dir vor Ort steht. Der Standard-Stack: Ollama als Engine, Open-WebUI als Frontend. Wir richten es ein, binden es in deine Tools ein und zeigen deinem Team, wie es bedient wird. Tagessatz CHF 2’200 für Aufbau und Umsetzung. Kein Cloud-Abo. Kein Vendor-Lock-in.

Was du bekommst

Komponente	Lieferung	Anmerkung
Hardware-Plattform	Lenovo ThinkStation PGX	NVIDIA GB10 Grace-Blackwell-Superchip, 128 GB Unified Memory
Standort	beim Kunden vor Ort	Kein Cloud, kein Drittland
LLM-Engine	Ollama (Default)	weitere Engines möglich
Frontend	Open-WebUI (Default)	Chat-UI, Multi-User-Auth, Modell-Routing
Orchestrierung (optional)	Xinity Engine	Wiener Open-Source-Layer (Apache 2.0) für EU-Sovereign-Stack
Modell-Auswahl	Open-Source-Modelle (Llama, Qwen, Mistral, DeepSeek u. a.)	Versions-Wahl im Architektur-Gespräch
Integration	E-Mail (IMAP/SMTP), DMS, n8n, Slack/Teams, eigene APIs	per Use Case
Wartung	per Tagessatz on-demand oder monatlicher Retainer
Tagessatz	CHF 2’200 / Tag	Aufbau, Umsetzung, Wartung

Statt ChatGPT Enterprise / Copilot

Cloud-Lösungen sind oft schneller eingerichtet und günstiger im Einstieg. Aber: Deine Daten gehen zu OpenAI oder Microsoft, oft über US-Server, mit revDSG-Implikationen, die in regulierten Branchen kaum tragbar sind. Wenn Cloud reicht, nutze sie. Wenn nicht, on-prem.

Statt Mac-Mini-Cluster oder selbst-gebautem GPU-Server

Viele technische Teams probieren Ollama auf einem Mac mini, einer alten Workstation oder einem selbst-konfigurierten GPU-Server. Und hängen dann fest: zu wenig Memory für ernsthafte Modelle, dazu Multi-User-Auth, Modell-Routing, Logging, RAG-Anbindung, Wartung. Eine ThinkStation PGX mit 128 GB Unified Memory löst das Memory-Problem. Wir lösen die Software-Schicht darauf.

Partner: Xinity, Wiener Sovereign-KI-Stack

Manchmal braucht ein Kunde einen vollständig EU-souveränen Software-Stack. Also nicht nur Hardware in der Schweiz, sondern auch eine in der EU entwickelte Orchestrierungs-Schicht. Dann integrieren wir die Xinity Engine. Xinity ist ein Wiener Startup, gegründet von Alexander Zehetmaier und Jonas Vander. Es liefert eine OpenAI-kompatible API, Modell-Routing über mehrere GPUs, Audit-Trails und Kostenkontrolle als Open-Source-Software (Apache 2.0). Für Kunden mit erhöhten Anforderungen an EU-AI-Act-Readiness und Sovereign-KI-Architektur die ehrlichste Wahl.

Use Cases

Treuhand-KMU: Lokales LLM für Mandats-Schriftverkehr; RAG auf Mandanten-DMS; Daten verlassen den Betrieb nicht.
Software-Haus mit IP: Coding-Copilot lokal auf Code-Repository, ohne dass Code an OpenAI/GitHub geht. → Für Tech-Teams
Arztpraxis / Klinik-Sekretariat: Diktat-Transkription und Dokumenten-Verarbeitung lokal.

Häufige Fragen

Was bedeutet „On-Premise KI"?

Ein KI-Setup, bei dem das Sprachmodell auf Hardware läuft, die bei dir vor Ort steht. Typischerweise eine Workstation in einem Büro oder Server-Raum. Deine Daten verlassen den administrativen Bereich nicht. Anders als bei Cloud-KI wie ChatGPT oder Copilot, wo Anfragen auf US-Servern laufen.

Brauche ich on-prem oder reicht Cloud-KI?

Cloud-KI reicht für viele Office-Workflows. Auch unter revDSG, sofern die Auftragsdatenverarbeitung sauber geregelt ist. On-prem wird relevant bei IP-sensitiven Daten, regulierten Branchen wie Treuhand, Gesundheit oder Finanz, oder bei der internen Vorgabe: Daten bleiben im Haus. Der Architektur-Guide hilft dir bei der Entscheidung.

Welche LLM-Modelle laufen on-prem?

Open-Source-Modelle: Llama, Qwen, Mistral, DeepSeek und andere. Welches Modell konkret passt, hängt von Anwendungsfall, Hardware und Sprachqualität ab. Das klären wir im Architektur-Gespräch. Modelle altern schnell, deshalb stehen hier keine Versionsangaben.

Was kostet ein On-Prem-Setup?

Zwei Komponenten. Erstens die Hardware, einmalig: eine Lenovo ThinkStation PGX als Standard-Plattform, aktueller Lenovo-Schweiz-Listenpreis im Architektur-Gespräch. Zweitens der Aufbau- und Wartungs-Aufwand zum Tagessatz CHF 2’200. Ein typischer Initial-Aufbau braucht 3–8 Tage Aufwand, dazu die Hardware.

Ist on-prem revDSG-konform?

Eine on-prem-Architektur erleichtert die revDSG-Konformität deutlich, weil die Auftragsdatenverarbeitung an Drittländer entfällt. „revDSG-konform" ist aber kein Zertifikat. Die Konformität hängt von der Gesamtarchitektur und den verarbeiteten Daten ab. Für regulierte Branchen empfehlen wir zusätzliche juristische Begleitung.

Welche Hardware brauche ich?

Standard-Plattform ist die Lenovo ThinkStation PGX mit NVIDIA GB10 Grace-Blackwell-Superchip und 128 GB Unified Memory. Diese Workstation deckt Teams von ungefähr 5–40 Nutzern ab, je nach Modell-Grösse und Nutzungs-Profil. Für grössere Setups verbinden wir mehrere Stations oder ergänzen GPU-Server.

Könnt ihr es im Schweizer Rechenzentrum hosten?

Das Standard-Liefermodell ist Hardware bei dir vor Ort. Genau das ist der Punkt. Schweizer-RZ-Hosting ist möglich, aber nur sinnvoll, wenn du ohnehin ein RZ-Setup betreibst. Im Zweifel: vor Ort.

Wer wartet das Setup?

Drei Optionen. Du wartest selbst, wir begleiten dich dabei. Oder wir warten on-demand zum Tagessatz. Oder du nimmst einen monatlichen Wartungs-Retainer.

Können wir Modelle austauschen?

Ja, der Stack ist Open-Source-basiert (Ollama als Engine). Modell-Wechsel sind Tage, oft Stunden. Wenn ein neues Modell besser läuft, tauschen wir es aus.

Wie lange dauert der Aufbau?

Vom Architektur-Gespräch bis Produktivbetrieb typischerweise 2–6 Wochen, je nach Komplexität, Hardware-Lieferzeit und Integrationen. Erste lauffähige Version oft schon nach 1–2 Wochen.

Was passiert, wenn Waldsee nicht mehr verfügbar ist?

Hardware (Lenovo) und Software (Ollama, Open-WebUI) sind Standard-Komponenten. Jedes andere KI-Engineering-Team kann die Architektur übernehmen und weiterführen. Keine proprietären Black-Boxen. Dokumentation gehört zum Liefer-Standard.

Können wir on-prem mit Cloud kombinieren?

Ja, hybride Architekturen sind oft sinnvoll: sensible Workflows on-prem, generische Workflows in revDSG-konformer Cloud. Das wird im Architektur-Gespräch nach Use Case geplant.

Was ist Xinity, und wann setzt ihr es ein?

Xinity ist eine in Wien entwickelte Open-Source-Orchestrierungs-Schicht für On-Prem-LLMs: OpenAI-kompatible API, Modell-Routing, Audit-Trails. Wir integrieren Xinity, wenn ein Kunde nicht nur Schweizer Hardware, sondern auch einen EU-souveränen Software-Stack will. Für reine Single-Team-Setups reicht Ollama + Open-WebUI.

Daten gehören in den Betrieb, nicht in die Cloud.

Buch ein 60-Minuten-Architektur-Gespräch. Kostenlos, qualifizierend, ohne Verkaufs-Pitch.

Architektur-Gespräch buchen Erst entscheiden: On-Prem vs. Cloud