Implementieren · Compliance
On-Premise KI für Schweizer Unternehmen
Eine Lenovo ThinkStation PGX bei dir vor Ort. Leistungsfähig genug für ernsthafte LLM-Inferenz, klein genug für jedes Büro. revDSG-aware. Deine Daten verlassen das Haus nicht.
- Lenovo ThinkStation PGX
- NVIDIA GB10 Grace-Blackwell, 128 GB
- Ollama + Open-WebUI
- Hardware steht bei dir
- CHF 2’200 / Tag Aufbau & Umsetzung
Du bist hier, weil Cloud-KI für dich keine Option ist. Vielleicht verarbeitest du Mandantendaten in einer Treuhand. Vielleicht hast du eine Codebase, die nicht bei OpenAI landen darf. Vielleicht hat deine Compliance-Abteilung gesagt: „Daten verlassen das Haus nicht."
Wir bauen dir ein lokales LLM-Setup auf einer Lenovo ThinkStation PGX. Eine Workstation mit NVIDIA GB10 Grace-Blackwell-Superchip und 128 GB Unified Memory, die bei dir vor Ort steht. Der Standard-Stack: Ollama als Engine, Open-WebUI als Frontend. Wir richten es ein, binden es in deine Tools ein und zeigen deinem Team, wie es bedient wird. Tagessatz CHF 2’200 für Aufbau und Umsetzung. Kein Cloud-Abo. Kein Vendor-Lock-in.
Was du bekommst
| Komponente | Lieferung | Anmerkung |
|---|---|---|
| Hardware-Plattform | Lenovo ThinkStation PGX | NVIDIA GB10 Grace-Blackwell-Superchip, 128 GB Unified Memory |
| Standort | beim Kunden vor Ort | Kein Cloud, kein Drittland |
| LLM-Engine | Ollama (Default) | weitere Engines möglich |
| Frontend | Open-WebUI (Default) | Chat-UI, Multi-User-Auth, Modell-Routing |
| Orchestrierung (optional) | Xinity Engine | Wiener Open-Source-Layer (Apache 2.0) für EU-Sovereign-Stack |
| Modell-Auswahl | Open-Source-Modelle (Llama, Qwen, Mistral, DeepSeek u. a.) | Versions-Wahl im Architektur-Gespräch |
| Integration | E-Mail (IMAP/SMTP), DMS, n8n, Slack/Teams, eigene APIs | per Use Case |
| Wartung | per Tagessatz on-demand oder monatlicher Retainer | |
| Tagessatz | CHF 2’200 / Tag | Aufbau, Umsetzung, Wartung |
Statt ChatGPT Enterprise / Copilot
Cloud-Lösungen sind oft schneller eingerichtet und günstiger im Einstieg. Aber: Deine Daten gehen zu OpenAI oder Microsoft, oft über US-Server, mit revDSG-Implikationen, die in regulierten Branchen kaum tragbar sind. Wenn Cloud reicht, nutze sie. Wenn nicht, on-prem.
Statt Mac-Mini-Cluster oder selbst-gebautem GPU-Server
Viele technische Teams probieren Ollama auf einem Mac mini, einer alten Workstation oder einem selbst-konfigurierten GPU-Server. Und hängen dann fest: zu wenig Memory für ernsthafte Modelle, dazu Multi-User-Auth, Modell-Routing, Logging, RAG-Anbindung, Wartung. Eine ThinkStation PGX mit 128 GB Unified Memory löst das Memory-Problem. Wir lösen die Software-Schicht darauf.
Partner: Xinity, Wiener Sovereign-KI-Stack
Manchmal braucht ein Kunde einen vollständig EU-souveränen Software-Stack. Also nicht nur Hardware in der Schweiz, sondern auch eine in der EU entwickelte Orchestrierungs-Schicht. Dann integrieren wir die Xinity Engine. Xinity ist ein Wiener Startup, gegründet von Alexander Zehetmaier und Jonas Vander. Es liefert eine OpenAI-kompatible API, Modell-Routing über mehrere GPUs, Audit-Trails und Kostenkontrolle als Open-Source-Software (Apache 2.0). Für Kunden mit erhöhten Anforderungen an EU-AI-Act-Readiness und Sovereign-KI-Architektur die ehrlichste Wahl.
Use Cases
- Treuhand-KMU: Lokales LLM für Mandats-Schriftverkehr; RAG auf Mandanten-DMS; Daten verlassen den Betrieb nicht.
- Software-Haus mit IP: Coding-Copilot lokal auf Code-Repository, ohne dass Code an OpenAI/GitHub geht. → Für Tech-Teams
- Arztpraxis / Klinik-Sekretariat: Diktat-Transkription und Dokumenten-Verarbeitung lokal.
Häufige Fragen
Was bedeutet „On-Premise KI"?
Ein KI-Setup, bei dem das Sprachmodell auf Hardware läuft, die bei dir vor Ort steht. Typischerweise eine Workstation in einem Büro oder Server-Raum. Deine Daten verlassen den administrativen Bereich nicht. Anders als bei Cloud-KI wie ChatGPT oder Copilot, wo Anfragen auf US-Servern laufen.
Brauche ich on-prem oder reicht Cloud-KI?
Cloud-KI reicht für viele Office-Workflows. Auch unter revDSG, sofern die Auftragsdatenverarbeitung sauber geregelt ist. On-prem wird relevant bei IP-sensitiven Daten, regulierten Branchen wie Treuhand, Gesundheit oder Finanz, oder bei der internen Vorgabe: Daten bleiben im Haus. Der Architektur-Guide hilft dir bei der Entscheidung.
Welche LLM-Modelle laufen on-prem?
Open-Source-Modelle: Llama, Qwen, Mistral, DeepSeek und andere. Welches Modell konkret passt, hängt von Anwendungsfall, Hardware und Sprachqualität ab. Das klären wir im Architektur-Gespräch. Modelle altern schnell, deshalb stehen hier keine Versionsangaben.
Was kostet ein On-Prem-Setup?
Zwei Komponenten. Erstens die Hardware, einmalig: eine Lenovo ThinkStation PGX als Standard-Plattform, aktueller Lenovo-Schweiz-Listenpreis im Architektur-Gespräch. Zweitens der Aufbau- und Wartungs-Aufwand zum Tagessatz CHF 2’200. Ein typischer Initial-Aufbau braucht 3–8 Tage Aufwand, dazu die Hardware.
Ist on-prem revDSG-konform?
Eine on-prem-Architektur erleichtert die revDSG-Konformität deutlich, weil die Auftragsdatenverarbeitung an Drittländer entfällt. „revDSG-konform" ist aber kein Zertifikat. Die Konformität hängt von der Gesamtarchitektur und den verarbeiteten Daten ab. Für regulierte Branchen empfehlen wir zusätzliche juristische Begleitung.
Welche Hardware brauche ich?
Standard-Plattform ist die Lenovo ThinkStation PGX mit NVIDIA GB10 Grace-Blackwell-Superchip und 128 GB Unified Memory. Diese Workstation deckt Teams von ungefähr 5–40 Nutzern ab, je nach Modell-Grösse und Nutzungs-Profil. Für grössere Setups verbinden wir mehrere Stations oder ergänzen GPU-Server.
Könnt ihr es im Schweizer Rechenzentrum hosten?
Das Standard-Liefermodell ist Hardware bei dir vor Ort. Genau das ist der Punkt. Schweizer-RZ-Hosting ist möglich, aber nur sinnvoll, wenn du ohnehin ein RZ-Setup betreibst. Im Zweifel: vor Ort.
Wer wartet das Setup?
Drei Optionen. Du wartest selbst, wir begleiten dich dabei. Oder wir warten on-demand zum Tagessatz. Oder du nimmst einen monatlichen Wartungs-Retainer.
Können wir Modelle austauschen?
Ja, der Stack ist Open-Source-basiert (Ollama als Engine). Modell-Wechsel sind Tage, oft Stunden. Wenn ein neues Modell besser läuft, tauschen wir es aus.
Wie lange dauert der Aufbau?
Vom Architektur-Gespräch bis Produktivbetrieb typischerweise 2–6 Wochen, je nach Komplexität, Hardware-Lieferzeit und Integrationen. Erste lauffähige Version oft schon nach 1–2 Wochen.
Was passiert, wenn Waldsee nicht mehr verfügbar ist?
Hardware (Lenovo) und Software (Ollama, Open-WebUI) sind Standard-Komponenten. Jedes andere KI-Engineering-Team kann die Architektur übernehmen und weiterführen. Keine proprietären Black-Boxen. Dokumentation gehört zum Liefer-Standard.
Können wir on-prem mit Cloud kombinieren?
Ja, hybride Architekturen sind oft sinnvoll: sensible Workflows on-prem, generische Workflows in revDSG-konformer Cloud. Das wird im Architektur-Gespräch nach Use Case geplant.
Was ist Xinity, und wann setzt ihr es ein?
Xinity ist eine in Wien entwickelte Open-Source-Orchestrierungs-Schicht für On-Prem-LLMs: OpenAI-kompatible API, Modell-Routing, Audit-Trails. Wir integrieren Xinity, wenn ein Kunde nicht nur Schweizer Hardware, sondern auch einen EU-souveränen Software-Stack will. Für reine Single-Team-Setups reicht Ollama + Open-WebUI.
Daten gehören in den Betrieb, nicht in die Cloud.
Buch ein 60-Minuten-Architektur-Gespräch. Kostenlos, qualifizierend, ohne Verkaufs-Pitch.