Für Tech-Unternehmen

KI für Tech-Unternehmen in der Schweiz

Coding-Copilots, RAG-Systeme, On-Prem-LLMs für Software-Häuser, die ihre Codebase nicht an OpenAI schicken wollen.

On-Prem-Architektur-Gespräch Use Cases im Engineering-Team

On-Prem auf ThinkStation PGX (128 GB)
Ollama + Open-WebUI
Xinity Engine optional
revDSG + IP-Schutz
CHF 2’200 / Tag

Du führst ein Tech-Team. Deine Engineers nutzen Cursor, Claude Code, Copilot. Manche bezahlt vom Unternehmen, manche privat. Deine Codebase enthält IP, die nicht in US-Cloud-Logs landen darf.

Marketing-Beratungen bieten „KI-Workshops" an, die nichts bringen, weil ihre Berater den Stack nicht kennen. Wir sind anders. Wir kennen Ollama, vLLM, llama.cpp, Open-WebUI, n8n. Wir bauen lokale LLM-Setups auf einer Lenovo ThinkStation PGX bei dir vor Ort, integrieren sie in deine Engineering-Workflows und zeigen, wie ein Coding-Copilot funktioniert, der nicht mit deinem Code nach Hause telefoniert.

Drei typische Tech-Team-Use-Cases

Use Case	Stack
Code-aware Assistant ohne Cloud-Egress	Ollama-Hostmodell + RAG auf Repository-Index + IDE-Extension oder Chat-UI
PR-Review-Bot für sicherheitsrelevanten Code	Self-hosted LLM + Git-Webhook + Custom-Prompt-Layer
Internal Knowledge Bot über Confluence/Notion/Sharepoint	Ollama + Open-WebUI + RAG-Pipeline

Warum Waldsee statt Big-Cloud-Berater

Wir verstehen, warum eine Software-Bude mit IP-sensitivem Code nicht „einfach OpenAI nehmen" kann. Wir haben den Open-Source-Stack selbst aufgesetzt, nicht nur drüber gelesen. Und wir sagen ehrlich, wann Cloud-KI reicht. Und wann nicht.

Hardware: ThinkStation PGX im Tech-Team

Die Lenovo ThinkStation PGX mit NVIDIA GB10 Grace-Blackwell-Superchip und 128 GB Unified Memory ist die Hardware-Basis für ernsthafte LLM-Inferenz im Tech-Team. Sie deckt typische Engineering-Teams (5–40 Devs) ab und läuft mit Ollama als Engine und Open-WebUI als UI. Auf Wunsch ergänzen wir die Xinity Engine als Orchestrierungs-Schicht, wenn du einen EU-souveränen Software-Stack willst.

Häufige Fragen

Welche Modelle laufen sinnvoll auf einer ThinkStation PGX?

Open-Source-Modelle wie Llama, Qwen, Mistral, die DeepSeek-Coder-Familie. Die konkrete Versions-Wahl klären wir im Architektur-Gespräch. Modelle altern schnell.

Wie integriert sich das in unsere IDE?

Über IDE-Extensions (z. B. Continue.dev für VSCode), eigene CLI-Wrapper, oder die Open-WebUI als Chat-Frontend für Out-of-IDE-Sessions.

Was kostet das?

Hardware: aktueller Lenovo-Schweiz-Listenpreis (im Architektur-Gespräch). Aufbau: 3–8 Tage Waldsee-Aufwand zum Tagessatz CHF 2’200.

Reicht ein Mac mini mit Ollama nicht?

Für Single-Dev-Experimente ja. Für ein Team mit ernsthaftem Memory-Bedarf (grosse Modelle, RAG-Indizes, Multi-User) wird der Mac mini schnell zum Engpass.

Ersetzt das Cursor / GitHub Copilot?

Nein, oft nicht. Es ergänzt sie. Cursor für „normalen" Code, on-prem für IP-sensitiven Code. Hybride Setups sind die Regel, nicht die Ausnahme.

Reden wir konkret. 30 Min, kostenlos.

On-Prem-Architektur-Gespräch