Lokales Ollama-Modell sicher anbinden

Du kannst ein lokal laufendes Modell (z. B. über Ollama auf deinem Mac) als eigenes Modell (BYOM) in Corporate LLM nutzen. Weil Corporate LLM eine Web-App ist, reicht eine lokale Adresse wie http://localhost:11434 nicht — der Endpunkt muss über eine öffentlich erreichbare HTTPS-URL mit echter Authentifizierung laufen. Diese Anleitung zeigt den sicheren Weg.

Stelle die Ollama-API niemals roh ins Internet (kein OLLAMA_HOST=0.0.0.0 per Tunnel/Port-Forward ohne Auth davor). Die rohen Ollama-Endpunkte hatten keine Authentifizierung — eine exponierte Instanz kann Prompts, System-Prompts, Umgebungsvariablen und API-Schlüssel aus dem Prozessspeicher preisgeben (siehe Bleeding Llama).

Warum localhost nicht funktioniert

Wenn der Corporate-LLM-Server dein BYOM-Modell anspricht, kann er nicht auf das private localhost deines Rechners zugreifen — localhost zeigt aus Sicht des Servers auf den Server selbst. Du gibst Corporate LLM deshalb eine öffentliche HTTPS-Adresse, die auf einen lokalen Auth-Proxy zeigt. Der Proxy prüft deinen API-Schlüssel und leitet nur dann an das lokale Ollama weiter. Der sichere Aufbau:

Corporate LLM  →  HTTPS-Tunnel  →  LiteLLM-Proxy (Bearer-Auth)  →  Ollama (127.0.0.1:11434)  →  Modell

So machen

Ollama bleibt lokal auf 127.0.0.1. Davor steht ein OpenAI-kompatibler Proxy mit echter Bearer-Auth. Nur dieser Proxy wird über HTTPS veröffentlicht.

Nie so machen

Ollama an 0.0.0.0:11434 binden und per Tunnel oder Port-Forward direkt ins Internet geben. Damit wäre eine API ohne echte Authentifizierung erreichbar.

Bleeding Llama (CVE-2026-7482)

CVE-2026-7482 ist ein Heap-Out-of-bounds-Read im GGUF-Model-Loader von Ollama. Der Fix kam in Ollama 0.17.1 — jede ältere Version ist verwundbar. Besonders kritisch: Die betroffenen Endpunkte hatten keine Authentifizierung, und viele Deployments binden bewusst auf 0.0.0.0.Vor dem Anbinden immer: ollama --version prüfen und auf die aktuellste Version aktualisieren. Eine absolute Garantie gibt es bei exponierten Diensten nicht — der Standard ist deshalb: aktuell patchen, nur lokal binden, rohe API nie veröffentlichen, Auth-Proxy davor, HTTPS-Tunnel, Token bei Verdacht sofort rotieren.

Was Corporate LLM erzwingt

Corporate LLM hat für BYOM-Endpunkte eigene Schutzmechanismen:

Guardrail	Bedeutung
HTTPS-Pflicht	BYOM-Base-URLs müssen `https://` nutzen.
Private IPs blockiert	Loopback, private Netze, Link-local, CGNAT und weitere SSRF-Ranges werden abgewiesen.
DNS-Pinning	Corporate LLM validiert DNS und verbindet danach gepinnt gegen die freigegebene IP.
Verantwortung beim Nutzer	Provider-Kosten, DSGVO, Modellverhalten und Schlüsselrotation liegen bei BYOM bei dir.

Setup

Ollama lokal installieren

Lade den offiziellen macOS-Installer von ollama.com/download, ziehe Ollama.app nach /Applications, starte sie einmal und erlaube die CLI.

# Version prüfen (siehe Bleeding Llama oben)
ollama --version

# Modell laden
ollama pull llama3.1

# Lokaler Smoke-Test
ollama run llama3.1 "Antworte in einem kurzen deutschen Satz."

Lass Ollama auf der Standard-Bind-Adresse 127.0.0.1:11434. OLLAMA_HOST=0.0.0.0 ist nur in kontrollierten Netzen mit vorgeschaltetem Gateway vertretbar und für dieses Setup nicht nötig.

LiteLLM als lokalen Auth-Proxy davorsetzen

Corporate LLM sendet einen Bearer-Schlüssel. Rohes Ollama ignoriert diesen lokal — LiteLLM prüft ihn dagegen über einen master_key.

config.yaml

model_list:
  - model_name: "llama3.1"
    litellm_params:
      model: "ollama_chat/llama3.1"
      api_base: "http://127.0.0.1:11434"
    model_info:
      supports_function_calling: true

general_settings:
  master_key: "sk-clm-local-CHANGE-ME-LONG-RANDOM"

# Proxy nur lokal starten
litellm --config ./config.yaml --host 127.0.0.1 --port 4000

# Lokaler Test gegen LiteLLM
curl http://127.0.0.1:4000/v1/models \
  -H "Authorization: Bearer sk-clm-local-CHANGE-ME-LONG-RANDOM"

HTTPS-Tunnel nur für den Proxy erstellen

Veröffentliche ausschließlich den LiteLLM-Port (4000), nie Ollama direkt.

Option	Eignung	Wichtig
Tailscale Funnel	Einfache Demos	Funnel ist öffentlich → nur LiteLLM mit Bearer dahinter.
Cloudflare Tunnel	Eigene Domain, dauerhaft	Tunnel auf `http://127.0.0.1:4000`.
ngrok	Kurzlebige Demo	URL rotiert oft; ebenfalls nur vor LiteLLM.
Port-Forward auf 11434	❌ No-Go	Genau die Risikoklasse von Bleeding Llama.

# Tailscale Funnel: public HTTPS auf den lokalen LiteLLM-Port
tailscale funnel localhost:4000

# Cloudflare Tunnel: public hostname auf den lokalen LiteLLM-Port
cloudflared tunnel --url http://127.0.0.1:4000

In Corporate LLM eintragen

Dashboard öffnen: Einstellungen → Modelle → Eigene Modelle.
Provider: Ollama (selbst-gehostet) oder OpenAI-kompatibel.
Name: z. B. Mein MacBook Ollama.
Base URL: https://DEIN-TUNNEL-HOST/v1.
API-Key: der LiteLLM-master_key (z. B. sk-clm-local-...).
Verbindung testen — Corporate LLM ruft GET /v1/models auf.
Nach Erfolg: Verbindung anlegen, Modell aktivieren, im Chat auswählen.

Trage nicht localhost ein — das würde aus Sicht des Servers auf Corporate LLM selbst zeigen. Gib die HTTPS-Adresse deines Auth-Proxys an.

Alternative: LM Studio

LM Studio ist für viele Desktop-Nutzer einfacher (Server im Developer-Tab starten, Modell laden, OpenAI-kompatible Base URL typischerweise http://localhost:1234/v1). Es gelten dieselben Regeln: lokale URL reicht nicht, HTTPS-Tunnel ist nötig, Auth muss aktiv sein (LM Studio API-Tokens ab Version 0.4.0, „Require Authentication” aktivieren).

Fehlerbehebung

Symptom	Wahrscheinliche Ursache	Lösung
Base URL wird abgelehnt	URL ist `http://`, localhost oder private IP	Öffentliche `https://.../v1`-Tunnel-URL verwenden
`/v1/models` liefert 401	Falscher Bearer-Key / Auth falsch konfiguriert	LiteLLM- bzw. LM-Studio-Token prüfen und erneut testen
Test ok, Chat nicht	Modell gelistet, aber nicht chat-fähig oder nicht aktiv	Chat-Modell aktivieren, Modellnamen exakt aus `/v1/models` übernehmen
Antworten sind langsam	Modell zu groß oder Tunnel langsam	Kleineres, quantisiertes Modell (7B/8B) testen, Kontext reduzieren
Unerwartete Kosten	BYOM-Kosten laufen nicht über das Corporate-LLM-Budget	Beim eigenen Provider Limits setzen; bei Ollama lokale Strom-/GPU-Kosten bedenken

Quellen

Ollama macOS-Installation · OpenAI-Kompatibilität · FAQ (Bind-Adresse, Proxy, Tunnel) · Releases
Bleeding Llama: Cyera-Analyse · NVD CVE-2026-7482 · GitHub Advisory
LiteLLM: Ollama-Provider · Proxy-Config
LM Studio: Server · Authentifizierung
Tailscale Funnel · Cloudflare Tunnel

​Warum localhost nicht funktioniert

So machen

Nie so machen

​Bleeding Llama (CVE-2026-7482)

​Was Corporate LLM erzwingt

​Setup

​Alternative: LM Studio

​Fehlerbehebung

​Quellen

Warum localhost nicht funktioniert

Bleeding Llama (CVE-2026-7482)

Was Corporate LLM erzwingt

Setup

Alternative: LM Studio

Fehlerbehebung

Quellen