Skip to main content
Du kannst ein lokal laufendes Modell (z. B. über Ollama auf deinem Mac) als eigenes Modell (BYOM) in Corporate LLM nutzen. Weil Corporate LLM eine Web-App ist, reicht eine lokale Adresse wie http://localhost:11434 nicht — der Endpunkt muss über eine öffentlich erreichbare HTTPS-URL mit echter Authentifizierung laufen. Diese Anleitung zeigt den sicheren Weg.
Stelle die Ollama-API niemals roh ins Internet (kein OLLAMA_HOST=0.0.0.0 per Tunnel/Port-Forward ohne Auth davor). Die rohen Ollama-Endpunkte hatten keine Authentifizierung — eine exponierte Instanz kann Prompts, System-Prompts, Umgebungsvariablen und API-Schlüssel aus dem Prozessspeicher preisgeben (siehe Bleeding Llama).

Warum localhost nicht funktioniert

Wenn der Corporate-LLM-Server dein BYOM-Modell anspricht, kann er nicht auf das private localhost deines Rechners zugreifen — localhost zeigt aus Sicht des Servers auf den Server selbst. Du gibst Corporate LLM deshalb eine öffentliche HTTPS-Adresse, die auf einen lokalen Auth-Proxy zeigt. Der Proxy prüft deinen API-Schlüssel und leitet nur dann an das lokale Ollama weiter. Der sichere Aufbau:
Corporate LLM  →  HTTPS-Tunnel  →  LiteLLM-Proxy (Bearer-Auth)  →  Ollama (127.0.0.1:11434)  →  Modell

So machen

Ollama bleibt lokal auf 127.0.0.1. Davor steht ein OpenAI-kompatibler Proxy mit echter Bearer-Auth. Nur dieser Proxy wird über HTTPS veröffentlicht.

Nie so machen

Ollama an 0.0.0.0:11434 binden und per Tunnel oder Port-Forward direkt ins Internet geben. Damit wäre eine API ohne echte Authentifizierung erreichbar.

Bleeding Llama (CVE-2026-7482)

CVE-2026-7482 ist ein Heap-Out-of-bounds-Read im GGUF-Model-Loader von Ollama. Der Fix kam in Ollama 0.17.1 — jede ältere Version ist verwundbar. Besonders kritisch: Die betroffenen Endpunkte hatten keine Authentifizierung, und viele Deployments binden bewusst auf 0.0.0.0.Vor dem Anbinden immer: ollama --version prüfen und auf die aktuellste Version aktualisieren. Eine absolute Garantie gibt es bei exponierten Diensten nicht — der Standard ist deshalb: aktuell patchen, nur lokal binden, rohe API nie veröffentlichen, Auth-Proxy davor, HTTPS-Tunnel, Token bei Verdacht sofort rotieren.

Was Corporate LLM erzwingt

Corporate LLM hat für BYOM-Endpunkte eigene Schutzmechanismen:
GuardrailBedeutung
HTTPS-PflichtBYOM-Base-URLs müssen https:// nutzen.
Private IPs blockiertLoopback, private Netze, Link-local, CGNAT und weitere SSRF-Ranges werden abgewiesen.
DNS-PinningCorporate LLM validiert DNS und verbindet danach gepinnt gegen die freigegebene IP.
Verantwortung beim NutzerProvider-Kosten, DSGVO, Modellverhalten und Schlüsselrotation liegen bei BYOM bei dir.

Setup

1

Ollama lokal installieren

Lade den offiziellen macOS-Installer von ollama.com/download, ziehe Ollama.app nach /Applications, starte sie einmal und erlaube die CLI.
# Version prüfen (siehe Bleeding Llama oben)
ollama --version

# Modell laden
ollama pull llama3.1

# Lokaler Smoke-Test
ollama run llama3.1 "Antworte in einem kurzen deutschen Satz."
Lass Ollama auf der Standard-Bind-Adresse 127.0.0.1:11434. OLLAMA_HOST=0.0.0.0 ist nur in kontrollierten Netzen mit vorgeschaltetem Gateway vertretbar und für dieses Setup nicht nötig.
2

LiteLLM als lokalen Auth-Proxy davorsetzen

Corporate LLM sendet einen Bearer-Schlüssel. Rohes Ollama ignoriert diesen lokal — LiteLLM prüft ihn dagegen über einen master_key.
config.yaml
model_list:
  - model_name: "llama3.1"
    litellm_params:
      model: "ollama_chat/llama3.1"
      api_base: "http://127.0.0.1:11434"
    model_info:
      supports_function_calling: true

general_settings:
  master_key: "sk-clm-local-CHANGE-ME-LONG-RANDOM"
# Proxy nur lokal starten
litellm --config ./config.yaml --host 127.0.0.1 --port 4000

# Lokaler Test gegen LiteLLM
curl http://127.0.0.1:4000/v1/models \
  -H "Authorization: Bearer sk-clm-local-CHANGE-ME-LONG-RANDOM"
3

HTTPS-Tunnel nur für den Proxy erstellen

Veröffentliche ausschließlich den LiteLLM-Port (4000), nie Ollama direkt.
OptionEignungWichtig
Tailscale FunnelEinfache DemosFunnel ist öffentlich → nur LiteLLM mit Bearer dahinter.
Cloudflare TunnelEigene Domain, dauerhaftTunnel auf http://127.0.0.1:4000.
ngrokKurzlebige DemoURL rotiert oft; ebenfalls nur vor LiteLLM.
Port-Forward auf 11434❌ No-GoGenau die Risikoklasse von Bleeding Llama.
# Tailscale Funnel: public HTTPS auf den lokalen LiteLLM-Port
tailscale funnel localhost:4000

# Cloudflare Tunnel: public hostname auf den lokalen LiteLLM-Port
cloudflared tunnel --url http://127.0.0.1:4000
4

In Corporate LLM eintragen

  1. Dashboard öffnen: Einstellungen → Modelle → Eigene Modelle.
  2. Provider: Ollama (selbst-gehostet) oder OpenAI-kompatibel.
  3. Name: z. B. Mein MacBook Ollama.
  4. Base URL: https://DEIN-TUNNEL-HOST/v1.
  5. API-Key: der LiteLLM-master_key (z. B. sk-clm-local-...).
  6. Verbindung testen — Corporate LLM ruft GET /v1/models auf.
  7. Nach Erfolg: Verbindung anlegen, Modell aktivieren, im Chat auswählen.
Trage nicht localhost ein — das würde aus Sicht des Servers auf Corporate LLM selbst zeigen. Gib die HTTPS-Adresse deines Auth-Proxys an.

Alternative: LM Studio

LM Studio ist für viele Desktop-Nutzer einfacher (Server im Developer-Tab starten, Modell laden, OpenAI-kompatible Base URL typischerweise http://localhost:1234/v1). Es gelten dieselben Regeln: lokale URL reicht nicht, HTTPS-Tunnel ist nötig, Auth muss aktiv sein (LM Studio API-Tokens ab Version 0.4.0, „Require Authentication” aktivieren).

Fehlerbehebung

SymptomWahrscheinliche UrsacheLösung
Base URL wird abgelehntURL ist http://, localhost oder private IPÖffentliche https://.../v1-Tunnel-URL verwenden
/v1/models liefert 401Falscher Bearer-Key / Auth falsch konfiguriertLiteLLM- bzw. LM-Studio-Token prüfen und erneut testen
Test ok, Chat nichtModell gelistet, aber nicht chat-fähig oder nicht aktivChat-Modell aktivieren, Modellnamen exakt aus /v1/models übernehmen
Antworten sind langsamModell zu groß oder Tunnel langsamKleineres, quantisiertes Modell (7B/8B) testen, Kontext reduzieren
Unerwartete KostenBYOM-Kosten laufen nicht über das Corporate-LLM-BudgetBeim eigenen Provider Limits setzen; bei Ollama lokale Strom-/GPU-Kosten bedenken

Quellen