http://localhost:11434 nicht —
der Endpunkt muss über eine öffentlich erreichbare HTTPS-URL mit echter
Authentifizierung laufen. Diese Anleitung zeigt den sicheren Weg.
Warum localhost nicht funktioniert
Wenn der Corporate-LLM-Server dein BYOM-Modell anspricht, kann er nicht auf das privatelocalhost deines Rechners zugreifen — localhost zeigt aus Sicht des
Servers auf den Server selbst. Du gibst Corporate LLM deshalb eine öffentliche
HTTPS-Adresse, die auf einen lokalen Auth-Proxy zeigt. Der Proxy prüft deinen
API-Schlüssel und leitet nur dann an das lokale Ollama weiter.
Der sichere Aufbau:
So machen
Ollama bleibt lokal auf
127.0.0.1. Davor steht ein OpenAI-kompatibler Proxy mit echter
Bearer-Auth. Nur dieser Proxy wird über HTTPS veröffentlicht.Nie so machen
Ollama an
0.0.0.0:11434 binden und per Tunnel oder Port-Forward direkt ins Internet geben.
Damit wäre eine API ohne echte Authentifizierung erreichbar.Bleeding Llama (CVE-2026-7482)
CVE-2026-7482 ist ein Heap-Out-of-bounds-Read im GGUF-Model-Loader von
Ollama. Der Fix kam in Ollama 0.17.1 — jede ältere Version ist
verwundbar. Besonders kritisch: Die betroffenen Endpunkte hatten keine
Authentifizierung, und viele Deployments binden bewusst auf
0.0.0.0.Vor dem Anbinden immer: ollama --version prüfen und auf die aktuellste
Version aktualisieren. Eine absolute Garantie gibt es bei exponierten Diensten
nicht — der Standard ist deshalb: aktuell patchen, nur lokal binden, rohe API
nie veröffentlichen, Auth-Proxy davor, HTTPS-Tunnel, Token bei Verdacht sofort
rotieren.Was Corporate LLM erzwingt
Corporate LLM hat für BYOM-Endpunkte eigene Schutzmechanismen:| Guardrail | Bedeutung |
|---|---|
| HTTPS-Pflicht | BYOM-Base-URLs müssen https:// nutzen. |
| Private IPs blockiert | Loopback, private Netze, Link-local, CGNAT und weitere SSRF-Ranges werden abgewiesen. |
| DNS-Pinning | Corporate LLM validiert DNS und verbindet danach gepinnt gegen die freigegebene IP. |
| Verantwortung beim Nutzer | Provider-Kosten, DSGVO, Modellverhalten und Schlüsselrotation liegen bei BYOM bei dir. |
Setup
Ollama lokal installieren
Lade den offiziellen macOS-Installer von ollama.com/download,
ziehe
Ollama.app nach /Applications, starte sie einmal und erlaube die CLI.LiteLLM als lokalen Auth-Proxy davorsetzen
Corporate LLM sendet einen Bearer-Schlüssel. Rohes Ollama ignoriert diesen
lokal — LiteLLM prüft ihn dagegen über einen
master_key.config.yaml
HTTPS-Tunnel nur für den Proxy erstellen
Veröffentliche ausschließlich den LiteLLM-Port (
4000), nie Ollama direkt.| Option | Eignung | Wichtig |
|---|---|---|
| Tailscale Funnel | Einfache Demos | Funnel ist öffentlich → nur LiteLLM mit Bearer dahinter. |
| Cloudflare Tunnel | Eigene Domain, dauerhaft | Tunnel auf http://127.0.0.1:4000. |
| ngrok | Kurzlebige Demo | URL rotiert oft; ebenfalls nur vor LiteLLM. |
| Port-Forward auf 11434 | ❌ No-Go | Genau die Risikoklasse von Bleeding Llama. |
In Corporate LLM eintragen
- Dashboard öffnen: Einstellungen → Modelle → Eigene Modelle.
- Provider: Ollama (selbst-gehostet) oder OpenAI-kompatibel.
- Name: z. B.
Mein MacBook Ollama. - Base URL:
https://DEIN-TUNNEL-HOST/v1. - API-Key: der LiteLLM-
master_key(z. B.sk-clm-local-...). - Verbindung testen — Corporate LLM ruft
GET /v1/modelsauf. - Nach Erfolg: Verbindung anlegen, Modell aktivieren, im Chat auswählen.
Alternative: LM Studio
LM Studio ist für viele Desktop-Nutzer einfacher (Server im Developer-Tab starten, Modell laden, OpenAI-kompatible Base URL typischerweisehttp://localhost:1234/v1). Es gelten dieselben Regeln: lokale URL reicht nicht,
HTTPS-Tunnel ist nötig, Auth muss aktiv sein (LM Studio API-Tokens ab
Version 0.4.0, „Require Authentication” aktivieren).
Fehlerbehebung
| Symptom | Wahrscheinliche Ursache | Lösung |
|---|---|---|
| Base URL wird abgelehnt | URL ist http://, localhost oder private IP | Öffentliche https://.../v1-Tunnel-URL verwenden |
/v1/models liefert 401 | Falscher Bearer-Key / Auth falsch konfiguriert | LiteLLM- bzw. LM-Studio-Token prüfen und erneut testen |
| Test ok, Chat nicht | Modell gelistet, aber nicht chat-fähig oder nicht aktiv | Chat-Modell aktivieren, Modellnamen exakt aus /v1/models übernehmen |
| Antworten sind langsam | Modell zu groß oder Tunnel langsam | Kleineres, quantisiertes Modell (7B/8B) testen, Kontext reduzieren |
| Unerwartete Kosten | BYOM-Kosten laufen nicht über das Corporate-LLM-Budget | Beim eigenen Provider Limits setzen; bei Ollama lokale Strom-/GPU-Kosten bedenken |
