Wieso ‘OpenSource’ Modelle uns kein bisschen souverän machen

Vorweg: Ich bin ein riesiger Open-Source-Fan. Ohne offene Modelle und offene Forschung wäre ich nie in der AI gelandet. Über fast.ai und ULMFiT bin ich in die Welt der Language Models (damals waren sie noch nicht Large) eingestiegen und habe selbst Open-Source-Modelle (auf meinem eigenen 2x3090 “KI-Blech”) trainiert und veröffentlicht - ULMFiT Language Models. Ich nutze Open Source Software und versuche Projekte zu unterstützen. Was ich hier schreibe, ist also keine Kritik an Offenheit - sondern daran, dass wir uns von einer Schein-Offenheit blenden lassen.

Kaum ein Begriff wird in der AI-Debatte so inflationär und meiner Meinung nach falsch verwendet wie “Open Source” oder “Souveräne KI”. Kimi? Open Source! DeepSeek? Souverän! Dabei haben sind diese Modelle ein bisschen wie kostenlose Cola … schmeckt lecker und irgendwie will man mehr davon aber niemand weiß wie Cola denn wirklich gemacht wird.

Open Weights != Open Source

In der Software-Welt bedeutet Open Source: Alles ist offen. Source Code, Build-Umgebung, Dokumentation, Tests. Jeder kann den Code lesen, verstehen, verändern und selbst bauen. DAS ist das Fundament digitaler Souveränität - wer den Code hat, ist unabhängig.

Ein Beispiel: Elasticsearch. Als Elastic 2021 die Lizenz von Apache-2.0 auf die restriktivere SSPL umstellte, war das kein Drama - weil der Source Code offen war. Amazon hat den letzten offenen Stand einfach geforkt und als OpenSearch weiterentwickelt. Heute ist OpenSearch ein eigenständiges Projekt mit großer Community. (Was an dem Beispiel auch spannend ist und einen potenzielle parallele zu “Open Source Modellen” werden kann: Elastic hat aus wirtschaftlichen und nachvollziehbaren Gründen die Lizenz geändert).

Bei AI-Modellen? Fundamental anders. Und ja - die aktuellen Open-Weight-Modelle sind beeindruckend gut. Kimi K2.5 von Moonshot AI, GLM-4.7 von Zhipu AI, DeepSeek V3.2 von DeepSeek und Qwen3 von Alibaba Cloud - Performance auf dem Level proprietärer Modelle, frei zum Download auf Hugging Face.

Aber was diese Anbieter veröffentlichen, sind Open Weights - die Architektur und Gewichte des trainierten Modells. Klingt erstmal super. Aber die Weights sind nur das Endergebnis eines langen, teuren Prozesses. Das eigentliche Wissen steckt woanders:

Trainingsdaten: Welche Daten wurden verwendet? In welcher Qualität? Wie kuratiert und gefiltert? Keine Ahnung.
“Trainingsrezept”: Welche Hyperparameter, welcher Datenmix, Pre-, Mid- und Post-Training … was, wie und wie lange?
RL-Harness: Wie wurde das Modell mit Reinforcement Learning trainiert? Welche Reward Models kamen zum Einsatz? Wie sieht die RLHF- oder RLVR Pipeline, Daten und Umgebung aus?

Ohne diese Komponenten kann niemand das Modell reproduzieren. Man kann es nutzen und ggf. finetunen - aber von Grund auf nachbauen, “weiter trainieren” oder darauf Aufbauen? Keine Chance.

Aber ich kann’s doch selbst hosten …

… oder: die wirtschaftliche Realität des Self-Hostings. „Offen“ bedeutet nicht „günstig“. Die Hardware-Anforderungen für echte Frontier-Performance sind für die meisten Anwendungsfälle schlicht utopisch.

Nehmen wir ein aktuelles Beispiel wie Kimi K2.5 oder die großen DeepSeek V3 Varianten:

Hardware: Um diese Modelle nativ und ohne potentiellen Qualitätsverlust durch zu starke Quantisierung zu betreiben, reicht kein Gaming-PC oder der LinkedIn-beliebte Spark DGX. Wir sprechen hier von 8x H100 GPUs Setups.
Investitionskosten: Ein solcher Server schlägt on-premise mit ~ 250.000 $ zu Buche – die Strom- und Kühlkosten noch gar nicht eingerechnet.
Cloud-Preise: Eine Instanz mit 8x H100 kostet bei den großen Hyperscalern wie Azure oder AWS aktuell zwischen 60 und 100 $ pro Stunde. Selbst bei GPU-Discountern wie Lambda Labs liegt man selten unter 24 $ pro Stunde.

Um die Dimensionen zu verstehen, muss man die laufenden Kosten ins Verhältnis zur API-Nutzung setzen. Wenn wir einen recht günstigen Durchschnittspreis von 40 $ pro Stundeannehmen, kostet der Betrieb eines Modells wie Kimi K2.5 oder DeepSeek V3 ca. 960 $ pro Tag.

Was bekäme man dafür per API bei einem angenommenen 3 Input : 1 Output Token-Mix??

Modell	Preis Input (pro 1 Mio.)	Preis Output (pro 1 Mio.)	Kapazität (Gesamt)	Verteilung (In/Out)
Gemini 3.0 Pro	2,00 $	12,00$	~213 Mio. Tokens	160 Mio. In / 53 Mio. Out
Claude 4.6 Opus	5,00 $	25,00$	~96 Mio. Tokens	72 Mio. In / 24 Mio. Out

Und dann skaliert das Blech auch nicht gut. Die meisten Anwendungsfälle haben sehr unstetige Usage-Patterns. Nachts wenig, tagsüber viel - Sonntags nichts und unter der Woche Hochlast. Und ja, kleinere Modelle haben einen deutlich geringeren Hardware-Hunger, sind aber auch per API sehr günstig.

Die Halbwertszeit von Modellen

Kommen wir zum eigentlichen Problem: AI-Modelle veralten rasend schnell. Was heute State-of-the-Art ist, ist in sechs Monaten Mittelmaß. GPT-4 war im März 2023 die Revolution schlechthin - heute gibt es dutzende Modelle, “Closed” wie “Open” die deutlich besser und günstiger sind.

Wer sich auf Open-Weight-Modelle verlässt, ist auf einen kontinuierlichen Strom neuer Releases angewiesen. Und hier wird es spannend: Werden die chinesischen Anbieter - DeepSeek, Alibaba, Moonshot, Zhipu und Co. - für immer ihre Modelle als Open Weights veröffentlichen?

Spoiler: Wahrscheinlich nicht. Die aktuelle Offenheit ist vor allem eine strategische Entscheidung. Ecosystem-Aufbau, Developer-Bindung, Standards setzen und OpenAI & Co. das Leben ein bisschen schwerer machen. Irgendwann müssen oder wollen diese Anbieter vielleicht auch Geld verdienen - oder einen technischen Fortschritt schützen. Es gibt also keine Garantie, dass es weiterhin State-of-the-Art “Offene” Modelle geben wird - wenn man den Gerüchten glauben kann - hat Meta schon zur Kehrtwende angesetzt.

Auch sieht man z. B. bei OpenAI und Google wie das zukünftig aussehen könnte. Die besten Modelle gibts per API - und man bekommt ab und an eine OpenWeights-Karotte wie Gemma oder gpt-oss.

Wer seine AI-Strategie auf DeepSeek-R2 oder Qwen3 aufbaut, baut auf Sand. Nicht weil die Modelle schlecht wären - sondern weil die Abhängigkeit am Ende ähnlich groß ist wie bei proprietären Anbietern. Sie fühlt sich nur besser an, weil man die Modelle selbst hosten kann. Self-Hosting ist nicht gleich Souveränität.

Echte Open-Source-Modelle

Es gibt sie, die echten Open-Source-Modelle. Aber sie sind rar. Ein herausragendes Beispiel ist OLMo vom Allen Institute for AI (AI2). Bei OLMo ist tatsächlich alles offen:

Der vollständige Training Code und die Post-Training Pipeline
Die kompletten Training Data (Dolma3)
Alle Training Metrics und Logs
Tausende Intermediate Checkpoints während des Trainings
Die Evaluation Pipelines (OLMES)

Dazu kommen ausführliche Technical Reports zu jeder Version - von OLMo 1 über OLMo 2 bis OLMo 3. Und AI2 geht noch einen Schritt weiter: Nathan Lambert, einer der Leads des Projekts, hält regelmäßig Talks, die den gesamten Prozess transparent machen - von Building OLMo 3 Think über die Keynote “Training a Fully Open Reasoning Model” auf der PyTorch Conference bis zum Deep Dive mit den Lead Researchers Hanna Hajishirzi und Noah Smith. Diese Talks sind absolut sehenswert - das ist nicht nur Open Source, das ist Open Education.

Das ist echte Open Source. Jeder kann das Modell reproduzieren, verstehen, warum es bestimmte Entscheidungen trifft, und darauf aufbauen. Leider passiert das nicht -

https://artificialanalysis.ai/models/olmo-3-1-32b-think

Alles super also? Leider nein, wirklich konkurrenzfähig ist Olmo3 nicht …

Lichtblicke?

Mistral

In Europa gibt es durchaus Lichtblicke. Mistral hat sich als ernstzunehmender Player etabliert und released regelmäßig starke Modelle. Auch wenn Mistral nicht alle Training Data offenlegt, ist die europäische Verankerung ein Pluspunkt - zumindest unterliegt Mistral europäischer Regulierung. Daumen drücken, dass Mistral nicht weggekauft wird. Ansonsten sieht es nämlich leider düster aus, was Frontier-LLMs von privaten deutschen oder europäischen Unternehmen angeht.

EU-geförderte Projekte

Dazu investiert die EU zunehmend in eigene AI-Infrastruktur und eigene Foundation Models. An Projekten mangelt es nicht:

EuroLLM: Ein Horizon-Europe-Projekt, das multilinguale LLMs für alle 24 EU-Sprachen baut - trainiert auf dem MareNostrum5 Supercomputer in Barcelona. Bisher Models bis 22B Parameter released.
TrustLLM: Ebenfalls Horizon Europe, ca. 6,9 Mio. EUR Budget, Fokus auf trustworthy und transparente LLMs - zunächst für germanische Sprachen. 10 Partner aus 6 Ländern.
OpenEuroLLM: Das bisher größte EU-Vorhaben mit 34 Mio. EUR Budget, 20 Partnern und dem Ziel, eine Familie offener Foundation Models für 35 Sprachen zu bauen. Mit dabei u.a. Silo AI, Aleph Alpha, Fraunhofer und Ellamind.
SOOFI: Vom BMWK mit ca. 20 Mio. EUR gefördert. Ziel: ein souveränes Open-Source-Modell mit ~100B Parametern für europäische Sprachen und industrielle Anwendungen.

Das klingt erstmal nach viel Aktivität. Und ich finde es auch grundsätzlich richtig und wichtig. Aber ob diese Projekte am Ende wirklich konkurrenzfähige Modelle hervorbringen, ist eine andere Frage. Mein Bauchgefühl sagt: Es wird schwierig. Die Erfahrung zeigen, dass die besten Modelle kleinen, fokussierten Teams mit großem Budget in wenig regulierten Märkten gebaut werden - OpenAI, DeepSeek, Anthropic, das sind keine Konsortien aus 20 Organisationen und China und die USA sind nicht für Urheberrechte bekannt.

Die EU-Projekte scheinen oft das Gegenteil zu sein: große, verteilte Teams aus verschiedensten Organisationen mit dann doch überschaubarem Budget. 34 Mio. EUR klingen nach viel - bis man das mit den Milliarden vergleicht, die bei OpenAI oder Google in die Modelle fließen … und Hand aufs Herz - was bringen uns am Ende 12 nicht-ganz-State-of-the-Art Modelle? Was fehlt sind - darauf aufbauend - ernsthafte privatwirtschafliche Investitionen und die Weiterenwicklung der Modelle. Bis auf Mistral scheint man das Thema aber aufgegeben zu haben.

SPRIND

Einen spannend anderen Ansatz verfolgt SPRIND mit der Initiative “Next Frontier AI”. Statt ein großes Konsortium zu beauftragen, schreibt die Bundesagentur für Sprunginnovationen einen Wettbewerb aus: 125 Mio. EUR Budget, bis zu 10 Teams treten an, die besten 3 sollen zu echten europäischen Frontier AI Labs heranwachsen - mit dem Ziel, jeweils bis zu 1 Mrd. EUR Follow-on-Funding einzusammeln. Kleine Teams, hohe Ambition, kompetitiver Ansatz. Das kommt dem, was in der AI-Welt tatsächlich funktioniert, deutlich näher als klassische Forschungskonsortien.

Ausblick

Souveräne KI bedeutet nicht, die neuesten Open-Weight-Modelle auf eigenem Blech zu hosten.

Echte Souveränität erfordert:

Eigene Training-Kompetenz: Die Fähigkeit, Modelle from Scratch zu trainieren - mit eigenen Daten, eigener Infrastruktur, eigenem Know-how.
Echte Open-Source-Initiativen: Nicht nur “Weights”, sondern den gesamten Training-Prozess und Daten offen und reproduzierbar machen.
Europäische Infrastruktur: Relevante Rechenzentren und Compute, das nicht von US-Cloud-Anbietern abhängt.
Privatwirtschaftliches Investment: Massive Mobilisierung von Wagniskapital, öffentliche Förderungen und Projekte werden nicht zu konkurrenzfähigen Modellen führen
Hardware-Souveränität: das wäre einen eigenen Post wert - wie souverän ist denn die Hardware auf denen wir die Open Weights Modelle betreiben?

Solange wir “Open Weights” mit “Open Source” verwechseln und uns in falscher Sicherheit wiegen, bleiben wir abhängig - egal ob von OpenAI oder DeepSeek. Der Unterschied ist nur, dass sich die Abhängigkeit bei Open Weights besser anfühlt. Trotzem wird es nur einen Weg geben … die Flucht nach vorne … wie auch immer wir das schaffen sollten …