GPT schreibt, Claude prüft: Microsofts Zwei-KI-Trick
Microsoft lässt in 365 Copilot GPT schreiben und Claude gegenprüfen. So baust du den Zwei-KI-Loop ohne Abo selbst nach.
Der beste Move in KI ist nicht der schärfere Prompt. Es ist die zweite KI, die der ersten auf die Finger schaut.
Microsoft hat das gerade in 365 Copilot eingebaut: GPT schreibt den Entwurf, Claude prüft ihn gegen. Zwei rivalisierende Modelle, die sich gegenseitig kontrollieren. Klingt nach Konzern-Spielerei. Ist aber der nützlichste Workflow-Trick, den du dir 2026 als Selbstständiger abschauen kannst — und du brauchst dafür kein Copilot-Abo.
Ich zeig dir, wie du diesen Zwei-KI-Loop heute manuell nachbaust. Mit den Tools, die du eh schon offen hast.
Was Microsoft da genau macht
Die Mechanik ist simpel. Microsoft 365 Copilot lässt OpenAIs GPT einen ersten Draft erzeugen — eine Mail, eine Zusammenfassung, ein Dokument. Dann schickt es diesen Draft an Anthropics Claude. Claude faktencheckt, sucht Widersprüche, markiert Schwachstellen. Erst danach landet das Ergebnis bei dir.
Zwei Modelle von zwei Firmen, die im Markt eigentlich Gegner sind. Microsoft nutzt sie als Team. Der eine produziert, der andere zerreißt.
Warum machen die das? Weil eine einzelne KI ihre eigenen Fehler nicht sieht. Sie ist auf ihren eigenen Output trainiert, blind für die eigenen blinden Flecken. Ein zweites Modell mit anderem Trainingsdatensatz fängt genau das ab, was das erste übersehen hat.
Warum eine KI allein dir Müll andreht
Ich hab das hundertfach erlebt. Du lässt ein Modell einen Text schreiben, er liest sich glatt, du übernimmst ihn. Drei Wochen später meldet sich ein Kunde: die Zahl stimmt nicht.
KI halluziniert selbstbewusst. Das ist das Tückische. Ein Modell sagt dir nicht "ich bin unsicher" — es liefert die falsche Jahreszahl im selben überzeugten Ton wie die richtige. Und wenn du den Text selbst geschrieben hättest, würdest du beim Gegenlesen stutzen. Aber bei KI-Output liest du anders. Du checkst Grammatik, nicht Wahrheit.
Genau hier setzt der zweite Prüfer an. Ein fremdes Modell hat die Aussage nicht selbst formuliert. Es geht ohne Stolz ran. Es findet die Stelle, an der das erste Modell sich was zusammengereimt hat.
Der Zwei-KI-Loop zum Nachbauen
Du brauchst kein Microsoft 365. Du brauchst zwei Tabs.
- Tab 1 — der Schreiber. Hier lässt du ChatGPT oder ein beliebiges Modell den ersten Entwurf machen. Blogpost, Angebots-Mail, LinkedIn-Beitrag, egal. Lass es großzügig sein, noch nicht perfekt.
- Tab 2 — der Prüfer. Hier kommt Claude rein. Du fügst den Entwurf ein und gibst einen klaren Prüf-Auftrag: "Du bist kritischer Faktenchecker. Markiere jede Behauptung, die du nicht belegen kannst, jeden Widerspruch, jede Stelle, die nach Floskel klingt. Sei streng."
- Zurück zu Tab 1. Du nimmst Claudes Kritik und lässt GPT überarbeiten. Oder du baust selbst ein, was sinnvoll ist.
Drei Schritte. Schreiben, prüfen, überarbeiten. Der Punkt ist, dass Prüfer und Schreiber zwei verschiedene Modelle sind. Würdest du dasselbe Modell prüfen lassen, würde es seine eigenen Fehler verteidigen.
Welche KI in welche Rolle
Aus meiner Praxis: nicht jedes Modell ist ein guter Prüfer.
GPT ist ein starker Schreiber. Flüssig, kreativ, schnell bei Ideen und Varianten. Als Erst-Entwurf-Maschine top.
Claude prüft schärfer. Es ist vorsichtiger, sagt eher "das kann ich nicht belegen", findet logische Brüche. Genau das, was du beim Gegenlesen brauchst. Microsoft hat die Rollen nicht zufällig so verteilt.
Du kannst die Rollen auch tauschen und schauen, was bei deiner Arbeit besser passt. Bei Marketing-Text lass ich gern Claude schreiben und GPT auf Verkaufs-Punch prüfen. Bei Fakten-lastigem Zeug dreh ich es um. Es gibt kein Gesetz — nur den einen Grundsatz: nie dasselbe Modell für beide Jobs.
Wo ich das selber einsetze
Ich produziere seit zehn Jahren Video, mittlerweile fast alles mit iPhone und KI im System statt Agentur-Team. Bei Skripten für Kunden-Videos ist der Zwei-KI-Check inzwischen Standard.
Ein Beispiel: Ich schreibe ein Skript über ein Produkt, das ich nur aus dem Briefing kenne. Das erste Modell baut mir einen sauberen Sprechtext. Klingt super. Dann schickt der zweite Prüfer mir drei Stellen zurück, an denen eine technische Behauptung drinsteht, die so nicht im Briefing stand. Frei erfunden. Hätte ich das beim Kunden eingereicht, wäre es peinlich geworden.
Der Loop kostet mich zwei Minuten extra. Er hat mir schon mehr als einen Korrektur-Marathon erspart. Und das Vertrauen beim Kunden ist Gold wert — die merken, dass meine Sachen stimmen.
Wo der Trick an seine Grenze stößt
Ehrlich: der Zwei-KI-Loop ist kein Allheilmittel. Wenn beide Modelle dieselbe Lücke im Wissen haben, prüfen sie sich gegenseitig durch — und der Fehler überlebt. Bei sehr nischigem Fachwissen, bei lokalen Details aus dem österreichischen oder deutschen Markt, bei allem nach dem Trainings-Cutoff: da hilft nur dein eigener Kopf.
Die zweite KI ersetzt nicht dein Urteil. Sie filtert das grobe Zeug raus, damit dein Urteil sich auf das Wichtige konzentrieren kann. Das ist der Job. Mehr nicht. Aber das allein hebt deine Qualität spürbar.
Mach es dir zur Gewohnheit: keinen KI-Text rauslassen, den nicht ein zweites Modell gesehen hat. Bau dir die zwei Tabs ein, leg dir einen Prüf-Prompt zurecht, fertig.
Welche Modelle du dafür kombinierst und wie du dir die Prüf-Prompts baust, diskutieren wir laufend in der ContentWerk Community — komm rein und zeig deinen Workflow.
---