So bearbeiten Sie KI-Entwürfe, damit sie wie von Ihnen geschrieben klingen

TL;DR: KI-Detektoren rauschen so stark, dass das „Austricksen“ nicht das richtige Ziel ist — Sadasivan et al. (2023) zeigten, dass rekursives Paraphrasieren jede getestete Detektorklasse kollabieren lässt (teilweise auf 15–25 % Genauigkeit), und OpenAI zog seinen eigenen Klassifikator im Juli 2023 zurück. Entscheidend ist also, dass der Entwurf wie Ihr eigener Text klingt. KI-Entwürfe verraten sich durch eine handvoll mechanischer Merkmale: übermäßiger Gedankenstrich-Einsatz, Antithese-Ketten, uniforme Klammern, einleitende Weichmacher, strikt lineare Struktur und vage Pronomenanschlüsse. Jedes davon hat eine deterministische Korrektur. Nach diesem mechanischen Durchgang trennt die eigentliche Urteilsarbeit (Behauptungen prüfen, generische Beispiele durch konkrete ersetzen, nicht belegbare Zitate streichen) einen bearbeiteten Entwurf von „nur“ einem weiteren KI-Entwurf. Rechnen Sie pro Text mit etwa dreißig Minuten für die Gesamtrunde.

Warum Erkennung das falsche Ziel ist

Ich überarbeite zwei bis drei KI-Entwürfe pro Woche: eigene Texte, die ich durch ein Modell zur Komprimierung gejagt habe, Entwürfe von Freelancern zur Freigabe oder Stücke, die ich im Modell begann und per Hand fertigstellte. Die Detektor-Frage kam letzten Monat zweimal auf. Beide Male lautete die richtige Antwort: Detektor ignorieren, Text bearbeiten.

Der Hype um Detektoren ist lauter, als er sein dürfte, weil die Tools eine Sicherheit verkaufen, die sie nicht besitzen. Ein Paper der University of Maryland von 2023 hat die besten Klassifikatoren unter rekursivem Paraphrasieren Stresstests unterzogen. Die Einbrüche waren deutlich: Der retrieval-basierte Detektor fiel von 100 % auf 25 % Genauigkeit. DetectGPTs AUROC sank von 82 % auf 18 %. Wasserzeichen-Detektoren, angeblich die robustesten, rutschten nach fünf Durchgängen von 99 % True-Positive-Rate auf 15 %. Das Muster über alle Detektoren hinweg: Eine dünne Paraphrasen-Schicht bricht sie.

Gegenüberstellung: Was KI-Detektoren zuverlässig erfassen und wobei sie danebenliegen, mit Zitatzahlen — Was Detektoren treffen und was sie verfehlen. Die rechte Spalte kalkulieren die meisten Editor:innen nicht ein.

OpenAI zog seinen AI Text Classifier im Juli 2023 zurück und verwies auf eine „niedrige Genauigkeitsrate“ — das Tool erkannte nur 26 % KI-Text und kennzeichnete 9 % menschlichen Text fälschlich. Liang et al. (2023) von der Stanford University meldeten bei TOEFL-Aufsätzen nicht-muttersprachlicher Autor:innen eine durchschnittliche False-Positive-Rate von 61 %. Eine nicht-muttersprachliche Person mit sauberem Menschen-Text wird also meist als KI markiert. Das alles heißt nicht, „Detektoren sind nutzlos“. Es heißt: „Detektoren sind ein lautes Zweitgutachten, kein Optimierungsziel.“

Der Perspektivwechsel ist simpel: Relevant ist, ob ein menschlicher Leser denkt „klingt nach KI“. Beheben Sie das, erledigt sich die Detektor-Frage von selbst. Der Großteil der Korrektur ist mechanisch.

Die sechs verräterischen Muster

Nach rund zweihundert geprüften KI-Entwürfen (Claude, GPT-4-Familie, Gemini, 2024–2026) tauchen sechs Muster so häufig auf, dass Leser sie als KI identifizieren. Modellunterschiede existieren (Claude liebt Antithesen, GPT über-hedgt), doch die sechs sind modellstabil genug für eine gemeinsame Liste.

Sechs mechanische KI-Merkmale mit Beispielen und jeweiliger Korrektur — Die sechs mechanischen Merkmale. Halten Sie jedes unter dem Schwellenwert rechts; die kumulative Wirkung ist größer als jede Einzelkorrektur.

Warum sechs und nicht zwölf? Jede lange Liste von „KI-Merkmalen“ schrumpft darauf, wenn man fragt, was Leser wirklich bemerken und was nur Stilpräferenz ist. Hat Ihr Entwurf keins davon in hoher Dichte, klingt er wahrscheinlich schon menschlich. Hat er vier oder mehr, nützt aller Feinschliff an den übrigen zwanzig Stil-Tipps online nichts.

So lesen Sie die Behebungstabelle

Die Tabelle gehört im zweiten Tab offen. Links steht das Merkmal, in der Mitte sein Erscheinungsbild, rechts Korrektur samt Schwelle.

Merkmal	So sieht es aus	Korrektur
Gedankenstrich-Overuse	Fünf oder mehr Gedankenstriche pro 1 000 Wörter, oft drei in einem Absatz	Auf zwei pro 1 000 Wörter deckeln; übrige durch Punkt, Komma oder Klammern ersetzen
Antithese-Ketten	„X ist nicht Y. Es ist Z.“ — drei-mal oder öfter im Text	Auf zwei pro Artikel begrenzen; Rest als klare Aussagen umschreiben
Uniforme Klammern	Alle Klammern sind gleicher Art (nur Definitionen, nur Einschübe oder nur Quellangaben)	Drei Typen mischen: Definition, Einschub, Quellflag
Einleitende Weichmacher	Sätze beginnen mit „Es lohnt sich, …“, „Wichtig ist, …“, „Bemerkenswert ist, …“	Weichmacher streichen; direkt mit der Aussage starten
Lineare Struktur	Jeder Absatz drei Sätze, jeder Abschnitt drei Absätze	Takt brechen: Ein-Satz-Absätze, variable Abschnittslängen, gelegentlich langer Absatz
Vage Pronomen	„Dies“, „Es“ oder „Sie“ leiten einen Absatz ein, ohne klaren Bezug zum vorherigen	Durch explizite Substantivphrase ersetzen

Gedankenstriche sind der sichtbarste Marker und die leichteste Korrektur. Modelle produzieren acht bis neun pro tausend Wörter, teils drei in einem Satz, weil Langform-Journalismus im Training überrepräsentiert ist. Suchen, zählen, auf zwei pro tausend deckeln. Zwanzig Sekunden Arbeit, größter Einzelhebel gegen „klingt nach KI“.

Antithese-Ketten sind die rhetorische Figur „Es geht nicht um Sichtbarkeit. Es geht um Autorität.“ Modelle greifen darauf zurück, weil sie billig Selbstbewusstsein simuliert und in Lehrtexten häufig ist. Zwei pro Artikel reichen; Rest direkt behaupten. Sofort weniger Show.

Die Triage: bearbeiten, umschreiben oder verwerfen

Die meiste Editor-Zeit verpufft bei Entwürfen, die nach drei Minuten in den Papierkorb gehören. Eine Vier-Fragen-Triage spart den Tag in fünf Minuten.

Vier-Fragen-Triage für KI-Entwürfe mit Entscheidungen: bearbeiten, aus Gliederung neu schreiben oder verwerfen und neu prompten — Vier Fragen, drei Antworten. Das „verwerfen“ kommt öfter vor als gedacht; die Fünf-Minuten-Triage spart die nächsten neunzig.

Frage 1: Enthält der Entwurf mindestens eine spezifische Aussage, ein Beispiel oder eine Zahl? „Marketing-Teams sollten sich an der Customer Journey orientieren“ ist nicht spezifisch. „Teams, die über zwei Beiträge pro Woche veröffentlichen, sehen Verfall nach sechs statt vierzehn Monaten“ ist spezifisch. Fehlen jegliche Details, hatte das Modell zu wenig Material — Bearbeitung hilft nicht.

Frage 2: Ist die Struktur rettbar oder braucht sie ein Re-Design? Lesen Sie die H2-Liste laut. Fließt das Argument, ist nur mechanisches und Urteils-Editing nötig. Klingt sie wie lose aneinandergereihte Themenabsätze ohne These, ist die Struktur kaputt und Absatz-Editing nutzlos.

Frage 3: Stimmen die Fakten? Prüfen Sie eine Zahl, ein Zitat und eine Tool-Nennung. Müssen zwei von drei korrigiert werden, stecken Halluzinationen überall — Aufräumen dauert Stunden.

Frage 4: Wie viele der sechs Merkmale treten dicht auf? Zwei oder weniger: kurzer mechanischer Durchgang. Vier oder mehr: Default-Sampling, minimal post-processed — größerer Edit-Job.

Die drei Endurteile. Spezifische Beispiele drin, Struktur gut, Claims solide, ≤2 dichte Merkmale: In-Place-Edit, 45–90 Minuten. Struktur gut, aber Beispiele fehlen oder Claims falsch: Aus Gliederung neu schreiben, 90–150 Minuten. Generisch, Struktur wirr: verwerfen und mit engerem Brief neu prompten. 15–20 % meiner Queue landen im Papierkorb — die fünf Minuten lohnen.

Wie ein bearbeiteter Absatz aussieht

Mechanik sieht man besser am Beispiel. Ein Absatz aus einem Entwurf (Thema Page-Decay-Signals), zwei Durchgänge.

Beispielabsatz vor und nach Bearbeitung, Änderungen nach Merkmalen markiert — Vorher-/Nachher-Voice-Print. Die vier markierten Eingriffe machen den größten Unterschied.

Entwurfsversion: „Content Decay ist kein langsamer Prozess. Er ist steil — und die meisten Operatoren übersehen ihn komplett. Es lohnt sich, darauf hinzuweisen, dass die typische Decay-Kurve schneller verläuft, als viele erwarten. Daher ist das Messen entscheidend: Ohne Basislinie wissen Sie nie, ob eine Seite sich erholt oder weiter abrutscht. Wichtig ist, dass das Signal im Trend liegt, nicht in der Momentaufnahme.“

Bearbeitete Version: „Content Decay verläuft steiler, als die meisten Operatoren denken. Die typische Kurve verliert innerhalb von sechs Monaten nach dem letzten relevanten Update acht bis zwölf Prozent monatlicher Klicks – das Signal liegt im Trend, nicht im Snapshot. Bei meinem eigenen Portfolio-Audit letztes Quartal hatten drei von sieben Seiten auf der Watchlist die Acht-Prozent-Marke überschritten; eine lag schon bei fünfzehn, und ich übersah sie, weil ich nur den Snapshot betrachtete.“

Vier Änderungen: Zwei von drei Gedankenstrichen gestrichen. Die Antithese in eine klare Aussage gedreht. Vages „Daher“ durch expliziten Bezug ersetzt. Und ein konkretes Beispiel mit Zahl, Audit, Praxiserfahrung ergänzt. Letzteres wirkt stärker als die ersten drei zusammen: Sobald ein echtes Beispiel auftaucht, verfliegt das „klingt nach KI“.

Urteilspunkte jenseits der Checkliste

Die Grenzen des Mechanik-Durchgangs sind ehrlich zu benennen. Vier Edit-Klassen bleiben menschlich:

Fakten. Modelle erfinden Zahlen in überraschender Frequenz. Ein Entwurf behauptete „63 % der Marketer messen Content-ROI“ — die reale CMI-Zahl lag bei 41 %. Jede Zahl gegen Primärquelle prüfen, sonst streichen.

Zitate. Noch schlimmer als Zahlen: erfundene Paper-Titel, Autor-Namen, Zitate. Der Knowledge-Based-Trust-Artikel deckt den größeren Rahmen; Regel: Jede Referenz vor Veröffentlichung verifizieren.

Framing. Winkel und These sind redaktionelle Entscheidungen. Ist das Framing falsch (Thema verlangt Nuance, Text verkauft Gewissheit – oder umgekehrt), hilft keine Mechanik. Lead und Intro neu schreiben.

Beispiele. Der stärkste Hebel. Generisches „ein Marketing-Team“ wird durch ein reales Beispiel ersetzt. Ein echtes Beispiel wiegt fünf Weichmacher-Streichungen auf — und bleibt beim Leser hängen.

Wenn das Problem upstream die Stimme ist

Manche Entwürfe sind generisch, weil das Briefing generisch war. Drei Entwürfe in Folge auf „verwerfen“ oder „neu schreiben“? Nicht das Modell, sondern der Brief ist schuld.

Symptom: Texte sind themennah, aber ohne Ihre Perspektive. Alle Korrekturen wären Framing-Ebene. Die Mechanik glättet nur die Oberfläche — es klingt beliebig. Das ist Voice-Strategie, kein Edit-Workflow-Problem.

Der Voice-Strategy-Artikel zeigt, wie man eine Stimme definiert, die sich prompt-seitig steuern lässt (Style-Sheet, Signature Moves, verbotene Formulierungen). Wer die Stimme in wiederkehrende Prompts gießen will, liest als Nächstes den Beitrag zu agentischen Workflows.

Detektor-Realität in drei Absätzen

Ehrlicher Kurz-Read zu KI-Detektoren: drei Kategorien.

Was sie zuverlässig fangen: unveränderte Modell-Outputs mit Default-Sampling. Wenn Sie Roh-GPT, Claude oder Gemini publizieren, wird das geflaggt – Detektoren wurden darauf trainiert.

Was sie schlecht fangen: paraphrasierte Outputs (Sadasivan: Retrieval-Detektoren fallen auf 25 %, Wasserzeichen auf 15 %), gemischte Mensch-/KI-Passagen und Entwürfe nach moderatem Redaktionstiefe. Nach dem Sechs-Merkmale-Durchgang verlieren die meisten Detektoren Vertrauen.

Wobei sie irren: nicht-native Englisch-Autor:innen (Liang et al., 2023: 61 % False-Positives), stark gehedgte akademische Texte und alles mit geringer Burstiness. Schreiben Sie im formellen Register, kann Ihr rein menschlicher Text als „KI“ gelten. Das ist Bias des Detektors, kein Signal über Ihr Schreiben. Nutzen Sie unser Detektor-Tool als Plausi-Check, aber behandeln Sie das Ergebnis als Zweitmeinung.

Was ich in den 30 Minuten vor dem Publish tatsächlich tue

Der ganze Prozess als 30-Minuten-Pass:

Triage, fünf Minuten. Vier Fragen, Urteil. „Verwerfen“? Anhalten, neu prompten, 25 Minuten gespart. „In-Place“ oder „Neu aus Gliederung“? Weiter.

Mechanischer Sweep, zehn Minuten. Gedankenstriche suchen, zählen, auf zwei/1 000 deckeln. „It is not“-Antithesen grep-en, auf zwei pro Artikel. Absatzanfänge auf Weichmacher prüfen, löschen. „This/It/They“-Anfänge ersetzen. Drei Absätze auf Klammernuniformität scannen, mischen.

Urteils-Pass, zehn Minuten. Eine Fakt-Aussage gegen Primärquelle prüfen. Ein generisches Beispiel durch Ihr eigenes ersetzen. Intro noch mal lesen: trägt der Lead die These oder windet er sich? Wenn ja, Lead neu schreiben. Der Refresh-Strategy-Artikel zeigt den Parallel-Pass beim Updaten bestehender Inhalte.

Sanity-Check, fünf Minuten. Erste zwei Absätze laut lesen. Klingen sie nicht nach Ihnen, braucht der Lead mehr Arbeit. Letzten Absatz lesen; endet er mit Floskel, letzte Zeile streichen.

Worum es bei der Detektor-Frage wirklich geht

Die Detektor-Frage ist Stellvertreter für „hat hier jemand echt editiert?“. Ersteres ist nicht genau beantwortbar, Zweiteres in 30 Minuten schon. Frage neu stellen, Arbeit folgt.

Zwei weiterführende Reads: Der AI-Stuffed-Blogs-Artikel zeigt das Failure-Mode, das diese Bearbeitung verhindert, und der AI-Website-Migration-Artikel den Strategie-Kontext für Skalierungs-Operatoren.

FAQ

Wird Google Inhalte bestrafen, die per KI entworfen wurden? Googles Standpunkt im Spam-Policy-Update März 2024: KI-Unterstützung an sich wird nicht bestraft; geahndet wird Content, der ohne redaktionelle Aufsicht und ohne Mehrwert massenhaft erzeugt wird. Bearbeiten Sie den Entwurf, fügen Sie das konkrete Beispiel hinzu, und Sie liegen voll im Rahmen. Der Black-Hat-Trap-Artikel beleuchtet das Policy-Umfeld.

Sind KI-Detektoren wirklich genau? Nein, keineswegs verlässlich. Sadasivan et al. (2023) zeigten, dass rekursives Paraphrasieren mehrere Detektor-Klassen auf 15–25 % drückt; Liang et al. (2023) fanden 61 % False-Positives bei nicht-muttersprachlichen TOEFL-Schreibern; OpenAI zog 2023 seinen Klassifikator wegen geringer Genauigkeit zurück (erkannte 26 % KI-Text, flaggte 9 % Menschen-Text). Detektor-Output = lautes Zweitgutachten, kein KPI.

Wie lange dauert das Editieren eines KI-Entwurfs? 30–90 Minuten für In-Place-Edit, 90–150 Minuten für Struktur-Rewrite. Wenn Sie drei Stunden versenken, hätten Sie besser verworfen und neu gepromptet.

Was ist wichtiger — Mechanik oder Urteil? Urteil, deutlich. Die mechanische Runde nimmt ~80 % „klingt nach KI“ weg; das Urteil macht den Unterschied zum nächsten KI-Edit, und der Beispiel-Tausch hat den größten Impact. Der Content-Decay-Guide ist ein nützlicher Audit-Backdrop.

Was, wenn ein Kunde fragt, ob der Text KI-entworfen wurde? Ehrlich sein. Die meisten Kunden akzeptieren „KI-Entwurf, manuell redigiert“, solange die Redigatur real ist. Das Marken-Risiko ist nicht die KI, sondern sie zu verbergen. Die Redaktion ist das Produkt.

Our powerful suite of automation tools for SEO

Learn, discover, and get inspired by our content

So überarbeiten Sie KI-Entwürfe, damit sie klingen, als hätten Sie sie selbst verfasst