Synthetische Persona-Pipeline für evidenzbasiertes Hochschulmarketing

Sechs Agenten, eine Pipeline: von offenen Arbeitsmarktdaten über statistisch generierte Personas bis zur getesteten Messaging-Hierarchie. Komplett automatisiert, reproduzierbar für jede Domäne.

Pipeline
01 Ingestion 5 APIs → market_data.json 02 Persona Factory OCEAN + K-Means → personas.json 03 Monte Carlo N=10k → sensitivity.json 04 Exposure LP-Test → reactions.json 05 Debate Konsens → consensus.json 06 Quality Assurance Rules → qa_report.json messaging_matrix.json
idle — kein aktiver pipeline run v0.1.0

00 Was ist das hier?

Fieldlab ist eine automatisierte Pipeline zur evidenzbasierten Erstellung von Landingpages für die Scheer School of Digital Sciences. Statt Bauchgefühl-Marketing nutzen wir synthetische Personas, Monte-Carlo-Simulation und adversariales Concept Testing, um zu bestimmen, welche Botschaften für welche Zielgruppen auf einer Landingpage stehen sollten.

Die Pipeline ist domänenagnostisch: Für jede neue Zielgruppe (Bioinformatik, Kommunikation & Media, GovTech, …) wird nur eine Konfigurationsdatei ausgetauscht. Die sechs Agenten, die Datenquellen und die Methodik bleiben identisch.

Das methodische Fundament basiert auf dem Deepsona-Framework (Malukas, 2025) und den Erkenntnissen aus dem Whitepaper „Synthetische Personas" der Scheer School (Karbach, 2025).

01 Ingestion — Daten sammeln

Der erste Agent zieht Daten aus fünf öffentlichen APIs und normalisiert sie in ein einheitliches Schema. Jede Datenquelle beantwortet eine andere Frage:

Eurostat liefert EU-weite Demografie-, Bildungs- und Gehaltsdaten nach NACE-Branche. DESTATIS Genesis ergänzt mit granulären Deutschland-Daten zu Studierendenzahlen und Verdiensten. Die Bundesagentur für Arbeit gibt Auskunft über Fachkräfteengpässe und offene Stellen nach KldB-Berufsgruppe. Adzuna liefert Echtzeit-Stellenmarktdaten mit Gehaltsspannen. Google Trends zeigt Suchinteresse nach Weiterbildungsthemen über Zeit und Region.

Alle Metriken werden in ein Schema überführt: Quelle, Kategorie, Metrikname, Wert, Geo, Datum. Damit sprechen alle nachgelagerten Agenten die gleiche Sprache.

→ data/market_data.json

Eurostat RESTGenesis RESTBA StatistikAdzuna APIpytrends

02 Persona Factory — Personas generieren

Der zweite Agent erzeugt synthetische Personas — aber nicht per LLM-Brainstorming, sondern statistisch fundiert.

Schritt 1: Demografische Initialisierung aus den Ingestion-Daten. Altersverteilungen, Einkommensklassen und Bildungsniveaus werden aus Eurostat/Genesis gezogen.

Schritt 2: Psychografische Trait-Zuweisung. Die Big Five Persönlichkeitsmerkmale (OCEAN) werden aus Normalverteilungen gesampelt (μ=0.5, σ=0.15). Wertorientierungen folgen Schwartz' Value Theory.

Schritt 3: Korrelierte Verhaltensparameter. Preissensitivität korreliert negativ mit Einkommen (r≈-0.3), Neuheitspräferenz positiv mit Openness (r≈0.4). Die Korrelationsstruktur wird über eine Cholesky-Dekomposition der empirischen Kovarianzmatrix erhalten, damit Trait-Kombinationen realistisch bleiben.

Schritt 4: K-Means-Clustering (k=5) auf dem standardisierten Trait-Space. Die Segmente erhalten automatische Labels basierend auf ihren distinktivsten Merkmalen.

Schritt 5 — erst hier kommt das LLM: Jedes Persona-Objekt wird an Claude übergeben mit dem Auftrag, die numerischen Traits in ein kohärentes Narrativ zu übersetzen. Jede Persona erhält explizit drei Einwände gegen eine Einschreibung und zwei Informationslücken. Das LLM erfindet keine Traits — es verbalisiert die statistisch generierten.

→ data/personas.json · data/segments.json

NumPySciPy Choleskyscikit-learn K-MeansClaude Sonnet

03 Monte Carlo — Sensitivity-Analyse

Agent 3 beantwortet die Frage: Welche Variable hat den größten Einfluss auf die Enrollment-Wahrscheinlichkeit?

Für jedes Persona-Segment werden sechs Entscheidungsvariablen als Wahrscheinlichkeitsverteilungen modelliert: Arbeitgeber-Kostenübernahme (Beta), Opportunitätskosten (Normal), erwartete Gehaltssteigerung (Normal), Programm-Bekanntheit (Beta), Peer-Empfehlung (Bernoulli), LinkedIn als Infokanal (Beta). Pro Segment laufen 10.000 Simulationen.

Das Ergebnis ist eine Tornado-Chart-Analyse: Welche Variable verschiebt die Enrollment-Wahrscheinlichkeit am meisten, wenn man sie um eine Standardabweichung variiert? Das ist die evidenzbasierte Messaging-Hierarchie — was der größte Hebel ist, kommt in die Hero Section der Landingpage.

→ data/sensitivity.json

NumPySciPy10.000 Simulationen

04 Exposure — LP Concept Testing

Jede Persona bewertet einen strukturierten Landingpage-Entwurf. Der Entwurf ist in Sektionen aufgeteilt: Hero, Body (Karriere-ROI, Studienformat, Challenges), FAQ, CTA. Jede Persona gibt Scores ab für Verständlichkeit, Relevanz, Überzeugungskraft und Abbruchwahrscheinlichkeit.

Entscheidend: Adversarial Prompting. Jede Persona wird explizit angewiesen, negative Reaktionen zu geben wenn die LP nicht überzeugt. Die typische People-Pleasing-Tendenz von LLMs — jedes Konzept positiv zu bewerten — wird dadurch kontrolliert. Jede Persona benennt ihren Abbruchpunkt und was ihr an Information fehlt.

→ data/reactions.json

Claude Sonnet1 Call pro PersonaAdversarial Prompts

05 Debate — Segment-Deliberation

Nach den Einzelbewertungen führt der Debate Agent strukturierte Gruppendiskussionen pro Segment. 5–8 Personas aus dem gleichen Cluster präsentieren ihre Reaktionen, widersprechen sich, und erarbeiten einen Konsens.

Dieses Design stammt aus dem Deepsona-Framework (Malukas, 2025) und löst ein zentrales Problem: Einzelne Persona-Bewertungen haben hohe Varianz. Wenn Personas gegeneinander debattieren, entsteht realistische Heterogenität. Der Output sind Konsens-Scores pro LP-Element plus konsolidierte Einwände und Informationslücken.

Technisch ist das ein einziger LLM-Call pro Segment (Claude Opus für höhere Reasoning-Qualität), in dem die vorherigen Einzelreaktionen als Diskussionsgrundlage dienen.

→ data/consensus.json

Claude Opus1 Call pro SegmentDeepsona-Architektur

06 Quality Assurance — Konsistenzprüfung

Der letzte Agent ist rein regelbasiert — kein LLM. Er prüft vier Konsistenz-Bedingungen:

Preis-Konsistenz: Korreliert die geäußerte Überzeugungskraft mit dem Preissensitivitäts-Score der Persona? Hohe Preissensitivität (>0.7) kombiniert mit hoher Überzeugungskraft (>75) und niedriger Abbruchwahrscheinlichkeit (<25) wird geflaggt.

Kanal-Alter-Match: LinkedIn-Affinität >85% bei Personas unter 23 Jahren wird als unplausibel markiert.

Vertrautheits-Verständnis: Sehr niedrige Kategorie-Vertrautheit (<0.2) bei gleichzeitig sehr hohem Verständnis-Score (>85) deutet auf eine inkonsistente LLM-Antwort hin.

Widersprüchliche Scores: Hohe Abbruchwahrscheinlichkeit (>75) UND hohe Überzeugungskraft (>75) schließen sich gegenseitig aus — diese Responses werden aus der Aggregation entfernt.

→ data/qa_report.json → data/messaging_matrix.json

Python RulesKein LLMStatistische Ausreißer


Datenquellen

Alle primären Datenquellen sind öffentlich und kostenlos zugänglich. LLM-Calls laufen über OpenRouter (Claude Opus 4.6 und Sonnet 4.6). Ein vollständiger Pipeline-Durchlauf kostet ca. 5–10$ an API-Gebühren und dauert 10–15 Minuten.

Wissenschaftliche Grundlage

Malukas, M. (2025). Deepsona: An Agent-Based Framework for Multi-Trait Synthetic Audiences in Market Research. Research Square Preprint, doi:10.21203/rs.3.rs-8212512/v1.

Karbach, M. (2025). Synthetische Personas — Hype oder Gamechanger für datengetriebenes Marketing? Scheer School Whitepaper.

Derner, E. et al. (2024). Using Large Language Models to Create AI Personas for Replication and Prediction of Media Effects. arXiv:2408.16073.

Argyle, L. P. et al. (2023). Out of One, Many: Using Language Models to Simulate Human Samples. Political Analysis, 31(3).

Technisches

Python 3.12, FastAPI, NumPy/SciPy, scikit-learn. Frontend: statisches HTML/CSS/JS. Server: Hetzner Cloud, Standort Deutschland. Keine Cookies, kein Tracking. Code und Konfiguration unter Versionskontrolle.

Über

Fieldlab ist ein Projekt von karbach.digital in Zusammenarbeit mit der Scheer School of Digital Sciences an der Universität des Saarlandes. Kontakt: max@karbach.digital