Backtesting Your Futures Strategy: From Hypothesis to Data

Warum Backtesting wichtig ist

Backtesting ist der Prozess, eine Handelsstrategie auf historische Daten anzuwenden, um zu sehen, wie sie sich entwickelt hätte. Es ist die wissenschaftliche Methode, angewandt auf das Trading: Du formulierst eine Hypothese ("dieses Setup ist profitabel"), testest sie gegen Daten (historische NQ- oder ES-Preise) und ziehst Schlussfolgerungen basierend auf den Ergebnissen. Ohne Backtesting handelst du auf Intuition, Anekdoten und Hoffnung – nichts davon sind nachhaltige Vorteile.

Backtesting beantwortet die wichtigste Frage im Trading: "Funktioniert diese Strategie tatsächlich?" Nicht "fühlt es sich so an, als ob sie funktioniert" oder "funktioniert sie bei den letzten 10 Trades". Funktioniert sie über 200, 500, 1.000+ Trades unter verschiedenen Marktbedingungen – trendend, seitwärts, volatil, ruhig? Wenn die Antwort mit statistischer Sicherheit ja lautet, hast du einen handelbaren Vorteil. Wenn nicht, ersparst du dir Monate von Verlusten und Frustration.

Von der Hypothese zum Test

Schritt 1: Definiere eine klare Hypothese

Jeder Backtest beginnt mit einer spezifischen, testbaren Hypothese. Vage Ideen wie "Dips kaufen ist profitabel" sind nicht testbar. Du brauchst präzise Regeln:

Einstieg: Genaue Bedingungen für den Einstieg in einen Trade (z.B. "kaufe NQ, wenn der Preis über dem 20-Perioden-EMA im 5-Minuten-Chart schließt UND der kumulative Delta positiv wird")
Ausstieg: Gewinnziel und Stop Loss (z.B. "40-Punkte-Ziel, 20-Punkte-Stop")
Filter: Wann nicht gehandelt werden soll (z.B. "keine Trades in den ersten 5 Minuten nach der Eröffnung, keine Trades an FOMC-Tagen")
Positionsgröße: Wie viele Kontrakte pro Trade
Zeitrahmen: Auf welchem Chart-Zeitrahmen die Strategie läuft
Sitzung: Welche Handelssitzung (nur reguläre Stunden, einschließlich Übernacht, etc.)

Je spezifischer deine Regeln, desto aussagekräftiger dein Backtest. Wenn deine Regeln subjektive Elemente enthalten ("einsteigen, wenn der Chart stark aussieht"), kannst du nicht zuverlässig backtesten, da verschiedene Personen "sieht stark aus" unterschiedlich auf demselben Chart interpretieren.

Schritt 2: Sammle historische Daten

Die Qualität deines Backtests hängt von der Qualität deiner Daten ab. Für Futures-Backtesting benötigst du:

Kontinuierliche Kontraktdaten: Rückadjustierte kontinuierliche Kontrakte, die korrekt mit quartalsweisen Rollovers umgehen. Nicht adjustierte Daten zeigen künstliche Lücken bei jedem Rollover, die die Ergebnisse verzerren.
Angemessene Auflösung: Für Scalping-Strategien benötigst du Tick-Level- oder 1-Minuten-Daten. Für Swing-Strategien können tägliche Balken ausreichen. Höher aufgelöste Daten sind teurer, liefern aber genauere Ergebnisse.
Ausreichende Historie: Mindestens 1-2 Jahre Daten. Idealerweise 3-5 Jahre, um verschiedene Marktregime abzudecken (Bullenmärkte, Bärenmärkte, hohe Volatilität, niedrige Volatilität).
Volumendaten: Wenn deine Strategie Order Flow oder Volumenindikatoren verwendet, benötigst du genaue Volumendaten. Beachte, dass einige kostenlose Datenquellen unvollständige oder verzögerte Volumendaten haben.

Datenquellen für Futures-Backtesting: NinjaTrader (kostenlose historische Daten mit Plattform), Sierra Chart (CQG/Denali-Datenfeeds), TradingView (begrenzte historische Tiefe im kostenlosen Plan), Kinetick (NinjaTraders Datenservice) und dxFeed. Für professionelle Tick-Daten erwäge CQG oder Rithmic historische Daten.

Schritt 3: Führe den Backtest durch

Es gibt zwei Ansätze, um einen Backtest durchzuführen:

Manuelles Backtesting: Scrolle durch historische Charts Balken für Balken, identifiziere, wo dein Setup auftrat, und protokolliere das Ergebnis (Gewinn/Verlust, Ein-/Ausstiegspreise, R-Multiple). Dies ist langsamer, gibt dir aber ein tiefes Verständnis dafür, wie sich deine Strategie unter verschiedenen Marktbedingungen verhält. Verwende TradingViews Replay-Funktion oder NinjaTraders Market Replay für manuelles Backtesting.

Automatisiertes Backtesting: Programmiere deine Strategie als Algorithmus und führe sie gegen historische Daten aus. Die Software identifiziert jedes Setup, führt die Trades aus und erstellt automatisch umfassende Statistiken. Dies ist schneller und eliminiert menschliche Voreingenommenheit, erfordert jedoch Programmierkenntnisse oder ein Strategie-Builder-Tool.

Backtesting-Tools für Futures

NinjaTrader Strategy Analyzer: Eingebauter Backtester mit NinjaScript (C#-basiert). Kostenlose Plattform mit eingebauten historischen Daten. Die zugänglichste Option für futures-spezifisches Backtesting. Gut für sowohl manuelles (Market Replay) als auch automatisiertes Testen.
TradingView Pine Script: Schreibe Strategien in Pine Script und backteste auf TradingView-Charts. Großartig für visuelles Backtesting und schnelles Prototyping. Begrenzte Datentiefe in kostenlosen Plänen und kein Zugriff auf Tick-Level-Daten.
Sierra Chart: Leistungsstarkes Backtesting mit ACSIL (C/C++-basiert) oder Tabellenstudien. Hervorragend für Order Flow und volumenbasierte Strategien. Hohe Lernkurve, aber unvergleichliche Flexibilität.
Python (backtrader, vectorbt): Die flexibelste Option. Importiere historische Daten (von deinem Broker, CQG oder kostenlosen Quellen), programmiere deine Strategie in Python und erstelle jede gewünschte Statistik. Erfordert Python-Programmierkenntnisse.
MultiCharts: Professionelle Backtesting-Plattform mit EasyLanguage/PowerLanguage-Scripting. Portfolio-Level-Backtesting und Optimierung. Beliebt bei systematischen Händlern.
StrategyQuant X: KI-gestützter Strategie-Builder, der automatisch Tausende von Strategievariationen generieren und backtesten kann. Nützlich zur Ideenfindung, aber Vorsicht vor Überanpassung.

Stichprobengröße: Wie viele Trades benötigst du?

Statistische Zuverlässigkeit erfordert eine Mindestanzahl von Trades. Hier ist ein praktischer Leitfaden:

30 Trades: Absolutes Minimum für einen groben Hinweis. Viel zu wenig für Vertrauen – die Varianz ist extrem hoch.
100 Trades: Vernünftiger Ausgangspunkt. Du kannst grundlegende Metriken (Gewinnrate, Profit Factor) mit mäßigem Vertrauen bewerten.
200 Trades: Gute statistische Aussagekraft. Ergebnisse sind wahrscheinlich nicht reiner Zufall. Ausreichend für die Bewertung der meisten Handelsstrategien.
500+ Trades: Hohes Vertrauen. Das Gesetz der großen Zahlen beginnt zu wirken. Wenn eine Strategie über 500+ Trades unter verschiedenen Marktbedingungen profitabel ist, ist der Vorteil wahrscheinlich real.
1.000+ Trades: Sehr hohes Vertrauen. Geeignet für systematische/algorithmische Strategien, die eine Kapitalzuweisung rechtfertigen müssen.

Ein häufiger Fehler: 50 Trades backtesten, eine 60% Gewinnrate sehen und schließen, dass die Strategie funktioniert. Bei 50 Trades könnte eine 60% Gewinnrate leicht das Ergebnis von Zufall sein – das 95% Konfidenzintervall für eine echte 50% Strategie über 50 Trades reicht von etwa 36% bis 64%. Du benötigst mehr Daten, bevor du Schlussfolgerungen ziehst. Verfolge deine laufende Leistung in einem Trading-Journal, um die Stichprobengröße über den anfänglichen Backtest hinaus zu erhöhen.

Die Überanpassungsfalle

Was ist Überanpassung?

Überanpassung ist der Feind Nummer 1 beim Backtesting. Sie tritt auf, wenn du deine Strategie optimierst, um perfekt zu den historischen Daten zu passen – dabei erfasst du Rauschen und Zufälligkeiten anstelle echter Muster. Eine überangepasste Strategie sieht im Backtesting fantastisch aus (90%+ Gewinnrate, hoher Profit Factor), scheitert aber im Live-Trading kläglich, weil die erfassten Muster einzigartig für den historischen Zeitraum waren und sich nicht wiederholen.

Stell dir das so vor: Wenn du einer Strategie genug Regeln und Filter hinzufügst, kannst du sie auf jedem historischen Datensatz profitabel machen. "Handele NQ nur dienstags zwischen 10:15-10:30 Uhr, wenn der 37-Perioden-EMA über dem 53-Perioden-EMA liegt und das Volumen zwischen 450-600 Kontrakten liegt." Dies könnte im Backtest wunderschön aussehen – aber es ist das Auswendiglernen der Geschichte, nicht das Erfassen eines echten Vorteils.

Wie man Überanpassung vermeidet

Halte es einfach: Je weniger Parameter (Variablen) in deiner Strategie, desto weniger wahrscheinlich ist es, dass sie überangepasst ist. Eine Strategie mit 2-3 Regeln ist robuster als eine mit 10+ Regeln. Jede zusätzliche Regel sollte eine klare Marktlogik haben, nicht nur die Backtestergebnisse verbessern.
Verwende Out-of-Sample-Tests: Teile deine Daten in zwei Perioden. Entwickle und optimiere deine Strategie in der ersten Periode (In-Sample, z.B. 2022-2024). Teste dann die unveränderte Strategie in der zweiten Periode (Out-of-Sample, z.B. 2025-2026). Wenn die Leistung in der Out-of-Sample-Periode erheblich abnimmt, ist die Strategie wahrscheinlich überangepasst.
Erfordere Marktlogik: Jede Regel in deiner Strategie sollte eine logische Erklärung haben, warum sie funktioniert. "Kaufe Rücksetzer zum 20 EMA in Aufwärtstrends" hat eine klare Logik (Mean Reversion innerhalb eines Trends). "Kaufe, wenn der 37 EMA den 53 EMA kreuzt" ist willkürlich – warum 37 und 53, nicht 35 und 55?
Teste die Parameterempfindlichkeit: Wenn deine Strategie mit einem 20-Perioden-Durchschnitt funktioniert, aber mit 18 oder 22 scheitert, ist sie fragil und wahrscheinlich überangepasst. Eine robuste Strategie sollte über einen Bereich ähnlicher Parameterwerte funktionieren.
Teste über Märkte hinweg: Wenn deine NQ-Strategie auch auf ES und YM funktioniert (mit angepassten Parametern für den Tick-Wert), ist das zugrunde liegende Prinzip wahrscheinlich echt. Wenn sie nur auf NQ während 2024 funktioniert, ist sie wahrscheinlich auf diese spezifischen Daten überangepasst.

Walk-Forward-Testing

Der Goldstandard des Backtestings

Walk-Forward-Testing ist die rigoroseste Methode zur Validierung einer Handelsstrategie. Es simuliert, wie du tatsächlich eine Strategie in Echtzeit entwickeln und handeln würdest:

Schritt 1: Optimiere die Strategie in einem Trainingszeitraum (z.B. Jan-Jun 2023)
Schritt 2: Teste die optimierte Strategie im nächsten unbekannten Zeitraum (Jul-Sep 2023)
Schritt 3: Re-optimiere in einem erweiterten Trainingszeitraum (Jan-Sep 2023)
Schritt 4: Teste im nächsten unbekannten Zeitraum (Okt-Dez 2023)
Schritt 5: Wiederhole, indem du durch den gesamten Datensatz vorwärts rollst

Die Out-of-Sample-Ergebnisse jedes Forward-Tests werden zu einem Gesamtleistungsnachweis zusammengefasst. Da die Strategie immer auf Daten getestet wurde, die sie noch nicht gesehen hatte, sind die Walk-Forward-Ergebnisse die genaueste Annäherung an die Live-Trading-Performance, die du aus historischen Daten erhalten kannst.

Walk-Forward-Effizienz = Out-of-Sample-Gewinn ÷ In-Sample-Gewinn. Ein Verhältnis über 50% deutet auf eine robuste Strategie hin. Unter 30% weist auf Überanpassung hin.

Statistische Signifikanz

Ist dein Vorteil echt oder zufällig?

Selbst eine zufällige Strategie wird einen Teil der Zeit positive Ergebnisse zeigen. Wirf eine Münze 100 Mal, und du könntest 55 Mal Kopf bekommen – das bedeutet nicht, dass die Münze verzerrt ist. Ebenso könnte eine zufällige Handelsstrategie über 100 Trades eine 55% Gewinnrate zeigen, rein zufällig.

Statistische Signifikanztests beantworten die Frage: "Wie wahrscheinlich ist es, dass diese Ergebnisse zufällig aufgetreten sind?" Die gebräuchlichsten Maße:

t-Statistik: Misst, ob dein durchschnittliches Handelsergebnis signifikant von null abweicht. Eine t-Statistik über 2.0 (entspricht grob einem p-Wert unter 0.05) deutet darauf hin, dass der Vorteil auf dem 95% Konfidenzniveau statistisch signifikant ist.
p-Wert: Die Wahrscheinlichkeit, dass deine Ergebnisse zufällig aufgetreten sein könnten. Ein p-Wert unter 0.05 bedeutet, dass es weniger als 5% Wahrscheinlichkeit gibt, dass die Ergebnisse zufällig sind – allgemein als signifikant angesehen.
Monte-Carlo-Simulation: Mischt deine Handelsergebnisse tausende Male zufällig, um eine Verteilung möglicher Ergebnisse zu erzeugen. Dies zeigt die Bandbreite der Eigenkapitalkurven, die deine Strategie erzeugen könnte, einschließlich der schlimmsten Drawdowns, die noch nicht aufgetreten sind.

Berechnung der t-Statistik

t = (Durchschnittliches R-Multiple × √Anzahl der Trades) ÷ Standardabweichung der R-Multiples

Beispiel: Über 200 Trades beträgt dein durchschnittliches R-Multiple +0.3R mit einer Standardabweichung von 1.5R. t = (0.3 × √200) ÷ 1.5 = (0.3 × 14.14) ÷ 1.5 = 4.24 ÷ 1.5 = 2.83

Eine t-Statistik von 2.83 liegt deutlich über der Schwelle von 2.0 – dieser Vorteil ist statistisch signifikant. Du kannst mit Zuversicht handeln, dass die Ergebnisse nicht zufällig sind.

Vom Backtest zum Live-Trading

Die Brücke: Paper Trading / Simulation

Ein erfolgreicher Backtest bedeutet nicht, dass du sofort live mit voller Größe handeln solltest. Der nächste Schritt ist das Forward-Testing – das Handeln der Strategie in Echtzeit auf einem Simulator für 1-3 Monate. Dies bestätigt, dass du die Strategie unter Live-Bedingungen ausführen kannst (Echtzeit-Entscheidungen, Ausführungsverzögerungen, emotionaler Druck) und dass die Strategie ähnlich wie im Backtest funktioniert.

Nach erfolgreichem Paper Trading wechsle zum Live-Trading mit Micro-Kontrakten (MNQ, MES), um mit echtem Geld bei minimalem Risiko zu validieren. Skaliere erst auf E-mini-Kontrakte, wenn du bestätigt hast, dass die Strategie unter Live-Bedingungen funktioniert.

Erwarte Verschlechterung

Die Ergebnisse im Live-Trading werden fast immer schlechter sein als die Backtest-Ergebnisse. Das ist normal und zu erwarten. Gründe dafür sind:

Slippage: Backtests nehmen Fills zu genauen Preisen an. Im Live-Trading gibt es Slippage, besonders bei Market- und Stop-Orders.
Kommissionen: Wenn sie im Backtest nicht berücksichtigt wurden, schmälern Kommissionen die Ergebnisse. Bei $4 Round-Turn pro NQ-Kontrakt über 200 Trades sind das $800 an Kosten.
Ausführungsverzögerungen: Im Backtesting erfolgen Einstiege sofort. Im Live-Trading gibt es eine Verzögerung zwischen Signal und Ausführung – besonders bei manuellen Händlern.
Emotionale Einflüsse: Psychologie existiert im Backtesting nicht. Im Live-Trading verschlechtern Angst, Gier und Zögern die Ausführungsqualität.
Marktregimewechsel: Die Marktbedingungen während deines Backtest-Zeitraums können sich von den aktuellen Bedingungen unterscheiden. Eine Strategie, die für den trendenden Markt von 2023 optimiert wurde, könnte im volatilen Markt von 2026 unterdurchschnittlich abschneiden.

Eine vernünftige Erwartung: Die Live-Performance wird 50-80% der Backtest-Performance betragen. Wenn dein Backtest +0.5R pro Trade zeigt, erwarte +0.25R bis +0.4R im Live-Trading. Plane deine Positionsgröße und dein Risikomanagement am konservativen Ende dieses Bereichs, nicht an den optimistischen Backtest-Ergebnissen.

Backtesting-Checkliste

Strategieregeln sind vollständig definiert und objektiv (keine Subjektivität)
Verwendung von kontinuierlichen Kontraktdaten mit korrekter Rollover-Anpassung
Mindestens 200 Trades im Backtest (500+ bevorzugt)
Getestet über mindestens 2 Jahre Daten, die verschiedene Marktregime abdecken
Kommissionen und realistische Slippage in den Ergebnissen enthalten
Out-of-Sample-Tests durchgeführt (Daten, die die Strategie nicht gesehen hat)
Walk-Forward-Analyse für systematische Strategien abgeschlossen
Parameterempfindlichkeit getestet (Strategie funktioniert mit nahegelegenen Parameterwerten)
t-Statistik über 2.0 (statistisch signifikanter Vorteil)
Maximaler Drawdown ist überlebbar (innerhalb der Prop-Firm-Grenzen oder persönlicher Toleranz)
Profit Factor über 1.3 nach Kommissionen
Ergebnisse machen logisch Sinn (nicht nur kurvenangepasstes Rauschen)

Häufig gestellte Fragen

Kann ich ohne Programmierung backtesten?

Ja. Manuelles Backtesting (durch Charts Balken für Balken scrollen) erfordert keine Programmierung. TradingViews Bar-Replay-Funktion macht dies einfach. Für automatisiertes Backtesting ohne Programmierung bieten Tools wie StrategyQuant X und einige NinjaTrader-Assistenten visuelle Strategie-Builder. Allerdings eröffnet das Erlernen grundlegender Pine Script (TradingView) oder NinjaScript viel leistungsfähigere Backtesting-Möglichkeiten.

Wie viele historische Daten benötige ich?

Mindestens 1 Jahr für Day-Trading-Strategien (um verschiedene saisonale Muster zu erfassen). Ideal sind 3-5 Jahre, um sowohl Bullen- als auch Bärenmärkte, Perioden hoher und niedriger Volatilität und unterschiedliche Zinsumgebungen abzudecken. Für Swing-Trading-Strategien sind 5+ Jahre vorzuziehen, da die niedrigere Handelsfrequenz mehr Kalenderzeit erfordert, um eine ausreichende Stichprobengröße zu erzeugen.

Mein Backtest zeigt eine 80% Gewinnrate. Ist das zu gut, um wahr zu sein?

Wahrscheinlich ja. Eine 80% Gewinnrate ist mit sehr engen Zielen im Verhältnis zu Stops erreichbar (z.B. 10-Punkte-Ziel, 50-Punkte-Stop – aber der durchschnittliche Verlust ist 5× so hoch wie der durchschnittliche Gewinn, was die Strategie trotz der hohen Gewinnrate unprofitabel macht). Wenn deine 80% Gewinnrate auch einen Profit Factor über 2.0 zeigt und auf 200+ Trades basiert, verifiziere, dass du nicht überangepasst hast. Führe den Out-of-Sample-Test durch – wenn die Gewinnrate dramatisch sinkt, war es Überanpassung.

Sollte ich meine Strategieparameter optimieren?

Moderate Optimierung ist in Ordnung – zum Beispiel das Testen einer Reihe von Stop- und Zielwerten (15, 20, 25, 30-Punkte-Stops). Übermäßige Optimierung (Testen von Hunderten von Parameterkombinationen, um die perfekte Einstellung zu finden) ist ein Rezept für Überanpassung. Optimiere auf einem Datensatz, dann validiere auf einem separaten Datensatz. Wenn die optimalen Parameter aus Periode A auch in Periode B gut funktionieren, sind sie wahrscheinlich robust.

Wie berücksichtige ich Slippage im Backtesting?

Füge 1-2 Ticks Slippage pro Trade in deinen Backtest-Einstellungen hinzu. Für NQ sind das $5-$10 pro Kontrakt pro Trade. Für ES $12.50-$25.00. Die meisten Backtesting-Plattformen haben eine "Slippage"-Einstellung – nutze sie. Dies reduziert deine Backtest-Ergebnisse, gibt aber ein realistischeres Bild der Live-Performance. Wenn deine Strategie mit 2 Ticks Slippage profitabel ist, ist sie im Live-Trading eher überlebensfähig.

Teste deine Strategie in einer Prop-Firm-Bewertung

Nachdem du deine Strategie backgetestet und vorgetestet hast, stelle sie auf die ultimative Probe: eine Prop-Firm-Bewertung. Vergleiche Firmen, um die richtige Kontogröße und Regeln für deinen bewährten Ansatz zu finden.

Prop Firms vergleichen Pläne vergleichen