initial commit

2026-03-22 23:47:10 -04:00
parent ea3935afd5
commit e54e4d7b3b
2 changed files with 205 additions and 0 deletions
--- a/main.py
+++ b/main.py
@@ -0,0 +1,169 @@
 # ============================================
 # 1. Imports
 # ============================================
 import numpy as np
 import pandas as pd
 import yfinance as yf
 from sklearn.ensemble import RandomForestClassifier
 from sklearn.metrics import accuracy_score
 from sklearn.preprocessing import StandardScaler
 import matplotlib.pyplot as plt
 # ============================================
 # 2. Parameters
 # ============================================
 TICKERS = ["AAPL", "MSFT", "GOOGL", "AMZN", "META"]
 START_DATE = "2015-01-01"
 END_DATE = "2024-01-01"
 TRAIN_END = "2020-12-31"
 TRANSACTION_COST = 0.001  # 0.1%
 # ============================================
 # 3. Download Data
 # ============================================
 def download_data(tickers):
    data = yf.download(tickers, start=START_DATE, end=END_DATE, group_by="ticker")
    dfs = []
    for ticker in tickers:
        df = data[ticker].copy()
        df["ticker"] = ticker
        dfs.append(df)
    df = pd.concat(dfs)
    df.index.name = "date"
    return df.reset_index()
 df = download_data(TICKERS)
 # ============================================
 # 4. Sort (IMPORTANT)
 # ============================================
 df = df.sort_values(["ticker", "date"])
 # ============================================
 # 5. Feature Engineering (NO APPLY)
 # ============================================
 df["return_1d"] = df.groupby("ticker")["Close"].pct_change()
 df["return_5d"] = df.groupby("ticker")["Close"].pct_change(5)
 df["ma_5"] = df.groupby("ticker")["Close"].transform(lambda x: x.rolling(5).mean())
 df["ma_10"] = df.groupby("ticker")["Close"].transform(lambda x: x.rolling(10).mean())
 df["volatility_5d"] = (
    df.groupby("ticker")["return_1d"]
    .transform(lambda x: x.rolling(5).std())
 )
 df["volume_change"] = df.groupby("ticker")["Volume"].pct_change()
 df["price_ma5_ratio"] = df["Close"] / df["ma_5"]
 # ============================================
 # 6. Labels (SAFE)
 # ============================================
 df["future_return"] = df.groupby("ticker")["Close"].pct_change().shift(-1)
 df["target"] = (df["future_return"] > 0).astype(int)
 # ============================================
 # 7. Clean Data
 # ============================================
 df = df.dropna().reset_index(drop=True)
 # ============================================
 # 8. Train/Test Split
 # ============================================
 train = df[df["date"] <= TRAIN_END]
 test = df[df["date"] > TRAIN_END]
 FEATURES = [
    "return_1d",
    "return_5d",
    "ma_5",
    "ma_10",
    "volatility_5d",
    "volume_change",
    "price_ma5_ratio"
 ]
 X_train = train[FEATURES]
 y_train = train["target"]
 X_test = test[FEATURES]
 y_test = test["target"]
 # ============================================
 # 9. Scaling
 # ============================================
 scaler = StandardScaler()
 X_train = scaler.fit_transform(X_train)
 X_test = scaler.transform(X_test)
 # ============================================
 # 10. Train Model
 # ============================================
 model = RandomForestClassifier(
    n_estimators=100,
    max_depth=5,
    random_state=42
 )
 model.fit(X_train, y_train)
 # ============================================
 # 11. Predictions
 # ============================================
 preds = model.predict(X_test)
 accuracy = accuracy_score(y_test, preds)
 print(f"Test Accuracy: {accuracy:.4f}")
 # ============================================
 # 12. Backtest
 # ============================================
 test = test.copy()
 test["prediction"] = preds
 # 🚨 Avoid lookahead bias
 test["prediction"] = test.groupby("ticker")["prediction"].shift(1)
 # Strategy returns
 test["strategy_return"] = test["future_return"] * test["prediction"]
 # Transaction costs
 test["position_change"] = (
    test.groupby("ticker")["prediction"].diff().abs()
 )
 test["transaction_cost"] = test["position_change"] * TRANSACTION_COST
 test["strategy_return"] -= test["transaction_cost"]
 # Drop NaNs from shifting
 test = test.dropna()
 # ============================================
 # 13. Performance
 # ============================================
 test["cum_market"] = (1 + test["future_return"]).cumprod()
 test["cum_strategy"] = (1 + test["strategy_return"]).cumprod()
 sharpe = np.sqrt(252) * test["strategy_return"].mean() / test["strategy_return"].std()
 print(f"Sharpe Ratio: {sharpe:.2f}")
 # ============================================
 # 14. Plot
 # ============================================
 plt.figure(figsize=(10,6))
 plt.plot(test["date"], test["cum_market"], label="Market")
 plt.plot(test["date"], test["cum_strategy"], label="Strategy")
 plt.legend()
 plt.title("Strategy vs Market")
 plt.xlabel("Date")
 plt.ylabel("Cumulative Return")
 plt.grid()
 #plt.show()
 plt.savefig("strategy.png", dpi=150)
 print("Plot saved as strategy.png")
--- a/requirements.txt
+++ b/requirements.txt
@@ -0,0 +1,36 @@
 beautifulsoup4==4.14.3
 certifi==2026.2.25
 cffi==2.0.0
 charset-normalizer==3.4.6
 contourpy==1.3.3
 curl_cffi==0.13.0
 cycler==0.12.1
 fonttools==4.62.1
 frozendict==2.4.7
 idna==3.11
 joblib==1.5.3
 kiwisolver==1.5.0
 lxml==6.0.2
 matplotlib==3.10.8
 multitasking==0.0.12
 numpy==2.4.3
 packaging==26.0
 pandas==3.0.1
 peewee==4.0.2
 pillow==12.1.1
 platformdirs==4.9.4
 protobuf==7.34.1
 pycparser==3.0
 pyparsing==3.3.2
 python-dateutil==2.9.0.post0
 pytz==2026.1.post1
 requests==2.32.5
 scikit-learn==1.8.0
 scipy==1.17.1
 six==1.17.0
 soupsieve==2.8.3
 threadpoolctl==3.6.0
 typing_extensions==4.15.0
 urllib3==2.6.3
 websockets==16.0
 yfinance==1.2.0