Initial data pipeline scaffold

2026-01-08 09:00:00 +00:00 · 2026-01-08 09:00:00 +00:00 · 37c3266d9c
commit 37c3266d9c
4 changed files with 58 additions and 0 deletions
--- a/README.md
+++ b/README.md
@ -0,0 +1,18 @@
+# data-pipeline
+
+ETL pipeline for Nexus analytics platform. Python + Apache Airflow.
+
+## Setup
+
+    python -m venv .venv && source .venv/bin/activate
+    pip install -r requirements.txt
+    airflow db init
+    airflow dags list
+
+## Architecture
+
+```
+S3 (raw events) → ingest → transform → load → Redshift (analytics)
+```
+
+Dags run nightly at 01:00 UTC. See `config/pipeline.yml` for full schedule config.
--- a/config/pipeline.yml
+++ b/config/pipeline.yml
@ -0,0 +1,11 @@
+pipeline:
+  schedule: "0 3 * * *"
+  source:
+    bucket: nexus-data-raw
+    prefix: events/
+  destination:
+    host: redshift.nexus.local
+    database: analytics
+    schema: public
+  batch_size: 50000
+  max_retries: 3
--- a/requirements.txt
+++ b/requirements.txt
@ -0,0 +1,8 @@
+apache-airflow==2.9.1
+apache-airflow-providers-amazon==8.18.0
+pandas==2.2.2
+sqlalchemy==2.0.29
+psycopg2-binary==2.9.9
+boto3==1.34.84
+pyarrow==16.0.0
+pytest==8.1.1
--- a/src/ingest/s3_reader.py
+++ b/src/ingest/s3_reader.py
@ -0,0 +1,21 @@
+import boto3
+import pandas as pd
+from io import BytesIO
+from typing import Optional
+
+
+def read_parquet_from_s3(bucket: str, key: str, columns: Optional[list] = None) -> pd.DataFrame:
+    """Read a parquet file from S3 into a DataFrame."""
+    s3 = boto3.client("s3", region_name="eu-central-1")
+    obj = s3.get_object(Bucket=bucket, Key=key)
+    return pd.read_parquet(BytesIO(obj["Body"].read()), columns=columns)
+
+
+def list_keys(bucket: str, prefix: str) -> list[str]:
+    """List all keys under a prefix."""
+    s3 = boto3.client("s3", region_name="eu-central-1")
+    paginator = s3.get_paginator("list_objects_v2")
+    keys = []
+    for page in paginator.paginate(Bucket=bucket, Prefix=prefix):
+        keys.extend(obj["Key"] for obj in page.get("Contents", []))
+    return keys