Distributed Training System

Distributed training framework with:

Baseline single-node trainer
Parameter Server architecture (sync/async)
Ring-AllReduce / DDP architecture
Gradient compression (quantization, top-k)
Fault-tolerance coordinator with checkpoint/recovery
Metrics + performance reporting

Setup

Prerequisites

Python 3.11+
pip
(Optional) Docker + Docker Compose

Install dependencies

pip install -r requirements.txt

Quick start (Windows PowerShell)

python -m venv .venv
.\.venv\Scripts\Activate.ps1
pip install -r requirements.txt
pytest -q -m "not slow"

Verify environment

pytest -q -m "not slow"

Project Layout

src/config.py: config schema + validation
src/trainer.py: baseline trainer
src/parameter_server.py: parameter server RPC service
src/worker.py: worker training/heartbeat/metric reporting
src/coordinator.py: lifecycle, failure detection, shard reassignment, recovery
src/ddp_trainer.py: DDP trainer
src/compression.py: quantization + top-k compressors
src/metrics.py: TensorBoard + performance report generation
generate_performance_report.py: consolidated report CLI
run_baseline_training.py: baseline runner
run_ddp_training.py: DDP runner
run_parameter_server_training.py: parameter-server runner
docker/: container entrypoint + Dockerfile

Usage

Baseline training

python run_baseline_training.py

Outputs:

TensorBoard logs under logs/test_baseline
Checkpoints under checkpoints/test_baseline

Parameter Server architecture

Use run_parameter_server_training.py for direct PS-only training on local machine.

Single-machine CLI run:

python run_parameter_server_training.py --workers 2 --dataset mnist --num-epochs 2

Four-worker CLI run:

python run_parameter_server_training.py --workers 4 --dataset mnist --num-epochs 2

Async mode with compression:

python run_parameter_server_training.py --workers 2 --dataset mnist --num-epochs 2 --aggregation-mode async --compression-enabled --compression-type topk --compression-ratio 0.1

Common flags:

--workers: number of PS workers (default 2)
--dataset: mnist, fashion_mnist, cifar10
--num-epochs, --batch-size, --learning-rate
--aggregation-mode: sync or async
--compression-enabled + --compression-type {quantization,topk} + --compression-ratio
--max-train-samples / --max-test-samples for fast smoke runs
--checkpoint-dir / --log-dir for output paths

Example smoke test (fast):

python run_parameter_server_training.py --workers 2 --dataset mnist --num-epochs 1 --max-train-samples 512 --max-test-samples 128

Four-worker smoke test (fast):

python run_parameter_server_training.py --workers 4 --dataset mnist --num-epochs 1 --max-train-samples 512 --max-test-samples 128

Expected outputs:

Final summary in terminal (Final Accuracy, Final Loss, Total Time, Throughput)
Checkpoint at checkpoints/ps_cli/parameter_server_final.pt (unless overridden)
Worker logs under logs/ps_cli (unless overridden)

Containerized run:

docker compose up --build

Services:

parameter_server
worker_0
worker_1

Ring-AllReduce / DDP

Single-process MNIST smoke run:

python run_ddp_training.py --world-size 1 --dataset mnist --num-epochs 1

Two-process MNIST run:

python run_ddp_training.py --world-size 2 --dataset mnist --num-epochs 2

Synthetic-data debug run:

python run_ddp_training.py --dataset synthetic --world-size 2 --num-epochs 1 --num-samples 2048 --optimizer sgd

Final Validation

Run full final checkpoint validation:

python run_final_checkpoint_validation.py --workers 4 --epochs 2 --max-train-samples 5000 --max-test-samples 1000

Notes:

speedup_ok_property_28 only evaluates true when --workers 4.
First CIFAR-10 run may download data to ./data; later runs use cached files.

Configuration Options

System accepts YAML/JSON config structure with:

`training`

batch_size (int > 0)
learning_rate (float > 0)
num_epochs (int > 0)
dataset (mnist, fashion_mnist, cifar10)
model_architecture (string, non-empty)
checkpoint_interval (int > 0)

`system`

num_workers (int > 0)
architecture (parameter_server, ddp)
aggregation_mode (sync, async)
compression_enabled (bool)
compression_type (quantization, topk)
compression_ratio (float in (0,1])
heartbeat_interval (float > 0)
heartbeat_timeout (float > 0, must be > interval)
checkpoint_dir (string path)
log_dir (string path)

See:

configs/example_config.yaml
configs/ps_sync_mnist.yaml
configs/ps_async_quantization.yaml
configs/ps_sync_topk.yaml
configs/ps_sync_mnist_4workers.yaml
configs/ps_async_quantization_4workers.yaml
configs/ddp_mnist.yaml

Metrics and Reporting

TensorBoard logging

Worker and trainer logs include:

loss
accuracy
throughput
gradient time
communication time
samples processed
compression ratio (when enabled)

Consolidated performance report

python generate_performance_report.py \
  --output reports/perf_report.json \
  --baseline-json artifacts/baseline.json \
  --ps-json artifacts/ps.json \
  --ddp-rank-json artifacts/ddp_rank_0.json artifacts/ddp_rank_1.json \
  --worker-metrics-json artifacts/worker_metrics.json

Docker

Build and run

docker compose up --build

Volumes

./checkpoints:/app/checkpoints
./logs:/app/logs

Networking

All services on training_net
Workers reach parameter server at parameter_server:50051

Testing

Fast suite

pytest -q -m "not slow"

Slow integration/property tests

pytest -q -m "slow"

Troubleshooting

TensorBoard/TensorFlow import issues on Windows:
- code uses a safe fallback/no-TF path automatically.
DDP multiprocessing permission errors:
- use run_ddp_training.py subprocess launcher.
gRPC stub generation errors:
- install grpcio-tools, then regenerate protobuf stubs.
Slow test timeouts:
- run specific files first (pytest tests/test_<file>.py -q).
Docker connectivity issues:
- ensure compose network is created and workers use parameter_server:50051.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Distributed Training System

Setup

Prerequisites

Install dependencies

Quick start (Windows PowerShell)

Verify environment

Project Layout

Usage

Baseline training

Parameter Server architecture

Ring-AllReduce / DDP

Final Validation

Configuration Options

`training`

`system`

Metrics and Reporting

TensorBoard logging

Consolidated performance report

Docker

Build and run

Volumes

Networking

Testing

Fast suite

Slow integration/property tests

Troubleshooting

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
configs		configs
docker		docker
src		src
tests		tests
.gitignore		.gitignore
README.md		README.md
docker-compose.yml		docker-compose.yml
generate_performance_report.py		generate_performance_report.py
pytest.ini		pytest.ini
requirements.txt		requirements.txt
run_baseline_training.py		run_baseline_training.py
run_ddp_training.py		run_ddp_training.py
run_final_checkpoint_validation.py		run_final_checkpoint_validation.py
run_parameter_server_training.py		run_parameter_server_training.py

Folders and files

Latest commit

History

Repository files navigation

Distributed Training System

Setup

Prerequisites

Install dependencies

Quick start (Windows PowerShell)

Verify environment

Project Layout

Usage

Baseline training

Parameter Server architecture

Ring-AllReduce / DDP

Final Validation

Configuration Options

training

system

Metrics and Reporting

TensorBoard logging

Consolidated performance report

Docker

Build and run

Volumes

Networking

Testing

Fast suite

Slow integration/property tests

Troubleshooting

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

`training`

`system`

Packages