model-parallelism

Star

Here are 18 public repositories matching this topic...

microsoft / DeepSpeed

Star

Open

Difference between loss.backward() and model_engine.backward(loss) ?

rsn870 commented Aug 21, 2020

Hi ,

I have tried out both loss.backward() and model_engine.backward(loss) for my code. There are several subtle differences that I have observed , for one retain_graph = True does not work for model_engine.backward(loss) . This is creating a problem since buffers are not being retained every time I run the code for some reason.

Please look into this if you could.

enhancement good first issue

hpcaitech / ColossalAI

Star

Colossal-AI: A Unified Deep Learning System for Large-Scale Parallel Training

deep-learning hpc large-scale data-parallelism model-parallelism distributed-training pipeline-parallelism

Updated Mar 10, 2022
Python

kakaobrain / torchgpipe

Star

A GPipe implementation in PyTorch

deep-learning pytorch parallelism model-parallelism gpipe pipeline-parallelism checkpointing

Updated Sep 18, 2020
Python

PaddlePaddle / FleetX

Star

Paddle Distributed Training Examples. 飞桨分布式训练示例 Resnet Bert GPT MOE DataParallel ModelParallel PipelineParallel HybridParallel AutoParallel Zero Sharding Recompute GradientMerge Offload AMP DGC LocalSGD Wide&Deep

benchmark cloud lightning elastic unsupervised-learning large-scale data-parallelism paddlepaddle model-parallelism distributed-algorithm self-supervised-learning pipeline-parallelism pretraining fleet-api paddlecloud

Updated Feb 16, 2022
Shell

alibaba / EasyParallelLibrary

Star

Easy Parallel Library (EPL) is a general and efficient deep learning framework for distributed giant model training.

deep-learning distributed data-parallelism model-parallelism

Updated Mar 9, 2022
Python

Oneflow-Inc / libai

Star

LiBai: A Toolbox for Large-Scale Distributed Parallel Training

nlp deep-learning transformer large-scale data-parallelism model-parallelism distributed-training self-supervised-learning oneflow pipeline-parallelism

Updated Mar 10, 2022
Python

atakehiro / 3D-U-Net-pytorch-model-parallel

Star

PyTorch implementation of 3D U-Net with model parallel in 2GPU for large model

pytorch model-parallelism 3d-unet

Updated Aug 9, 2020
Python

LER0ever / HPGO

Star

Development of Project HPGO | Hybrid Parallelism Global Orchestration

rust machine-learning tensorflow pytorch data-parallelism model-parallelism distributed-training pipedream gpipe pipeline-parallelism

Updated Mar 26, 2021

ngrabaskas / Torch-Automatic-Distributed-Neural-Network

Star

Torch Automatic Distributed Neural Network (TorchAD-NN) training library. Built on top of TorchMPI, this module automatically parallelizes neural network training.

machine-learning neural-network torch7 openmpi data-parallelism model-parallelism distributed-machine-learning

Updated Feb 28, 2018
Lua

EunjuYang / distributed-tf

Star

distributed tensorflow (model parallelism) example repository

distributed-tensorflow model-parallelism

Updated Jul 13, 2019
Python

dscpesu / NetTorrent

Star

A decentralized and distributed framework for training DNNs

distributed-computing data-parallelism model-parallelism p2p-networks

Updated Aug 25, 2019
Python

d4l3k / axe

Star

A simple graph partitioning algorithm written in Go. Designed for use for partitioning neural networks across multiple devices which has an added cost when crossing device boundaries.

machine-learning graph-partitioning model-parallelism