Get our free extension to see links to code for papers anywhere online!Free add-on: code for papers everywhere!Free add-on: See code for papers anywhere!

Add to Chrome

Add to Firefox

Add to Edge

Title:Breadth-First Pipeline Parallelism

Nov 11, 2022

Joel Lamy-Poirier

Figure 1 for Breadth-First Pipeline Parallelism

Figure 2 for Breadth-First Pipeline Parallelism

Figure 3 for Breadth-First Pipeline Parallelism

Figure 4 for Breadth-First Pipeline Parallelism

Share this with someone who'll enjoy it:

Abstract:We introduce Breadth-First Pipeline Parallelism, a novel training schedule which optimizes the combination of pipeline and data parallelism. Breadth-First Pipeline Parallelism lowers training time, cost and memory usage by combining a high GPU utilization with a small batch size per GPU, and by making use of fully sharded data parallelism. Experimentally, we observed increases of up to 53% in training speed.

View paper on

OpenReview

Share this with someone who'll enjoy it:

Title:Breadth-First Pipeline Parallelism

Paper and Code