nanotron
/

old_bench

3outeille HF staff commited on Jul 6, 2024

Commit

5e7018e

verified ·

1 Parent(s): 1d87e55

Upload llama-1B/64_GPUS/dp-16_tp-1_pp-4_mbz-4

Files changed (4) hide show

llama-1B/64_GPUS/dp-16_tp-1_pp-4_mbz-4/bench.slurm CHANGED Viewed

@@ -1,11 +1,11 @@
 #!/bin/bash
 #SBATCH --job-name=bench_cluster
-#SBATCH --time=01:30:00
 #SBATCH --partition=hopper-prod
 #SBATCH --nodes=8
 #SBATCH --gres=gpu:8
-#SBATCH --qos=high
 #SBATCH --ntasks-per-node=1
 #SBATCH --cpus-per-task=96
 #SBATCH --exclusive

 #!/bin/bash
 #SBATCH --job-name=bench_cluster
+#SBATCH --time=02:00:00
 #SBATCH --partition=hopper-prod
 #SBATCH --nodes=8
 #SBATCH --gres=gpu:8
+#SBATCH --qos=prod
 #SBATCH --ntasks-per-node=1
 #SBATCH --cpus-per-task=96
 #SBATCH --exclusive

llama-1B/64_GPUS/dp-16_tp-1_pp-4_mbz-4/config.yaml CHANGED Viewed

@@ -48,7 +48,7 @@ parallelism:
   dp: 16
   expert_parallel_size: 1
   pp: 4
-  pp_engine: 1f1b
   tp: 1
   tp_linear_async_communication: false
   tp_mode: REDUCE_SCATTER

   dp: 16
   expert_parallel_size: 1
   pp: 4
+  pp_engine: afab
   tp: 1
   tp_linear_async_communication: false
   tp_mode: REDUCE_SCATTER

llama-1B/64_GPUS/dp-16_tp-1_pp-4_mbz-4/log.out CHANGED Viewed

The diff for this file is too large to render. See raw diff

llama-1B/64_GPUS/dp-16_tp-1_pp-4_mbz-4/status.txt CHANGED Viewed

	@@ -1 +1 @@
1	- ~~timeout~~


1	+ oom