Create README.md

1.4b Pythia model after SFT on the AlpacaFarm dataset 'sft' split.

Policy model from '[Reward Model Ensembles Mitigate Overoptimization](https://arxiv.org/abs/2310.02743)'

Files changed (1) hide show

README.md +4 -0

README.md ADDED Viewed

	@@ -0,0 +1,4 @@

+---
+datasets:
+- tatsu-lab/alpaca_farm
+---