Synthetic (text) Dataset Generation - a davanstrien Collection

davanstrien 's Collections

Maths reasoning

synthetic-data-generation-demos

sentence-transformers-from-synthetic-data

Synthetic (text) Dataset Generation

haiku

Historic language modeling

Probably DPO datasets

Image Preference Optimization Datasets

query-to-hub-datasets-viewer-project

Synthetic (text) Dataset Generation

updated Jun 21, 2024

Papers about synthetic dataset generation

Better Synthetic Data by Retrieving and Transforming Existing Datasets

Paper • 2404.14361 • Published Apr 22, 2024 • 2
Generative AI for Synthetic Data Generation: Methods, Challenges and the Future

Paper • 2403.04190 • Published Mar 7, 2024
Best Practices and Lessons Learned on Synthetic Data for Language Models

Paper • 2404.07503 • Published Apr 11, 2024 • 30
A Multi-Faceted Evaluation Framework for Assessing Synthetic Data Generated by Large Language Models

Paper • 2404.14445 • Published Apr 20, 2024
Self-Alignment with Instruction Backtranslation

Paper • 2308.06259 • Published Aug 11, 2023 • 42
Becoming self-instruct: introducing early stopping criteria for minimal instruct tuning

Paper • 2307.03692 • Published Jul 5, 2023 • 26
Self-Refine Instruction-Tuning for Aligning Reasoning in Language Models

Paper • 2405.00402 • Published May 1, 2024
TinyStories: How Small Can Language Models Be and Still Speak Coherent English?

Paper • 2305.07759 • Published May 12, 2023 • 34
Retrieving Texts based on Abstract Descriptions

Paper • 2305.12517 • Published May 21, 2023 • 2