Tristan Marechaux's picture

1 21 6

Tristan Marechaux

tmarechaux

·

marechaux

AI & ML interests

LLMs and ML for code

Recent Activity

updated a collection about 2 months ago

updated a collection 3 months ago

upvoted a paper 4 months ago

Differential Transformer

View all activity

Organizations

tmarechaux's activity

upvoted a paper 4 months ago

Differential Transformer

Paper • 2410.05258 • Published Oct 7, 2024 • 170

upvoted 2 papers 5 months ago

softmax is not enough (for sharp out-of-distribution)

Paper • 2410.01104 • Published Oct 1, 2024 • 1

Towards a Unified View of Preference Learning for Large Language Models: A Survey

Paper • 2409.02795 • Published Sep 4, 2024 • 72

upvoted 2 papers 7 months ago

The Llama 3 Herd of Models

Paper • 2407.21783 • Published Jul 31, 2024 • 111

Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion

Paper • 2407.01392 • Published Jul 1, 2024 • 40

upvoted 3 papers 10 months ago

Transformers Can Represent n-gram Language Models

Paper • 2404.14994 • Published Apr 23, 2024 • 19

Scaling Instructable Agents Across Many Simulated Worlds

Paper • 2404.10179 • Published Mar 13, 2024 • 28

LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders

Paper • 2404.05961 • Published Apr 9, 2024 • 65

upvoted 2 papers 12 months ago

Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference

Paper • 2403.04132 • Published Mar 7, 2024 • 38

Generative Representational Instruction Tuning

Paper • 2402.09906 • Published Feb 15, 2024 • 54

upvoted 2 papers about 1 year ago

Mixtral of Experts

Paper • 2401.04088 • Published Jan 8, 2024 • 157

PathFinder: Guided Search over Multi-Step Reasoning Paths

Paper • 2312.05180 • Published Dec 8, 2023 • 10

upvoted 8 papers over 1 year ago

The Consensus Game: Language Model Generation via Equilibrium Search

Paper • 2310.09139 • Published Oct 13, 2023 • 14

Lemur: Harmonizing Natural Language and Code for Language Agents

Paper • 2310.06830 • Published Oct 10, 2023 • 34

Vision Transformers Need Registers

Paper • 2309.16588 • Published Sep 28, 2023 • 78

LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models

Paper • 2309.12307 • Published Sep 21, 2023 • 88

Contrastive Decoding Improves Reasoning in Large Language Models

Paper • 2309.09117 • Published Sep 17, 2023 • 39

From Sparse to Dense: GPT-4 Summarization with Chain of Density Prompting

Paper • 2309.04269 • Published Sep 8, 2023 • 33

Large Language Models as Optimizers

Paper • 2309.03409 • Published Sep 7, 2023 • 76

YaRN: Efficient Context Window Extension of Large Language Models

Paper • 2309.00071 • Published Aug 31, 2023 • 66