Speculative Decoding - a hllj Collection

hllj 's Collections

Pruning

PEFT

Technical Report

(Continued) Pretraining

RLHF

Retrieval Augmented Generation

Dataset

Dataset Processing Technique

Vision-Language Model

Image-Text Models

Speculative Decoding

Speculative Decoding

updated May 12, 2024

Kangaroo: Lossless Self-Speculative Decoding via Double Early Exiting

Paper • 2404.18911 • Published Apr 29, 2024 • 29
Accelerating LLM Inference with Staged Speculative Decoding

Paper • 2308.04623 • Published Aug 8, 2023 • 23
An Emulator for Fine-Tuning Large Language Models using Small Language Models

Paper • 2310.12962 • Published Oct 19, 2023 • 14
The Curious Case of Neural Text Degeneration

Paper • 1904.09751 • Published Apr 22, 2019 • 3
On Speculative Decoding for Multimodal Large Language Models

Paper • 2404.08856 • Published Apr 13, 2024 • 13
TriForce: Lossless Acceleration of Long Sequence Generation with Hierarchical Speculative Decoding

Paper • 2404.11912 • Published Apr 18, 2024 • 16
SpecInfer: Accelerating Generative LLM Serving with Speculative Inference and Token Tree Verification

Paper • 2305.09781 • Published May 16, 2023 • 4
LayerSkip: Enabling Early Exit Inference and Self-Speculative Decoding

Paper • 2404.16710 • Published Apr 25, 2024 • 75
Better & Faster Large Language Models via Multi-token Prediction

Paper • 2404.19737 • Published Apr 30, 2024 • 73
Multi-Candidate Speculative Decoding

Paper • 2401.06706 • Published Jan 12, 2024 • 1
GliDe with a CaPE: A Low-Hassle Method to Accelerate Speculative Decoding

Paper • 2402.02082 • Published Feb 3, 2024 • 1
Hydra: Sequentially-Dependent Draft Heads for Medusa Decoding

Paper • 2402.05109 • Published Feb 7, 2024