Models
Datasets
Spaces
Posts
Docs
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2312.11514

Papers - Training Research - Flash Memory - DRAM

LLM in a flash: Efficient Large Language Model Inference with Limited Memory

Paper • 2312.11514 • Published Dec 12, 2023 • 255

Papers - KV Cache

TriForce: Lossless Acceleration of Long Sequence Generation with Hierarchical Speculative Decoding

Paper • 2404.11912 • Published Apr 18 • 16
SnapKV: LLM Knows What You are Looking for Before Generation

Paper • 2404.14469 • Published Apr 22 • 23
LLM in a flash: Efficient Large Language Model Inference with Limited Memory

Paper • 2312.11514 • Published Dec 12, 2023 • 255

LLM in a flash: Efficient Large Language Model Inference with Limited Memory

Paper • 2312.11514 • Published Dec 12, 2023 • 255

Towards a World-English Language Model for On-Device Virtual Assistants

Paper • 2403.18783 • Published Mar 27 • 4
MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training

Paper • 2403.09611 • Published Mar 14 • 123
ReALM: Reference Resolution As Language Modeling

Paper • 2403.20329 • Published Mar 29 • 20
Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs

Paper • 2404.05719 • Published Apr 8 • 57

LLM in a flash: Efficient Large Language Model Inference with Limited Memory

Paper • 2312.11514 • Published Dec 12, 2023 • 255
The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

Paper • 2402.17764 • Published Feb 27 • 573

MobileLLM: Optimizing Sub-billion Parameter Language Models for On-Device Use Cases

Paper • 2402.14905 • Published Feb 22 • 81
Sensor-based Multi-Robot Search and Coverage with Spatial Separation in Unstructured Environments

Paper • 2403.01710 • Published Mar 4 • 2
EdgeMoE: Fast On-Device Inference of MoE-based Large Language Models

Paper • 2308.14352 • Published Aug 28, 2023
Slimmable Encoders for Flexible Split DNNs in Bandwidth and Resource Constrained IoT Systems

Paper • 2306.12691 • Published Jun 22, 2023 • 2

zhangxunhui/SO-GH-Linker

Updated Oct 23, 2023 • 1 • 1
LLM in a flash: Efficient Large Language Model Inference with Limited Memory

Paper • 2312.11514 • Published Dec 12, 2023 • 255

Efficient LLM inference

LLM in a flash: Efficient Large Language Model Inference with Limited Memory

Paper • 2312.11514 • Published Dec 12, 2023 • 255

mistralai/Mixtral-8x7B-Instruct-v0.1

Text Generation • Updated 7 days ago • 499k • 3.93k
HuggingFaceM4/WebSight

Viewer • Updated Mar 26 • 2.75M • 200 • 296
LLM in a flash: Efficient Large Language Model Inference with Limited Memory

Paper • 2312.11514 • Published Dec 12, 2023 • 255
Llama 2: Open Foundation and Fine-Tuned Chat Models

Paper • 2307.09288 • Published Jul 18, 2023 • 235

abacusai/Smaug-72B-v0.1

Text Generation • Updated Feb 23 • 4.07k • 459
Running on A10G

726

📚

ReplaceAnything
miqudev/miqu-1-70b

Updated Feb 4 • 15.7k • 974
fka/awesome-chatgpt-prompts

Viewer • Updated Mar 7, 2023 • 153 • 6.96k • 5k

Previous
1
2
3
...
9
Next

Company

© Hugging Face

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs