aws-neuron
/

optimum-neuron-cache

Model card Files Files and versions Community

optimum-neuron-cache / inference-cache-config

Commit History

Added Llama-70b batch_size 4 to inference cache

593822e
verified

dacorvo HF staff commited on Mar 8

Create mistral.json

b5d0afd
verified

philschmid HF staff commited on Mar 5

Create gpt2.json

3bdb891
verified

philschmid HF staff commited on Mar 5

Create inference-cache-config/llama.json

1960ccb
verified

philschmid HF staff commited on Mar 5