Spaces:
Running
Running
File size: 2,414 Bytes
8598b7e |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 |
# Iniciar Agente
!!! note
Todo o documento foi traduzido por claude3.5 Sonnet, se você for um falante nativo e achar a tradução problemática, muito obrigado por nos enviar um problema ou uma solicitação pull!
## Requisitos
- Memória GPU: No mínimo 8GB (com quantização), 16GB ou mais é recomendado.
- Uso de disco: 10GB
## Download do Modelo
Você pode obter o modelo através de:
```bash
huggingface-cli download fishaudio/fish-agent-v0.1-3b --local-dir checkpoints/fish-agent-v0.1-3b
```
Coloque-os na pasta 'checkpoints'.
Você também precisará do modelo fish-speech que pode ser baixado seguindo as instruções em [inference](inference.md).
Então haverá 2 pastas em checkpoints.
O `checkpoints/fish-speech-1.4` e `checkpoints/fish-agent-v0.1-3b`
## Preparação do Ambiente
Se você já tem o Fish-speech, pode usar diretamente adicionando a seguinte instrução:
```bash
pip install cachetools
```
!!! nota
Por favor, use a versão Python abaixo de 3.12 para compilação.
Se você não tem, use os comandos abaixo para construir seu ambiente:
```bash
sudo apt-get install portaudio19-dev
pip install -e .[stable]
```
## Iniciar a Demo do Agente
Para construir o fish-agent, use o comando abaixo na pasta principal:
```bash
python -m tools.api --llama-checkpoint-path checkpoints/fish-agent-v0.1-3b/ --mode agent --compile
```
O argumento `--compile` só suporta Python < 3.12, o que aumentará muito a velocidade de geração de tokens.
Não será compilado de uma vez (lembre-se).
Então abra outro terminal e use o comando:
```bash
python -m tools.e2e_webui
```
Isso criará uma WebUI Gradio no dispositivo.
Quando você usar o modelo pela primeira vez, ele irá compilar (se `--compile` estiver True) por um curto período, então aguarde com paciência.
## Gradio Webui
<p align="center">
<img src="../../assets/figs/agent_gradio.png" width="75%">
</p>
Divirta-se!
## Desempenho
Em nossos testes, um laptop com 4060 mal consegue rodar, ficando muito sobrecarregado, gerando apenas cerca de 8 tokens/s. A 4090 gera cerca de 95 tokens/s com compilação, que é o que recomendamos.
# Sobre o Agente
A demo é uma versão alpha inicial de teste, a velocidade de inferência precisa ser otimizada, e há muitos bugs aguardando correção. Se você encontrou um bug ou quer corrigi-lo, ficaremos muito felizes em receber uma issue ou um pull request.
|