renillhuang
commited on
Commit
•
b04c9f9
1
Parent(s):
c32f362
Update README_ja.md
Browse files- README_ja.md +39 -4
README_ja.md
CHANGED
@@ -31,7 +31,7 @@
|
|
31 |
- [📖 モデル紹介](#model-introduction)
|
32 |
- [🔗 モデルダウンロード](#model-download)
|
33 |
- [🔖 モデルベンチマーク](#model-benchmark)
|
34 |
-
- [📊 モデル推論](#model-inference)
|
35 |
- [📜 声明とライセンス](#declarations-license)
|
36 |
- [🥇 企業紹介](#company-introduction)
|
37 |
|
@@ -261,9 +261,44 @@ CUDA_VISIBLE_DEVICES=0 python demo/text_generation_base.py --model OrionStarAI/O
|
|
261 |
# チャットモデル
|
262 |
CUDA_VISIBLE_DEVICES=0 python demo/text_generation.py --model OrionStarAI/Orion-14B-Chat --tokenizer OrionStarAI/Orion-14B-Chat --prompt hi
|
263 |
```
|
|
|
264 |
|
265 |
-
|
266 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
267 |
|
268 |
`````
|
269 |
User: Hello
|
@@ -285,7 +320,7 @@ User: Tell me a joke.
|
|
285 |
Orion-14B: Sure, here's a classic one-liner: Why don't scientists trust atoms? Because they make up everything.
|
286 |
`````
|
287 |
|
288 |
-
### 4.
|
289 |
|
290 |
`````
|
291 |
User:自己を紹介してください
|
|
|
31 |
- [📖 モデル紹介](#model-introduction)
|
32 |
- [🔗 モデルダウンロード](#model-download)
|
33 |
- [🔖 モデルベンチマーク](#model-benchmark)
|
34 |
+
- [📊 モデル推論](#model-inference)[<img src="./assets/imgs/vllm.png" alt="vllm" height="20"/>](#vllm) [<img src="./assets/imgs/llama_cpp.png" alt="llamacpp" height="20"/>](#llama-cpp)
|
35 |
- [📜 声明とライセンス](#declarations-license)
|
36 |
- [🥇 企業紹介](#company-introduction)
|
37 |
|
|
|
261 |
# チャットモデル
|
262 |
CUDA_VISIBLE_DEVICES=0 python demo/text_generation.py --model OrionStarAI/Orion-14B-Chat --tokenizer OrionStarAI/Orion-14B-Chat --prompt hi
|
263 |
```
|
264 |
+
## 4.4. vLLMを使用した推論
|
265 |
|
266 |
+
- プロジェクトのアドレス<br>
|
267 |
+
https://github.com/vllm-project/vllm
|
268 |
+
|
269 |
+
- プルリクエスト<br>
|
270 |
+
https://github.com/vllm-project/vllm/pull/2539
|
271 |
+
|
272 |
+
<a name="llama-cpp"></a><br>
|
273 |
+
## 4.5. llama.cppを使用した推論
|
274 |
+
|
275 |
+
- プロジェクトのアドレス<br>
|
276 |
+
https://github.com/ggerganov/llama.cpp
|
277 |
+
|
278 |
+
- プルリクエスト<br>
|
279 |
+
https://github.com/ggerganov/llama.cpp/pull/5118
|
280 |
+
|
281 |
+
- GGUF形式に変換する方法
|
282 |
+
|
283 |
+
```shell
|
284 |
+
python convert-hf-to-gguf.py path/to/Orion-14B-Chat --outfile chat.gguf
|
285 |
+
```
|
286 |
+
|
287 |
+
- モデル推論方法
|
288 |
+
|
289 |
+
```shell
|
290 |
+
./main --frequency-penalty 0.5 --frequency-penalty 0.5 --top-k 5 --top-p 0.9 -m chat.gguf -p "Building a website can be done in 10 simple steps:\nStep 1:" -n 400 -e
|
291 |
+
```
|
292 |
+
|
293 |
+
|
294 |
+
|
295 |
+
|
296 |
+
|
297 |
+
|
298 |
+
|
299 |
+
|
300 |
+
## 4.6 例の出力
|
301 |
+
### 4.6.1 カジュアルチャット
|
302 |
|
303 |
`````
|
304 |
User: Hello
|
|
|
320 |
Orion-14B: Sure, here's a classic one-liner: Why don't scientists trust atoms? Because they make up everything.
|
321 |
`````
|
322 |
|
323 |
+
### 4.6.2. 日本語と韓国語のチャット
|
324 |
|
325 |
`````
|
326 |
User:自己を紹介してください
|