Spaces:

yusufs
/

vllm-inference

Paused

yusufs commited on Nov 27, 2024

Commit

5f3bf21

1 Parent(s): 7935381

feat(endpoint): add prefix /api on each endpoint

Files changed (2) hide show

README.md CHANGED Viewed

@@ -20,6 +20,11 @@ poetry export -f requirements.txt --output requirements.txt --without-hashes
 > References: https://huggingface.co/spaces/sofianhw/ai/tree/c6527a750644a849b6705bb6fe2fcea4e54a8196
 This `api_server.py` file is exact copy version from https://github.com/vllm-project/vllm/blob/v0.6.4.post1/vllm/entrypoints/openai/api_server.py
 * The `HUGGING_FACE_HUB_TOKEN` must exist during runtime.

 > References: https://huggingface.co/spaces/sofianhw/ai/tree/c6527a750644a849b6705bb6fe2fcea4e54a8196
+Fixes:
+* [x] change everything route in api_server.py that start (“/v1/xxx”) to (“/api/v1/xxx”).
+  and just run the python api_server.py with arguments. https://discuss.huggingface.co/t/run-vllm-docker-on-space/70228/5?u=yusufs
 This `api_server.py` file is exact copy version from https://github.com/vllm-project/vllm/blob/v0.6.4.post1/vllm/entrypoints/openai/api_server.py
 * The `HUGGING_FACE_HUB_TOKEN` must exist during runtime.

openai_compatible_api_server.py CHANGED Viewed

@@ -322,7 +322,7 @@ async def detokenize(request: DetokenizeRequest, raw_request: Request):
     assert_never(generator)
-@router.get("/v1/models")
 async def show_available_models(raw_request: Request):
     handler = base(raw_request)
@@ -336,7 +336,7 @@ async def show_version():
     return JSONResponse(content=ver)
-@router.post("/v1/chat/completions")
 async def create_chat_completion(request: ChatCompletionRequest,
                                  raw_request: Request):
     handler = chat(raw_request)
@@ -356,7 +356,7 @@ async def create_chat_completion(request: ChatCompletionRequest,
     return StreamingResponse(content=generator, media_type="text/event-stream")
-@router.post("/v1/completions")
 async def create_completion(request: CompletionRequest, raw_request: Request):
     handler = completion(raw_request)
     if handler is None:
@@ -373,7 +373,7 @@ async def create_completion(request: CompletionRequest, raw_request: Request):
     return StreamingResponse(content=generator, media_type="text/event-stream")
-@router.post("/v1/embeddings")
 async def create_embedding(request: EmbeddingRequest, raw_request: Request):
     handler = embedding(raw_request)
     if handler is None:

     assert_never(generator)
+@router.get("/api/v1/models")
 async def show_available_models(raw_request: Request):
     handler = base(raw_request)
     return JSONResponse(content=ver)
+@router.post("/api/v1/chat/completions")
 async def create_chat_completion(request: ChatCompletionRequest,
                                  raw_request: Request):
     handler = chat(raw_request)
     return StreamingResponse(content=generator, media_type="text/event-stream")
+@router.post("/api/v1/completions")
 async def create_completion(request: CompletionRequest, raw_request: Request):
     handler = completion(raw_request)
     if handler is None:
     return StreamingResponse(content=generator, media_type="text/event-stream")
+@router.post("/api/v1/embeddings")
 async def create_embedding(request: EmbeddingRequest, raw_request: Request):
     handler = embedding(raw_request)
     if handler is None: