python -m vllm.entrypoints.openai.api_server --served-model-name ocr --model out --max-model-len 4096