使用text-generation-webui加载Qwen/Qwen-7B-Chat模型的时候参数如图一所示(这台机器显卡太差,CPU较好),加载之后默认只能使用1个CPU线程(如图二),大量的CPU被闲置,然后推理速度非常非常慢,我查了你们开源的readme,没有看到启动参数调整的信息,请问我可以在哪里调整启动参数,使用更多的CPU用于推理呢,谢谢。PS:Git从huggingface下载的时候默认会漏一个文件qwen.tiktoken,我不知道是不是我的特例。
补充一下图二
· Sign up or log in to comment