调用qwen-max模型，还需要消耗显存吗 #499

liutong0127 · 2024-06-20T08:21:36Z

本地部署的agent，调用qwen-max模型。然后每建立一个对话都需要消耗相应的显存吗？多几个对话，显存满了就只能等待？

No response

zzhangpurdue · 2024-06-21T01:32:28Z

目前qwen-max使用的是dashscope api应该不用占显存，如果你使用vllm拉起的qwen小模型的话，目前链路上确实会有开多个对话，有占用多个显存的情况，之前没有遇到这个case。我们高优解一下。感谢提供反馈

zzhangpurdue · 2024-06-21T09:49:27Z

本地部署的agent是参考用 sh scripts/run_assistant_server.sh么？

zzhangpurdue self-assigned this Jun 21, 2024

zzhangpurdue added the bug Something isn't working label Jun 21, 2024

Provide feedback