四台相同配置的服务器同样的脚本进行测试。
vllm bench serve --port 7000 --model /models --served-model-name ds --dataset-name random --random-input 200 --random-output 2048 --num-prompts 300 --request-rate 0.5 --max-concurrency 50 --save-result --result-dir ./result_optimized
一号机

二号机

三号机,并发跑到54后P99就飙升了。

四号机,并发高一个,TTFT和P99上升严重。
