文章来源于互联网:贾扬清点赞:3K star量的SGLang上新,加速Llama 405B推理秒杀vLLM、TensorRT-LLM
用来运行 Llama 3 405B 优势明显。


-
数据集 1:I-243-O-770; -
数据集 2:I-295-O-770; -
数据集 3:I-243-O-386; -
数据集 4:I-295-O-386; -
数据集 5:I-221-O-201。









# Llama 8Bpython -m sglang.launch_server --model-path meta-llama/Meta-Llama-3.1-8B-Instruct# Llama 405Bpython -m sglang.launch_server --model-path meta-llama/Meta-Llama-3.1-405B-Instruct-FP8 --tp 8
curl http://localhost:30000/v1/completions-H "Content-Type: application/json"-d '{"model": "default","prompt": "Say this is a test","max_tokens": 7,"temperature": 0}'
python3 -m sglang.bench_serving --backend sglang --num-prompts 1000
文章来源于互联网:贾扬清点赞:3K star量的SGLang上新,加速Llama 405B推理秒杀vLLM、TensorRT-LLM
