컴푸터 1 분 소요

서두

이 글은 GitHub Gist에 작성한 GGUF Quantization TPS Comparison(영어)을 한국어로 블로그에 옮겨적어두는 글이다. 아무래도 블로그가 검색 접근성이 좋을테니…

이 벤치마크는 통제된 상황에서 전문적으로 수행된 벤치마크가 아닌, 그냥 대충 돌린 벤치마크이므로, 수치를 직접적으로 참고하지는 마시고, 그냥 포맷별 성능 편차가 어느 정도인지 참고하는 정도로만 써주시면 좋겠다.

  • 모델: Gemma 3 4B, bartowski님의 양자화 모델 (링크)

M2 Mac Mini, 16GB RAM, llama.cpp b4980 (brew)

  • 명령: llama-cli -p "Tell me a long story." -m [model]
양자화 포맷 PP (t/s) TG (t/s)
Q4_0 143.23 32.27
Q4_1 142.08 30.44
Q8_0 145.55 20.20
Q2_K 131.36 33.80
Q2_K_L 120.12 31.85
Q3_K_S 124.46 29.04
Q3_K_M 122.61 29.27
Q3_K_L 120.49 27.23
Q3_K_XL 124.63 26.64
Q4_K_S 128.79 31.06
Q4_K_M 123.30 29.60
Q4_K_L 122.80 27.93
Q5_K_S 118.89 26.91
Q5_K_M 115.35 26.13
Q5_K_L 116.06 25.30
Q6_K 130.00 25.57
Q6_K_L 121.78 24.25
IQ2_M 132.85 26.00
IQ3_XXS 130.72 30.31
IQ3_XS 121.95 29.41
IQ3_M 118.38 29.40
IQ4_XS 133.84 33.13
IQ4_NL 133.18 32.33

Windows 10, RTX 3060, 12GB VRAM, llama.cpp b4980-cu12.4 (GitHub 릴리즈)

  • 명령: llama-cli -p "Tell me a long story." -ngl 100 -m [model]
양자화 포맷 PP (t/s) TG (t/s)
Q4_0 442.16 73.40
Q4_1 578.66 70.37
Q8_0 512.17 52.08
Q2_K 396.75 71.45
Q2_K_L 458.73 67.99
Q3_K_S 320.01 61.57
Q3_K_M 143.09 62.95
Q3_K_L 270.64 62.10
Q3_K_XL 461.64 61.83
Q4_K_S 191.81 72.11
Q4_K_M 235.89 68.96
Q4_K_L 339.53 66.61
Q5_K_S 553.79 65.44
Q5_K_M 504.44 63.99
Q5_K_L 333.02 62.89
Q6_K 494.74 61.86
Q6_K_L 407.45 61.72
IQ2_M 164.73 75.15
IQ3_XXS 183.95 72.42
IQ3_XS 377.95 68.70
IQ3_M 405.58 69.38
IQ4_XS 244.09 63.10
IQ4_NL 246.45 64.37
BF16 125.06 32.24

개 후진 그래프™

PP는 프롬프트가 짧아서 그런지 값이 유의미하게 안정적이진 않은 것 같아서, 그래프에서는 TG만 비교했다.

엑셀 그래프 무쌩겨써

카테고리:

최초 작성:

마지막 수정:

댓글