sinu

우울한 코딩쟁이

GGUF 양자화 포맷별 성능 벤치마크

컴푸터 2025/04/01 1 분 소요

서두

이 글은 GitHub Gist에 작성한 GGUF Quantization TPS Comparison(영어)을 한국어로 블로그에 옮겨적어두는 글이다. 아무래도 블로그가 검색 접근성이 좋을테니…

이 벤치마크는 통제된 상황에서 전문적으로 수행된 벤치마크가 아닌, 그냥 대충 돌린 벤치마크이므로, 수치를 직접적으로 참고하지는 마시고, 그냥 포맷별 성능 편차가 어느 정도인지 참고하는 정도로만 써주시면 좋겠다.

모델: Gemma 3 4B, bartowski님의 양자화 모델 (링크)

M2 Mac Mini, 16GB RAM, llama.cpp b4980 (brew)

명령: llama-cli -p "Tell me a long story." -m [model]

양자화 포맷	PP (t/s)	TG (t/s)
Q4_0	143.23	32.27
Q4_1	142.08	30.44
Q8_0	145.55	20.20
Q2_K	131.36	33.80
Q2_K_L	120.12	31.85
Q3_K_S	124.46	29.04
Q3_K_M	122.61	29.27
Q3_K_L	120.49	27.23
Q3_K_XL	124.63	26.64
Q4_K_S	128.79	31.06
Q4_K_M	123.30	29.60
Q4_K_L	122.80	27.93
Q5_K_S	118.89	26.91
Q5_K_M	115.35	26.13
Q5_K_L	116.06	25.30
Q6_K	130.00	25.57
Q6_K_L	121.78	24.25
IQ2_M	132.85	26.00
IQ3_XXS	130.72	30.31
IQ3_XS	121.95	29.41
IQ3_M	118.38	29.40
IQ4_XS	133.84	33.13
IQ4_NL	133.18	32.33

Windows 10, RTX 3060, 12GB VRAM, llama.cpp b4980-cu12.4 (GitHub 릴리즈)

명령: llama-cli -p "Tell me a long story." -ngl 100 -m [model]

양자화 포맷	PP (t/s)	TG (t/s)
Q4_0	442.16	73.40
Q4_1	578.66	70.37
Q8_0	512.17	52.08
Q2_K	396.75	71.45
Q2_K_L	458.73	67.99
Q3_K_S	320.01	61.57
Q3_K_M	143.09	62.95
Q3_K_L	270.64	62.10
Q3_K_XL	461.64	61.83
Q4_K_S	191.81	72.11
Q4_K_M	235.89	68.96
Q4_K_L	339.53	66.61
Q5_K_S	553.79	65.44
Q5_K_M	504.44	63.99
Q5_K_L	333.02	62.89
Q6_K	494.74	61.86
Q6_K_L	407.45	61.72
IQ2_M	164.73	75.15
IQ3_XXS	183.95	72.42
IQ3_XS	377.95	68.70
IQ3_M	405.58	69.38
IQ4_XS	244.09	63.10
IQ4_NL	246.45	64.37
BF16	125.06	32.24

개 후진 그래프™

PP는 프롬프트가 짧아서 그런지 값이 유의미하게 안정적이진 않은 것 같아서, 그래프에서는 TG만 비교했다.

엑셀 그래프 무쌩겨써

댓글