새 게임을 깔기 전, ‘권장 사양’ 표에서 내 그래픽카드 이름을 눈으로 더듬어 본 적 있는가. “이거… 내 컴퓨터에서 돌아가긴 할까?”
로컬 AI 앞에서도 똑같은 순간이 온다. 앞 기사에서 모델 하나를 내 기기에 들이려는데, 다운로드 버튼 옆에 “16GB 권장”이라고 적혀 있다. 그런데 내 노트북은 8GB다. 될까, 안 될까. 그 애매한 불안 위에서 손가락이 멈춘다.
여기에 더 얄궂은 사실이 하나 있다. 요즘 화제인 거대 모델은 수백억, 수천억 개의 부품으로 이뤄져 있다. 그중 노트북용으로 나온 사촌뻘 모델조차, 원래 크기 그대로면 141GB — 웬만한 노트북 저장공간을 통째로 잡아먹는다. 그런데 바로 그 모델이, 지금 누군가의 16GB짜리 노트북 안에서 멀쩡히 돌고 있다.
수천억 개의 부품 덩어리가 어떻게 평범한 노트북 한 대에 욱여넣어질까? 이건 마술이 아니라 원리다. 그리고 이 글은 그 원리를 글로 읽히지 않는다 — 당신 손으로 슬라이더 하나를 밀어 직접 붙잡게 한다.
설명은 잠깐 미루고 — 먼저 당신 RAM부터 골라보세요
원리를 설명하기 전에, 순서를 뒤집겠다. 백 마디 설명보다 한 번 만져보는 게 빠르기 때문이다.
아래 「내 노트북 AI 판정기」 위젯이 있다. 맨 위에 RAM 용량 칩이 몇 개 놓여 있다 — 4 · 8 · 16 · 32 · 64GB. 그중 당신 노트북의 RAM 하나만 눌러보라. 그 즉시 아래에, “당신 기기에서 원활히 도는 모델 / 빠듯한 모델 / 버거운 모델”이 초록·노랑·빨강으로 줄지어 뜬다. 아무것도 다운로드하지 않는다. 누르는 순간 계산돼 나온다.
내 RAM으로 목록 띄우기. 위젯 상단에서 내 RAM 칩 하나만 클릭하세요. 그 즉시 돌아가는 모델 목록이 뜹니다 — 이게 첫 성공입니다. 내 RAM이 몇 GB인지 모른다고요? 그게 정상입니다. 칩 옆의 [내 RAM 확인하는 법] 툴팁이 3초 확인법을 알려줍니다. 정 모르겠으면 일단 8GB로 시작하세요.
‘파라미터’는 모델이 가진 손잡이의 개수다
AI 뉴스에 늘 따라붙는 말이 있다. “80억(8B) 파라미터 모델”, “700억(70B) 파라미터 모델”. 여기서 B는 Billion, 곧 10억이다. 8B면 80억, 70B면 700억. 그런데 파라미터가 대체 뭘까.
이렇게 그려보자. AI 모델을 거대한 오디오 믹싱 콘솔이라고 상상하라. 수많은 손잡이(다이얼)가 빼곡히 박혀 있고, 각 손잡이는 소리의 어떤 부분을 미세하게 조절한다. AI는 학습하는 동안 이 손잡이 하나하나를 딱 맞는 위치로 돌려놓는다. 그렇게 맞춰진 손잡이들의 총합이 그 모델의 ‘실력’이다. 파라미터 = 이 손잡이의 개수.
손잡이가 많을수록 더 섬세하게 조절할 수 있으니, 대체로 더 똑똑하다. 하지만 공짜는 아니다. 손잡이 하나하나가 지금 어느 위치에 돌아가 있는지, 그 위치 값을 전부 기록해 둬야 다음에 꺼내 쓸 수 있다. 여기서 모델의 ‘용량’이 나온다.
모델 파일 크기 ≈ 손잡이 개수 × 손잡이 하나를 적어두는 데 드는 공간.
바로 이 뒤쪽 항목 — “손잡이 하나를 얼마나 정밀하게 적어두느냐” — 이 이 글의 심장이다.
💡 더 깊이 — 손잡이의 정식 이름은 ‘가중치’ 개념
손잡이(파라미터)의 정식 이름은 ‘가중치(weight)’입니다. 학습이란 결국 이 수십억 개 가중치를 데이터에 맞게 조금씩 돌려 맞추는 과정이고, 완성된 모델을 저장한다는 건 이 값들을 파일에 적어 두는 것입니다. 그래서 “모델을 내려받는다”는 건 이 손잡이 값 뭉치를 통째로 복사해 오는 것과 같습니다.
그 큰 걸 어떻게 줄이나 — 양자화라는 ‘화질 압축’
손잡이가 80억 개다. 그럼 각 손잡이의 위치 값을 얼마나 자세히 적어둘까?
가장 정밀하게 적는 방식이 FP16이다. 손잡이 하나당 2바이트(16비트)를 쓴다. 8B 모델을 이 방식으로 저장하면? 80억 개 × 2바이트 = 약 16.1GB. 16GB 노트북엔 이미 벅차다.
그래서 등장하는 게 양자화(quantization)다. 이름은 거창하지만, 원리는 우리가 매일 쓰는 것과 똑같다 — 사진 화질 압축. 스마트폰 원본 사진(수십 MB)을 메신저로 보내면 자동으로 몇 백 KB로 줄지만, 화면으론 거의 차이를 못 느낀다. 사람 눈이 구분 못 할 미세한 정보만 버리기 때문이다. 양자화가 손잡이 값에 하는 일이 정확히 이거다 — “3.14159…”를 “3.14”처럼 더 성글게 반올림해 16비트 → 8비트 → 4비트로 줄인다. 용량은 많이, 품질은 조금 — 이 비대칭이 로컬 AI를 가능하게 하는 핵심이다.
여기서 정직하게 짚고 갈 게 하나 있다. 16비트를 4비트로 줄이면 산수로는 딱 1/4이 돼야 한다. 그런데 실제 파일은 1/4이 아니라 약 1/3로만 준다. 널리 쓰이는 4비트 방식(이름은 Q4_K_M)은 사실 모든 손잡이를 딱 4비트로 적지 않기 때문이다. 품질에 특히 중요한 일부 손잡이는 조금 더 넉넉한 자리를 남겨 둔다 — 그래서 평균을 내면 손잡이 하나당 약 4.8비트다. 사소해 보이는 이 디테일이, 잠시 뒤 슬라이더에서 당신이 볼 숫자와 정확히 맞물린다.
💡 더 깊이 — GGUF·Q4_K_M 꼬리표의 정체 개념
로컬 모델은 보통 GGUF라는 파일 형식으로 배포되고, 파일 이름 끝에 Q4_K_M, Q8_0 같은 꼬리표가 붙습니다. 이게 “몇 비트로 양자화했나”를 뜻합니다. Q8_0은 실효 약 8.5비트(거의 무손실), Q4_K_M은 실효 약 4.8비트죠. K는 ‘중요한 손잡이는 정밀하게 남기는’ K-양자화 방식을, M은 그 안에서 중간 크기 설정을 뜻합니다.
이제 슬라이더를 미세요 — 여기가 이 글의 절정입니다
지금까지 읽은 걸, 이제 손으로 확정할 차례다. 위 위젯 목록에서 모델 하나를 고르세요. 예로 Llama 3.1 8B(손잡이 80억 개짜리)를 골라봅시다. 그 아래에 양자화 슬라이더가 나타난다 — FP16 ↔ 8bit ↔ 4bit. 이 슬라이더를 천천히 밀어보세요. 두 개의 막대를 동시에 지켜보면서.
슬라이더로 용량↔품질 맞바꾸기. 슬라이더를 밀 때 ① 용량 막대가 얼마나 확 줄어드는지, ② 품질 막대가 얼마나 (조금만) 내려가는지, ③ 상단 판정 배지가 빨강→노랑→초록으로 바뀌는지를 한눈에 지켜보세요. 핵심은 두 막대의 ‘차이’입니다.
밀어봤다면, 눈앞에서 이런 일이 벌어졌을 것이다.
| 슬라이더 위치 | 용량 | 품질(상대) | 16GB 노트북 판정 |
|---|---|---|---|
| FP16 (원본 화질) | 16.1GB | 72 | 🔴 버거움 |
| 8bit (Q8_0) | 8.5GB | 71 | 🟡 빠듯 |
| 4bit (Q4_K_M) | 4.9GB | 69 | 🟢 원활 |
이 표를 세로로 훑어보라. 용량은 16.1 → 4.9GB로, 3분의 1 토막이 났다. 그런데 품질은 72 → 69로, 겨우 3만큼 내려왔을 뿐이다. 위젯이 아래에 한 줄로 요약해 준다:
“FP16 대비 약 3.3배 가벼워졌고, 품질은 약 4%만 손해.”
이 한 줄이 이 글의 전부다. 3.3배 가벼워지는데 4%만 잃는다. 이 지독하게 불공평한 거래 — 이게 바로 “수천억 개 부품 덩어리가 어떻게 내 노트북에 들어가는가”의 답이다. 그래서 16GB엔 안 들어가던 8B 모델이, 4비트로 줄이는 순간 넉넉히 들어가 초록불이 켜진다.
여기까지 왔다면, 당신은 방금 로컬 AI의 심장을 손으로 만졌다.
‘들어간다’와 ‘잘 돈다’는 다르다 — 판정의 눈금
슬라이더를 밀 때 상단 배지가 색을 바꾸는 걸 봤을 것이다. 그 색은 대충 정해지는 게 아니라, 간단한 눈금 하나로 정해진다.
먼저 오해 하나를 풀자. “파일이 4.9GB고 내 RAM이 8GB니까, 여유롭게 들어가겠네?” — 그렇지 않다. 모델을 돌릴 때 RAM을 먹는 건 모델 파일만이 아니다. 운영체제, 켜둔 브라우저와 다른 앱, 그리고 대화가 길어질수록 쌓이는 ‘기억’까지 전부 같은 RAM을 나눠 쓴다. 그래서 판정기는 보수적으로 잡는다. 모델 파일이 내 RAM의 절반 이하일 때만 초록불(원활)을 준다.
- 파일이 RAM의 50% 이하 → 🟢 원활 (여유 있음)
- 50~75% → 🟡 빠듯 (다른 앱 끄고, 대화 짧게, 조금 느림)
- 75% 초과 → 🔴 버거움 (멈춤·크래시 위험)
숫자로 확인해 보자. 16GB 노트북에 8B-4bit(4.9GB)를 넣으면 비율이 약 0.31 — 🟢 원활. 같은 모델을 8GB 노트북에 넣으면 약 0.61 — 🟡 빠듯. 반대로 32B 모델을 4비트로 줄여도 19.9GB나 되니, 16GB엔 비율 1.24로 🔴 버거움이다. 줄여도 안 들어가는 놈은 안 들어간다.
공짜 점심은 없다 — 로컬의 정직한 한계
여기서 멈추면 “4비트가 만능”이라는 새로운 환상이 생긴다. 그래서 반대쪽도 정직하게 봐야 한다.
첫째, 더 줄인다고 계속 좋아지진 않는다. 4비트까진 품질이 완만하게 내려가지만, 그 아래(3비트·2비트)로 내려가면 품질 막대가 절벽처럼 무너진다. 그래서 커뮤니티가 4비트를 “가성비 최적점”이라 부르는 거지, “품질 최고점”이라 부르는 게 아니다.
둘째, 더 중요한 한계. 아무리 잘 줄여도, 로컬 모델은 애초에 클라우드 거인보다 작다. 위젯이 화면 아래에 이 문장을 상시 띄워 두는 이유다: “이 판정기는 ‘내 기기에 들어가나?’만 답합니다. ‘클라우드만큼 똑똑한가?’엔 — 아니오.” 진실은 그 사이에 있다 — 내 사양에 맞는 모델을, 4비트로 알맞게 줄여, 내 데이터로·구독 없이·오프라인에서 돌린다. 조금 덜 똑똑해도, 그건 온전히 내 것이다.
미니 퀴즈 3문항으로 직관 굳히기. 위젯의 미니 퀴즈를 풀고 [채점]을 누르세요. “4bit로 낮추면 파일 크기는? / 품질은? / 16GB 노트북에서 가장 현실적인 선택은?” 특히 마지막 문항이 이 글의 균형 감각을 시험합니다.
💡 더 깊이 — 왜 ‘큰 모델 4bit > 작은 모델 풀화질’인가 실무자용
손잡이 개수(파라미터)가 정밀도(비트)보다 실력에 더 크게 기여하기 때문입니다. 8B를 4비트로 줄여도 손잡이는 여전히 80억 개고, 3B를 최고 화질로 써봐야 손잡이는 30억 개뿐입니다. 그래서 “큰 모델 4bit > 작은 모델 풀화질”이 자주 성립합니다. 위젯의 [더 깊이 ▾] 패널에서 이 둘을 나란히 맞대볼 수 있습니다.
정직한 한계까지 파보기. 위젯의 [더 깊이 ▾] 패널을 펼치면 ① 슬라이더에 3bit·2bit 구간이 추가돼 품질이 절벽처럼 꺾이는 걸 직접 보고, ② “3B를 최고 화질로” vs “8B를 4비트로”를 나란히 맞대보고, ③ OS·다른 앱이 먹는 여유공간을 조절하며 판정이 어떻게 바뀌는지 만져봅니다.
💡 더 깊이 — ‘들어가나’와 ‘빠른가’는 다른 축 실무자용
판정기는 “들어가나”에 답하지만, “빠른가”는 또 다른 축입니다. 실제 체감 속도(초당 몇 글자)는 CPU·메모리 대역폭·전용 그래픽카드 유무에 따라 몇 배씩 갈립니다. 그래서 위젯은 속도를 숫자로 단정하지 않고 ‘빠름/보통/느림/기어감’ 밴드로만 보여줍니다. 여기에 대화가 길어질수록 ‘기억’(문맥)이 RAM을 더 먹는다는 변수까지 겹칩니다.
마치며 — 이제 당신은 ‘줄자’를 가졌다
이 호는 처음부터 하나의 이사(移徙) 이야기였다. 그 이사에서 이 글이 맡은 역할은 딱 하나다 — 이삿짐이 우리 집 문을 통과하는지 재보는 줄자. 이제 당신은 그 줄자를 손에 쥐었다. “내 노트북 사양으로 될까?”라는 막연한 불안이, 슬라이더 한 번으로 “이건 되고 저건 버겁다”는 스스로의 판단으로 바뀌었다.
내 판정 카드 만들어 나누기. 위젯의 [내 판정 카드 만들기]를 누르세요. 내 RAM·기기 + 원활히 도는 모델 + 내가 고른 조합이 예쁜 카드 한 장으로 만들어집니다. #내노트북AI판정으로 공유해, “내 8GB 노트북에도 3B가 이렇게 잘 도네” 같은 발견을 나눠 보세요. 사양 자랑 대회가 아닙니다 — 작아도 내 것이 돈다는 후련함을 넘기는 자리입니다.
줄자로 재봤으니, 다음은 진짜로 들여놓을 차례다. 재보고 “이건 되겠다” 싶은 그 모델을 실제로 내 기기에 상주시키는 법은 bring-ai-home(내 컴퓨터에 AI를 들이다)에서 다뤘고, 그렇게 들인 모델로 내 목소리가 밖으로 안 나가는 받아쓰기 도구를 직접 만드는 건 private-voice-notes에서 이어진다. 이제, 마음 편히 짐을 들여놓자.