[LLM] 로컬 LLM(Qwen3.5 35B&9B) vs OpenRouter, 비용 면에서 뭐가 더 나을까?

로컬을 돌리면서 든 의문

이전 글에서 RTX4060Ti 16GB 환경에서 Qwen3.5 35B-A3B Q3와 9B Q4를 벤치마크로 비교해보았다.

그런데 테스트를 하면서 한 가지 의문이 들었다.

이걸 굳이 로컬에서 돌려야 하나?

벤치마크를 돌리는 데만 일주일 넘게 걸렸고, 그동안 전기를 계속 사용했다.

같은 모델을 OpenRouter 같은 API 서비스에서 쓰면 비용이 얼마나 차이가 나는지 궁금해졌다.

로컬 전력 비용

기존에는 멀티탭에 연결된 다른 기기들까지 포함되어 전력량이 높게 잡혔었다.

데스크탑 단독으로 다시 측정해 본 결과, 아이들(Idle) 상태에서는 약 160W, 추론 시에는 약 275W를 소모하는 것으로 나타났다.

PC를 24시간 켜두고 하루 평균 6.5시간 정도 추론을 돌린다고 가정해 보자.

추론 전력: 275W × 6.5시간 = 약 1.79kWh
대기 전력(아이들): 160W × 17.5시간 = 2.8kWh
하루 총 전력 사용량: 약 4.59kWh
한달 총 전력 사용량 : 4.59 * 30 = 137.7kWh

만약 기존에 전기를 300kWh이하를 사용하고 있는 경우 누진세 1단계가 적용되는 주택용 저압 요금으로 환산하면 16,524원(137.7 * 120),

나의 경우 이미 기본 전력을 180~200kWh정도 사용하고 있기 때문에 누진세 2단계가 적용되는 요금으로 환산하면 29,550원(137.7 * 214.6)이 나온다.

서버를 24시간 켜두는 이상 사용량과 상관없이 고정으로 나가는 비용이다.

OpenRouter 가격

OpenRouter에서 Qwen3.5 모델을 사용할 때의 가격은 아래와 같다.

모델	Input ($/1M tokens)	Output ($/1M tokens)
Qwen3.5-9B	$0.05	$0.15
Qwen3.5-35B-A3B	$0.1625	$1.30

9B는 굉장히 저렴하고, 35B-A3B는 output 가격이 꽤 나가는 편이다.

물론 지금의 $0.1625와 $1.30은 할인된 가격이라는 점이다.

하루 6.5시간 추론, 실제 토큰량으로 환산하면?

전기세는 하루 6~7시간 추론을 기준으로 계산했다.

그렇다면 이 시간 동안 실제로 얼마만큼의 토큰을 처리할 수 있을까?

현재 내 로컬 환경(RTX4060Ti 16GB)에서 테스트해 본 결과, 초당 토큰 생성 속도(t/s)는 다음과 같았다.

Qwen3.5 35B-A3B (Q3): 약 60~70 t/s (평균 65 t/s)
Qwen3.5 9B (Q4): 약 35 t/s

이를 하루 6.5시간(23,400초) 기준으로 환산해 보면 다음과 같은 어마어마한 양의 토큰이 생성된다.

35B 모델: 하루 약 1.52M 토큰 → 한 달(30일) 약 45.6M 토큰
9B 모델: 하루 약 0.82M 토큰 → 한 달(30일) 약 24.6M 토큰

실제 토큰량 기준: OpenRouter vs 로컬 비용 비교

하루 6.5시간 동안 뿜어내는 이 막대한 토큰을 모두 OpenRouter API로 처리한다면 비용이 얼마나 나올까?

로컬 한 달 추가 전기세인 29,550원(누진세 2단계 적용)과 비교해 보았다.

(환율은 편의상 1,350원으로 적용하고, 추론 속도를 기준으로 하므로 OpenRouter 요금은 가장 비싼 Output 단가로만 계산했다.)

1. Qwen3.5 35B-A3B의 경우 (로컬 압승)

월 예상 생성량: 약 45.6M 토큰
OpenRouter 비용 ($1.30/1M): 45.6M × $1.30 = $59.28 (약 80,000원)
로컬 전기세: 29,550원

35B 모델을 하루 6.5시간씩 하드하게 돌릴 경우, 로컬이 매월 약 5만 원 이상 저렴하다.

역으로 계산해 보면, 로컬 전기세 29,550원어치를 OpenRouter에서 쓰려면 약 16.8M 토큰을 생성할 수 있다.

즉, 한 달에 16.8M 토큰(하루 평균 약 2시간 24분 추론) 이상을 꾸준히 사용한다면 무조건 로컬 서버를 켜두는 것이 경제적이다.

2. Qwen3.5 9B의 경우 (OpenRouter 압승)

월 예상 생성량: 약 24.6M 토큰
OpenRouter 비용 ($0.15/1M): 24.6M × $0.15 = $3.69 (약 5,000원)
로컬 전기세: 29,550원

9B 모델은 전혀 다른 결과가 나온다.

OpenRouter의 9B 단가가 워낙 파격적이다 보니, 한 달 내내 6.5시간씩 돌려도 API 비용이 고작 5,000원 수준에 불과하다.

로컬 전기세(29,550원)가 API 요금보다 6배 가까이 비싸다.

비용만 놓고 보면 9B를 굳이 로컬에 올려서 전기를 태울 이유가 전혀 없는 셈이다.

Opus 헤비 유저 사용량 기준 비교 (주간 12.5M)

이제 이 토큰량을 바탕으로 API와 로컬의 비용을 1:1로 비교해 보자.

비교군은 Claude Team Premium 플랜의 Opus 모델 주간 한도인 12.5M 토큰(월 50M 토큰, 추정치) 이다.

흥미롭게도, 로컬에서 35B 모델로 한 달 50M 토큰을 뽑아내려면 매일 약 7.1시간씩 추론을 돌려야 한다.

앞서 예상한 '하루 6~7시간 사용(월 전기세 추가분 29,550원)' 조건이 실제 헤비 유저의 사용량과 정확히 일치하는 셈이다.

OpenRouter 35B-A3B의 평균 비용(월 50M 토큰 기준 약 66,164원)과 누진세 2단계가 적용된 로컬 전기세를 토큰 사용량에 따라 비교하면 아래와 같다.

사용량	월 토큰(주간)	OpenRouter Qwen3.5_35B-A3B	전기세 (월)	Which is Better?
100%	50M(12.5M)	66,164원	30,000원	로컬
80%	40M(10.0M)	52,931원	26,500원	로컬
60%	30M(7.5M)	39,698원	23,000원	로컬
45%	22.5M(5.6M	29,773원	20,500원	로컬
30%	15M(3.7M)	19,849원	17,500원	OpenRouter
10%	5.0M(1.25M)	6,616원	6,616원	OpenRouter

(※ 로컬 전기세는 사용 시간에 비례해 대기 전력과 추론 전력 비율을 조정하여 누진세 2단계 단가 214.6원으로 계산함)

결과적으로, 주간 5~6M 이상의 토큰을 지속적으로 소모하는 사용자라면 로컬 구동이 비용적으로 확실한 우위를 점한다.

그런데 로컬은 장비가 남는다

위 비교는 전기세만 놓고 본 것이다.

위 비교는 순수 유지비(전기세 vs API 요금)만 놓고 본 것이다. GPU 투자비(약 45만 원)를 포함해서 100% 사용량(월 50M 토큰) 기준으로 손익분기점을 계산해 보았다.

월 절감액: 66,164원 - 30,000원 = 36,164원
GPU 투자비 회수: 450,000원 ÷ 36,164원 = 약 12.4개월

매일 7시간씩 로컬 LLM을 굴린다면 약 1년 만에 그래픽카드 값을 전액 회수할 수 있다.

여기에 2년 뒤 중고 처분 가격(약 25만 원)까지 방어된다고 가정하면, 실질적인 투자비 회수 기간은 5개월 이내로 쪼그라든다.

9B 모델이라면?

하지만 9B 모델을 주로 쓴다면 이야기가 완전히 달라진다.

9B 모델의 경우 로컬 속도가 35 t/s로 35B보다 낮아 하루 6.5시간을 돌려도 월 24.6M 토큰을 생산하는 데 그친다.

이를 OpenRouter 9B의 저렴한 요금($0.15/1M Output)으로 환산하면, 한 달 내내 6.5시간씩 돌린 24.6M 토큰의 API 비용은 고작 3.69달러(약 5,000원)에 불과하다.

로컬 9B 한 달 전기세: 29,550원
OpenRouter 9B 한 달 요금: 약 5,000원

9B 크기의 모델은 API 단가가 워낙 파격적이라 전기세가 API 요금을 압도해 버린다.

비용만 놓고 보면 9B를 로컬에서 돌릴 이유는 전혀 없다.

그럼에도 로컬을 선택하는 이유

비용만 보면 대부분의 경우 OpenRouter가 유리하다. 그런데도 로컬을 선택하는 이유가 있다.

데이터 프라이버시

Qwen은 알리바바에서 만든 중국산 모델이다.

OpenRouter를 통해 사용하면 데이터가 외부 서버를 거치게 된다.

OpenRouter 자체는 미국 회사이지만, 백엔드 제공자가 어디인지는 알 수 없다.

로컬에서 돌리면 네트워크 통신 자체가 없다.

데이터가 내 하드웨어 밖으로 나가지 않으니 프라이버시 면에서는 가장 안전하다.

속도 제한 없음

API 서비스는 rate limit이 있다. 로컬은 하드웨어 성능이 허용하는 한 제한 없이 사용할 수 있다.

네트워크 불필요

인터넷이 끊겨도 사용 가능하다. 사내망에서만 운용하는 경우에도 문제없다.

커스터마이징

모델 로딩 옵션, 컨텍스트 크기, parallel 설정, 프롬프트 캐싱 등을 자유롭게 조절할 수 있다.

결론

토큰 생성 속도와 실질 전력량을 종합하여 비용 관점에서 다시 정리해 보면 아래와 같다.

가끔 쓰는 수준 (월 15M 토큰 이하): OpenRouter가 합리적이다.
헤비 사용자 (월 25M 토큰 이상): 35B 모델 기준으로 로컬이 압도적 이득이다. 1년이면 GPU 값을 뽑고도 남는다.
9B 이하 소형 모델만 쓸 거라면: OpenRouter가 압도적으로 저렴하다.

비용 효율은 어떤 모델을 얼만큼 쓰느냐에 따라 극명하게 갈린다.

35B급 이상의 묵직한 모델을 메인으로 하드하게 굴릴 계획이라면 로컬 서버 구축은 경제적으로도 매우 훌륭한 선택이다.

여기에 데이터 프라이버시와 네트워크 독립성이라는 로컬만의 강력한 메리트까지 챙길 수 있으니, 같은 고민을 하는 분들에게 이 글이 조금이나마 명확한 기준이 되었으면 한다.

'홈서버 > LLM' 카테고리의 다른 글

[LLM] R9700에서 Qwen3.6-27B 벤치마크 (0)	2026.06.04
[LLM] RTX4060Ti 16GB에서 Qwen3.5 35B-A3B Q3 vs 9B Q4, 뭐가 더 나을까? (0)	2026.03.29
[LLM] Qwen3.5 2B, 4B, 9B, 27B, 35B-A3B 구동 후기 (0)	2026.03.16