GLM-5: 화웨이 칩으로만 학습한 744B 오픈소스 왕
SWE-bench Verified 77.8% 1위, MIT 라이선스 — 미국 제재 없이 만든 거대 언어모델의 실체

- Zhipu AI(智谱AI) + 칭화대 발표, 2026년 2월 11일 공개
- 총 파라미터 744~745B MoE 구조, 실제 활성 파라미터 40B (Z.AI 공식 문서 기준)
- 전량 화웨이 Ascend 칩 + MindSpore 프레임워크로 학습
- SWE-bench Verified 77.8% — 코딩 에이전트 벤치마크 최고 수준
- MIT 라이선스 오픈소스, Hugging Face · Z.ai 플랫폼 공개
- GLM-5란 무엇인가 — Zhipu AI와 칭화대의 협업
- 744B MoE 아키텍처 해부
- 화웨이 Ascend + MindSpore: NVIDIA 없이 가능한가
- 벤치마크 성능 분석 — SWE-bench 77.8%의 의미
- MIT 라이선스와 Z.ai 플랫폼
- 오픈소스 AI 지형도에서 GLM-5의 위치
- 개발자 사용 가이드
- 한계와 주의사항
1. GLM-5란 무엇인가 — Zhipu AI와 칭화대의 협업
GLM-5는 중국 스타트업 Zhipu AI(智谱AI)와 칭화대학교(清华大学)가 공동 개발한 대형 언어 모델입니다. GLM(General Language Model) 시리즈의 다섯 번째 주요 버전으로, 2026년 2월 11일 공식 공개되었습니다.
Zhipu AI는 2019년 칭화대 컴퓨터공학과 교수들이 창업한 회사로, 중국 내 AI 연구 역량을 상업화하는 데 주력해왔습니다. GLM 시리즈는 원래 BERT 계열의 양방향 언어 모델에서 출발했지만, 이번 GLM-5에서는 대규모 MoE(Mixture of Experts) 아키텍처를 채택해 완전히 새로운 수준으로 도약했습니다.
GLM → GLM-130B(2022) → ChatGLM-6B(2023) → GLM-4(2024) → GLM-5(2026.02.11)
각 버전마다 영어·중국어 이중 언어 강점을 유지하면서 규모와 성능을 확장해왔습니다.
2. 744B MoE 아키텍처 해부
GLM-5는 Mixture of Experts(MoE) 아키텍처를 사용합니다. 전통적인 Dense 모델과 달리, MoE는 수백 개의 "전문가(expert)" 하위 네트워크를 두고 각 토큰 처리 시 그 중 일부만 선택적으로 활성화합니다.
| 항목 | GLM-5 사양 | 의미 |
|---|---|---|
| 총 파라미터 | 744~745B | 전체 가중치 크기 |
| 활성 파라미터 | 40B | 토큰 1개당 실제 사용되는 파라미터 (Z.AI 공식 문서 기준) |
| 전문가(Experts) | 256개 / 토큰당 8개 | Top-K=8 라우팅 방식 |
| 컨텍스트 윈도우 | 200K 토큰 | 약 50만 단어 처리 가능 |
| 라이선스 | MIT | 상업적 이용 자유 |
MoE의 핵심 장점은 추론 효율성입니다. 744B 규모의 모델임에도 실제 추론 시에는 40B Dense 모델 수준의 연산만 수행하기 때문에, 같은 컴퓨팅 예산으로 훨씬 큰 모델을 운용할 수 있습니다. 이 방식은 DeepSeek-V2/V3, Mixtral 8x7B 등에서 검증된 접근법이기도 합니다.
3. 화웨이 Ascend + MindSpore: NVIDIA 없이 가능한가
GLM-5에서 가장 주목받는 점은 학습 인프라입니다. Zhipu AI는 모델 전체를 화웨이 Ascend AI 칩과 MindSpore 딥러닝 프레임워크로 학습시켰다고 밝혔습니다. 이는 미국의 반도체 수출 규제 이후 중국 AI 연구계가 독자 생태계를 얼마나 진척시켰는지 보여주는 사례입니다.
- Ascend 910B: 현재 가장 고성능 화웨이 AI 칩. H100 대비 성능에 차이가 있으나 중국 내 수급 안정성 우위
- MindSpore: 화웨이 개발 딥러닝 프레임워크. PyTorch와 유사한 API를 제공하며 Ascend 최적화 지원
- CANN: Compute Architecture for Neural Networks — Ascend용 저수준 연산 라이브러리
Ascend 910B와 NVIDIA H100의 직접적인 처리량·전력 효율 비교는 공개된 공신력 있는 벤치마크가 충분하지 않습니다. "NVIDIA 없이 동등한 성능"이라는 주장은 현 시점에서 추정 수준으로 받아들여야 합니다. GLM-5 학습에 소요된 기간, 칩 수, 전력 소비 등 상세 정보는 공식적으로 공개되지 않았습니다.
4. 벤치마크 성능 분석 — SWE-bench 77.8%의 의미
Zhipu AI가 공개한 주요 벤치마크 결과입니다. 특히 SWE-bench Verified에서 77.8%를 기록해 공개 발표 당시 코딩 에이전트 부문에서 주목받았습니다.
| 벤치마크 | GLM-5 점수 | 벤치마크 설명 |
|---|---|---|
| SWE-bench Verified | 77.8% | 실제 GitHub 이슈 해결 능력 (500개 검증 세트) |
| Humanity's Last Exam (tools) | 50.4 | 고난도 학술 문제 풀이 (도구 허용) |
| Terminal-Bench 2.0 | 56.2% | 터미널 기반 복잡한 작업 수행 능력 |
SWE-bench는 Princeton NLP와 Stanford가 만든 소프트웨어 엔지니어링 벤치마크입니다. 실제 GitHub 오픈소스 저장소의 이슈를 제시하고, 모델이 자동으로 패치를 생성해 테스트를 통과시키면 점수를 줍니다. "Verified" 버전은 500개의 인간 검증 문제로 구성됩니다.
참고: 점수는 스캐폴딩(scaffolding) 전략, 허용되는 도구 호출 횟수, 코드 실행 환경 등에 따라 달라질 수 있어 단순 비교는 주의가 필요합니다.
5. MIT 라이선스와 Z.ai 플랫폼
GLM-5는 MIT 라이선스로 공개됩니다. MIT 라이선스는 가장 허용적인 오픈소스 라이선스 중 하나로, 상업적 이용, 수정, 재배포 모두 자유롭게 가능합니다.
- 상업적 제품에 GLM-5 통합 가능
- 모델 파인튜닝 및 수정 가능
- 별도 고지 없이 내부 시스템에 배포 가능
- 파생 모델 생성 및 재배포 가능
모델 가중치는 Hugging Face(zai-org/GLM-5)와 Zhipu AI의 Z.ai 플랫폼을 통해 접근할 수 있습니다. Z.ai는 Zhipu AI가 운영하는 모델 서빙 플랫폼으로, API 방식의 유료 접근과 자체 배포용 가중치 다운로드를 모두 지원합니다.
from transformers import AutoTokenizer, AutoModelForCausalLM
# GLM-5 모델 로드 (가중치 다운로드 포함, 대용량 주의)
tokenizer = AutoTokenizer.from_pretrained(
"zai-org/GLM-5",
trust_remote_code=True
)
model = AutoModelForCausalLM.from_pretrained(
"zai-org/GLM-5",
trust_remote_code=True,
device_map="auto" # 멀티 GPU 자동 배치
)
outputs = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0]))
40B 활성 파라미터 기준으로도 전체 가중치 로딩에는 상당한 VRAM이 필요합니다. 일반 소비자용 GPU로 전체 모델을 로컬 추론하기는 어렵습니다. 실용적 사용은 양자화(quantized) 버전이나 API 방식을 권장합니다.
6. 오픈소스 AI 지형도에서 GLM-5의 위치
GLM-5는 중국발 오픈소스 LLM 경쟁에서 DeepSeek-V3와 함께 가장 강력한 후보로 꼽힙니다. 전략적 관점에서 몇 가지 차별점이 있습니다.
| 모델 | 주체 | 총 파라미터 | 라이선스 | 학습 칩 |
|---|---|---|---|---|
| GLM-5 | Zhipu AI | 744B (MoE) | MIT | 화웨이 Ascend |
| DeepSeek-V3 | DeepSeek | 671B (MoE) | MIT | NVIDIA H800 |
| Llama 4 Maverick | Meta | 400B (MoE) | 커스텀 | NVIDIA H100 |
위 표의 DeepSeek-V3, Llama 4 Maverick 항목은 공개 발표 기준이며, 직접 대조 테스트 결과가 아닙니다. 실제 동일 조건 비교 벤치마크는 독립 연구기관 발표를 참고하시기 바랍니다. GLM-5의 SWE-bench 77.8%는 Zhipu AI 공식 발표 기준입니다.
7. 개발자 사용 가이드
7-1. API 방식 (권장)
로컬 배포 대신 Z.ai API를 사용하는 방식이 대부분의 개발자에게 현실적입니다.
import requests
API_KEY = "YOUR_ZAI_API_KEY"
API_URL = "https://api.z.ai/v1/chat/completions"
response = requests.post(
API_URL,
headers={"Authorization": f"Bearer {API_KEY}"},
json={
"model": "glm-5",
"messages": [
{"role": "user", "content": "다음 Python 코드의 버그를 찾아주세요."}
],
"max_tokens": 1024,
"temperature": 0.7
}
)
result = response.json()
print(result["choices"][0]["message"]["content"])
7-2. GLM-5가 특히 강한 작업 유형
GitHub 이슈 분석, 자동 패치 생성, 코드 리뷰. SWE-bench 성능이 실제 코딩 도우미 품질과 연관됩니다.
중국어-영어 이중 언어 학습 기반. 중국어 문서 분석, 번역, 콘텐츠 생성에 강점.
200K 컨텍스트 윈도우 활용, 대형 코드베이스나 장문 보고서 분석에 유리.
8. 한계와 주의사항
- 검열 편향 가능성: 중국 법규 및 정책에 맞게 학습·파인튜닝되었을 가능성이 있어, 특정 주제에 대한 응답이 제한될 수 있습니다.
- 영어 성능: 중국어 중심 학습으로 인해 영어만의 세밀한 표현 능력은 별도 검증이 필요합니다.
- 로컬 배포 난이도: 전체 가중치 로딩은 수백 GB 스토리지와 대용량 VRAM이 필요합니다.
- 벤치마크 해석 주의: Zhipu AI 자체 발표 벤치마크로, 독립 재현 결과와 차이가 있을 수 있습니다.
- Z.ai 서비스 지역: API 서비스 지역 제한 및 데이터 처리 관할권 확인이 필요합니다.
🎯 결론: GLM-5가 의미하는 것
GLM-5는 단순히 "또 하나의 오픈소스 모델"이 아닙니다. 미국 수출 규제 우회형 AI 개발 스택이 실질적으로 가동되고 있음을 보여주는 증거입니다. 화웨이 Ascend + MindSpore 조합으로 744B 모델을 학습하고 SWE-bench 상위권 성능을 달성했다는 것은, 기술 디커플링의 한 단면입니다.
개발자 관점에서는 MIT 라이선스 + 200K 컨텍스트 + 강력한 코딩 성능의 조합을 상업적 프로젝트에 자유롭게 활용할 수 있다는 점이 핵심입니다. 특히 중국어가 포함된 멀티링구얼 서비스나 대규모 코드베이스 분석에 시도해볼 만한 선택지입니다.
- Zhipu AI 공식 발표 및 GLM-5 기술 리포트 (2026.02.13)
- Hugging Face — zai-org/GLM-5 모델 카드
- SWE-bench 공식 리더보드 (princeton-nlp.github.io/SWE-bench)
- 화웨이 MindSpore 공식 문서 (mindspore.cn)
- Z.ai 플랫폼 API 문서 (z.ai)
📅 2026년 2월 기준 | ⚠️ 이후 업데이트된 정보는 공식 채널을 확인하세요