Azure 클라우드의 윈도우 서버 환경에서 로컬 LLM을 구축하고 활용하기 위한 테스트 내용을 정리해 보았습니다.
서버 사양을 높이면 어느 정도 토큰 걱정 없이 Antigravity와 같은 AI 자동화 도구를 사용할 수 있는 가능성을 가늠해 볼 수 있었습니다.
------
0. 서버 사양 (System Specs)
-
Cloud: Azure
-
OS: Windows Server 2025 Datacenter Azure Edition
-
Instance: Standard B4ms (4 vCPUs, 16 GiB Memory)
1. Ollama 설치 및 모델 준비
1.1 Ollama 설치
-
Ollama 공식 홈페이지에 접속하여 Windows용 설치 파일을 다운로드 및 설치합니다.
1.2 모델 다운로드 (Gemma 4)
터미널(CMD/PowerShell)을 열고 사양에 맞는 모델을 다운로드합니다.
# 모델 다운로드
ollama pull gemma4:e2b
# 설치된 모델 목록 확인
ollama list
Tip: 모델 삭제가 필요할 경우
ollama rm [모델명]명령어를 사용하세요.
2. Ollama 네트워크 설정 및 실행
외부 또는 특정 앱과의 연동을 위해 호스트 환경 변수를 설정한 뒤 서비스를 실행합니다.
-
환경 변수 설정
CMD
set OLLAMA_HOST=0.0.0.0:11434 -
서비스 실행
CMD
ollama serve
3. Antigravity 연동 설정
Antigravity에서 로컬 Ollama 모델을 인식할 수 있도록 설정 파일을 생성합니다.
-
파일명:
antigravity.config.json -
설정 내용:
{
"models": {
"local": {
"provider": "openai-compatible",
"baseUrl": "http://localhost:11434",
"model": "gemma4:e2b",
"apiKey": "ollama",
"temperature": 0.1,
"maxTokens": 4096,
"contextWindow": 128000
}
},
"defaultModel": "local",
"fallback": {
"enabled": "true",
"models": "claude-opus-4-6",
"trigger": "context_window_exceeded"
}
}
4. 로컬 모델 실행 테스트
4.1 환경 확인
Antigravity 입력창에 @local을 입력하여 로컬 실행 환경이 정상적으로 구성되었는지 확인합니다. 이후 @local 태그를 붙이면 설정된 baseUrl을 통해 프롬프트가 실행됩니다.
4.2 모델 응답 테스트
질문: @local 너는 어떤 인공지능 모델을 사용하고 있어? (실행 시 메모리 점유율 약 73%)
답변 예시:
로컬 모델(gemma4:e2b)의 답변입니다:
"저는 Gemma 4입니다. Google DeepMind에서 개발한 오픈 웨이트 대규모 언어 모델(LLM)입니다."
실행 상세 정보:
-
사용 모델: gemma4:e2b (Ollama)
-
응답 시간: 약 35초
-
엔드포인트:
http://localhost:11434/v1/chat/completions
5. 부하 테스트 및 Fallback 확인
테스트 사례: @local 현대적인 스타일의 웹사이트를 하나 만들어 줘
-
결과: 과도한 연산량으로 인해 5분 이상 지연 발생.
-
동작: Gemma4 사용을 중지하고 입력창의 기본 설정 모델로 전환되어 실행됨을 확인.
-----