CDM: [Guide] Ollama 기반 Gemma 4 설치 및 Antigravity 연동 테스트

Azure 클라우드의 윈도우 서버 환경에서 로컬 LLM을 구축하고 활용하기 위한 테스트 내용을 정리해 보았습니다.

서버 사양을 높이면 어느 정도 토큰 걱정 없이 Antigravity와 같은 AI 자동화 도구를 사용할 수 있는 가능성을 가늠해 볼 수 있었습니다.

------

0. 서버 사양 (System Specs)

Cloud: Azure
OS: Windows Server 2025 Datacenter Azure Edition
Instance: Standard B4ms (4 vCPUs, 16 GiB Memory)

1. Ollama 설치 및 모델 준비

1.1 Ollama 설치

Ollama 공식 홈페이지에 접속하여 Windows용 설치 파일을 다운로드 및 설치합니다.

1.2 모델 다운로드 (Gemma 4)

터미널(CMD/PowerShell)을 열고 사양에 맞는 모델을 다운로드합니다.

CMD 

# 모델 다운로드
ollama pull gemma4:e2b

# 설치된 모델 목록 확인
ollama list

Tip: 모델 삭제가 필요할 경우 ollama rm [모델명] 명령어를 사용하세요.

2. Ollama 네트워크 설정 및 실행

외부 또는 특정 앱과의 연동을 위해 호스트 환경 변수를 설정한 뒤 서비스를 실행합니다.

환경 변수 설정
CMD
```
set OLLAMA_HOST=0.0.0.0:11434
```
서비스 실행
CMD
```
ollama serve
```

3. Antigravity 연동 설정

Antigravity에서 로컬 Ollama 모델을 인식할 수 있도록 설정 파일을 생성합니다.

파일명: antigravity.config.json
설정 내용:

JSON 

{
    "models": {
        "local": {
            "provider": "openai-compatible",
            "baseUrl": "http://localhost:11434",
            "model": "gemma4:e2b",
            "apiKey": "ollama",
            "temperature": 0.1,
            "maxTokens": 4096,
            "contextWindow": 128000
        }
    },
    "defaultModel": "local",
    "fallback": {
        "enabled": "true",
        "models": "claude-opus-4-6",
        "trigger": "context_window_exceeded"
    }
}

4. 로컬 모델 실행 테스트

4.1 환경 확인

Antigravity 입력창에 @local을 입력하여 로컬 실행 환경이 정상적으로 구성되었는지 확인합니다. 이후 @local 태그를 붙이면 설정된 baseUrl을 통해 프롬프트가 실행됩니다.

4.2 모델 응답 테스트

질문: @local 너는 어떤 인공지능 모델을 사용하고 있어? (실행 시 메모리 점유율 약 73%)

답변 예시:

로컬 모델(gemma4:e2b)의 답변입니다:

"저는 Gemma 4입니다. Google DeepMind에서 개발한 오픈 웨이트 대규모 언어 모델(LLM)입니다."

실행 상세 정보:

사용 모델: gemma4:e2b (Ollama)
응답 시간: 약 35초
엔드포인트: http://localhost:11434/v1/chat/completions

5. 부하 테스트 및 Fallback 확인

테스트 사례: @local 현대적인 스타일의 웹사이트를 하나 만들어 줘

결과: 과도한 연산량으로 인해 5분 이상 지연 발생.
동작: Gemma4 사용을 중지하고 입력창의 기본 설정 모델로 전환되어 실행됨을 확인.

-----

자유 게시판

[Guide] Ollama 기반 Gemma 4 설치 및 Antigravity 연동 테스트