본문 바로가기
AI(Artificial Intelligence)

내 컴퓨터가 슈퍼 AI가 된다! 로컬 LLM의 절대 강자 'Ollama'에 대해 알아보겠습니다.

by forward error correction Circle 2026. 4. 3.
반응형

최근에는 ChatGPT나 Claude 같은 클라우드 AI 대신, 내 컴퓨터에서 직접 실행하는 로컬 LLM(Local LLM)에 대한 관심이 빠르게 증가하고 있습니다. 그 중심에 있는 대표 도구가 바로 Ollama 입니다. Ollama는 복잡한 설정 없이도 LLM을 손쉽게 다운로드하고 실행할 수 있게 해주는 오픈소스 프레임워크로, 개인용 PC를 하나의 AI 서버처럼 활용할 수 있도록 만들어줍니다.

Ⅰ. Ollama란 ?

 오픈소스 대형 언어 모델(LLM)을 개인 PC나 서버에서 쉽게 실행할 수 있도록 만든 도구입니다. 예전에는 로컬에서 AI를 돌리려면 환경 설정이 복잡하고 기술적 진입장벽도 높았지만, Ollama는 이를 일반 프로그램 설치처럼 단순화했습니다.
 쉽게 말해, Ollama는 AI 모델의 다운로드, 실행, 관리, API 제공까지 담당하는 “로컬 AI 실행 엔진”입니다. 사용자는 모델을 직접 관리하기보다, 필요한 모델을 선택해서 바로 활용하는 데 집중할 수 있습니다.

Ⅱ. Ollama 어떻게 동작하나요?

                ┌────────────────────────────────────────┐
                │  사용자 / 앱                           │
                │  CLI · curl · LangChain · Open WebUI · │
                │  Continue · Aider · 사내 RAG           │
                └─────────────┬──────────────────────────┘
                              │ HTTP (localhost:11434)
                              ▼
        ┌───────────────────────────────────────────────────┐
        │  ollama serve (Go 데몬)                           │
        │  - 매니페스트 매니저                              │
        │  - 동시 요청 큐 / 모델별 멀티 슬롯                │
        │  - OpenAI 호환 어댑터 (/v1/chat·embeddings)       │
        │  - GGUF · Modelfile 파서                          │
        └─────────┬──────────────────────┬──────────────────┘
                  │                      │
                  │ 1) 모델 인입           │ 2) 추론 라우팅
                  ▼                      ▼
        ┌────────────────────┐   ┌────────────────────────┐
        │ Layer Store        │   │ Runner Pool            │
        │ ~/.ollama/models   │   │ (모델당 자식 프로세스) │
        │ - blobs (sha256)   │   │ - llama.cpp + Ollama   │
        │ - manifests        │   │ - mmap 가중치          │
        └────────┬───────────┘   └──────┬─────────────────┘
                 │                      │
                 │ pull/push (OCI)      │ 3) 토큰 생성
                 ▼                      ▼
       ┌──────────────────┐    ┌────────────────────────┐
       │ 레지스트리       │    │ 백엔드                 │
       │ ollama.com /     │    │ CUDA · ROCm · Metal ·  │
       │ self-hosted      │    │ CPU(AVX2/AVX-512/NEON) │
       └──────────────────┘    └────────────────────────┘
                                      │
                                      ▼
                              ┌──────────────────┐
                              │ SSE 스트리밍 응답  │
                              └──────────────────┘
단계 구분 설명
1 매니페스트 해석 모델 이름(예: llama3:8b-instruct-q4_K_M) → 매니페스트 다이제스트.
2 레이어 풀  가중치 blob, 토크나이저, 템플릿이 각자 별도 레이어. 이미 있는 레이어는 받지 않음(콘텐츠 어드레싱).
3 호스트 프로파일링  nvidia-smi·vm_stat·cpuid로 가용 자원 추정. n_gpu_layers 자동 산정.
4 러너 spawn 모델·양자화·컨텍스트 조합별로 프로세스를 띄우고 다중 요청을 큐로 직렬화 또는 슬롯 병렬 처리.
5 Prefill 시스템·사용자 프롬프트를 한 번에 토큰화·전방 패스. 시스템 프롬프트가 같으면 prompt cache HIT.
6 Decode 루프 한 토큰씩 생성하며 SSE로 스트림. stop·num_predict·temperature 등 인자가 적용.
7 종료·언로드 응답 완료. OLLAMA_KEEP_ALIVE 시간이 지나면 러너 종료, VRAM 반환.

Ⅲ. 왜 Ollama를 써야 할까요?

구분 내용 결론
강력한 보안 모든 데이터가 로컬에서 처리됨
외부 서버 전송 없음
기업/개인 모두 안전하게 사용 가능
비용 절감 API 호출 비용 없음
인터넷 없이도 사용 가능
사용량이 많을수록 더 큰 이점
높은 자유도 (커스터마이징) 원하는 모델 선택 가능
특정 역할에 맞게 설정 가능
코딩 전문 AI
특정 말투 비서
업무용 분석 AI
다양한 활용 확장 문서 기반 Q&A 시스템
자동화 에이전트
개인 AI 서비스 구축
단순 도구 → 플랫폼으로 확장 가능

Ⅳ. Ollama 설치 및 실행

 설치는 매우 간단합니다. 공식 사이트에서 운영체제에 맞는 설치 파일을 내려받아 설치한 뒤, 터미널에서 원하는 모델을 실행하면 됩니다. Windows, macOS, Linux 모두 지원하며, 기본적으로 ollama run 모델명 형식으로 사용할 수 있습니다.

 ⅰ. 설치
공식 사이트에서 설치 파일 다운로드

https://ollama.com/download
OS별 지원: Windows / macOS / Linux

 ⅱ. 실행 방법

1. 실행방법_1

1) Power Shell or CMD 창을 활용
2) ollama 실행 → Chat with mode → 방향키(→) → 모델 선택

 

2. 실행방법_2

1) Power Shell or CMD 창을 활용
2) 터미널에서 아래 명령어만 입력하면 바로 실행됩니다
    ollama run gemma4

ollama 명령어

1. 모델 실행 및 관리
  • ollama run <모델명>: 특정 모델을 실행합니다. 모델이 로컬에 없으면 자동으로 다운로드 후 대화 모드로 진입합니다.
  • ollama pull <모델명>: 모델을 실행하지 않고 로컬 저장소로 다운로드만 수행합니다.
  • ollama ls: 현재 내 컴퓨터에 설치되어 있는 모델 목록과 용량을 확인합니다.
  • ollama rm <모델명>: 더 이상 사용하지 않는 모델을 삭제하여 저장 공간을 확보합니다.
  • ollama show <모델명>: 특정 모델의 상세 정보(파라미터, 라이선스, 시스템 프롬프트 등)를 확인합니다.
2. 서비스 운영 명령어
  • ollama serve: 대화 창을 띄우지 않고 Ollama 서버(백그라운드 서비스)만 실행합니다. 다른 앱이나 웹 UI와 연동할 때 사용합니다.
  • ollama cp <원본> <사본>: 기존 모델을 복사하여 새로운 이름으로 저장합니다. (설정 변경 시 유용)
3. 대화 모드 내 명령어 (run 실행 중)
모델과 대화 중일 때 아래 명령어를 입력하여 제어할 수 있습니다.
  • /?: 사용 가능한 모든 도움말 확인
  • /settings: 현재 세션의 설정(온도 등) 확인
  • /bye: 대화를 종료하고 터미널로 돌아가기

 

3. 실행방법_3

ollama.exe 검색해서 실행 후 모델 선택 및 다운로드


.사양이 낮은 PC라면 더 가벼운 모델을 선택하는 것이 좋습니다. 입문용으로는 gemma, phi, llama 계열처럼 비교적 가벼운 모델부터 시작하면 부담이 적습니다.

Ⅴ. Ollama 설정

 

구분 기능 설명
Cloud
(클라우드 비활성화)
클라우드 기반의 모델을 사용하거나 웹 검색 기능을 활성화 로컬에 설치된 모델뿐만 아니라, 외부 서버(클라우드)의 연산 능력을 빌려 더 복잡한 추론을 수행하거나 실시간 최신 정보를 검색할 때 사용합니다. 개인정보 보호가 중요하다면 꺼두는 것이 좋지만, 지식의 폭을 넓히고 싶을 때 유용합니다.
Auto-download updates 
(업데이트 자동 다운로드)
사용 가능한 업데이트가 있을 때 자동으로 다운로드 소프트웨어의 보안 패치나 성능 개선 사항을 자동으로 반영합니다. 항상 최신 상태를 유지하고 싶다면 켜두는 것이 편리합니다.
Expose Ollama to the network
(네트워크에 Ollama 노출)
다른 기기나 서비스가 현재 PC의 Ollama에 접속할 수 있도록 허용 현재는 비활성화(Off) 상태입니다. 만약 이 기능을 켜면, 같은 Wi-Fi를 쓰는 태블릿이나 다른 노트북에서 이 PC의 리소스를 사용해 AI와 대화할 수 있습니다. 단, 보안을 위해 신뢰할 수 있는 네트워크 환경에서만 사용하는 것을 권장합니다
Model location
(모델 저장 위치)
AI 모델 파일들이 저장되는 경로를 지정 이미지상 경로는 C:\Users\...\.ollama\models로 설정되어 있습니다. LLM 모델들은 용량이 매우 크기 때문에(수 GB~수십 GB), C드라이브 용량이 부족하다면 'Browse' 버튼을 눌러 용량이 넉넉한 다른 드라이브(D드라이브 등)로 변경하는 것이 좋습니다.
Context length
(컨텍스트 길이)
AI가 한 번에 기억하고 처리할 수 있는 대화의 양을 결정 이 값을 높일수록 아주 긴 문서나 이전 대화 내용을 더 잘 기억하지만, 그만큼 PC의 VRAM(그래픽 메모리)을 많이 소모합니다.

※ 팁: 일반적인 대화는 8k~16k면 충분하며, 매우 긴 코드를 분석하거나 책 한 권 분량을 읽힐 때만 32k 이상으로 높여보세요. 너무 높이면 답변 속도가 느려지거나 오류가 날 수 있습니다. 설정을 변경하다가 최적의 상태를 모르겠다면 우측 하단의 'Reset to defaults'를 눌러 처음 상태로 되돌릴 수 있습니다. 궁금한 점이 더 생기시면 언제든 물어봐 주세요!

Ⅵ. Ollama 어떻게 활용할 수 있나요?

활용 분야 이유
업무 자동화 로컬 AI 에이전트로 반복 업무를 줄입니다
문서 질의응답 PDF, TXT 같은 파일을 기반으로 질문 답변 시스템을 만듭니다.
개인 맞춤 AI 특정 역할이나 말투를 가진 모델로 커스터마이징
개발 연동 웹 UI, API, 자동화 도구와 연결해 서비스로 확장

 

Ⅶ. Ollama 대안 비교

대안 강점 한계 Ollama가 우월한 지점
llama.cpp 직접 최저 레이어 제어, 빌드 옵션 자유 모델 관리·서빙·API는 직접 만들기 관리·서빙·API가 한 바이너리에 통합
LM Studio 친절한 GUI, 모델 탐색 쉬움 스크립트 자동화·서버 운영 측면 약함 CLI/API 일관, 헤드리스 운영 자연
Jan / GPT4All 데스크톱 사용자 친화 레지스트리·Modelfile 같은 운영 추상 약함 운영·자동화 일급
vLLM 고동시성 PagedAttention 처리량 설치·튜닝 복잡, 단일 사용자엔 과대 1인 사용·노트북·즉시 시작
SGLang RadixAttention, 구조화 출력 강력 운영 표면이 더 큼 접근성·"즉시 시작"
TGI (HuggingFace) HF 친화, 프로덕션 적합 로컬·노트북 친화 낮음 개인 PC·간편함
OpenAI/Anthropic API 최강 품질, 운영 무관 데이터 외부 전송, 토큰 비용 로컬·무비용·프라이버시
MLX (Apple) Apple Silicon 최적 플랫폼 한정, 운영 추상 적음 크로스 플랫폼, OCI 모델 관리
llamafile 단일 실행 파일 배포 모델 카탈로그·운영 도구 약함 매니페스트·레지스트리·API 통합
Modular MAX (Mojo) MLIR 컴파일 기반 가속 아직 진화 중, 모델 카탈로그 좁음 광범위한 모델·즉시 가용성
반응형