최근에는 ChatGPT나 Claude 같은 클라우드 AI 대신, 내 컴퓨터에서 직접 실행하는 로컬 LLM(Local LLM)에 대한 관심이 빠르게 증가하고 있습니다. 그 중심에 있는 대표 도구가 바로 Ollama 입니다. Ollama는 복잡한 설정 없이도 LLM을 손쉽게 다운로드하고 실행할 수 있게 해주는 오픈소스 프레임워크로, 개인용 PC를 하나의 AI 서버처럼 활용할 수 있도록 만들어줍니다.
Ⅰ. Ollama란 ?
오픈소스 대형 언어 모델(LLM)을 개인 PC나 서버에서 쉽게 실행할 수 있도록 만든 도구입니다. 예전에는 로컬에서 AI를 돌리려면 환경 설정이 복잡하고 기술적 진입장벽도 높았지만, Ollama는 이를 일반 프로그램 설치처럼 단순화했습니다.
쉽게 말해, Ollama는 AI 모델의 다운로드, 실행, 관리, API 제공까지 담당하는 “로컬 AI 실행 엔진”입니다. 사용자는 모델을 직접 관리하기보다, 필요한 모델을 선택해서 바로 활용하는 데 집중할 수 있습니다.
Ⅱ. Ollama 어떻게 동작하나요?
┌────────────────────────────────────────┐
│ 사용자 / 앱 │
│ CLI · curl · LangChain · Open WebUI · │
│ Continue · Aider · 사내 RAG │
└─────────────┬──────────────────────────┘
│ HTTP (localhost:11434)
▼
┌───────────────────────────────────────────────────┐
│ ollama serve (Go 데몬) │
│ - 매니페스트 매니저 │
│ - 동시 요청 큐 / 모델별 멀티 슬롯 │
│ - OpenAI 호환 어댑터 (/v1/chat·embeddings) │
│ - GGUF · Modelfile 파서 │
└─────────┬──────────────────────┬──────────────────┘
│ │
│ 1) 모델 인입 │ 2) 추론 라우팅
▼ ▼
┌────────────────────┐ ┌────────────────────────┐
│ Layer Store │ │ Runner Pool │
│ ~/.ollama/models │ │ (모델당 자식 프로세스) │
│ - blobs (sha256) │ │ - llama.cpp + Ollama │
│ - manifests │ │ - mmap 가중치 │
└────────┬───────────┘ └──────┬─────────────────┘
│ │
│ pull/push (OCI) │ 3) 토큰 생성
▼ ▼
┌──────────────────┐ ┌────────────────────────┐
│ 레지스트리 │ │ 백엔드 │
│ ollama.com / │ │ CUDA · ROCm · Metal · │
│ self-hosted │ │ CPU(AVX2/AVX-512/NEON) │
└──────────────────┘ └────────────────────────┘
│
▼
┌──────────────────┐
│ SSE 스트리밍 응답 │
└──────────────────┘
| 단계 | 구분 | 설명 |
| 1 | 매니페스트 해석 | 모델 이름(예: llama3:8b-instruct-q4_K_M) → 매니페스트 다이제스트. |
| 2 | 레이어 풀 | 가중치 blob, 토크나이저, 템플릿이 각자 별도 레이어. 이미 있는 레이어는 받지 않음(콘텐츠 어드레싱). |
| 3 | 호스트 프로파일링 | nvidia-smi·vm_stat·cpuid로 가용 자원 추정. n_gpu_layers 자동 산정. |
| 4 | 러너 spawn | 모델·양자화·컨텍스트 조합별로 프로세스를 띄우고 다중 요청을 큐로 직렬화 또는 슬롯 병렬 처리. |
| 5 | Prefill | 시스템·사용자 프롬프트를 한 번에 토큰화·전방 패스. 시스템 프롬프트가 같으면 prompt cache HIT. |
| 6 | Decode 루프 | 한 토큰씩 생성하며 SSE로 스트림. stop·num_predict·temperature 등 인자가 적용. |
| 7 | 종료·언로드 | 응답 완료. OLLAMA_KEEP_ALIVE 시간이 지나면 러너 종료, VRAM 반환. |
Ⅲ. 왜 Ollama를 써야 할까요?
| 구분 | 내용 | 결론 |
| 강력한 보안 | 모든 데이터가 로컬에서 처리됨 외부 서버 전송 없음 |
기업/개인 모두 안전하게 사용 가능 |
| 비용 절감 | API 호출 비용 없음 인터넷 없이도 사용 가능 |
사용량이 많을수록 더 큰 이점 |
| 높은 자유도 (커스터마이징) | 원하는 모델 선택 가능 특정 역할에 맞게 설정 가능 |
코딩 전문 AI 특정 말투 비서 업무용 분석 AI |
| 다양한 활용 확장 | 문서 기반 Q&A 시스템 자동화 에이전트 개인 AI 서비스 구축 |
단순 도구 → 플랫폼으로 확장 가능 |
Ⅳ. Ollama 설치 및 실행
설치는 매우 간단합니다. 공식 사이트에서 운영체제에 맞는 설치 파일을 내려받아 설치한 뒤, 터미널에서 원하는 모델을 실행하면 됩니다. Windows, macOS, Linux 모두 지원하며, 기본적으로 ollama run 모델명 형식으로 사용할 수 있습니다.
ⅰ. 설치
공식 사이트에서 설치 파일 다운로드
https://ollama.com/download
OS별 지원: Windows / macOS / Linux
ⅱ. 실행 방법
1. 실행방법_1
| 1) Power Shell or CMD 창을 활용 2) ollama 실행 → Chat with mode → 방향키(→) → 모델 선택 |

2. 실행방법_2
| 1) Power Shell or CMD 창을 활용 2) 터미널에서 아래 명령어만 입력하면 바로 실행됩니다 ollama run gemma4 |

| ollama 명령어 1. 모델 실행 및 관리
모델과 대화 중일 때 아래 명령어를 입력하여 제어할 수 있습니다.
|
3. 실행방법_3
| ollama.exe 검색해서 실행 후 모델 선택 및 다운로드 |

.사양이 낮은 PC라면 더 가벼운 모델을 선택하는 것이 좋습니다. 입문용으로는 gemma, phi, llama 계열처럼 비교적 가벼운 모델부터 시작하면 부담이 적습니다.
Ⅴ. Ollama 설정


| 구분 | 기능 | 설명 |
| Cloud (클라우드 비활성화) |
클라우드 기반의 모델을 사용하거나 웹 검색 기능을 활성화 | 로컬에 설치된 모델뿐만 아니라, 외부 서버(클라우드)의 연산 능력을 빌려 더 복잡한 추론을 수행하거나 실시간 최신 정보를 검색할 때 사용합니다. 개인정보 보호가 중요하다면 꺼두는 것이 좋지만, 지식의 폭을 넓히고 싶을 때 유용합니다. |
| Auto-download updates (업데이트 자동 다운로드) |
사용 가능한 업데이트가 있을 때 자동으로 다운로드 | 소프트웨어의 보안 패치나 성능 개선 사항을 자동으로 반영합니다. 항상 최신 상태를 유지하고 싶다면 켜두는 것이 편리합니다. |
| Expose Ollama to the network (네트워크에 Ollama 노출) |
다른 기기나 서비스가 현재 PC의 Ollama에 접속할 수 있도록 허용 | 현재는 비활성화(Off) 상태입니다. 만약 이 기능을 켜면, 같은 Wi-Fi를 쓰는 태블릿이나 다른 노트북에서 이 PC의 리소스를 사용해 AI와 대화할 수 있습니다. 단, 보안을 위해 신뢰할 수 있는 네트워크 환경에서만 사용하는 것을 권장합니다 |
| Model location (모델 저장 위치) |
AI 모델 파일들이 저장되는 경로를 지정 | 이미지상 경로는 C:\Users\...\.ollama\models로 설정되어 있습니다. LLM 모델들은 용량이 매우 크기 때문에(수 GB~수십 GB), C드라이브 용량이 부족하다면 'Browse' 버튼을 눌러 용량이 넉넉한 다른 드라이브(D드라이브 등)로 변경하는 것이 좋습니다. |
| Context length (컨텍스트 길이) |
AI가 한 번에 기억하고 처리할 수 있는 대화의 양을 결정 | 이 값을 높일수록 아주 긴 문서나 이전 대화 내용을 더 잘 기억하지만, 그만큼 PC의 VRAM(그래픽 메모리)을 많이 소모합니다. |
※ 팁: 일반적인 대화는 8k~16k면 충분하며, 매우 긴 코드를 분석하거나 책 한 권 분량을 읽힐 때만 32k 이상으로 높여보세요. 너무 높이면 답변 속도가 느려지거나 오류가 날 수 있습니다. 설정을 변경하다가 최적의 상태를 모르겠다면 우측 하단의 'Reset to defaults'를 눌러 처음 상태로 되돌릴 수 있습니다. 궁금한 점이 더 생기시면 언제든 물어봐 주세요!
Ⅵ. Ollama 어떻게 활용할 수 있나요?
| 활용 분야 | 이유 |
| 업무 자동화 | 로컬 AI 에이전트로 반복 업무를 줄입니다 |
| 문서 질의응답 | PDF, TXT 같은 파일을 기반으로 질문 답변 시스템을 만듭니다. |
| 개인 맞춤 AI | 특정 역할이나 말투를 가진 모델로 커스터마이징 |
| 개발 연동 | 웹 UI, API, 자동화 도구와 연결해 서비스로 확장 |
Ⅶ. Ollama 대안 비교
| 대안 | 강점 | 한계 | Ollama가 우월한 지점 |
| llama.cpp 직접 | 최저 레이어 제어, 빌드 옵션 자유 | 모델 관리·서빙·API는 직접 만들기 | 관리·서빙·API가 한 바이너리에 통합 |
| LM Studio | 친절한 GUI, 모델 탐색 쉬움 | 스크립트 자동화·서버 운영 측면 약함 | CLI/API 일관, 헤드리스 운영 자연 |
| Jan / GPT4All | 데스크톱 사용자 친화 | 레지스트리·Modelfile 같은 운영 추상 약함 | 운영·자동화 일급 |
| vLLM | 고동시성 PagedAttention 처리량 | 설치·튜닝 복잡, 단일 사용자엔 과대 | 1인 사용·노트북·즉시 시작 |
| SGLang | RadixAttention, 구조화 출력 강력 | 운영 표면이 더 큼 | 접근성·"즉시 시작" |
| TGI (HuggingFace) | HF 친화, 프로덕션 적합 | 로컬·노트북 친화 낮음 | 개인 PC·간편함 |
| OpenAI/Anthropic API | 최강 품질, 운영 무관 | 데이터 외부 전송, 토큰 비용 | 로컬·무비용·프라이버시 |
| MLX (Apple) | Apple Silicon 최적 | 플랫폼 한정, 운영 추상 적음 | 크로스 플랫폼, OCI 모델 관리 |
| llamafile | 단일 실행 파일 배포 | 모델 카탈로그·운영 도구 약함 | 매니페스트·레지스트리·API 통합 |
| Modular MAX (Mojo) | MLIR 컴파일 기반 가속 | 아직 진화 중, 모델 카탈로그 좁음 | 광범위한 모델·즉시 가용성 |
'AI(Artificial Intelligence)' 카테고리의 다른 글
| "Lambda는 부족하고 EKS는 무겁다: Modal이 GPU 인프라를 혁신하는 방법" (0) | 2026.05.22 |
|---|---|
| 벤더 락인 방지와 비용 최적화를 위한 LLM 게이트웨이, LiteLLM (1) | 2026.05.14 |
| AI의 장기 기억 장치, '벡터 데이터베이스'에 대해 알아보겠습니다. (0) | 2026.04.02 |
| 챗봇의 시대는 끝났다? 스스로 업무를 완수하는 '에이전틱 AI(Agentic AI)'를 알아보겠습니다. (0) | 2026.03.27 |
| 멀티모달 AI란 무엇인가? 텍스트를 넘어 보고 듣고 이해하는 AI의 시대 (0) | 2026.03.26 |