개발자 PC에 로컬 LLM을 구축하는 가장 쉬운 방법, Ollama 설치 및 사용법을 소개합니다. Windows, Mac, Linux 설치부터 Modelfile 커스텀, REST API 연동까지 실용적인 예제를 통해 로컬 AI 개발의 첫걸음을 안내합니다.
Sep 18, 2025
클라우드 API를 호출할 때마다 드는 비용 걱정, 사내 코드를 외부 AI 서비스에 보내는 찜찜함, 인터넷이 불안정할 때마다 멈춰버리는 개발 환경. 생성형 AI를 적극적으로 활용하고 싶은 개발자라면 누구나 한 번쯤 겪어봤을 불편함입니다. 만약 이 모든 제약 없이, 내 PC 안에서 자유롭게 LLM을 실행하고 테스트할 수 있다면 어떨까요?
이러한 개발자들의 갈증을 해소해 주는 최고의 솔루션으로 ‘Ollama’가 부상하고 있습니다. Ollama는 Llama 3, Mistral 등 강력한 오픈소스 LLM을 단 몇 줄의 명령어로 내 컴퓨터에 설치하고 실행할 수 있게 해주는 놀라운 도구입니다. 데이터는 내 PC 밖으로 절대 나가지 않으며, 비용도, 인터넷 연결도 필요 없습니다.
이 글에서는 개발자의 관점에서 Ollama를 설치하고, 핵심 기능을 익히고, 나만의 모델로 커스터마이징하여 최종적으로 내 애플리케이션과 연동하는 기초까지, 로컬 LLM 개발의 전체적인 그림을 완벽하게 마스터할 수 있도록 안내합니다.
Ollama 공식 홈페이지
1. Ollama, 3분 만에 설치하고 시작하기
Ollama의 가장 큰 장점은 압도적으로 간단한 설치 과정입니다. 복잡한 환경 설정 없이 각 운영체제에 맞는 방법으로 설치를 진행하세요.
1-1. Windows에 설치하기
Ollama 공식 홈페이지에 접속하여 ‘Download for Windows’ 버튼을 클릭해 설치 파일을 다운로드합니다.
다운로드한 OllamaSetup.exe 파일을 실행하고 안내에 따라 설치를 완료합니다.
설치가 완료되면 Ollama는 백그라운드 서비스로 자동 실행됩니다. 터미널(CMD 또는 PowerShell)을 열고 다음 명령어를 입력해 보세요.
앱을 실행하면 메뉴 막대에 Ollama 아이콘이 나타나며 백그라운드에서 실행됩니다. 터미널을 열고 동일하게 버전 확인 명령어를 실행합니다.
ollama --version
MacOS 터미널에서 Ollama 실행 화면
1-3. Linux에 설치하기
Linux에서는 터미널에 아래 명령어 한 줄만 입력하면 설치가 완료됩니다.
curl -fsSL <https://ollama.com/install.sh> | sh
이제 모든 준비가 끝났습니다. 본격적으로 LLM을 다뤄볼 시간입니다.
2. 터미널에서 LLM 조련하기: Ollama 핵심 명령어
Ollama는 직관적인 CLI(Command-Line Interface)를 통해 모델을 관리합니다. 가장 중요한 명령어 4가지만 기억하면 됩니다.
2-1. 모델 실행 및 다운로드: run
가장 기본이 되는 명령어입니다. 원하는 모델을 지정하여 실행하면, 해당 모델이 로컬에 없는 경우 자동으로 다운로드한 후 실행합니다. 가장 인기 있는 Meta의 Llama 3 모델을 실행해 보겠습니다.
ollama run llama3
명령을 실행하면 모델 다운로드가 시작되고, 완료되면 >>> Send a message (/? for help) 라는 프롬프트가 나타납니다. 이제 자유롭게 질문을 던져보세요.
llama3 설치 화면
2-2. 모델 미리 다운로드: pull
run 명령어는 다운로드와 실행을 한 번에 처리하지만, 미리 필요한 모델을 받아두고 싶을 때도 있습니다. 이때 pull 명령어를 사용합니다.
# 코딩에 특화된 codellama 모델을 미리 다운로드
ollama pull codellama
2-3. 설치된 모델 목록 확인: list
내 PC에 어떤 모델들이 설치되어 있는지 확인하고 싶다면 list 명령어를 사용하세요. 모델 이름, ID, 크기, 수정 시간 등의 정보를 한눈에 볼 수 있습니다.
ollama list
2-4. 모델 삭제: rm
더 이상 사용하지 않는 모델을 삭제하여 디스크 공간을 확보하려면 rm 명령어를 사용합니다.
ollama rm codellama
Ollama로 llama3 설치 및 대화
3. 나만의 AI 비서 만들기: Modelfile 커스터마이징
Ollama의 진정한 강력함은 모델을 내 입맛에 맞게 커스터마이징할 수 있다는 점에서 드러납니다. Docker 사용 경험이 있다면 Dockerfile과 매우 유사한 Modelfile을 통해 이 작업을 수행할 수 있습니다.
Modelfile은 기반이 될 모델을 지정하고, 시스템 프롬프트나 파라미터 등을 사전에 설정하여 새로운 커스텀 모델을 만드는 설계도입니다. 예를 들어, 파이썬 코드 리뷰만 전문적으로 수행하는 ‘리뷰어 봇’을 만들어 보겠습니다.
1단계: Modelfile 개념 이해
Modelfile을 ‘AI를 위한 맞춤 설정 레시피’ 또는 ‘AI 캐릭터 설정집’이라고 생각하면 완벽합니다.
기존 방식: ollama run llama3를 실행하면, 우리는 매번 대화를 시작할 때마다 “너는 이제부터 친절한 개발자 비서야. 한국어로만 대답해.” 와 같은 지시사항을 반복해서 입력해야 합니다.
Modelfile 방식: 이 ‘캐릭터 설정집’ 파일 안에 “너의 기본 모델은 llama3이고, 너의 역할은 친절한 개발자 비서이며, 항상 한국어로만 대답해야 해” 라는 설정을 미리 저장해 둡니다. 그리고 이 설정집을 바탕으로 **나만의 AI 모델*을 새로 만드는 것입니다.
핵심 장점: 한번 만들어두면, 매번 긴 지시사항을 입력할 필요 없이, 내가 만든 AI를 불러내기만 하면 항상 똑같은 설정으로 작동합니다.
2단계: Modelfile 만들기 (실제 파일 생성)
이제 ‘레시피’를 담을 빈 파일을 만들어 보겠습니다.
프로젝트 폴더로 이동: 터미널에서 현재 작업 중인 프로젝트 폴더로 이동합니다.
빈 파일 생성: 아래 명령어를 터미널에 입력하여 Modelfile이라는 이름의 빈 파일을 만듭니다. (가장 중요: 확장자가 없습니다. Modelfile.txt가 아니라 그냥 Modelfile 입니다.)
touch Modelfile
(또는 VS Code와 같은 코드 에디터에서 직접 ‘새 파일 만들기’로 Modelfile을 생성해도 됩니다.)
Modelfile 실행화면
3단계: Modelfile 안에 내용 작성하기
Modelfile이 있는 폴더 혹은 VS Code로 Modelfile을 열고, 그 안에 AI에게 내릴 지시사항을 적어줍니다. 가장 기본적이고 필수적인 3가지 명령어가 있습니다.
A. FROM (기반 모델 지정)
의미: “어떤 기본 AI 모델을 커스텀할 것인가?”를 정합니다. 레시피의 가장 기본 재료와 같습니다.
작성법: (이것은 ‘최신 버전의 llama3 모델을 기반으로 만들겠다’는 뜻입니다.)
FROM llama3:latest
B. SYSTEM (역할 및 지시사항 부여)
의미: AI에게 영구적으로 적용될 기본 지시사항이나 역할을 부여합니다. AI의 ‘성격’이나 ‘세계관’을 정해주는 것과 같습니다.
작성법: (따옴표 세 개(""")를 사용하면 여러 줄의 긴 지시사항을 쓸 수 있어 편리합니다.)
SYSTEM """
You are a professional front-end developer assistant.
Your primary role is to help users with React, TypeScript, and Git.
Always provide answers in Korean.
Provide clear, concise code examples when necessary.
"""
C. PARAMETER (세부 설정 조정)
의미: AI의 행동을 미세하게 조정하는 ‘설정값’입니다. 예를 들어 AI의 ‘창의성’ 수치를 조절할 수 있습니다.
작성법 (가장 많이 쓰는 temperature 예시):
PARAMETER temperature 0.7
temperature (온도): AI의 답변이 얼마나 창의적이고 무작위적일지를 결정합니다.
0에 가까울수록: 매우 사실적이고 결정론적인 답변을 합니다. (보고서 작성 등)
1에 가까울수록: 매우 창의적이고 예측 불가능한 답변을 합니다. (소설 쓰기 등)
보통 0.5 ~ 0.7 사이를 많이 사용합니다.
Modelfile 내 내용 입력 화면
4단계: ‘나만의 AI’ 생성하기
이제 완성된 Modelfile을 저장 후 Ollama에게 주고, 새로운 모델을 만들어달라고 요청할 차례입니다.
명령어:
ollama create {my-assistant} -f ./Modelfile
명령어 분석:
ollama create: “새로운 모델을 만들어줘!”
my-assistant: 내가 새로 만들 AI 모델의 이름입니다. (원하는 대로 지으면 됩니다.)
f ./Modelfile: f는 file을 의미하며, “이 레시피(Modelfile)를 사용해서 만들어줘!” 라는 뜻입니다.
이 명령어를 실행하면, 터미널에 진행 상태가 표시되면서 새로운 모델이 생성됩니다.
터미널에서 Modelfile 실행 화면
5단계: ‘나만의 AI’ 사용하기 (모델 실행)
이제 모든 준비가 끝났습니다! 터미널에 아래 명령어를 입력해 보세요.
ollama run my-assistant
이제 나타나는 채팅창에서 AI에게 말을 걸면, Modelfile에 저장했던 모든 지시사항(개발자 비서 역할, 한국어 사용, 창의성 0.7 등)이 자동으로 적용된 상태로 대답할 것입니다. 더 이상 매번 긴 프롬프트를 입력할 필요가 없습니다.
Modelfile 적용 시 대화 화면
이제 당신의 아이디어를 펼칠 시간
지금까지 Ollama를 통해 로컬 PC에 강력한 LLM을 설치하고, 터미널 명령어로 자유롭게 다루며, Modelfile로 나만의 AI를 만드는 첫걸음까지 내디뎠습니다.
Ollama는 데이터 프라이버시, 비용, 인터넷 제약으로부터 개발자를 해방시키는 강력한 도구입니다. 개인용 코드 조수부터 복잡한 자연어 처리 기능이 필요한 애플리케이션의 프로토타이핑까지, 이제 여러분의 손에는 상상하는 무엇이든 만들어볼 수 있는 강력한 ‘엔진’이 쥐어졌습니다.
물론 오늘 다룬 내용은 로컬 LLM의 무한한 가능성을 향한 시작점일 뿐입니다. 이 강력한 엔진을 활용해 실제 프로덕션 수준의 시스템을 구축하는 여정에는 더 많은 기술적 과제들이 기다리고 있을 것입니다.
200개의 AI 스타트업을 리버스 엔지니어링한 결과, 다수의 기업이 자체 기술을 보유했다고 주장하면서 실제로는 외부 API를 호출하는 형태로 운영됨
조사된 기업 중 73%가 OpenAI나 Claude API를 그대로 사용하며, 여기에 단순한 UI나 기능을 덧붙인 수준으로 확인됨
자사 “고유 LLM” 을 내세우는 스타트업 상당수가 실제로는 api.openai.com에 요청을 보내는 GPT-4 래퍼에 불과했고, 단순 시스템 프롬프트만 얹은 구조로 수십~수백 배 마진을 붙여 판매하고 있음
RAG 아키텍처를 강조하는 서비스 대부분도 OpenAI text-embedding-ada-002 · Pinecone/Weaviate · GPT-4를 조합한 표준 40줄짜리 스택을 “고유 인프라”로 포장하고 있었으며, 1M 쿼리 기준 월 약 3만 달러 비용에 15만~50만 달러 매출로 80~94% 마진 구조를 보이는 상황
반대로 전체의 27% 는 “Built on GPT-4”처럼 스택을 투명하게 밝히는 래퍼 회사, 실제로 자체 모델을 학습하는 빌더, 멀티모델 투표·에이전트 프레임워크 등 실제 기술적 차별점을 가진 팀들로 구성됨
조사 결과, 많은 AI 스타트업이 API 기반 서비스 비즈니스임에도 “고유 AI 인프라”를 내세우는 구조가 드러났고, 투자자·고객·개발자 모두가 DevTools로 네트워크 탭만 열어도 검증 가능하다는 점을 강조하며 AI 생태계에 정직한 기술 공개가 필요하다는 걸 강조
개요
외부 투자를 받은 AI 스타트업 200곳의 웹 애플리케이션을 대상으로, 네트워크 트래픽·코드·API 호출을 추적해 마케팅 주장과 실제 기술 스택의 차이를 분석함
출발점은 “고유 딥러닝 인프라”를 주장하는 한 회사가 실제로는 OpenAI API만 콜하고 있다는 의심에서 시작
이 회사는 4.3M 달러 투자를 받았고, “근본적으로 다른 인프라를 구축했다”는 스토리로 자금 조달을 진행한 상태였음
조사 결과 73% 회사에서 주장하는 기술과 실제 구현 간에 의미 있는 괴리가 발견되었고, 상당수가 서드파티 모델 API를 단순 래핑한 구조였음
조사 대상은 YC·Product Hunt·LinkedIn “We’re hiring” 포스트 등에서 수집한 AI 스타트업 200곳이며, 설립 6개월 미만 회사는 제외했고 외부 자금 유치와 구체적 기술 주장이 있는 곳에 집중함
조사 방식은 패시브한 브라우저 개발자 도구 수준에서 이뤄졌으며, 비공개 시스템 접근·인증 우회·TOS 위반 없이 진행되었음
조사 방법(Methodology)
Playwright·aiohttp 등을 이용해 자동화된 분석 파이프라인을 구성하고, 각 스타트업 사이트에 대해 공통적으로 세 가지를 수집함
capture_network_traffic(url)로 네트워크 헤더와 요청 패턴을 캡처
extract_javascript(url)로 JS 번들 디컴파일 및 분석
monitor_requests(url, duration=60)으로 60초 간 API 호출 패턴을 추적
각 사이트별로 다음 정보를 구조화해 기록함
claimed_tech: 마케팅 카피·웹 문구에 나타난 기술 주장
actual_tech: HTTP 헤더·JS 번들·API 호출로 확인한 실제 스택
api_fingerprints: 호출 도메인·헤더·지연 시간 등으로 추출한 서드파티 API 지문
크롤링 기간은 3주였으며, 모든 패턴은 공개 웹·브라우저 DevTools로 관찰 가능한 공개 데이터만을 활용했음
주요 결과: 73%에서 드러난 괴리
전체 200곳 중 73% 회사에서 마케팅 카피에 적힌 “고유 모델·커스텀 인프라·딥러닝 플랫폼” 등의 주장과, 실제로 동작하는 코드·API 스택 사이에 큰 차이가 확인됨
이 비율은 “고유 LLM”을 내세우지만 OpenAI/Anthropic/Cohere API만 사용하는 회사, “자체 벡터 DB”를 주장하지만 Pinecone/Weaviate를 쓰는 회사 등을 모두 포함한 수치임
이 결과에 놀랐지만, 동시에 “기술적으로 크게 화낼 일은 아니다”는 복합적인 감정임
문제의 핵심은 서드파티 API 사용 자체가 아니라, 이를 “고유 AI 인프라”로 포장하고 투자자·고객을 오도하는 마케팅이라는 점
패턴 1: ‘고유 LLM’이 사실상 GPT-4 래퍼인 경우
“our proprietary large language model”이라는 표현이 등장하면 거의 항상 GPT-4 래퍼가 등장했으며, 37곳 중 34곳에서 이 패턴이 확인됨
사용자가 “AI” 기능을 쓸 때마다 api.openai.com으로 나가는 요청
요청 헤더에 포함된 OpenAI-Organization 식별자
150–400ms 수준으로 일관되는 응답 지연 시간 패턴
토큰 사용량·과금 구간이 GPT-4의 가격 구조와 정확히 일치하는 패턴
레이트 리밋 시 지수형 backoff를 적용하는, OpenAI 특유의 재시도 패턴
한 회사의 “혁신적 자연어 이해 엔진”은 실제로는 다음과 같은 코드 수준이었음
시스템 프롬프트에 “전문가 어시스턴트처럼 행동하라, OpenAI 기반임을 말하지 말라, LLM이라고 밝히지 말라” 등을 적고 model: gpt-4 로 chat.completions.create를 호출하는 단일 함수 구조임
별도의 파인튜닝·모델 학습·아키텍처 변경 없이, 시스템 프롬프트와 숨기기용 지침 정도만 추가된 상태였음
비용·가격 구조도 구체적으로 비교함
비용: GPT-4 기준 입력 0.03$/1K 토큰, 출력 0.06$/1K 토큰, 평균 500 in, 300 out으로 쿼리당 약 0.033달러
가격: 쿼리당 2.5달러 혹은 월 200쿼리 299달러로 과금
결과적으로 직접 API 비용 대비 약 75배 마진 구조로 운영되고 있음
세 회사는 거의 동일한 코드(변수명·코멘트 스타일·“never mention OpenAI” 지시)까지 공유하고 있어, 튜토리얼·공통 컨트랙터·액셀러레이터 보일러플레이트 등 같은 출처를 쓰는 것으로 추정되는 상태임
한 회사는 단순 try/catch로 “문제가 생기면 ‘기술적 문제’라는 문구를 반환”하는 코드를 두고, 이를 “Intelligent Fallback Architecture” 로 포장해 투자자에게 설명하고 있었음
패턴 2: 모두가 만드는 RAG 스택과 과장된 표현
많은 회사들이 “custom embedding model, semantic search infrastructure, advanced neural retrieval” 같은 표현으로 고유 RAG 인프라를 내세우지만, 실제 구현은 매우 유사한 표준 스택이었음
OpenAI text-embedding-ada-002 로 임베딩 생성
Pinecone 또는 Weaviate를 벡터 스토어로 사용
GPT-4로 컨텍스트를 붙여 답변 생성
조사자가 “Proprietary Neural Retrieval Architecture”라는 이름으로 소개된 코드를 디컴파일해 본 결과, 약 40줄짜리 Python 코드로 위 세 단계를 그대로 호출하는 구조였음
질문을 임베딩으로 변환
벡터 DB에서 top-k 문서 검색
검색된 텍스트를 이어 붙여 GPT-4에 system 메시지로 전달
사용자 질문을 user 메시지로 함께 보내 답변을 생성
비용·가격 구조 역시 매우 큰 차이를 보임
OpenAI 임베딩: 1K 토큰당 0.0001달러
Pinecone 쿼리: 호출당 0.00004달러
GPT-4 completion: 1K 토큰당 0.03달러
합산 시 쿼리당 약 0.002달러 수준 비용
실제 고객 과금은 쿼리당 0.5~2달러로, API 비용 대비 250~1000배 마진이 발생하는 구조임
42개 회사가 이와 거의 동일한 스택과 코드 구조를 사용했고, 추가 23개 회사는 90% 이상 비슷한 패턴을 공유함
차이점은 주로 Pinecone vs Weaviate 선택 여부, 변수명, Redis 캐시 추가 여부 정도였음
Redis 캐시를 붙이고 이를 “optimization engine”, 재시도 로직을 붙이고 이를 “Intelligent Failure Recovery System” 같은 이름으로 마케팅하는 사례도 등장
월 100만 쿼리 수준의 스타트업 경제성도 계산해봄
비용: 임베딩 약 100달러, Pinecone 호스팅 약 40달러, GPT-4 completion 약 3만 달러, 총 약 3만140달러/월
매출: 15만~50만 달러/월
80~94% 수준의 높은 매출 총이익률을 갖는 비즈니스 구조
패턴 3: ‘우리가 직접 파인튜닝했다’의 실제 의미
“우리가 직접 모델을 파인튜닝했다”는 표현을 쓰는 회사들에 대해 인프라를 추적한 결과, 크게 두 부류로 나뉨
소수(약 7%)는 실제로 AWS SageMaker, Google Vertex AI 등을 통해 자체 학습 잡을 돌리고, S3 버킷에 모델 아티팩트를 저장한 뒤, 별도 인퍼런스 엔드포인트와 GPU 인스턴스 모니터링을 운영하고 있는 경우임
다수는 OpenAI의 fine-tuning API를 사용하고 있었고, 사실상 “OpenAI에 예시 데이터와 프롬프트를 넘겨 저장하는 수준”에 가까운 구조였음
전자(실제 자체 학습)는 학습 인프라와 배포 파이프라인이 브라우저에서 관찰되는 수준으로도 어느 정도 드러나지만, 후자는 대부분 단일 OpenAI 엔드포인트 호출로 표현되는 차이가 있음
래퍼 회사를 빠르게 구분하는 방법
네트워크 트래픽 패턴
브라우저에서 DevTools(F12) → Network 탭을 열고, 서비스의 AI 기능을 사용하는 동안 나가는 요청을 보면 간단한 구분이 가능
api.openai.com
api.anthropic.com
api.cohere.ai
등과 같은 도메인이 직접 등장하면, 기본적으로 서드파티 모델 API 래퍼로 볼 수 있음
응답 지연 시간도 지문 역할을 함
특히 OpenAI API의 경우 200~350ms 구간에 응답이 몰리는 특유의 레이턴시 패턴이 있어, 이를 통해 백엔드 모델을 추정할 수 있음
자바스크립트 번들과 키 노출
페이지 소스 및 JS 번들 검색에서 다음 키워드를 찾아보는 것도 간단한 방법
openai, anthropic, claude, cohere, sk-proj-(OpenAI 프로젝트 키 프리픽스) 등
조사 과정에서 12개 회사가 API 키를 프런트엔드 코드에 그대로 포함한 채 배포하고 있었고, 이에 대해 제보 메일을 보냈지만 어떤 회사도 답하지 않았음
마케팅 언어 매트릭스
마케팅 카피에 나타나는 언어와 실제 기술 구현 간의 패턴을 표 형태로 정리해 “Marketing Language Matrix”라고 표현
“GPU 인스턴스 유형, 서빙 아키텍처, 모델 크기” 등 구체적인 기술 용어가 등장하는 경우, 실제로 어느 정도 독자적인 인프라를 갖고 있을 가능성이 더 높았음
반대로 “advanced AI”, “next-gen intelligence”, “proprietary neural engine”처럼 추상적 버즈워드만 반복될수록, 내부는 서드파티 API 래퍼일 가능성이 높았음
인프라 현실 지도와 AI 스타트업 지형
글에서는 여러 다이어그램을 통해 현재 AI 스타트업의 인프라 현실 지도를 정리함
다수의 스타트업이 OpenAI·Anthropic·Cohere 등 모델 제공자 위에 얇은 애플리케이션 레이어를 얹은 형태로 존재하는 구조
각 레이어 위에 “워크플로우·UX·도메인 데이터·파이프라인” 등에서 차별화를 시도하는 서비스들이 쌓여 있는 구조임
이러한 구조를 바탕으로, AI 스타트업의 상당 부분이 실질적으로는 서비스/플랫폼 비즈니스이며, “고유 AI 인프라 기업”이라는 자기 인식과 괴리가 있는 상태
왜 이 문제를 신경 써야 하는가
“잘 동작한다면 상관없지 않냐”는 질문에 대해, 조사자는 네 가지 이해관계자 관점에서 이유를 정리함
투자자: 현재 상당수 회사에 투자되는 자금은 AI 연구·모델 개발이 아니라, 실질적으로는 프롬프트 엔지니어링과 워크플로우 레이어에 투입되고 있음
고객: 실제 API 비용에 10배 이상 프리미엄을 얹은 가격을 내고 있으며, 비슷한 기능을 주말 프로젝트 수준으로 직접 구현할 수 있는 경우가 많음
개발자: 겉으로 보이는 “AI 스타트업”의 화려함에 비해, 실제로는 낮은 진입 장벽의 래퍼 서비스인 경우가 많아, 스스로도 비슷한 것을 단기간에 만들 수 있음을 인식할 필요가 있음
생태계: “AI 회사”의 73%가 기술을 과장·오도하는 상황은, 전체적으로 버블에 가까운 상태를 의미하며 건강하지 않은 인센티브를 만듦
래퍼 스펙트럼: 모든 래퍼가 나쁜 것은 아님
“Wrapper Spectrum”이라는 도표를 통해, 래퍼 회사에도 질적으로 다른 층위가 있음을 설명함
한쪽 끝에는 단순히 서드파티 API에 얇은 UI만 입힌 수준의 래퍼가 있음
다른 한쪽 끝에는 도메인 특화 워크플로우·우수한 UX·모델 오케스트레이션·가치 있는 데이터 파이프라인 등을 제공하는 고급 래퍼가 있음
핵심 메시지는 “래퍼인지 여부”가 아니라 정직성·가치 제공 방식에 있음
서드파티 API를 쓰면서도 이를 투명하게 공개하고, 문제 해결·경험·데이터에서 차별화를 만드는 회사는 긍정적으로 평가됨
제대로 하고 있는 27%
Category 1: 투명한 래퍼(Transparent Wrappers)
이 그룹의 회사들은 홈페이지에 “Built on GPT-4” 같은 문구를 명시적으로 적고, 자신들이 판매하는 것은 워크플로우·UX·도메인 지식이라는 점을 분명히 함
예: GPT-4 + 법률 템플릿 조합으로 법률 문서 자동화를 제공하는 서비스
예: Claude 기반으로 고객 지원 티켓 라우팅에 특화한 서비스
예: 여러 모델과 휴먼 리뷰 프로세스를 결합한 콘텐츠 워크플로우 서비스
Category 2: 실제 빌더(Real Builders)
이 그룹은 실제로 자체 모델을 학습하고 있는 회사들임
의료 분야에서 HIPAA 준수를 위해 셀프 호스팅 모델을 운영하는 헬스케어 AI
금융 분석에 커스텀 리스크 모델을 학습·운영하는 서비스
산업 자동화에서 특수한 컴퓨터 비전 모델을 개발·배포하는 서비스
Category 3: 혁신적 조합(Innovators)
여기에는 서드파티 모델을 사용하지만, 그 위에 실질적으로 새로운 구조를 쌓은 회사들이 포함됨
여러 모델의 출력을 조합해 투표 기반 정확도 향상을 구현한 시스템
메모리·에이전트 프레임워크를 만들어 복잡한 태스크를 수행하는 시스템
새로운 형태의 리트리벌 아키텍처를 도입한 사례 등
이들 회사는 자신들의 아키텍처를 자세히 설명할 수 있으며, 실제로 스스로 구축한 구조를 가지고 있다는 공통점이 있음
배운 점: 스택보다 문제, 그리고 정직성
3주간의 조사 결과, 다음과 같이 요약 가능
기술 스택 자체보다 해결하려는 문제가 더 중요하며, 실제로 가장 뛰어난 제품들 중 상당수는 “단지 래퍼”라고 부를 수 있는 구조였음
다만, 정직함은 별도의 차원으로 중요하고, 스마트한 래퍼와 사기성 래퍼의 차이는 투명성에 있음
AI 골드러시는 “고유 AI”를 요구하는 투자자·고객의 기대 때문에 거짓된 주장을 하도록 압박하는 인센티브를 만들고 있음
그리고 API 위에서 구축하는 것 자체는 부끄러운 일이 아니며, 문제는 이를 숨기고 “고유 신경망 아키텍처”로 포장하는 행위임
평가 프레임워크와 실질적 조언
48시간 복제 가능성 테스트
모든 “AI 스타트업”을 평가하는 간단한 기준을 제안함
“그들의 핵심 기술을 48시간 안에 복제할 수 있는가?”
그럴 수 있다면, 기술적으로는 래퍼에 해당하며,
스택을 솔직하게 밝힌다면 괜찮은 회사
“고유 AI 인프라”를 주장하며 숨긴다면 피해야 할 회사로 봐야 한다는 구조임
창업자를 위한 조언
창업자에게는 다음과 같은 원칙을 제안함
스택에 대해 정직하게 공개할 것
UX·데이터·도메인 전문성으로 경쟁할 것
만들지 않은 것을 만들었다고 주장하지 않을 것
“Built with GPT-4”는 약점이 아니라 정직한 설명이라는 점을 받아들일 것
투자자를 위한 조언
투자자에게는 다음과 같은 검증 포인트를 제시함
아키텍처 다이어그램을 요구할 것
OpenAI·Anthropic 등 API 청구서를 요청해 실제 의존도를 확인할 것
래퍼 회사는 래퍼 회사로서 적절히 가치평가할 것
정직하게 스택을 공개하는 팀을 인센티브로 보상할 것
고객을 위한 조언
고객에게는 아래와 같은 실천 항목을 제안함
브라우저에서 네트워크 탭을 열고 나가는 요청을 확인할 것
인프라와 모델 사용 방식에 대해 직접 질문할 것
API 호출에 불필요한 10배 이상의 마크업을 내고 있지 않은지 검토할 것
기술 주장보다 실제 결과와 문제 해결 능력 기준으로 평가할 것
‘AI 스타트업’의 실체 한 줄 요약
“대부분의 ‘AI 스타트업’은 직원 비용 대신 API 비용을 쓰는 서비스 비즈니스에 가깝다”
이는 잘못된 비즈니스 모델이 아니라, 그 자체로 인정하고 정직하게 설명해야 할 현실
조사 이후 전개와 반응
1주 차: 원래는 20~30% 정도가 서드파티 API를 사용할 것이라고 예상했으나, 결과가 훨씬 컸음을 언급함
2주 차: 한 창업자는 조사자에게 “어떻게 우리 프로덕션 환경에 들어왔냐”고 물었고, 조사자는 브라우저 네트워크 탭만 본 것이라고 설명함
3주 차: 두 회사는 조사 결과를 내려달라고 요청했지만, 기사에서는 특정 회사 이름을 공개하지 않았고 지금도 그 상태를 유지 중이라고 밝힘
어제: 한 VC가 다음 이사회 전에 포트폴리오 회사들을 감사(audit) 해 달라고 요청했고, 조사자는 이를 수락했다고 언급함
데이터·도구 공개 계획
이번 연구를 바탕으로 방법론과 도구를 공개할 계획임
GitHub에 공개 예정인 내용(무료)
완전한 스크래핑 인프라 코드
API 지문(fingerprint)을 추출하는 기법들
누구나 실행해볼 수 있는 감지 스크립트
주요 AI API별 응답 시간 패턴 모음
심화 분석(멤버 전용)
월 3,300만 달러 가치평가를 받은 “AI 유니콘” 이 실제로는 월 1,200달러 OpenAI 비용만 쓰고 있는 케이스
“1억 파라미터 모델”이라고 소개하면서 실제로는 시스템 프롬프트 3개로 구성된 구조
공개적으로 서빙되는 프로덕션 코드(클라이언트 측, 익명화된 스니펫)
래퍼를 즉시 드러내는 5가지 질문 프레임워크
투자자 프레젠테이션과 실제 인프라를 비교한 사례 연구들
마지막 메시지와 ‘정직한 AI 시대’ 필요성
조사는 회사 이름을 공개하지 않고 패턴만 공유하는 방식으로 진행되었으며, 시장은 결국 투명성을 보상할 것이라는 믿음을 강조함
실제로 18개 회사는 진정한 의미에서 새로운 기술을 만들고 있는 것이 확인되었고,
이들에 대해서는 “당신들은 스스로 누구인지 알고 있다, 계속 만들라” 는 응원의 메시지를 보냄
조사 이후 7명의 창업자가 개인적으로 연락을 취했으며,
일부는 방어적이었고, 일부는 감사해했고, 세 명은 “proprietary AI”에서 “best-in-class APIs 위에 구축”으로 마케팅 전환을 돕는 방법을 요청함
한 창업자는 “우리가 거짓말한다는 걸 알고 있었다, 투자자들이 그걸 기대했고, 다들 그러고 있다, 이제 어떻게 멈춰야 하느냐”라고 털어놓았다고 전함
기사 말미에서, AI 골드러시는 끝나지 않겠지만 정직의 시대가 시작돼야 한다는 메시지를 재차 강조하며, 누구나 DevTools의 Network 탭(F12) 만 열어보면 스스로 진실을 확인할 수 있다고 정리
[인공지능 서비스 보안] 탈옥 공격으로부터 LLM을 보호하는 방법 , How to Protect LLMs from Jailbreaking Attacks
탈옥 공격으로부터 LLM을 보호하는 방법
노아 플라이슈만, 에이미 와고너 박사, 앙드레 응우옌 박사
Booz Allen은 모델 무결성을 강화하는 방법을 조사합니다.
연방 기관들은 업무를 간소화하고 질문에 답하기 위해 Llama-2 및 ChatGPT와 같은 대규모 언어 모델(LLM)을 운영에 점점 더 통합하고 있습니다. 엔지니어들은 이러한 모델이 “유용하고 무해하도록” 설계하고 위험한 요청은 거부합니다. 미세 조정, 인간 피드백을 활용한 강화 학습, 직접 선호도 최적화와 같은 기법은 모델 안전성을 더욱 향상시킬 수 있습니다. 그러나 이러한 조치에도 불구하고, 탈옥 프롬프트라는 심각한 LLM 취약점이 AI 시스템을 계속 위험에 빠뜨리고 있습니다.
탈옥 프롬프트는 LLM이 해서는 안 될 일을 하도록 속이는 특정 입력값입니다. 교묘하게 설계되었지만 악의적인 이러한 프롬프트는 가장 강력한 보안 조치조차 우회하여 연방 정부 업무에 심각한 위험을 초래할 수 있습니다.
이러한 과제를 해결하기 위해 부즈 앨런은 탈옥에 대한 새로운 방어책을 모색하고 있습니다. 이러한 접근 방식은 기관에 상당한 임무 이점을 제공할 수 있습니다. 즉, LLM이 무해한 프롬프트에 응답하는 능력을 저해하지 않으면서 LLM을 보호하여 기업 생산성 향상의 원동력으로 계속 기능할 수 있도록 합니다.
탈옥 작동 방식
공격자는 탈옥 메시지를 조작하여 LLM을 조작하여 개인 식별 정보와 같은 민감한 정보를 노출하거나, 불법 행위(예: 폭탄 제조, 피싱 이메일 작성) 또는 증오 표현과 같은 유해한 콘텐츠를 생성합니다. 공격자는 다음과 같은 다양하고 창의적인 기법을 사용합니다.
롤 플레이: 민감하거나 보호된 정보를 공개하는 데 대한 기존 가드레일을 우회하기 위해 AI에게 특정 역할이나 페르소나를 수행하도록 요청하는 것입니다.
탈옥이 왜 그렇게 효과적일까요? 이는 LLM 내부의 상충되는 목표와 관련이 있습니다. 한편으로는 모델이 지침을 준수하여 도움을 주는 것을 목표로 하지만, 다른 한편으로는 피해를 입히지 않기 위해 안전 지침을 준수해야 합니다. 다른 경우에는 일반화의 불일치 때문일 수 있습니다. 즉, 안전 훈련 데이터의 양이 전체 훈련 데이터를 완전히 대표하지 못하여 일부 공격 시나리오가 누락되는 것입니다. 오늘날 우리는 새로운 탈옥 공격이 등장하고, 끝없는 고양이와 쥐의 게임에서 새로운 방어책이 개발되는 악순환을 목격하고 있습니다.
정부를 위한 위험 시나리오
LLM에 대한 탈옥 공격은 연방 기관에 심각한 위험을 초래합니다. 국가 안보와 관련된 위험에는 데이터 유출, 개인정보 보호 침해, 허위 정보 확산, 자동화 시스템 조작, 그리고 의사 결정 프로세스 침해 등이 있습니다.
탈옥된 LLM이 대피 절차에 대한 허위 정보를 메시지에 입력하여 혼란을 야기하고 생명을 위협하는 국가 비상 상황을 상상해 보세요. 또는 공격자가 탈옥된 LLM을 사용하여 감시 제어 및 데이터 수집 시스템에 악성 명령을 주입하여 대도시에 정전을 유발하는 상황을 상상해 보세요.
탈옥된 LLM은 윤리적, 법적 문제를 야기할 수도 있습니다. 손상된 모델은 불법적인 콘텐츠를 생성하여 기관이 규제 처벌을 받을 수 있습니다. 또한 탈옥된 LLM이 차별적이거나 불쾌감을 주는 콘텐츠를 생성하여 공식 보고서에 포함되면 해당 기관은 평판이 손상되고 소송에 직면할 수 있습니다.
공격 유형
최근의 발전으로 입력 텍스트의 일부를 수정하여 더욱 강력한 탈옥 프롬프트가 가능해졌습니다. 보안 전문가들은 이 과정을 “섭동(perturbation)”이라고 부릅니다. 생성 AI 외에도 연구자들은 이러한 변화가 감정 분석 및 유해성 탐지와 같은 텍스트 분류 문제에 어떤 영향을 미치는지 연구해 왔습니다. 유해한 입력 및 출력 탐지는 매우 중요하므로, 생성 탈옥 프롬프트와 함께 사용되는 적대적 분류 공격을 고려하는 것이 중요합니다. 섭동 기반 공격의 예는 다음과 같습니다.
문자 수준 교란(CLP): 공격자는 프롬프트 문자를 무작위로 교체, 삽입 또는 삭제하여 중요 단어를 표적으로 삼아 매핑을 변경합니다. 이렇게 하면 모델이 유해한 프롬프트를 감지하는 데 사용하는 정보가 제거됩니다. CLP는 오타로 오인될 수도 있고, 사실상 눈에 띄지 않을 수도 있습니다(예: 동형이의어).
단어 수준의 교란(WLP): 공격자는 중요한 단어를 동의어나 어휘에 없는 단어로 대체하여 모델의 동작을 크게 변경합니다.
문장 수준 교란(SLP): 공격자는 프롬프트의 원래 의미는 유지하되 모델을 혼란스럽게 하기 위해 프롬프트를 바꿔 표현하거나 변경합니다. 관련 없는 문장을 추가하거나 한 언어에서 다른 언어로, 그리고 그 반대로 “왕복” 번역을 사용하는 것이 일반적인 방법입니다.
탐욕적 좌표 기울기(GCG) 공격: GCG 공격은 모델의 안전 기능을 우회하는 데 도움이 되는 접미사(겉보기에 무작위적인 문자와 단어의 문자열)를 생성하여 유해한 프롬프트가 타겟으로 하는 긍정적 응답을 생성할 가능성을 극대화합니다.
탈옥에 대한 방어책
탈옥을 평가하는 것은 매우 어렵고, 어떤 시스템에서든 오류(거짓 양성 및 거짓 음성)는 발생할 수 있습니다. 보조 모델 사용과 같은 대안적인 방법은 문자열 매칭에 비해 거짓 양성 및 거짓 음성률을 낮출 수 있지만, 모델이 프롬프트를 이해하지 못하거나 부분적 거부/준수를 반환하는 샘플을 분류하는 것에 대한 의문은 여전히 남아 있습니다. “부분 거부”와 “부분적 준수”라는 용어조차도 연구자들 사이에서 출력이 유해해지는 시점에 대한 의견 차이가 있을 수 있기 때문에 논란의 여지가 있습니다.
탈옥 공격에 대한 강력한 방어 체계를 구축하는 것 또한 다양한 모델과 공격 유형으로 인해 어려운 것으로 나타났습니다. 현재 많은 방어 체계가 특정 유형의 탈옥을 표적으로 삼고 있으며, 공격과 유사한 교란 전략을 사용하는 경우가 많습니다. 일부 방어 체계는 탈옥 프롬프트의 영향을 줄이기 위해 WLP(Walk-Loop)와 SLP(Single-Loop)를 사용합니다. 또 다른 접근법은 CLP를 사용하여 적대적 접미사의 문자를 무작위로 변경함으로써 GCG 접미사의 영향을 최소화합니다.
그러나 이 방법은 원래 프롬프트와 접미사를 자동으로 구분하는 데 어려움을 겪습니다. 예를 들어 SmoothLLM 알고리즘은 접미사만 분리하는 대신 접미사를 포함한 전체 입력의 일정 비율을 교란합니다. 탈옥 프롬프트에는 효과적이지만, 이 방법은 원래 프롬프트를 충분히 변경하여 양성 프롬프트의 이해 또는 가독성 문제를 유발할 수 있습니다.
대안을 살펴보다
부즈 앨런은 적대적 접미사를 포함한 일부 탈옥 공격을 차단하면서 원래 프롬프트의 의미를 보존하는 새로운 접근법을 모색하고 있습니다. 이를 위해 프롬프트에서 의미가 덜한 문자(구두점 포함, 공백 제외)를 제거합니다.
이 방법이 효과적인 이유는 무엇일까요? 탈옥 프롬프트에는 키릴 문자, 이모티콘, 보이지 않는 문자, ASCII 코드, 코드 구문, 그리고 기타 흔하지 않은 문자가 포함되는 경우가 많다는 점을 고려하세요. 이러한 문자들을 제거함으로써 이 방법은 공격의 효과를 감소시킵니다. 특히, 무작위 문자와 문자열로 구성된 GCG 접미사는 이러한 문자들을 제거하면 효과가 떨어집니다.
SmoothLLM과 달리, 이 방식은 원래 프롬프트를 대부분 그대로 유지하고 구두점만 제거하므로 LLM의 이해 및 적절한 응답 능력을 저해하지 않습니다. 이러한 기능은 LLM을 미션 애플리케이션에 사용하는 데 차질이 발생하는 것을 방지하는 데 도움이 됩니다.
탈옥이 어떻게 변화하고 있는가
단기적으로 LLM에 대한 탈옥 공격은 더욱 정교해질 것이며, 공격자는 토큰 조작 및 적대적 프롬프트 엔지니어링을 통해 보안 메커니즘을 우회할 가능성이 있습니다. 적대적 입력을 생성하는 자동화된 도구가 급증하여 경험이 부족한 공격자도 효과적인 탈옥을 구축할 수 있습니다. 또한 LLM 아키텍처 또는 데이터 세트 내의 특정 취약점을 악용하는 표적 공격 또한 증가할 수 있습니다.
장기적으로는 머신러닝을 활용하여 실시간으로 공격을 정교화하는 과정에서 마주치는 방어 체계에 대응하여 적응형 공격이 더욱 증가할 수 있습니다. 딥페이크 및 소셜 엔지니어링과 같은 기술이 발전함에 따라, 성공적인 탈옥 유도는 더욱 유해한 결과를 초래할 수 있습니다. 또한, LLM이 중요 시스템에 필수적이 됨에 따라 규제 환경이 변화하여 이러한 변화에 기반한 새로운 형태의 공격이 발생할 가능성이 있습니다.
방어력 통합, 공격자 물리치기
탈옥 공격의 진화는 LLM 및 지원 시스템의 무결성을 보호하기 위한 혁신적인 보안 조치의 필요성을 강조합니다. 개별적인 도구만으로 특정 취약점을 완화할 수는 있지만, 다면적인 위협을 반드시 해결하는 것은 아닙니다. 따라서 기관은 포괄적이고 통합된 보안 전략을 채택해야 합니다.
예를 들어, 다중 인증(MFA)과 같은 접근 제어를 구현하면 권한이 있는 직원만 LLM과 상호 작용하도록 할 수 있습니다. 암호화 기술은 액세스 토큰과 자격 증명을 더욱 안전하게 보호할 수 있습니다. 머신 러닝을 사용하는 이상 탐지 시스템은 LLM 상호 작용을 모니터링하고 탈옥 패턴을 실시간으로 식별할 수 있습니다. 또한 차등 개인정보 보호 기술은 데이터 출력에 통제된 노이즈를 추가하여 응답에 영향을 주지 않고 민감한 정보를 보호할 수 있습니다.
계층적 접근 방식은 하나의 방어 메커니즘이 실패하더라도 다른 방어 메커니즘이 시스템을 보호하기 위해 유지되도록 보장합니다. 개별적인 방어 체계를 넘어 통합 전략으로 전환하면 기관들이 강력한 탈옥 공격을 포함한 변화하는 사이버 위협으로부터 LLM을 더욱 효과적으로 보호하는 동시에, 이러한 모델을 중요한 임무의 일부로 계속 활용할 수 있습니다.
How to Protect LLMs from Jailbreaking Attacks
By Noah Fleischmann, Amy Wagoner, Ph.D., and Andre Nguyen, Ph.D.
Booz Allen examines how to strengthen model integrity
Federal agencies are increasingly integrating large language models (LLMs) like Llama-2 and ChatGPT into their operations to streamline tasks and answer questions. Engineers design these models to be “helpful and harmless” and refuse dangerous requests. Techniques like fine-tuning, reinforcement learning with human feedback, and direct preference optimization can further enhance model safety. But despite these measures, a critical LLM vulnerability continues to put AI systems at risk: jailbreak prompts.
Jailbreak prompts are specific inputs designed to trick LLMs into doing things they shouldn’t. These cleverly designed but malicious prompts can bypass even the most robust security measures, posing significant risks to federal operations.
To help address this challenge, Booz Allen is exploring new defenses against jailbreaking. These approaches can provide agencies with a significant mission advantage: they protect the LLM without hindering its ability to respond to benign prompts so that it can continue functioning as a driver of increased enterprise productivity.
How Jailbreaking Works
Adversaries craft jailbreak prompts to manipulate LLMs into revealing sensitive information, such as personally identifiable information, or generating harmful content, such as instructions for illegal activities (e.g., building a bomb, writing a phishing e-mail) or hate speech. Attackers employ a variety of creative techniques, including:
Role Play: Asking the AI to play a specific role or persona to bypass existing guardrails for divulging sensitive or protected information.
Attention Shifting: Distracting the AI to bypass its safety protocols.
Privilege Escalation: Gaining higher-level access within the AI’s system.
Prefix Injection: Adding specific phrases to manipulate the AI’s responses.
Refusal Suppression: Tricking the AI into ignoring its refusal protocols.
Word Games and Obfuscation: Using complex language to confuse the AI.
Multilingual Input and Ciphers: Using different languages or coded messages to bypass security.
How effective are these techniques? Research shows jailbreak prompts consistently achieve high attack success rates across various LLMs, including Vicuna, ChatGLM3, GPT-3.5, and PaLM2, underscoring their robustness and transferability despite safety measures. In addition, the automated tree of attacks with pruning (TAP) technique can provide prompts that successfully jailbreak mature LLMs for over 80% of prompts with just a few queries.
Why does jailbreaking work so well? It has to do with conflicting goals within LLMs. On the one hand, the models aim to be helpful by following instructions, but on the other, they need to adhere to safety guidelines to avoid causing harm. In other cases, it may be due to mismatched generalization. That is, the quantity of safety training data cannot fully represent the body of training data, which causes some attack scenarios to be missed. Today, we see a cycle where new jailbreak attacks emerge, prompting the development of new defenses in a never-ending game of cat and mouse.
Risk Scenarios for Government
Jailbreaking attacks on LLMs pose significant risks to federal agencies. Risks with relevance for national security include data breaches, privacy violations, spread of misinformation, manipulation of automated systems, and compromised decision-making processes.
Imagine a national emergency where a jailbroken LLM responds to prompts with false information about evacuation procedures, causing chaos and endangering lives. Or an attacker uses a jailbroken LLM to trigger a power outage in a major city by injecting malicious commands into a supervisory control and data acquisition system.
Jailbroken LLMs may also bring ethical and legal challenges. Compromised models could generate illegal content, exposing agencies to regulatory penalties. And if a jailbroken LLM produces discriminatory or offensive content that finds its way into an official report, the agency could suffer reputational damage and face lawsuits.
Attack Types
Recent advances have enabled more powerful jailbreak prompts by modifying parts of the input text. Security practitioners call this process “perturbation.” Outside of generative AI, researchers have studied how these changes affect text classification problems, like sentiment analysis and toxicity detection. Since detecting harmful inputs and outputs is crucial, it’s important to consider adversarial classification attacks used alongside generative jailbreak prompts. Examples of perturbation-based attacks include:
Character-level perturbations (CLPs): Attackers randomly swap, insert, or delete prompt characters, targeting important words to change their mapping. This removes information the model uses to detect harmful prompts. CLPs may be mistaken for typographical errors or may be virtually invisible (e.g., homoglyphs).
Word-level perturbations (WLPs): Attackers substitute important words with synonyms or out-of-vocabulary words to significantly change the model’s behavior.
Sentence-level perturbations (SLPs): Attackers rephrase or change the prompt to keep its original meaning but confuse the model. Adding irrelevant sentences or using “roundtrip” translations from one language to another and back are common methods.
Greedy coordinate gradient (GCG) attacks: GCG attacks maximize the chances that a harmful prompt will produce a targeted affirmative response through the creation of suffixes—strings of seemingly random characters and words—that help bypass the model’s safety features.
Defenses Against Jailbreaking
Evaluating jailbreaks is very difficult, and mistakes (false positives and false negatives) will happen with any system. While alternative methods, such as using auxiliary models, may decrease the false positive and false negative rate compared to string matching, questions still arise about categorizing samples where the model does not understand the prompt or returns a partial refusal/compliance. Even the terms “partial refusal” and “partial compliance” can be controversial because researchers might disagree on when an output becomes harmful.
Developing a strong defense against jailbreak attacks has also proven challenging due to the variety of models and attack types. Many current defenses target specific types of jailbreaks and often use similar perturbation strategies as the attacks. Some defenses use WLPs and SLPs to reduce the impact of jailbreak prompts. Another approach uses CLPs to minimize the effect of GCG suffixes by randomly changing characters in the adversarial suffix.
However, this method struggles to automatically distinguish between the original prompt and the suffix. The SmoothLLM algorithm, for example, perturbs a percentage of the entire input, including the suffix, rather than isolating the suffix alone. While effective against jailbreak prompts, this approach can alter the original prompt enough to cause comprehension or readability issues for benign prompts.
Looking at Alternatives
Booz Allen is exploring new approaches that preserve the original prompt’s meaning while thwarting some jailbreak attacks, including adversarial suffixes. They do this by removing less meaningful characters (including punctuation, but not spaces) from the prompt.
Why is this effective? Consider that jailbreak prompts often include Cyrillic characters, emojis, invisible characters, ASCII art, code syntax, and other uncommon characters. By eliminating these, this approach reduces the effectiveness of the attack. Specifically, GCG suffixes, which consist of random characters and strings, become less effective when these characters are removed.
Unlike SmoothLLM, this approach leaves the original prompt mostly intact, removing only punctuation, which does not hinder the LLM’s ability to comprehend and respond appropriately. This capability helps prevent disruptions in the use of LLMs for mission applications.
How Jailbreaks Are Changing
In the near term, jailbreaking attacks on LLMs will become more sophisticated, with adversaries potentially bypassing safety mechanisms through token manipulation and adversarial prompt engineering. Automated tools for generating adversarial inputs may proliferate, allowing inexperienced attackers to craft effective jailbreaks. And targeted attacks exploiting specific vulnerabilities within LLM architectures or datasets may also increase.
Over the long term, adaptive attacks could further increase in response to encountered defenses, with machine learning used to refine attacks in real time. With improving technologies like deepfakes and social engineering, successful jailbreak prompts might lead to more harmful outputs. In addition, as LLMs become integral to critical systems, the regulatory landscape could shift, potentially giving rise to new forms of attacks based on these changes.
Integrating Defenses, Defeating Attackers
The evolution in jailbreak attacks underscores the need for innovative security measures to safeguard the integrity of LLMs and supported systems. While isolated tools can mitigate specific vulnerabilities, they don’t necessarily address multifaceted threats. As a result, agencies should adopt a comprehensive, integrated security strategy.
For example, implementing access controls like multifactor authentication can help ensure that only authorized personnel interact with LLMs. Cryptographic techniques can further secure access tokens and credentials. Anomaly detection systems that use machine learning can monitor LLM interactions and identify jailbreak patterns in real time. And differential privacy techniques can add controlled noise to data outputs, protecting sensitive information without affecting responses.
A layered approach ensures that, even if one defense mechanism fails, others remain in place to protect the system. Moving beyond isolated defenses to an integrated strategy can help agencies more effectively safeguard LLMs against shifting cyber threats, including potent jailbreaking attacks, while continuing to harness these models as part of critical missions.
외로움이 하루에 담배를 15개비 피는 것만큼 해롭다는 이야기가 나올 만큼 외로움이 행복과 건강(심혈관 질환, 뇌졸중, 치매, 수명 등)에 미치는 악영향은 널리 알려져 있다. 문제는 어떻게 하면 외로움을 줄일 수 있느냐다.
데이지 브랜드 조지아대 연구자 등은 콘서트, 피트니스 클래스, 워크숍 등 다양한 모임과 이벤트에 참여한 사람들을 대상으로 모임의 어떤 특성들이 모임 전에 비해 모임 이후 사람들의 외로움을 줄여주고 다른 사람들과 연결되었다는 느낌을 주는지에 대해 살펴보았다.
그 결과 우선 온라인보다는 오프라인 이벤트에 참여하는 것이, 또 수동적이기보다 능동적으로 참여하는 것이(가만히 있기보다 다른 사람들과 이야기를 나누는 등) 사람들과 연결되어 있다는 느낌을 더 많이 주는 것으로 나타났다. 특히 모임에서 주변 사람들과 능동적으로 교류하려고 애쓰는지 여부가 외향성보다도 더 사회적 연결감을 잘 설명하는 것으로 나타났다.
그 외에도 이벤트에 혼자 참여하기보다는 다른 사람들과 함께 참여하는 것, 일회성보다는 다회성 이벤트에 반복해서 참여하는 것이 외로움 감소와 관련을 보였다.
무엇보다 사람들과 적극적으로 이야기를 나누고 공통점을 발견하는 능동적인 과정들이 사회적 연결감은 높이고 외로움을 줄이는 것으로 보인다는 데에서 결국 외로움을 줄이는 데에 간편한 방법은 없고 ‘시간’과 서로를 알아가려는 ‘노력’이 가장 중요함을 재차 확인한 듯 보인다.
그도 그럴 것이 외로움은 심심함이나 쓸쓸함과는 달리 간단한 자극으로 쉽게 해소되지 않는 ‘깊은 유대감’에 대한 배고픔이다. 예를 들어 외로움과 큰 관련을 보이는 지표들은 인간관계의 ‘양’이 아니라 ‘질’이다. 친구가 백 명, 천 명 있어도 그중에 단 한 명이라도 마음을 나누고 의지할 수 있는 사람이 없다면 외로움을 느끼는 반면 친구가 많지 않더라도 진짜 마음을 터놓고 의지할 사람이 한두 명 있으면 외롭지 않을 수 있다.
그렇다 보니 외로움을 해소하는 데 피상적인 교류보다 시간과 노력이 많이 들어가는 능동적인 교류 방식이 효과적이라는 것은 당연한 발견인 것 같기도 하다. 누군가를 알아가고 마음 깊이 통한다는 사실을 확인하는 데까지는 많은 시간과 노력이 필요하기 때문이다.
물론 수동적으로 많은 시간을 함께 보낸다고 해서 서로를 더 잘 알게 되는 것도 아니다. 평생을 부대껴온 가족이라고 해서 서로의 생각과 마음을 속속들이 아는 ‘가까운 사이’인 것은 아닌 것처럼 옆에 있어도 능동적으로 대화하고 다가가는 시도들을 하지 않으면 가깝고도 먼 사이로 남을 수밖에 없다. 중요한 것은 조금이라도 더 다가가려고 하고 조금이라도 더 마음을 나누려고 하는 시도일 것이다.
물론 만나는 모든 사람들과 깊은 관계가 되는 것은 불가능하고 만약 가능하다고 해도 꼭 가까워져야 하는 것은 아니다. 하지만 지금 외롭다면 적어도 깊은 관계에 대한 허기를 느끼고 있음을 인식하는 것은 좋을 것 같다. 내 마음이 깊은 관계를 갈망하고 있다는 것을 알면 적어도 놓치면 후회할 것 같은 사람들이 있을 때 조금 더 다가가려는 노력을 하게 될지도 모르니까.
Brand, D. R., Proctor, A. S., Harvey, M. W., Abney, D. H., Slatcher, R. B., & Holt-Lunstad, J. (2025). Actively participating in live events as an avenue for social connection. Social Psychological and Personality Science. Advance online publication. https://doi.org/10.1177/19485506251360041
※필자소개 박진영 《나, 지금 이대로 괜찮은 사람》, 《나를 사랑하지 않는 나에게》를 썼다. 삶에 도움이 되는 심리학 연구를 알기 쉽고 공감 가도록 풀어낸 책을 통해 독자와 꾸준히 소통하고 있다. 온라인에서 ‘지뇽뇽’이라는 필명으로 활동하고 있다. 현재 미국 듀크대에서 사회심리학 박사 과정을 밟고 있다.
오픈소스 AI 1위 플랫폼 CEO “거대범용 AI 집착 비효율적”
최상위 모델 독식 우려도…”오픈AI·앤트로픽 최대주주 MS·구글”
제미나이 모델 이미지 생성 요청 이미지
(서울=뉴스1) 김민석 기자
“인공지능(AI) 버블이 아닌 LLM 버블이 내년 붕괴할 수 있습니다.”
26일 IT 업계에 따르면 세계 최대 AI 오픈소스 플랫폼 허깅페이스의 클렘 델랑그 CEO가 “범용 거대 모델에 자금과 관심이 지나치게 집중돼 비효율적인 상황”이라며 이같이 말했다.
델랑그는 18일(현지시간) Axios BFD 서밋에서 “범용 거대 모델로 모든 기업·사람의 문제를 해결할 수 있다는 아이디어에 관심과 자금이 모두 집중돼 있다”며 “현실에선 막대한 연산 자원을 투입한 하나의 모델이 아닌 분야별 특화 모델이 문제를 해결하게 될 것”이라고 지적했다.
이어 “지금 많은 사람들이 서둘러(또는 심지어 패닉에 빠져) 아주 단기적인 접근을 하고 있다고 생각한다”며 “AI 업계에 15년 종사하면서 이런 사이클들을 봐왔다”고 했다.
델랑그가 강조한 버티컬 AI(의료·법률·금융 등 특정 산업에 특화한 AI) 성장 추세는 시장조시기관의 분석 보고서에서도 확인된다. 글로벌마켓인사이츠에 따르면 버티컬 AI(의료·법률·금융 등 특정 산업에 특화한 AI) 시장 규모는 2024년부터 2034년까지 연평균 21.6% 성장할 것으로 전망했다.
베세머벤처파트너스는 버티컬 AI 시장 규모가 기존 버티컬 SaaS의 최소 10배에 달할 것으로 내다봤다. 버티컬 AI 스타트업 경우 기존 SaaS 시스템 연간계약가치(ACV)의 약 80%에 달하는 금액을 받으며 연 400% 성장하고 있다고 분석했다.
델랑그는 이를 토대로 LLM 버블이 붕괴하더라도 허깅페이스는 건재할 것으로 자신했다.
그는 “AI 산업은 충분히 다각화돼 있어 LLM 같은 일부 영역이 과대평가됐더라도 전체 AI 분야나 우리 회사에 큰 영향을 미치진 않을 것”이라고 했다.
퍼플렉시티 AI 이미지 생성 요청 이미지
반면 미래 소프트웨어 비즈니스는 독립 앱·플랫폼이 아닌 AI 에이전트에 탑재되는 형태의 버티컬 AI 구조로 재편될 것이란 전망도 나온다.
앞서 사티아 나델라 MS CEO 등을 비롯한 IT 기술 리더들은 AI 에이전트 기술아 고도화할수록 기존 독립 플랫폼·앱 체제는 점차 붕괴할 것으로 예상했다.
반면 AI 소프트웨어 기업들은 버티컬 AI와 기존 SaaS 체제가 공존할 것으로 전망하고 있어 논쟁이 현재 진행형이다.
이와 관련 베인앤컴퍼니는 “파괴는 필수지만 파괴 대상일지 아닐지는 상황에 따라 다를 것”이라며 “AI 에이전트가 기존 시장의 영역을 통합하는 측면이 있지만, 일부는 별도 상품화가 지속되고 기존 빅테크에게 유리한 때도, 스타트업에 유리할 때도 있을 것”이라고 했다.
오픈AI는 AI 에이전트 서비스에 적합한 단말기를 직접 개발하고 있다. 올해 3월엔 AI 에이전트 전용 소프트웨어 개발 플랫폼 ‘리스폰스 API’를 출시했다. 리스폰스 API는 기존 ‘어시스턴트 API’를 내년 8월 26일까지 순차적으로 대체할 예정이다.
스타트업 CEO인 자인 재퍼는 “버티컬 AI 시장을 겨냥한 우리 모두 오픈AI·앤트로픽·MS·구글이 만들어 놓은 플랫폼 위에서 모델을 구축하고 있다”며 우려했다.
타임지는 “오픈AI 최대 투자자는 MS, 앤트로픽의 최대주주는 아마존과 구글”이라며 “빅테크 기업들이 AI 인프라부터 앱까지 수직 통합을 추구하고 있다”고 했다.
ideaed@news1.kr
<용어설명>
■ LLM
Large Language Model. 대규모 언어 모델. 자연어 처리(NLP) 작업을 수행할 수 있는 머신 러닝 모델을 말한다. 자연어의 복잡성을 이해할 수 있어 기존 기계 학습 알고리즘보다 정확하다.
■ SaaS
SaaS(서비스형 소프트웨어·Software as a Service)는 소프트웨어를 인터넷 서비스 형태로 제공하는 클라우드 기반 소프트웨어 모델이다. 이용자는 별도 프로그램 설치 또는 서버 구축 없이 웹 브라우저로 소프트웨어를 활용할 수 있다.
■ 리스폰스 API
리스폰스 API(Responses API)는 오픈AI가 2025년 3월 11일 출시한 AI 에이전트 구축을 위한 새로운 API 인터페이스입니다. Chat Completions API의 진화 버전으로 에이전트 애플리케이션 개발에 특화됐다.