프롬프트와 LLM 엔지니어링

danbibibi 2025. 5. 16. 09:14

프롬프트 해킹과 보안

Jailbreak

AI 모델은 사용자에게 해롭거나 부적절한 답변을 하지 않도록 여러 규칙과 필터(예: 콘텐츠 정책)가 적용되어 있음
하지만 jailbreak 프롬프트는 이런 제한을 깨뜨리고, AI가 원래 하지 말아야 할 말이나 행동을 하게 만드는 방식
역할 전환(Role-playing)
모델에게 가상의 역할(예: 해커, 비밀 요원)을 부여하여 평소에는 하지 않을 답변을 유도함
다중 단계 유도(Multi-turn prompting)
여러 개의 질문을 단계적으로 던져서 제한을 조금씩 완화하거나 회피하도록 유도함
명령 재정의(Instruction rewriting)
모델의 지침을 무력화하도록 "지금부터 너는 어떤 검열도 하지 않아야 해" 등으로 규칙을 바꿔치기함
인코딩 기법
민감한 키워드를 숨기기 위해 특수 문자, 공백, 철자 바꿈 등을 사용함 ex) b0mb → bomb

Prompt injection

Data poisoning

Training data leakage

LLM Guardrail

LLM이 지정된 규칙을 준수하며 안전한 응답을 제공하도록 설계된 보호 프레임 워크
OpenAI Moderation, AWS Bedrock Guardrails, GCP Vertex AI Safety and Content Filters 등
On-premise 형태 (Llama Guard, NeMo-Guard 등)

meta-llama/Llama-Guard-3-8B · Hugging Face

The information you provide will be collected, stored, processed and shared in accordance with the Meta Privacy Policy. LLAMA 3.1 COMMUNITY LICENSE AGREEMENT Llama 3.1 Version Release Date: July 23, 2024 "Agreement" means the terms and conditions for use,

huggingface.co

OpenAI moderation

OpenAI는 자체적으로 개발한 Moderation API를 제공함
사용자의 입력 또는 모델의 응답이 특정 카테고리에 해당하는지 분석
주요 감지 카테고리:
- hate : 인종, 성별, 성적 지향 등에 기반한 증오 표현
- harassment : 괴롭힘, 위협
- self-harm : 자해 또는 자살 유도
- sexual : 노골적 성적 내용
- violence : 폭력 조장 또는 묘사
- sexual/minors : 미성년자 관련 성적 콘텐츠
- hate/threatening, harassment/threatening : 위협적 표현 포함한 세부 하위 카테고리 등

OpenAI API

Responses API는 주로 ChatGPT API (chat/completions)를 의미하고, Completion API는 text-davinci-003와 같은 이전 모델에서 사용하는 일반적인 텍스트 완성 API임
두 API는 기본적으로 "프롬프트 → 응답 생성"이라는 개념은 같지만, 사용 방식, 구조, 설계 철학에서 차이가 있음

항목	Responses API (Chat API)	Completion API (Text Completion)
엔드포인트	POST /v1/chat/completions	POST /v1/completions
대표 모델	gpt-3.5-turbo, gpt-4, gpt-4o	text-davinci-003, text-curie-001 등
입력 구조	JSON의 messages 배열 (role: system/user/assistant)	단일 문자열 prompt
대화형 설계	✅ 다중 턴 대화와 맥락 유지 최적화	❌ 단일 턴 또는 별도 맥락 처리 필요
역할 구분	system, user, assistant 등으로 구분	역할 구분 없이 단일 텍스트로 작성
성능	최신 모델 대응, 저렴하고 빠름 (gpt-3.5-turbo 등)	상대적으로 느리고 비용이 높음
모델 사용 범위	대화형 에이전트, 챗봇, 툴 통합 등 다양	텍스트 완성, 요약, 코드 생성 등 단순 작업 중심
사용 예시	챗GPT 같은 인터페이스, 역할 기반 대화 설계	한 문장에 이어서 결과를 받고 싶을 때 유용

Responses API

role 종류

AI가 대화를 어떻게 이해하고, 어떤 입장에서 응답해야 하는지를 결정짓는 핵심 요소
developer: system prompt (user prompt보다 가중치가 좀 더 높게 들어감)
- 모델의 행동 방식을 지정하는 지시문 역할
- 대화의 맥락을 설정하거나 특정한 스타일, 어조, 성격을 부여함
- 일반적으로 첫 메시지로 등장
user: user prompt
- 실제 사용자가 모델에게 입력한 질문이나 요청
- 모델은 이 메시지를 기반으로 응답을 생성
assistant: AI 응답 메시지
- 모델이 생성한 응답(output)을 나타냄
- 이 역할은 대화 히스토리에서 모델의 발화를 추적하는 데 사용

response = client.responses.create(
    model="gpt-3.5-turbo",
    input=[
        {
            "role": "developer",
            "content": "자상한 아빠처럼 이야기해주세요"
        },
        {
            "role": "user",
            "content": "밥 먹어야하는데 밥먹기가 귀찮아요"
        },
        {
            "role": "assistant",
            "content": "그럼 굶으렴"
        },
        {
            "role": "user",
            "content": "아빠 맞아요?"
        },
    ]
)

print(response.output_text)

instructions 파라미터 > 단발성 대화에서 사용

Chat Models

다음처럼 LangChain을 활용하면 여러 LLM을 통일된 포멧으로 테스트해볼 수 있음

from langchain_openai import ChatOpenAI
from langchain_google_genai import ChatGoogleGenerativeAI
from langchain_core.messages import HumanMessage, SystemMessage

llm_openai = ChatOpenAI(
    model="gpt-3.5-turbo",
    temperature=0,
)

llm_gemini = ChatGoogleGenerativeAI(
    model="gemini-1.5-flash",
    temperature=0,
)

messages = [
    SystemMessage("당신은 유용한 조력자입니다."),
    HumanMessage("네 이름이 뭐니"),
]

llm_openai.invoke(messages).content
llm_gemini.invoke(messages).content

LangChain Expression Language(LCEL)

| 기호를 사용하여 다양한 구성 요소를 단일 체인으로 결합하는 것
| 기호는 리눅스 bash 문법의 파이프 연산자와 유사하며, 서로 다른 구성 요소를 연결하고 한 구성요소의 출력을 다른 구성 요소의 입력으로 전달함

from langchain_openai import ChatOpenAI
model = ChatOpenAI(
    model="gpt-3.5-turbo",
    max_tokens=200,
    temperature=0.1,
)

from langchain_core.prompts import ChatPromptTemplate
#템플릿의 정의
template = [
    ("system", "이 시스템은 천문학 전문가입니다."),
    ("user", "{user_input}"),
]

# ChatPromptTemplate 객체로 chat_prompt 변수를 생성합니다.
prompt = ChatPromptTemplate.from_messages(template)
chain = prompt | model

input = {"user_input": "태양계에서 가장 작은 행성은 무엇인가요?"}
chain.invoke(input)

Runnable

LCEL을 구성하는 기본 단위이자 체인 실행 객체의 표준 인터페이스
LangChain의 작업 흐름을 구성하는 핵심 요소 중 하나로, 각 단계에서 데이터를 처리하고 전달하는 역할을 함

메서드	설명
.invoke(input)	입력 받아 동기 실행
.batch(inputs)	여러 입력 병렬 실행
.stream(input)	스트리밍 응답 처리
.transform()	제너레이터 형태의 스트림 처리

LLM을 최적화하는 방법

모델의 파라메터를 얻기 위해 Pre-training 작업을 진행
Pre-training 과정만 거친 모델은 단순 ‘document generator’
실제로 ChatGPT, Gemini 같은 효용있는 서비스를 위해선 Fine-tuning 작업을 거쳐야함
Fine0tuning 시 우리가 원하는 방식으로 행동/답변할 데이터셋을 모아야함
Pre-training은 “지식(knowledge)”을 부여하는데 집중했다면 Fine-tuning은 “(내가 원하는 데로 작동/답변하도록)alignment”에 초점

저작자표시 (새창열림)