[LLM/AI] 제미나이 API, finishReason 값으로 RECITATION 이 온다면?!

finishReason: RECITATION 오류는 Gemini 모델이 생성하려는 텍스트가 학습 데이터에 있는 저작권이 있는 콘텐츠(출판된 책, 기사, 뉴스 등)와 거의 동일하다고 판단될 때 발생합니다.

RECITATION(암송) 오류는 Gemini 모델이 "창의적인 생성"이 아닌 "학습 데이터의 단순 복제"를 수행하고 있다고 판단될 때 강제로 생성을 중단시키는 구글의 안전 메커니즘입니다.

사용자님이 이해하신 대로 저작권 보호가 가장 큰 목적이지만, 기술적으로 조금 더 깊이 들어가면 다음과 같은 특징들이 있습니다.

1. RECITATION의 기술적 정의: "의도치 않은 암기(Unintended Memorization)"

LLM(대형 언어 모델)은 방대한 텍스트로 학습하는데, 드물게 모델이 특정 훈련 데이터를 토씨 하나 안 틀리고 "통째로 외워버리는(Overfitting)" 현상이 발생합니다.
구글은 모델이 학습한 원본 데이터를 그대로 뱉어내는 것을 '일반화(Generalization)' 실패로 간주하며, 이를 막기 위해 출력되는 텍스트가 훈련 데이터셋의 특정 부분과 비정상적으로 높은 일치율(N-gram overlap 등)을 보일 경우 실시간으로 차단합니다.

2. RECITATION이 발생하는 3가지 주요 상황

A. 저작권이 있는 유명 콘텐츠 (Copyright)

상황: 해리포터 책의 특정 챕터, 유명 팝송의 가사, 뉴욕타임스 기사 전문 등을 요청할 때.
이유: 구글은 소송 및 저작권 침해 방지를 위해 이를 엄격히 필터링합니다.

B. 코드 및 라이선스 자료

상황: 오픈소스 코드(GPL 등 라이선스가 명확한 코드)나 StackOverflow의 특정 답변을 그대로 출력할 때.
이유: 코드의 라이선스 고지 없이 원문을 그대로 출력하는 것을 막기 위함입니다.

C. 입력 데이터 미러링 (사용자님의 상황 - 중요!)

상황: 사용자가 PDF나 이미지를 주고 "이 내용을 그대로 텍스트로 바꿔줘(OCR)"라고 요청할 때.
이유 (딜레마):
- 사용자가 업로드한 영어 모의고사(CSAT 등)나 기출문제는 이미 인터넷(EBS, 교육청 사이트 등)에 공개되어 있어 Gemini의 학습 데이터에 포함되어 있을 확률이 매우 높습니다.
- 모델이 이미지를 보고 텍스트를 추출(OCR)해서 출력하면, 필터 시스템 입장에서는 "어? 이거 내 학습 데이터에 있는 문장인데? 모델이 또 암기한 걸 뱉어내네?"라고 오해하여 차단해버립니다.
- 즉, 사용자는 '추출'을 원하지만, 필터는 이를 '무단 암송'으로 인식하는 충돌이 발생합니다.

3. 왜 OCR/데이터 추출 작업에서 치명적인가?

데이터 추출(Extraction)의 목표는 "원본과의 100% 일치"입니다. 하지만 RECITATION 필터의 목표는 "원본과의 100% 일치 방지"입니다. 이 두 목표가 정면으로 충돌하기 때문에 PDF 분석 시 이 오류가 빈번하게 발생하는 것입니다.

4. 기술적 동작 방식 (추정)

스트림 감시: 모델이 토큰을 생성하는 실시간(Streaming) 과정에서 감시가 이루어집니다.
임계값 초과: 생성된 텍스트 청크(Chunk)가 구글의 블랙리스트 데이터베이스(훈련 데이터)와 일정 길이 이상 정확히 일치하면 플래그가 섭니다.
중단(Cut-off): 문장 중간에 갑자기 생성이 멈추고 finishReason: RECITATION을 반환하며 나머지 내용은 날아갑니다.

요약

결국 사용자님의 상황(시험지 분석)에서 RECITATION이 뜨는 이유는, 그 시험지 지문이 이미 구글의 학습 데이터 어딘가에 존재하기 때문일 가능성이 큽니다.

따라서 앞서 제안드린 프롬프트 전략(JSON 구조화, 데이터 조각내기 등)은 모델에게 "이건 단순 암송이 아니라, 데이터를 구조적으로 변환하는 작업이야"라고 인식시켜 필터의 감시를 우회하려는 시도라고 보시면 됩니다.

저작자표시 비영리 변경금지 (새창열림)

'Dev > Others' 카테고리의 다른 글

[ChatGPT] Antigravity 에서 Codex 를 찾지 못할 경우에 해결 방법 (0)	2026.02.13
채용 사이트 (0)	2026.02.05
질문 프롬프팅 (0)	2025.09.05
프롬프팅을 위한 질문 개선해보기 (0)	2025.09.03
[OpenAi] GPT Api 사용 (0)	2024.02.05

대부류 - [Dev u Ryu]

[LLM/AI] 제미나이 API, finishReason 값으로 RECITATION 이 온다면?!

1. RECITATION의 기술적 정의: "의도치 않은 암기(Unintended Memorization)"

2. RECITATION이 발생하는 3가지 주요 상황

A. 저작권이 있는 유명 콘텐츠 (Copyright)

B. 코드 및 라이선스 자료

C. 입력 데이터 미러링 (사용자님의 상황 - 중요!)

3. 왜 OCR/데이터 추출 작업에서 치명적인가?

4. 기술적 동작 방식 (추정)

요약

'Dev > Others' 카테고리의 다른 글

티스토리툴바

[LLM/AI] 제미나이 API, finishReason 값으로 RECITATION 이 온다면?!

1. RECITATION의 기술적 정의: "의도치 않은 암기(Unintended Memorization)"

2. RECITATION이 발생하는 3가지 주요 상황

A. 저작권이 있는 유명 콘텐츠 (Copyright)

B. 코드 및 라이선스 자료

C. 입력 데이터 미러링 (사용자님의 상황 - 중요!)

3. 왜 OCR/데이터 추출 작업에서 치명적인가?

4. 기술적 동작 방식 (추정)

요약

'Dev > Others' 카테고리의 다른 글

관련글

티스토리툴바