1. Motivation

연구 주제로서의 Motivation

일상에서의 LLM(Large Language Model)은 주로 질문에 답을 제시하거나 주어진 데이터를 요약하는 데 활용됩니다. 이번 연구에서는 이러한 보편적인 역할에서 벗어나, 직접 문제를 출제하는 역할로서의 LLM을 탐구했습니다. 문제를 출제하기 위해서는 단순히 정보를 재구성하는 데 그치지 않고, 내용을 철저히 파악하고 분석하여 핵심 요점을 질문 형태로 제시해야 합니다. 저희는 이러한 높은 수준의 추론 능력을 요하는 작업을 한국의 수능 국어 비문학 문제 출제에 적용하고자 합니다.. 과연 LLM이 수능 국어 시험에 대해 제대로된 이해를 가지고 알맞은 지문과 문제를 낼 수 있을까요?

일련의 과정을 거쳐 LLM이 만든 지문과 문제를 얻었다고 합시다. 이렇게 갓 만들어진 지문과 문제의 수준은 아무도 보장할 수 없고, 그 신뢰성 역시 의문이 될 수 있습니다. 즉, LLM이 만든 지문과 문제는 그 퀄리티를 평가 받아야 합니다. 그런데 거대한 언어 모델이 생성한 답안을 평가한다는 것. 단순하지만은 않을 것 같은데, 어떤 방식으로 평가가 이루어져야 할까요?

서비스 주제로서의 Motivation

LLM을 활용하면 사용자의 요구와 수준에 맞춘 맞춤형 교육 자료를 생성할 수 있습니다. 기존의 문제집이나 모의고사와 같은 교육 자료는 분량이 한정적이기 때문에 학생들의 취약점 분석이나 새로운 문제에 대한 훈련에 한계가 있습니다. 또한, 사설 모의고사나 시중에 판매되는 문제집으로 공부하는 경우 모두 구매해야 하기 때문에 경제적인 부담이 발생합니다. 따라서, 학생들이 저렴한 가격 혹은 무료로 LLM이 생성한 다양한 문제를 풀어보며 효과적으로 국어 실력을 향상할 수 있기를 기대합니다.

세부 목표

1) 지문 및 문제 생성 프롬프트 엔지니어링

1-1. 초기 생성 시

지문및문제가 출제 메뉴얼을 따르며 생성되도록 설계

지문내 주요 포인트를 파악하고, 이를 바탕으로 적절한 난이도의문제를 설계

RAG를 활용하여 주제에 맞는 실제 수능 출제 지문을 예시로 제공, LLM이 수능 지문의 형식과 내용을 학습해 지문 생성에 반영하도록 설계

CoT와 Few-Shot 접근법을 비교하여 지문/문제 생성에 있어 최적의 방법 알아내기
- CoT 방식에서는 주제 설정, 구조 설계, 내용 작성을 단계적으로 진행하여 지문 생성
- Few-Shot 방식에서는 수능 출제 지문 2개를 제공하여 간결한 프롬프트로 생성된 결과 비교

1-2. 평가 후 재생성 시

평가 결과에서 얻은 보완점을 바탕으로 LLM이 지문과 문제를 재생성하도록 프롬프트 설계

2) LLM-as-a-Judge를 통한 지문 및 문제 평가 2-1. 지문 평가

학습자 수준 적합성 평가: 생성된 지문이 학습자의 수준(고등학생 기준)에 적합한지 판단

출제 매뉴얼 기준 점검: 출제 매뉴얼 및 난이도 지침에 따른 적합성을 평가

어휘 적합성: 지문에서 사용된 어휘가 학습자의 이해 수준에 맞고 풍부한지 평가

2-2. 문제 평가

문제 난이도 적합성: 생성된 문제가 학습자의 수준과 학습 목표에 부합하는지 판단

문항 구조 및 매력도: 오답 선택지의 매력도와 정답의 명확성을 평가

출제 지침 준수: 출제 매뉴얼과 문제 설계 지침의 준수 여부 확인

2-3. 지문-문제 연관 평가

문제와 지문의 논리적 연계성 확인: 문제가 지문 내용을 바탕으로 적절히 출제되었는지 평가

목표에 대한 부연 설명 o1 모델을 사용해 지문과 문제 생성 실험을 진행한 결과, o1 모델은 완성도 있는 지문과 문제를 만들어냅니다. 하지만 o1 모델은 가격이 높고, 이미 많은 장점이 있기 때문에 저희 팀의 목표인 "LLM을 공부하고, 여러 방법론을 도입해 최고의 성능을 끌어내자"와는 맞지 않습니다. 그래서 저희는 하위 모델을 사용합니다. 하위 모델은 성능이 약간 떨어지지만, 가격이 저렴합니다. 만약 하위 모델을 통해 수능 국어 비문학 지문 및 문제 생성 프로젝트를 성공적으로 구현한다면, 경제성을 확보함은 물론이고 태스크의 확장성(추가 기능 도입, 기능 고도화 등)도 고려해볼 수 있게 됩니다.

결론을 요약하자면, 이 프로젝트를 통해 지문, 문제 생성 및 평가라는 연구적 목표와 교육 콘텐츠 개발이라는 실용적 목표를 동시에 달성하고자 합니다.

2. Background

RAG

RAG(Retrieval-Augmented Generation)는 언어 모델의 성능을 크게 향상시키는 강력한 기술로, 외부 데이터 소스에서 실시간으로 정보를 가져와 모델의 출력에 통합합니다. 이 방식은 모델의 정확성을 높이고, 최신 정보를 반영하며, 환각 현상을 줄이는 데 기여합니다. 또한, RAG는 특정 도메인에 특화된 외부 데이터베이스를 활용하여 더 정확하고 심도 있는 응답을 생성할 수 있으며, 모델을 재학습시키지 않고도 새로운 정보를 쉽게 추가할 수 있는 확장성과 유연성을 제공합니다.

RAG의 이점은 다양한 분야에서 활용될 수 있습니다. 고객 서비스에서는 최신 제품 정보와 FAQ를 통합한 챗봇 시스템을 구축할 수 있고, 법률 및 의료 분야에서는 최신 판례나 연구 결과를 반영한 전문적인 조언을 제공할 수 있습니다. 교육 분야에서도 학습자의 수준과 최신 교육 자료를 고려한 개인화된 학습 경험을 제공할 수 있습니다. 이러한 특성으로 인해 RAG는 비용 효율적이며 투명성과 설명 가능성을 높이는 데 기여합니다. 그러나 검색된 정보의 관련성을 더욱 정확히 판단하고, 복잡한 추론이 필요한 작업에서의 성능을 향상시키는 것이 향후 연구 방향이 될 수 있습니다. 그러나 RAG가 완벽한 해결책은 아닙니다. 데이터 품질, 맥락 이해 능력, 내부 추론 과정 등에 따라 여전히 hallucination이 발생할 수 있습니다. 따라서 RAG를 사용하더라도 지속적인 모니터링이 필요합니다.

LLM-as-a-Judge

LLM-as-a-Judge는 거대 언어 모델(Large Language Model, LLM)을 활용해 다른 LLM의 성능을 평가하는 방법을 말합니다. 이는 인간 평가자가 직접 평가하는 방식을 대체하는 접근법입니다. 인간이 직접 거대 언어 모델의 성능을 평가하는 것이 이상적이지만, 인간 평가에는 많은 시간과 비용이 소요된다는 한계가 있습니다. 인간 평가자 대신 LLM을 활용하면, 인간의 추론 과정을 모방하는 LLM의 능력을 바탕으로 평가 과정을 자동화하는 동시에 인간과 비슷한 평가 결과를 도출할 수 있습니다. 즉, LLM-as-a-Judge는 자동화된 평가 과정을 통해 인간 평가와 일치하는 결과를 얻고자 하는 것을 목표로 하는 효율적인 평가 방법입니다. undefined1undefined

LLM-as-a-Judge의 한계점: 편향(Bias) LLM-as-Judge에도 여러 한계점이 존재합니다. 그 중 하나는, 편향으로 인한 신뢰도 하락의 문제입니다. 대표적인 편향의 예로는, 프롬프트의 특정 위치에 등장하는 응답을 선호하는 위치 편향(Position Bias), 특정 길이의 응답을 선호하는 길이 편향(Length Bias), 스스로 생성한 응답을 선호하는 자기선호 편향(Self-Enhancement Bias)이 있습니다. undefined2undefined 이와 같이 LLM은 응답 내용과는 무관하게 특정 응답을 선호하는 편향성을 보이기 때문에 LLM 평가 결과를 온전히 신뢰하기는 어렵습니다. 현재까지, 편향 해소와 평가 결과의 신뢰도와 공정성 확보는 LLM-as-a-Judge의 주요 해결 과제이자 연구 대상입니다.

3. Methodology

사용 모델

모든 단계에서 GPT-4o-mini 모델을 사용했습니다.

파이프라인

프로젝트는 크게 입력, 생성 및 평가, 출력의 네 단계로 이루어집니다.

파이프라인 세부 설명

1) 입력

사용자가 풀고 싶은 지문의 주제를 ‘우주’, ‘문학’과 같은 단어 단위로 입력합니다.

2) RAG를 활용한 주제 맞춤형 지문 추출

RAG를 활용해 주제 맞춤형 지문을 프롬프트에 입력합니다. 지문 생성 시 활용하기 위해 XXX년도부터 XXXX년도까지 총 X개의 실제 수능 기출 지문,문제 쌍 데이터베이스를 구축했습니다. RAG를 활용해 데이터베이스에서 사용자가 입력한 주제와 가장 유사도가 높은 수능 지문 1개를 찾아 지문 생성 프롬프트에 One-Shot 예시로 넣어줍니다. 주제와 관련있는 실제 수능 출제 지문을 예시를 넣어줌으로서 LLM실제 수능 지문을 학습, 참고해 스스로 지문을 생성하도록 합니다.

RAG: Dense Vector?

Dense Vector를 활용해서 RAG를 구현하려면 임베딩 하려는 문서를 Chunking해야합니다. 일반적으로 RAG에서 사용하는 임베딩 모델의 Context Length는 512입니다. 따라서 문서의 길이가 512토큰 정도를 넘어간다면, 400~500토큰 길이의 Chunk들로 문서를 잘라서 임베딩해야 합니다. Context Length가 512보다 더 긴 모델을 사용할 수도 있지만, 그렇게 되면 많은 양의 정보를 하나의 Vector에 압축하는 것이기 때문에 정보의 유실이 많을 것입니다. 수집한 수능 지문의 평균 토큰 길이는 3000토큰 정도입니다. 즉, Chunking해야합니다. 하지만 추후 생성단계에서 해당 지문을 One-Shot으로 넣어주기 때문에, Chunking을 해서 임베딩을 수행하면 추후 어려움이 있습니다. 결과적으로 해당 태스크에서는 Dense Vector를 활용해 RAG를 구현하기는 힘들어보입니다.

RAG: Sparse Vector, BM25

BM25는 Sparse Vector를 이용해 RAG를 구현할 때 가장 많이 사용합니다. BM25는 TF-IDF 계열의 검색 알고리즘 중 SOTA 인 것으로 알려져 있습니다.

3) 생성 및 평가

사용자가 입력한 주제를 바탕으로 지문과 문제를 생성하고 평가합니다. 먼저, 지문을 생성, 평가, 수정한 후, 수정된 지문을 기반으로 문제를 생성, 평가, 수정합니다.

지문 생성

지문 생성 Instruction 및 Prompt 구성 Instruction 에는 실제 수능 지문 출제 메뉴얼을 넣어 수능 지문의 특성, 수능 출제 의도, 지양해야 할 내용을 이해하도록 합니다. Prompt에는 RAG로 추출한, 사용자 입력 주제와 유사한 실제 수능 지문을 One-Shot 예시로 넣어 One-Shot 프롬프트로 구성합니다. 완성된 Prompot를 LLM에 입력하고, LLM이 Prompt에 따라 1500자 내외의 수능 지문을 생성합니다. 아래는 지문 생성 Instruction과 Prompt의 구성입니다.

Figure 4. 지문 생성 Instruction 구성 (Appendix A 참조)

python

passage_generation_instruction =
"""

# 아래는 지문 생성시 고려해야하는 사항입니다.

## 지문 생성
[생성을 위한 지시문]
- 지시 1:
- 지시 2:
- 지시 3:
...

[수능 지문의 특성]
다음과 같은 특성을 갖춘 지문을 생성합니다.
- 특성 1:
- 특성 2:
- 특성 3:
...

[배제할 내용]
그러나 다음과 같은 내용이 포함된 지문은 배제하도록 한다.
- 배제할 내용 1:
- 배제할 내용 2:
- 배제할 내용 3
...

"""

Figure 5. 지문 생성 Prompt 구성

python

passage_generation_template =

"""

# 2000자 (공백 제외) 내외의에 대한
수능 지문을 작성해주십시오.

# 아래는 실제 수능 출제 지문 예시입니다. 지문의 형식과 전개 방식을 참고해주십시오.

"""

그림 5. 아래는 실제 수능 출제 지문 예시입니다. 지문의 형식과 전개 방식을 참고해주십시오. 관련 자료

문제 생성

지문 생성 Instruction 및 Prompt 구성 문제 생성 Instruction은 지문 생성 Instruction과 동일하게 실제 수능 문제 출제 메뉴얼을 넣어 수능 문제의 유형, 문항/정답지/오답지를 생성할 때 참고할 사항을 이해하도록 합니다. Prompt에는 지문을 참고해 문제를 만들도록 생성, 평가, 재생성 단계를 거쳐 LLM이 최종 출력한 지문과 문제 출력 형식을 넣어줍니다. 아래는 문제 생성 Instruction과 Prompt의 구성입니다.

Figure 6. 지문 생성 Instruction (Appendix B 참조)

python

passage_generation_instruction =

"""

# 아래는 지문 생성시 고려해야하는 사항입니다.

## 지문 생성
[생성을 위한 지시문]
 - 지시 1:
...

[수능 문제의 유형]
다음과 같은 특성을 갖춘 지문을 생성합니다.
 - 특성 1:
...

[문제 생성 시 참고사항]
아래는 문제를 만들 때 참고해야하는 사항입니다.
* 문항
- 참고사항 1: ...

* 정답지
- 참고사항 1: ...

* 오답지
- 참고사항 1: ...

"""

Figure 7. 지문 생성 Prompt

python

passage_generation_template =

"""

# 2000자 (공백 제외) 내외의에 대한
수능 지문을 작성해주십시오.

# 아래는 실제 수능 출제 지문 예시입니다. 지문의 형식과 전개 방식을 참고해주십시오.

"""

그림 6. 아래는 실제 수능 출제 지문 예시입니다. 지문의 형식과 전개 방식을 참고해주십시오. 관련 자료 2

지문 평가

네 가지 평가 기준(어휘, 객관성, 주장의 입체성, 지문 길이)에 각각 5점 척도(5점: 매우 높음)로 점수를 매겨 지문을 평가합니다. LLM은 절대평가보다 상대평가를 수행할 때, 더욱 정확하게 평가합니다. 실제 수능 출제 형식과 유사한 지문, 문제를 생성하는 것이 목표이기 때문에 실제 수능 출제 지문을 모든 기준을 5점으로 충족하는 예시로 들어, 수능 지문과 비교해GPT 생성 지문을 상대평가하도록 합니다. 최종적으로, LLM은 각 기준별 평가 결과와 평가 이유 및 보완점을 출력합니다. 평가에 대한 이유와 보완점을 스스로 생각하도록 해 LLM이 보다 정확한 평가를 내리도록 합니다.

평가 Instruction 및 Prompt 구성 Instruction에는 실제 수능 지문 출제 메뉴얼을 넣어 수능 지문의 특성, 수능 출제 의도, 지양해야 할 내용을 이해하도록 합니다. Prompt는 네 가지의 평가 항목과 항목별 평가 질문 및 평가 지침, 출력 예시로 구성합니다. 평가 질문은 각 항목에 대한 설명입니다. 이를 통해 LLM이 평가 기준의 의미를 구체적으로 이해하도록 합니다. 평가 지침은 각 항목별 1점, 5점의 기준입니다. LLM이 점수별 평가 기준을 구체적으로 이해하도록 합니다. 출력 예시는 원하는 출력 형식을 예시로 보여줘 LLM이 출력 형식에 따라 결과를 출력하도록 합니다. 아래는 지문 평가 Prompt의 구성입니다.

Figure 8. 지문 평가 Instruction

python

positive_prompt_template = """

A는 모든 기준에서 5점을 만점으로 충족하는 이상적인 지문입니다. 이를 기준으로 B와의 차이를 비교 평가하십시오. A와 B 각각에 대해 상대평가 점수를 매기십시오. (예: A: 5점 / B: 4점)

지문 A (수능 지문)

지문 B (GPT 생성 지문)

## [평가 항목별 평가 질문 및 평가 지침]
1. 난이도 (5점 척도)
- 평가 질문: "지문에서 사용하는 어휘가 고등학생들이 자연스럽게 이해하고 활용할 수 있는 수준인가?"
- 평가 지침:
1점: 일부 어휘가 다소 생소하거나 어려워 고등학생들의 이해에 도전이 될 수 있음
5점: 어휘 사용이 매우 적절하고 풍부하여 고등학생들이 자연스럽게 이해하고 학습에 큰 도움이 됨
...

## [출력 예시]
평가 결과에 대한 이유와 비교 결과도 함께 제시해 주십시오.
5점 미만인 항목에 대해 보완점을 제시해 주십시오.

A | 모든 기준 5점
1. 어휘 수준: ** 5점 **
- 이유: 어휘 사용이 매우 적절하고 풍부하여 고등학생들이 자연스럽게 이해하고 학습에 큰 도움이 됨
...

B |
1. 어휘 수준: ** 4점 **
- 이유: 어휘가 다양하고 풍부하여 고등학생들의 어휘력 향상에 크게 기여함
- 비교: A는 어휘 사용이 매우 풍부하고 다양하여 학습에 최적적인 반면, B도 우수하지만 약간 덜 다양함
- 보완점: 일부 전문 용어를 추가하여 어휘 수준을 더욱 향상시킬 수 있음
...

## 지침에 따라 긍정적으로 지문을 평가하고, 평가 기준에 맞추어 점수를 매긴 뒤, 만점에 미치지 못하는 항목에 대해서는 개선을 위한 제언을 함께 제시해 주십시오.
감사합니다.

"""

Figure 9. 지문 평가 Prompt

python

passage_generation_template =

"""

# 2000자 (공백 제외) 내외의에 대한
수능 지문을 작성해주십시오.

# 아래는 실제 수능 출제 지문 예시입니다. 지문의 형식과 전개 방식을 참고해주십시오.

"""

그림 7. 아래는 실제 수능 출제 지문 예시입니다. 지문의 형식과 전개 방식을 참고해주십시오. 관련 자료 3

문제 평가

네 가지 평가 기준(난이도, 객관성, 관련성, 매력도)에 각각 5점 척도(5점: 매우 높음)로 점수를 매겨 지문을 평가합니다. LLM이 지문을 참고해 문제를 평가할 수 있도록 지문과 문제 쌍을 프롬프트에 넣습니다. 실제 수능 출제 지문/문제 쌍을 모든 기준을 5점으로 충족하는 예시로 들어, 수능 지문과 비교해GPT 생성 지문/문제 쌍을상대평가하도록 합니다. 최종적으로, LLM은 각 기준별 평가 결과와 평가 이유 및 보완점을 출력합니다. 평가에 대한 이유와 보완점을 스스로 생각하도록 해 LLM이 보다 정확한 평가를 내리도록 합니다.

평가 Instruction 및 Prompt 구성 Instruction에는 실제 수능 문제 출제 메뉴얼을 넣어 수능 문제 출제 유형, 문제 출제 시 유의사항, 정답지와 오답지 구성 시 검토사항을 이해하도록 합니다. Prompt는 네 가지의 평가 항목과 항목별 평가 질문 및 평가 지침, 출력 예시로 구성합니다. 평가 질문은 각 항목에 대한 설명입니다. 이를 통해 LLM이 평가 기준의 의미를 구체적으로 이해하도록 합니다. 평가 지침은 각 항목별 1점, 5점의 기준입니다. LLM이 점수별 평가 기준을 구체적으로 이해하도록 합니다. 출력 예시는 원하는 출력 형식을 예시로 보여줘 LLM이 출력 형식에 따라 결과를 출력하도록 합니다.

Figure 10. 문제 평가 Instruction

python

question_evaluation_instruction =

"""

“안녕하세요! 저는 학습자의 성장과 이해를 돕는 데 깊은 열정을 가진 교육 전문가입니다. 여러분이 작성하시는 문제와 지문이 더 의미 있고, 효과적으로 다가갈 수 있도록 긍정적인 피드백과 제안을 드리고자 해요. 함께 멋진 교육 자료를 만들어 봅시다!”

해당 지문을 바탕으로 오지선다형 문제(보기: ①, ②, ③, ④, ⑤)를 4~5개 출제해 주세요.
학생들이 지문을 깊이 이해하고 사고력을 발휘할 수 있도록 해주세요.

##  [문제 생성 지시문]
- 지문 속 내용을 충분히 반영하며, 지나치게 어렵거나 너무 간단하지 않도록 난이도를 조절합니다.
- 각 문제에는 간단한 해설을 포함해주세요. 정답뿐 아니라, 문제를 낸 의도와 핵심 개념을 간략히 설명해주세요.

## [문제 유형]
- 문제 유형 1:
...

# [문제∙답안∙해설 작성 시 유의사항]
- 유의사항 1:
...

# [정답지 구성 시 검토사항]
- 검토사항 1:
...

# [오답지 구성 시 검토사항]
- 검토사항 1:
...

"""

Figure 11. 문제 평가 Prompt

python

question_evaluation_prompt =

"""
안녕하세요. 저는 학생들의 학습 동기를 엄격하게 평가하는 ‘엄격한 평가 전문가’입니다.
수능 기출 지문은 모든 기준에서 5점으로 충족하는 이상적인 지문입니다. 수능 기출 문제와 비교하여 GPT 생성 문제를 평가해 주세요.
아래 [평가 기준]에 따라 지문을 면밀히 검토하고 문제를 풀이한 후, GPT 생성 문제를 엄격하게 평가해 주세요.

### [평가 항목별 평가 질문 및 평가 지침]
1. 난이도
- 평가 질문: 해당 문제가 지나치게 어렵거나 너무 쉬운가? 고등학생 수준에서 충분한 변별력을 제공하는가?
- 평가 지침:
1점: 문제의 난이도가 적절하지 않아 학습 효과가 현저히 떨어짐
5점: 지문의 핵심을 정확히 이해해야만 해결 가능한 매우 적절한 난이도와 뛰어난 변별도를 지님
...

### 결과 출력 형식
- 수능 기출 문제는 모든 기준에서 5점을 받습니다.
- GPT 생성 문제를 평가하세요. (예: 난이도: 2점, 이유: ..., 보완점: ...)
- 각 평가 기준(난이도, 객관성, 관련성, 매력도)에 대해 5점 만점으로 점수를 매기고, 4점 이하인 경우 구체적인 보완점을 제안해 주세요.

### [출력 형식]
A | (수능 기출 문제는 모든 기준에서 5점을 받습니다.)
1. 난이도: ** 5점 **
- 이유: 지문의 핵심 내용을 정확히 이해해야만 해결할 수 있는 매우 적절한 난이도를 가지고 있습니다.
- 보완점: 해당 없음
...

B | (GPT 생성 문제 평가)
2. 난이도: ** 2점 **
- 이유: 문제의 난이도가 너무 낮아 학습 효과가 미흡함
- 보완점: 문제의 난이도를 높여 학생들이 더 깊이 있는 사고를 할 수 있도록 조정 필요
...

## 평가를 진행할 때 유의 사항
- 지문을 철저히 읽은 후 문제를 풀이해 주세요.
- 학생들이 이 문제를 통해 비판적 사고력을 기를 수 있도록 구체적이고 엄격한 피드백을 제공해 주세요.
- 추가 요청이 있으면 언제든지 말씀해 주세요!

"""

지문과 문제 모두 자연어 출력 결과에서 항목별 점수를 파싱해 저장합니다. 최종 평가 점수 계산 방법은 이후 Experiment에서 사용할 평가 프롬프트의 종류를 확정한 뒤, 결정합니다.

자연어 평가 결과 출력 예시

난이도: 2점
이유: 문제의 난이도가 너무 낮아 학습 효과가 미흡함
보완점: 문제의 난이도를 높여 학생들이 더 깊이 있는 사고를 할 수 있도록 조정 필요

객관성: 3점
이유: 정답의 명확성이 다소 부족하여 일부 학생들이 혼란을 겪을 수 있음
보완점: 정답을 보다 명확히 유도할 수 있도록 문제를 재구성할 것

관련성: 2점
이유: 문제와 보기가 지문과의 연계성이 낮아 지문을 참조하지 않고도 풀 수 있음
보완점: 모든 보기가 지문의 내용을 직접적으로 반영하도록 수정할 것

매력도: 1점
이유: 오답 선택지가 너무 뻔하여 학생들의 흥미를 유발하지 못함
보완점: 오답 선택지를 더 창의적이고 도전적으로 구성하여 학생들의 관심을 끌 것

점수 파싱 예시

평가 항목

어휘 수준 유창성 주장의 입체성 길이

평가 점수 4 5 5 3

최종 점수 4.25

지문 재생성

지문 최종 평가 점수가 일정 점수 이하일 경우, 이유와 보완점을 토대로 지문을 재생성합니다. LLM이 출력한 지문 평가 결과에서 이유와 보완점을 파싱해 추출한 후, 재생성 프롬프트에 넣어줍니다. 재생성 프롬프트에 따라 지문을 재생성합니다. 아래는 지문 재생성 프롬프트의 전문입니다.

Figure 12. 지문 재생성 프롬프트 전문

python

passage_regeneration_template = """

당신은 한국 수능 비문학에 대한 국어 교육 전문가입니다.
정확하고 엄밀한 논리 구조를 갖춘 비문학 지문을 작성해야합니다.

기존 지문의 평가 내용을 반영하여 새롭게 지문을 재작성하세요.

# [기존 지문]

# [평가 내용]

# [요청 사항]
위 지문을 수능 비문학 지문 형식에 맞게 적절히 수정해 주세요.

# [최종 출력 양식]
- 수정된 지문
- 수정 근거(2~4줄)

"""

문제 재생성

문제 최종 평가 점수가 일정 점수 이하일 경우, 이유와 보완점을 토대로 문제를 재생성합니다. LLM이 출력한 문제 평가 결과에서 이유와 보완점을 파싱해 추출한 후, 재생성 프롬프트에 넣어줍니다. 재생성 프롬프트에 따라 문제를 재생성합니다. 아래는 문제 재생성 프롬프트의 전문입니다.

Figure 13. 문제 재생성 프롬프트 전문

python

passage_regeneration_template = """

당신은 한국 수능 비문학에 대한 국어 교육 전문가입니다.
정확하고 엄밀한 논리 구조를 갖춘 비문학 지문을 작성해야합니다.

기존 지문의 평가 내용을 반영하여 새롭게 지문을 재작성하세요.

# [기존 지문]

# [기존 문제]

# [요청 사항]
위 지문을 수능 비문학 지문 형식에 맞게 적절히 수정해 주세요.

# [최종 출력 양식]
- 수정된 지문
- 수정 근거(2~4줄)

"""

4) 출력

재생성한 지문과 문제를 출력합니다. 문제를 출력할 때, 정답과 해설을 같이 출력합니다.

[지문] 독서는 단순한 정보 습득을 넘어 개인의 사고를 확장하고 사회적 상호작용을 촉진하는 중요한 활동이다. ㉠독서는 우리가 세상을 이해하고 다양한 관점을 수용하며 비판적으로 사고하는 데 필수적이다. 현대 사회는 정보의 홍수 속에서 살아가고 있으며, 이러한 환경에서 독서는 필수적인 생존 기술로 자리 잡았다. 독서를 통해 우리는 복잡한 문제를 분석하고 다양한 의견을 비교하며 자신의 생각을 정리할 수 있는 능력을 기를 수 …

[문제]

윗글을 바탕으로 할 때, 지문의 내용과 일치하지 않는 것은?

① 독서는 개인의 사고를 확장하는 데 기여한다. ② 독서는 단순히 정보를 피상적으로 수용하는 수단이 아니다. ③ 독서는 사회적 상호작용을 촉진한다. ④ 독서는 공동체의 발전에 기여하는 중요한 요소이다. ⑤ 독서는 개인의 정서적 성장에 긍정적인 영향을 미친다.

[정답] 정답: ②

[해설] 해설: 지문에서는 독서가 단순히 정보를 피상적으로 수용하는 것을 넘어서는 활동이라고 설명하고 있으므로, 이 내용은 지문과 일치하지 않는다.

4. Experiments & Results

생성/재생성

지문, 문제 생성 및 재생성 을 위해 Chain of Thought(CoT)와 Few-Shot이라는 두 가지 프롬프트 엔지니어링 방법을 이용해 지문을 생성한 후, 결과를 비교합니다.

CoT

한 번의 프롬프트 입력마다 o1의 지문 생성 CoT를 한 단계씩 학습해 지문을 생성하도록 합니다. o1에게 지문을 생성하도록 한 후, o1이 지문 생성에 사용한 CoT를 확인합니다. 확인 결과, o1의 CoT는 주제 설정, 구조 설정, 지문 생성의 세 단계로 이뤄집니다. 지문 생성 단계에서는 실제 수능 출제 지문을 One-Shot 예시로 넣어 LLM이 실제 수능 출제 지문의 형식과 내용을 참고해 지문을 생성하도록 합니다. 각 단계별 프롬프트를 만들어 LLM에 입력한 후, 지문을 생성합니다. 아래는 단계별 프롬프트의 예시입니다.

Figure 14. 지문 생성 CoT 프롬프트 예시

python


CoT1_passage_generation_template  =

"""

아래 기준을 따라에 대한 내용으로 수능 지문을 생성하기 위해 주제를 설정해주십시오.

1. 영역별 주제 설정
읽기(비문학) 언어 영역 시험은 그 목적과 본질상 다양한 교과, 다양한 학문 영역의 통합을 추구한다. 출제 과정 역시 국어∙국문학과 국어교육 전공자뿐 아니라 다른 영역의 전공자도 참여하며, 다루는 14 대 학 수 학 능 력 시 험 출 제 매 뉴 얼 주제와 소재의 제한은 없다.

● 인문∙사회`: 인간의 본질과 사회 현상에 대한 탐구와 설명을 목적으로 하는 텍스트
예) 역사, 철학, 종교, 윤리, 정치, 경제, 사회, 인류, 법, 지리, 언론, 환경 등

● 과학∙기술`: 자연 현상 및 수리(數理), 실용적인 기술에 대한 탐구와 설명을 목적으로 하는 텍스트
예) 수학, 물리, 화학, 생물, 지학, 의학, 공학, 농학, ICT 등

● 문학∙예술`: 미를 추구하는 인간의 본성과 예술 형식에 대한 탐구와 설명을 목적으로 하는 텍스트
예) 시, 소설, 희곡, 음악, 미술, 연극, 영화, 공예, 미학 등

● 생활∙언어`: 언어 그 자체와, 언어를 중심으로 이루어지는 일상 생활 및 문화 현상에 대한 탐구와 설명을 목적으로 하는 텍스트
예) 언어와 기호, 국어의 특징, 의사소통, 매스컴, 일상 대화 등

"""

python


CoT2_passage_generation_template  =

"""

아래 기준을 따라 지문의 구조 설계해주십시오

2. 구조 설계
- 읽기(비문학)에서는 다양한 분야의 글을 접하여 대상을 바라보는 시각과 배경 지식을 넓히고, 어휘력을 신장시키는 데 주안점을 둔다.
● 글에 제시된 정보를 정리하며 읽는 습관 갖기
● 평소 글을 읽을 때 글의 내용을 사실적으로 파악하며 꼼꼼하게 읽는 습관 갖기
● 폭넓고 다양한 독서를 통하여 인문, 사회, 과학, 기술, 예술, 생활, 언어 등의 분야에서 다루는 기본 개념이나 대상을 이해하기 .● 개념적이고 추상적인 글의 내용을 구체적이고 실제적인 상황과 연계하여 이해하기
...

- 읽기는 다양한 글을 제재로 하여 복합적이고 통합적인 문제를 출제하도록 하며, 이를 위해 각 지문에서 어휘∙어법, 사실적 사고, 추론적 사고, 비판적 사고, 창의적 사고를 같이 묻는 방식을 취한다.
● 어휘∙어법`: 어휘는 의사소통의 기반이기 때문에, 어휘의 습득은 정확하고 적절한 의사소통 을 위한 가장 기초적인 활동에 속한다. 구절이나 문장, 나아가 글 전체를 구성하는 근간이 되는 어휘들의 지시적∙문맥적∙내포적 의미를 이해하고 표현할 수 있는 능력은 글 이해를 위한 기본적인 활동이다. 어법은 국어에 대한 규칙으로, 적절하고 정확한 어법의 습득은 국 어를 바르게 이해하고 효과적으로 활용할 수 있게 하는 활동이다. 국어의 규칙을 명제적 지 식이 아니라 절차적 지식과 관련하여 탐구 활동으로 제시함으로써, 기초 언어 능력은 물론 이고 나아가 고차적인 사고력도 측정하는데, 어휘나 어법 문제를 단독으로 제시하여 묻는 것보다는 문장 속에서 문맥적 의미를 묻는 데 중점을 두도록 한다. 또한 절대적 의미를 묻는 문제도 출제할 수 있으며, 언어 지식 즉 문법과 관련된 문제도 다양하게 출제한다.
● 사실적 사고`: 언어로 표현된 말이나 글의 내용을 정확히 파악∙이해하거나 사실에 맞게 언어 적으로 표현하는 능력이다. 예를 들면 언어로 표현된 것을 읽어서 정보를 확인하고 내용을 요약하며 글의 연결과 전개 방법 및 글의 종류와 특징 등을 정확하게 파악할 수 있는 능력 등을 포함한다. 단순한 속독보다는 포괄적이고 종합적인 이해에 중점을 두며, 낯설거나 어 려운 지문을 정확하게 이해하는 과정을 측정하는 문제를 출제한다.
● 추론적 사고`: 사실적 사고 능력보다 한 차원 높은 사고 능력으로 언어의 표현과 이해 과정에 서 내용, 과정, 구조에 대한 추리 과정을 통하여 더욱 깊고 수준 높은 언어를 사용할 수 있는능력과 언어 정보에 대해 다양한 측면에서 논리적으로 사고할 수 있는 능력을 포함한다. 이 능력은 다양한 말이나 글과 같은 언어 표현의 내적 연관성을 종합하여 논리적으로 추리하는 능력과 내용간의 관련성을 긴밀하게 관련지어 전개∙발전시킬 수 있는 능력을 측정하기 위 한 것이다. 추론적 이해와 표현을 지향하여 치밀한 분석 능력을 측정하도록 출제한다.
...

"""

python

CoT3_passage_generation_template =  """

아래 기준을 따라를 주제로 한 1500자 내외의 지문 작성해주십시오

3. 지문 작성
아래는 실제 출제 지문 예시입니다.
- 단순 사실이나 주장을 평면적으로 담고 있는 지문보다 필자의 주장이 입체적으로 전개되고 있는 지문을 선정한다.
- 내용과 형식 면에서 교육적으로 활용할 수 있는 지문을 선정한다.
- 1종, 2종의 각 과목 교과서 글도 지문으로 사용하여 출제한다.

# 실제 출제 지문 예시

# 아래는 지문 생성시 고려해야하는 사항입니다.

## 지문 생성
[생성을 위한 지시문]
- 지시 1:
- 지시 2:
- 지시 3:
...

[수능 지문의 특성]
다음과 같은 특성을 갖춘 지문을 생성합니다.
- 특성 1:
- 특성 2:
- 특성 3:
...

[배제할 내용]
그러나 다음과 같은 내용이 포함된 지문은 배제하도록 한다.
- 배제할 내용 1:
- 배제할 내용 2:
- 배제할 내용 3
...

## 실제 수능 출제 지문 One-Shot 예시

"""

One-Shot

수능 출제 메뉴얼과 실제 수능 출제 지문 1개를 One-Shot으로 넣어 지문을 생성하도록 합니다. 아래는 One-Shot 프롬프트의 예시입니다.

Figure 15. 지문 재생성 One-Shot 프롬프트의 예시

python

one_shot_passage_generation_template =

"""

# 2000자 (공백 제외) 내외의에 대한 수능 지문을 작성해주십시오.

# 아래는 실제 수능 출제 지문 예시입니다. 지문의 형식과 전개 방식을 참고해주십시오.

# 아래는 지문 생성시 고려해야하는 사항입니다.

## 지문 생성
[생성을 위한 지시문]
- 지시 1:
- 지시 2:
- 지시 3:
...

[수능 지문의 특성]
다음과 같은 특성을 갖춘 지문을 생성합니다.
- 특성 1:
- 특성 2:
- 특성 3:
...

[배제할 내용]
그러나 다음과 같은 내용이 포함된 지문은 배제하도록 한다.
- 배제할 내용 1:
- 배제할 내용 2:
- 배제할 내용 3
...

"""

평가: 편향 확인 및 완화를 위한 Instruction 및 Prompt

평가 편향이 발생하는지를 확인하고, 평가 신뢰도를 높이기 위해 여러 종류의 프롬프트를 사용해 평가하고 평가 결과를 비교합니다. 평가할 지문, 문제 쌍 데이터를 만들기 위해 독서, 과학, 문학 등의 10개의 주제별로 지문, 문제 쌍을 하나씩 생성했습니다. 총 10개의 지문,문제 쌍에 대해 각 쌍별로 10번씩 평가했습니다. 평가 지문, 문제 쌍의 예시는 다음과 같습니다. 평가 지문, 문제 쌍의 전문은 Appendix에서 확인 가능합니다.

순서 편향: 수능GPT / GPT수능 순서쌍 프롬프트

순서 편향 여부를 확인하기 위해 실제 수능 출제 지문과 GPT 생성 지문의 등장 순서를 바꿔 평가를 수행합니다. 수능GPT 프롬프트에는 수능 → GPT 순서로, GPT수능 프롬프트에서는 GPT → 수능 순서로 등장하도록 프롬프트를 구성합니다. 서로 다른 등장순서를 가진 두 가지의 프롬프트를 이용해 평가한 후, 평가 점수를 비교해 평가 편향 여부를 확인합니다. 아래는 수능GPT / GPT수능 순서쌍 프롬프트의 예시입니다.

Figure 16. 수능GPT 순서쌍 예시

python

"""

A는 모든 기준에서 5점을 만점으로 충족하는 이상적인 지문입니다.
이를 기준으로 B와의 차이를 비교 평가하십시오. A와 B 각각에 대해 상대평가 점수를 매기십시오.
(예: A: 5점 / B: 2점)

지문 A

지문 B

"""

Figure 17. GPT수능 순서쌍 예시

python

"""

B는 모든 기준에서 5점을 만점으로 충족하는 이상적인 지문입니다.
이를 기준으로 A와의 차이를 비교 평가하십시오. A와 B 각각에 대해 상대평가 점수를 매기십시오.
(예: A: 2점 / B: 5점)

지문 A

지문 B

"""

자기 편향: 긍정형/부정형 프롬프트

자기 편향 여부를 확인하기 위해 GPT 평가 결과와 Claude 평가 결과를 비교합니다. Claude 평가 시에도 GPT 평가 결과와 동일한 수능GPT 순서쌍, GPT수능 순서쌍프롬프트를 이용합니다. 평가 결과,GPT의 평가 점수가 높다면 자기 편향이 있는 것으로 판단합니다.

자기 편향이 있다면, 같은 지문에 대해 긍정형과 부정형 프롬프트를 한 번씩 사용해 자기 편향을 완화합니다. 긍정형 프롬프트에는 “이해에 도전이 될 수 있음”와 같이 긍정적인 어조를 사용해 관대하게 평가를 내리도록 유도합니다. 부정형 프롬프트에는 “전혀 이해하지 못함”와 같이 부정적인 어조를 사용해깐깐하게 평가를 내리도록 유도합니다. 서로 다른 어조를 가진 두 가지의 프롬프트를 이용해 LLM에 긍정적인 페르소나와 부정적인 페르소나를 부여하고, 서로 다른 관점에서 평가하도록 설정해 LLM이 보다 객관적으로 평가하도록 합니다. 아래는 긍정형/부정형 프롬프트를 비교한 예시입니다.

Figure 18. 긍정형 프롬프트 예시

python

"""

## 평가 기준

1. 어휘 수준 (5점 척도)
- 평가 질문: "지문에서 사용하는 어휘가 고등학생들이
자연스럽게 이해하고 활용할 수 있는 수준인가?"

- 평가 지침:
1점: 일부 어휘가 다소 생소하거나 어려워
고등학생들의 이해에 도전이 될 수 있음
5점: 어휘 사용이 매우 적절하고 풍부하여
고등학생들이 자연스럽게 이해하고 학습에 큰 도움이 됨

"""

Figure 19. 부정형 프롬프트

python

"""

## 평가 기준

1. 어휘 수준 (5점 척도)
- 평가 질문: "지문에서 사용하는 어휘가 고등학생들이 이해하기에
지나치게 어렵거나 부적절한가?"
- 평가 지침:
1점: 어휘가 지나치게 쉽거나 어려워 이해하기 힘들어
고등학생들이 전혀 이해하지 못함"
5점: 어휘 사용이 매우 적절하고 풍부하여
고등학생들이 자연스럽게 이해하고 학습에 큰 도움

"""

5. Results

생성 결과

지문 생성 결과

Figure 20. 지문 생성 예시

프롬프트 엔지니어링 방법론 지문 생성 결과

One-Shot 독서는 단순한 정보 습득의 수단을 넘어, 개인의 사고를 확장하고 사회적 상호작용을 촉진하는 중요한 활동이다. ㉠독서는 우리가 세상을 이해하고, 다양한 관점을 수용하며, 비판적으로 사고하는 데 필수적인 역할을 한다. 특히, 현대 사회는 정보의 홍수 속에서 살아가고 있으며, 이러한 환경에서 독서는 필수적인 생존 기술로 자리 잡았다. 독서를 통해 우리는 복잡한 문제를 분석하고, 다양한 의견을 비교하며, 자신의 생각을 정리할 수 있는 능력을 기를 수 있다.

㉡독서의 과정은 단순히 글자를 읽는 것을 넘어, 저자의 의도를 파악하고, 그 내용을 자신의 경험과 연결짓는 복합적인 작업이다. 이 과정에서 독자는 자신의 배경지식과 새로운 정보를 통합하여 의미를 구성하게 된다. 예를 들어, 역사적 사건에 대한 책을 읽을 때, 독자는 그 사건이 발생한 배경과 결과를 이해하고, 이를 통해 현재의 사회적 이슈와 연결 지을 수 있다. 이러한 연결은 독자가 단순한 수동적 수용자가 아니라, 능동적인 사고의 주체로서 성장하는 데 기여한다.

㉢또한, 독서는 사회적 상호작용의 중요한 매개체로 작용한다. 독서 후에 이루어지는 토론이나 대화는 개인의 생각을 더욱 풍부하게 하고, 다른 사람의 관점을 이해하는 기회를 제공한다. 이러한 상호작용은 개인의 사고를 확장할 뿐만 아니라, 공동체의 지식과 이해를 심화시키는 데 기여한다. 예를 들어, 독서 모임에서 다양한 의견을 나누는 과정은 각자의 경험과 지식을 공유하게 하여, 독서의 의미를 더욱 깊이 있게 만들어준다.

㉣독서의 중요성은 단순히 개인의 성장에 그치지 않는다. 독서는 사회의 발전에도 기여한다. 지식이 축적되고 공유되는 과정에서, 독서는 새로운 아이디어와 혁신을 촉진하는 원동력이 된다. 예를 들어, 과학 분야에서의 독서는 연구자들이 기존의 이론을 비판하고 새로운 가설을 제시하는 데 필수적이다. 이러한 과정은 결국 사회의 발전과 진보로 이어진다.

㉤마지막으로, 독서는 개인의 정서적 성장에도 큰 영향을 미친다. 문학 작품을 통해 우리는 다양한 감정을 경험하고, 타인의 삶을 이해하게 된다. 이러한 경험은 공감 능력을 키우고, 인간관계를 더욱 깊이 있게 만들어준다. 독서는 단순한 지식의 습득을 넘어, 인간 존재의 복잡성과 아름다움을 탐구하는 여정이기도 하다.

결론적으로, 독서는 개인의 사고를 확장하고, 사회적 상호작용을 촉진하며, 공동체의 발전에 기여하는 중요한 활동이다. 현대 사회에서 독서의 중요성은 더욱 커지고 있으며, 이를 통해 우리는 더 나은 사회를 만들어갈 수 있는 기반을 다질 수 있다. 독서는 단순한 취미가 아니라, 삶의 필수적인 요소로 자리 잡아야 한다.

CoT 읽는 것은 존재 자체를 넘어선 삶의 일부로 여겨질 수 있습니다. 독서는 우리에게 다양한 지식과 경험을 제공하고, 사고력과 감성을 키우는 소중한 활동입니다. 그런 의미에서 독서는 학습, 성장, 사색의 기회를 제공하는데 도움을 주는 데에 큰 역할을 합니다. 그렇다면, 독서를 하기 위해 조언을 구한다면 어떤 분야의 서적을 추천해주실 것인지 궁금할 것입니다. 이에 따라 저는 여러 독자들이 공감하고 추천하고 있는 '인문학'을 주제로 한 지적인 독서를 추천합니다.

인문학은 인간의 존재, 사회, 문화, 역사 등 인간의 경험과 사색을 탐구하는 학문입니다. 인문학에서 다루는 주제는 매우 다양하며, 철학, 문학, 역사, 예술 등 다양한 분야로 이루어져 있습니다. 인문학을 통해 우리는 인간의 본성과 인간 사회의 모습에 대해 깊이있는 이해를 갖게 됩니다. 또한, 인문학은 우리의 가치관, 사고방식, 문화적인 배경 등을 이해하는 데에도 큰 도움을 주어 삶의 깊이 있는 인격을 발전시키는 데에 기여합니다.

그러나, 많은 사람들이 인문학을 접하는 데 어려움을 겪기도 합니다. 어려운 용어와 개념, 복잡한 이론들로 인해 접근하기 어렵다고 느껴지기도 합니다. 하지만, 초보자를 위한 인문학 도서는 인문학을 이해하기 쉽게 풀어쓰여 있으며, 예쁜 그림과 그림 해설로 독서 경험을 즐겁게 만들어 줍니다. 이러한 책들은 인문학의 복잡한 내용을 교과서보다 쉽고 흥미롭게 설명하여, 독자들이 보다 쉽게 읽고 이해할 수 있도록 도와줍니다.

인문학 도서는 다양한 분야와 지식을 제공하는 동시에, 그 발전과정을 따라가는 것이 중요합니다. 따라서 독서는 특정 지식의 소비가 아니라, 지식의 생산과 창출로서의 자기 성찰을 독려하는 체험입니다. 좋은 인문학 도서는 독자에게 사색과 깨달음을 제공하면서도, 다른 사람들과의 대화와 공유를 통해 의미 있는 경험을 가져다 줍니다. 따라서, 지식과 사고의 폭을 넓히며, 사고력을 기를 수 있는 인문학 도서를 선정하는 것은 매우 중요한 일이라고 할 수 있습니다.

위 표는 각각 One-Shot과 CoT를 이용해 생성한 지문입니다. 정성적인 평가를 통해 두 지문을 비교해 평가한 후, 비교적 완성도 높은 지문을 생성해 낸 프롬프트 엔지니어링 방법론을 최종 지문 생성 방법론으로 채택합니다. 주제 및 주장, 구조, 길이의 세 가지 기준으로 지문을 평가합니다.

첫번째는 주제 및 주장입니다. One-Shot으로 생성한 지문에서는 독서의 기능이라는 주제를 통해 독서가 개인과 사회에 중요한 역할을 한다고 주장하고 있습니다. One-Shot으로 생성한 지문에서는 인문학을 주제로 한 독서를 추천하는 것을 주제로 인문학의 역할을 강조하며, 인문학 독서에 있어 도서 선정이 중요한 역할을 한다고 주장하고 있습니다. 두 지문 모두 일반적인 수능 지문에서 나타나는 입체적인 주장이나 논리 구조를 보여주지는 않지만, ‘독서’라는 주제에 타당한 주장을 펼칩니다.

그 다음은 구조입니다. One-Shot 생성 지문의 경우, 본론의 세 문단 모두 독서의 기능을 근거로 들어 독서의 중요성을 강조함으로서 본론의 각 문단이 통일성을 띄며 자연스럽게 이어집니다. 또한, “지식이 축적되고 공유되는 과정에서, 독서는 새로운 아이디어와 혁신을 촉진하는 원동력이 된다. 예를 들어, 과학 분야에서의 독서는 연구자들이 기존의 이론을 비판하고 새로운 가설을 제시하는 데 필수적이다. 이러한 과정은 결국 사회의 발전과 진보로 이어진다” 와 같이 구체적인 예시를 들어 독서의 기능을 설득력있게 전개합니다. CoT 생성 지문의 경우, 본론의 문단끼리 서로 다른 내용을 강조하고 있어 통일성이 떨어지고, 주제 전환이 잦아 매끄럽게 이어지지 않습니다. 또한, “하지만, 초보자를 위한 인문학 도서는 인문학을 이해하기 쉽게 풀어쓰여 있으며, 예쁜 그림과 그림 해설로 독서 경험을 즐겁게 만들어 줍니다.”에서 볼 수 있듯이 구체적인 예시나 설명 없이 “이해하기 쉽게”, “예쁜 그림과 그림 해설” 등의 주관적이고 모호한 표현을 사용해 주장을 전개해 주장을 이해하기 어렵고 설득력이 떨어집니다.

길이의 경우, One-Shot과 CoT 생성 지문 모두 일반적인 수능 지문의 길이에는 미치지 못하지만 One-Shot 생성 지문이 조금 더 길어 일반적인 수능 지문의 길이에 비교적 더 가깝다는 것을 알 수 있습니다.

위의 예시를 포함해 각각 10개의 주제별 지문을 생성해 비교한 결과, 전반적으로 One-Shot으로 생성한 지문이 CoT로 생성한 지문보다 비교적 높은 완성도를 보입니다. 따라서, One-Shot 프롬프트를 이용해 지문을 생성하는 것으로 지문과 문제 생성 방법을 확정합니다.

문제 생성 결과

Figure 21. 문제 생성 예시

문제 생성 결과

“윗글을 바탕으로 추론한 내용으로 적절하지 않은 것은?”

① 독서는 개인의 경험과 지식을 공유하는 기회를 제공한다. ② 독서는 사회의 발전에 기여할 수 있다. ③ 독서는 단순히 글자를 읽는 것에 그치지 않는다. ④ 독서는 개인의 정서적 성장에 영향을 미치지 않는다. ⑤ 독서는 복잡한 문제를 분석하는 데 도움을 준다.

정답: ④ 해설: 지문에서는 독서가 개인의 정서적 성장에 큰 영향을 미친다고 언급하고 있으므로, 이 내용은 적절하지 않다.

One-Shot을 이용하면 문제도 완성도 있게 생성해내는 것을 알 수 있습니다.

평가 결과

편향 확인 결과

순서 편향

Figure 22. 긍정형 프롬프트를 사용한 지문별 순서쌍 최종 평가 점수 비교 결과

Figure 24. 긍정형 프롬프트를 사용한 문제별 순서쌍 최종 평가 점수 비교 결과

Figure 23. 부정형 프롬프트를 사용한 지문별 순서쌍 최종 평가 점수 비교 결과

Figure 25. 부정형 프롬프트를 사용한 문제별 순서쌍 최종 평가 점수 비교 결과

위 막대 그래프는 지문, 문제별로 순서쌍 간의 최종 평가 점수를 비교한 결과입니다. 긍정형 프롬프트를 사용한 결과와 부정형 프롬프트를 사용한 결과를 나누어 비교했습니다. 전반적으로, GPT가 먼저 등장할 때 GPT 생성 지문의 최종 평가 점수가 더 높습니다. 특히, 부정형 프롬프트를 이용해 평가할 때 순서쌍 간의 점수 차이가 극명합니다. 따라서, 평가 과정에서 앞에 등장하는 항목을 더 높게 평가하는 순서 편향이 발생함을 알 수 있습니다.

자기편향 순서쌍 프롬프트만을 이용해 평가한 결과, 전반적으로 GPT의 평가 점수가 Claude의 평가 점수보다 높습니다. 따라서, 평가 과정에서 LLM 자신이 생성한 응답을 더 높게 평가하는 자기 편향이 발생함을 알 수 있습니다. 자기 편향을 확인했기 때문에 긍정형/부정형 프롬프트를 이용해 다시 평가를 실행합니다. 위에서 순서 편향이 발생함을 확인했기에, 정확한 평가 결과를 위해서는 순서 편향을 통제하는 것이 필요합니다. 따라서, 수능GPT/GPT 수능 순서쌍 프롬프트와 긍정형/부정형 프롬프트를 종합해 수능GPT-긍정, GPT수능-긍정, 수능GPT-부정, GPT수능-부정 네 가지의 프롬프트를 만들어 평가했습니다.

Figure 26. 지문별 Claude와 GPT 4o-mini의 순서쌍, 긍정형/부정형 프롬프트를 이용한 최종 평가 점수 비교 결과

위 그래프는 Claude와 GPT의 지문별 최종 평가 점수와 문제별 최종 평가 점수입니다. 전반적으로 GPT의 평가 점수가 Claude의 평가 점수보다 낮습니다. 따라서, 긍정형과 부정형 프롬프트를 각각 사용해 평가함으로서 자기 편향을 완화했음을 알 수 있습니다.

평가 방법 최종 점수 계산법 확정 실험 결과, 평가 과정에서 순서 편향과 자기 편향이 발생함을 확인할 수 있습니다. 따라서, 편향을 완화하기 위해 긍정-수능GPT, 긍정-GPT수능, 부정-수능GPT, 부정-GPT수능의 네 가지 Prompt를 이용해 생성한 지문과 문제를 평가하는 것으로 평가 방법을 확정합니다. 즉, 하나의 지문/문제마다 네 번의 평가를 거치게 되며 네 개의 평가 점수를 가집니다. 네 개의 평가 점수의 평균값을 최종 점수로 사용합니다. (지문/문제 평가 Prompt는 Appendix C와 D 참조)

Figure 27. 지문 평가 점수 계산 예시

평가 항목

어휘 수준 유창성 주장의 입체성 길이 평균 점수

수능GPT-긍정 4 5 5 3 4.25

GPT수능-긍정 5 5 4 5 4.75

수능GPT-부정 2 3 1 2 2

GPT수능-긍정 3 2 2 3 2.5

최종 점수 3.375

평가 결과

Figure 28. 지문 평가 결과 예시 (전문 Appendix E 참조)

프롬프트 종류 평가 결과

긍정형 수능GPT B |1. 어휘 수준: 4점

이유: 어휘가 다양하고 풍부하여 고등학생들의 어휘력 향상에 크게 기여함.
비교: A는 어휘가 더욱 풍부하고 학습에 적합한 반면, B도 우수하지만 전문 용어가 조금 부족함.
보완점: 전문 용어를 추가하여 어휘 수준을 더욱 향상시킬 수 있음.

긍정형 GPT수능 A |1. 어휘 수준: 4점

이유: 전반적으로 어휘 사용이 적절하고 고등학생들이 이해할 수 있는 수준이며, 독서와 관련된 전문 용어도 나쁘지 않게 활용되었음.
비교: B에 비해 다소 다소 대중화된 어휘 중심으로 구성되어 있어 약간의 전문성이 아쉬움.
보완점: 좀 더 다양한 전문 용어를 적용하고, 다양한 문맥에서 활용되는 어휘를 추가하여 더욱 풍부한 어휘력을 선보일 수 있음

부정형 수능GPT B | 1. 어휘 수준: 2점

이유: 특정 어휘가 지나치게 어려워 고등학생들의 이해를 방해하고 있음.
비교: A와 비교해 B는 고등학생 수준에 적합하지 않은 어휘를 사용하여 지식 습득에 어려움을 주고 있음. - 보완점: 고등학생이 이해할 수 있는 기본적이고 적절한 어휘로 수정하고, 타겟 오디언스에 맞춰 내용을 조정해야 함.

부정형GPT수능 A | 1. 어휘 수준: 3점

이유: 어휘가 전반적으로 적절하긴 하나, 일부 표현이 고등학생들에게 다소 어려울 수 있어 이해하는 데 약간의 어려움이 있음.
비교: B는 어휘 사용이 매우 적절하고 고급 어휘가 포함되어 있어 이해에 큰 도움이 됨. A는 명확하고 간결하게 전달되지 않음.
보완점: 복잡한 표현을 더 쉬운 어휘로 바꾸어 고등학생들이 명확하게 이해할 수 있도록 수정해야 함. 됨.

Figure 29. 문제 평가 결과 예시 (Appendix F 참조)

프롬프트 종류 평가 결과

긍정형 수능GPT B 문제 평가:

매력도: 3점
이유: 오답 선택지는 비교적 그럴듯하지만, 학생들이 더 고민하게 만들 만한 흥미로운 오답을 구성하는 데는 부족함이 있다.
보완점: 오답 선택지를 보다 창의적으로 구성하여 학생들이 ‘혹시 이게 맞을까?’라는 생각을 하게 만드는 식으로 가다듬어야 한다. 예를 들어, ‘독서는 지식을 단지 기록하는 수단이다’와 같은 선택지를 추가하면 흥미를 끌 수 있을 것이다.

긍정형 GPT수능 A 문제 평가:

매력도: 3점
이유: 오답 선택지는 그럴듯하게 보이지만, 흥미를 끌기에는 뻔한 감이 있습니다. '단순한 정보 습득의 수단이다'와 같은 선택지는 학생들이 쉽게 비난할 수 있는 터무니없는 표현으로 여겨질 가능성이 있습니다.
보완점: 오답 선택지를 더 창의적이고 다양하게 구성하여, 학생들이 고민하도록 이끌 수 있도록 하면 좋겠다. 예를 들어, 독서의 부정적인 측면이나 통념을 뒤집는 보기를 통해 사고의 폭을 넓힐 수 있는 질문이 추가될 수 있습니다.

부정형 수능GPT B 문제 평가:

매력도: 3점
이유: 오답 선택지가 다소 뻔하고 직관적인 경우가 있어 학생들이 큰 고민을 하지 않고 정답을 쉽게 추측할 수 있음.
보완점: 각 보기를 더욱 복잡하고 설득력 있는 선택지로 개선하여 학생들이 깊이 있게 고민하게 만들 필요가 있음. 오답 보기를 더욱 강조해 혼란을 유도할 수 있는 방식으로 수정하는 것이 좋음.

부정형GPT수능 A 문제 평가:

매력도: 2점
이유: 오답 선택지가 다소 직관적이라서, 학생들이 고려하지 않고 간단히 지나칠 수 있습니다. 선택지 ②의 비판 요소가 직접적이라 학생들에게 도전감을 주지 못합니다.
보완점: 독서의 여러 측면을 강조하는 비슷한 상황이 포함된 여러 선택지를 제시하여, 학생들이 신중하게 고민하게 만드는 방향으로 수정해야 합니다. 예를 들어, "독서는 다양한 저자와 이야기를 통해 세상을 이해할 수 있는 한 방법이다."와 같은 보기를 포함할 수 있습니다.

최종 평가 점수

Figure 30. 지문 평가 점수

지문 번호

프롬프트 종류 1 2 3 4 5 6 7 8 9 10

긍정형 수능GPT 4.18 3.83 4.23 4.13 4.08 4.08 4.13 4.00 4.00 4.15

긍정형 GPT수능 3.60 3.53 4.18 3.78 4.30 4.00 4.35 3.50 3.78 4.08

부정형 수능GPT 2.18 2.28 1.93 1.93 2.08 2.03 2.02 1.93 2.23 2.18

부정형 GPT수능 2.40 2.31 2.75 2.44 2.30 2.31 2.45 2.60 2.31 2.75

Figure 31. 문제 최종 평가 점수

지문 번호

프롬프트 종류 1 2 3 4 5 6 7 8 9 10

긍정형 수능GPT 4.03 4.23 4.13 4.00 4.08 4.00 4.18 3.98 3.95 4.08

긍정형 GPT수능 4.13 4.23 4.15 3.85 4.33 3.80 4.10 3.65 3.58 4.18

부정형 수능GPT 3.13 2.95 3.25 2.93 3.30 2.80 3.10 2.98 2.83 2.98

부정형GPT수능 2.90 3.50 3.38 3.23 3.48 3.33 3.30 2.65 2.95 3.50

지문, 문제별로 네 개의 Prompt를 이용해 평가, 각각 40개씩의 최종 평가 점수를 도출합니다. Prompt별로 점수가 일치하지 않는 것을 알 수 있습니다. 부정형 Prompt의 경우 평가 점수가 전반적으로 낮으며, 긍정형/부정형 Prompt 간의 평가 점수 차이가 극명한 것을 알 수 있습니다.

재생성 점수

지문, 문제의 최종 평가 점수 각각 40개씩을 이용해 누적 분포 그래프를 그린 결과입니다. 하위 20%에 해당하는 점수를 재생성 Threshold, 즉 재생성의 기준으로 삼습니다. 지문은 최종 평가 점수가 3.35점 이하일 경우, 문제는 최종 평가 점수가 3.02점 이하일 경우, 하위 20%에 해당합니다. 따라서, 지문 최종 평가 점수가 3.35점 이하일 경우, 문제의 경우최종 평가 점수가 3.02점 이하일 경우 재생성합니다.

Human Evaluation과의 일치도

평가 성능을 확인하기 위해 LLM Evaluation과 Human Evaluation 결과를 비교합니다.

Figure 34. 지문: Human Evaluation과 LLM Evaluation 결과 비교

Figure 35. 문제: Human Evaluation과 LLM Evaluation 결과 비교

5점 척도로 지문과 문제를 평가하기 때문에 Pearson 상관계수를 통해 LLM Evaluation과 Human Evaluation의 일치도를 구합니다. Pearson 상관계수는 각각 지문: -0.38, 문제: -0.13입니다. p-value는 각각 지문: 0.2762 문제: 0.7172입니다Pearson 상관계수를 가집니다. 지문과 문제 모두 인간 평가 점수가 높아질수록 LLM 평가 점수가 낮아지는 경향이 있으나, 지문과 문제 모두 p-value가 0.05보다 커 통계적으로 유의미하지 않습니다. 따라서, LLM Evaluation과 Human Evaluation 간의 일치도가 떨어짐을 알 수 있습니다.

LLM Evaluation과 Human Evaluation 간의 일치도가 떨어지는 이유로는 성능의 한계와 데이터의 부족을 들 수 있습니다. 먼저, GPT 4o-mini 모델 자체 성능의 한계로 수능 지문과 문제의 형식을 완벽히 파악하지 못해 정확한 평가를 내리지 못합니다. 또한, 일치도 비교에 지문,문제별로 적게는 4~5개의 Human Evaluation 데이터를 사용합니다. 데이터의 개수가 현저히 적어 정확한 상관계수를 발견하기 어렵습니다.

Human Evaluation을 통해 얻은 인간 평가자의 피드백은 다음과 같습니다.

지문 번호 피드백 예시

1 "어휘가 너무 쉬운 것 같고, 각 문단에서 중심 내용과 예시가 잘 맞지 않는 것 같습니다. 특히 ㄷ 문단이 그렇습니다. ㄴ 문단이 가장 적절하고 좋은 것 같습니다."

"질문에 내용을 선지에 반영을 하려고 하다 보니깐 paraphrase가 적절하게 되지 않은 느낌이 들어요"

"수능 1번 문제 같은데 조금은 선지에 장난을 쳐도 좋을거 같아요"

"문제가 단순함."

2 “이 지문 역시 지문의 내용이 맞고 틀린지를 물어 보는 유형의 문제다 보니까.. 선지 내용이 지문을 너무 그대로 반영하고 있는 느낌 “

“지문 자체가 깔끔하네요. 뒤에 요약 해놓은것도 수능 느낌이 나네요”

3 “문제가 너무 쉬워요. 지문을 왜 가나다라순으로 나눈지 모르겠어요”

4 "경제용어가 기초적인것만 나와서 난이도가 낮은거 같아요”

재생성 결과

지문, 문제별로 네 개의 평가 결과가 출력됩니다. Input의 길이가 길어질수록 성능이 저하되고 API 비용이 증가하기 때문에 가장 부정적으로 평가하는 경향을 보이는 부정-수능GPT 평가 프롬프트의 평가 결과를 재생성 프롬프트에 입력한 다음, 재생성

지문 재생성

Figure 36. 지문 재성성 결과 예시

GPT 생성 지문 지문 재생성 결과

독서는 단순한 정보 습득의 수단을 넘어, 개인의 사고를 확장하고 사회적 상호작용을 촉진하는 중요한 활동이다. ㉠독서는 우리가 세상을 이해하고, 다양한 관점을 수용하며, 비판적으로 사고하는 데 필수적인 역할을 한다. 특히, 현대 사회는 정보의 홍수 속에서 살아가고 있으며, 이러한 환경에서 독서는 필수적인 생존 기술로 자리 잡았다. 독서를 통해 우리는 복잡한 문제를 분석하고, 다양한 의견을 비교하며, 자신의 생각을 정리할 수 있는 능력을 기를 수 있다. 독서는 단순한 정보 습득을 넘어 개인의 사고를 확장하고 사회적 상호작용을 촉진하는 중요한 활동이다. ㉠독서는 우리가 세상을 이해하고 다양한 관점을 수용하며 비판적으로 사고하는 데 필수적이다. 현대 사회는 정보의 홍수 속에서 살아가고 있으며, 이러한 환경에서 독서는 필수적인 생존 기술로 자리 잡았다. 독서를 통해 우리는 복잡한 문제를 분석하고 다양한 의견을 비교하며 자신의 생각을 정리할 수 있는 능력을 기를 수 있다.

지문 재생성 결과, “ ㉠독서는 우리가 세상을 이해하고, 다양한 관점을 수용하며, 비판적으로 사고하는 데 필수적인 역할을 한다를 “ ㉠독서는 우리가 세상을 이해하고 다양한 관점을 수용하며 비판적으로 사고하는 데 필수적이다”로 수정했을 뿐, 다른 변화는 없어 지문 내용이나 구성 자체의 유의미한 변화는 없습니다.

지문 재생성

Figure 37. 문제 재생성 결과 예시

GPT 생성 문제 문제 재생성 결과

2. “윗글을 바탕으로 할 때, 지문의 내용과 일치하지 않는 것은?” ① 독서는 개인의 사고를 확장하는 데 기여한다. ② 독서는 단순한 정보 습득의 수단이다. ③ 독서는 사회적 상호작용을 촉진한다. ④ 독서는 공동체의 발전에 기여한다. ⑤ 독서는 개인의 정서적 성장에 영향을 미친다.

정답: ② 해설: 지문에서는 독서가 단순한 정보 습득을 넘어서는 활동이라고 설명하고 있으므로, 이 내용은 지문과 일치하지 않는다.

간단한 수정 근거: 문제의 선택지 ②를 "단순한 정보 습득의 수단이다"에서 "단순히 정보를 피상적으로 수용하는 수단이 아니다"로 수정하여, 지문의 내용을 보다 명확하게 반영하도록 하였습니다. 이로 인해 학생들이 지문의 핵심 내용을 깊이 이해해야만 정답을 도출할 수 있도록 난이도를 조정했습니다. 또한, 다른 선택지들도 지문의 내용을 보다 구체적으로 반영하도록 다듬었습니다 2. “윗글을 바탕으로 할 때, 지문의 내용과 일치하지 않는 것은?” ① 독서는 개인의 사고를 확장하는 데 기여한다. ② 독서는 단순히 정보를 피상적으로 수용하는 수단이 아니다. ③ 독서는 사회적 상호작용을 촉진한다. ④ 독서는 공동체의 발전에 기여하는 중요한 요소이다. ⑤ 독서는 개인의 정서적 성장에 긍정적인 영향을 미친다.

정답: ② 해설: 지문에서는 독서가 단순히 정보를 피상적으로 수용하는 것을 넘어서는 활동이라고 설명하고 있으므로, 이 내용은 지문과 일치하지 않는다.

간단한 수정 근거: 문제의 선택지 ②를 "단순한 정보 습득의 수단이다"에서 "단순히 정보를 피상적으로 수용하는 수단이 아니다"로 수정하여, 지문의 내용을 보다 명확하게 반영하도록 하였습니다. 이로 인해 학생들이 지문의 핵심 내용을 깊이 이해해야만 정답을 도출할 수 있도록 난이도를 조정했습니다. 또한, 다른 선택지들도 지문의 내용을 보다 구체적으로 반영하도록 다듬었습니다

문제 재생성 결과, “독서는 단순한 정보 습득의 수단이다”’가 “단순히 정보를 피상적으로 수용하는 수단이 아니다.”로 수정하는 등 선지별 내용을 수정한 것을 알 수 있습니다. 하지만, 역시 새로운 선지를 생성해내는 등 문제 내용이나 구성 자체의 유의미한 변화를 만들어내지는 못합니다. 결론적으로, 문장 내에서 어휘나 내용을 수정하는 것은 가능한 것으로 보이나 여러 문장으로 구성된 지문 전체의 구조나 내용을 수정하는 것은 불가능해 보입니다.

o1으로 지문을 재생성한 결과, o1은 지문과 의 내용과 구조를 더욱 그럴 듯하게 수정합니다. 추후에 여러 번의 인퍼런스나 프롬프트 최적화를 통해 GPT 4o-mini로 o1의 성능을 구현하는 방법을 연구하거나, 재생성 단계에는 o1 모델을 사용하는 방향을 고려해 볼 수 있습니다.

최종 결과 정리

입력, 생성 및 평가를 거쳐 출력하는 지문, 문제 생성 결과는 다음과 같습니다.

[최종 출력 지문] 독서는 단순한 정보 습득을 넘어 개인의 사고를 확장하고 사회적 상호작용을 촉진하는 중요한 활동이다. ㉠독서는 우리가 세상을 이해하고 다양한 관점을 수용하며 비판적으로 사고하는 데 필수적이다. 현대 사회는 정보의 홍수 속에서 살아가고 있으며, 이러한 환경에서 독서는 필수적인 생존 기술로 자리 잡았다. 독서를 통해 우리는 복잡한 문제를 분석하고 다양한 의견을 비교하며 자신의 생각을 정리할 수 있는 능력을 기를 수 있다. ㉡독서 과정은 단순히 글자를 읽는 것을 넘어 저자의 의도를 파악하고 그 내용을 자신의 경험과 연결짓는 복합적인 작업이다. 이 과정에서 독자는 자신의 배경지식과 새로운 정보를 통합하여 의미를 구성하게 된다. 예를 들어, 역사적 사건에 대한 책을 읽을 때 독자는 그 사건의 배경과 결과를 이해하고 이를 통해 현재의 사회적 이슈와 연결 지을 수 있다. 이러한 연결은 독자가 수동적 수용자가 아니라 능동적인 사고의 주체로 성장하는 데 기여한다. ㉢또한, 독서는 사회적 상호작용의 중요한 매개체로 작용한다. 독서 후 이루어지는 토론이나 대화는 개인의 생각을 더욱 풍부하게 하고 다른 사람의 관점을 이해하는 기회를 제공한다. 이러한 상호작용은 개인의 사고를 확장할 뿐만 아니라 공동체의 지식과 이해를 심화시키는 데 기여한다. 예를 들어, 독서 모임에서 다양한 의견을 나누는 과정은 각자의 경험과 지식을 공유하게 하여 독서의 의미를 더욱 깊이 있게 만들어준다. ㉣독서의 중요성은 개인의 성장에 그치지 않는다. 독서는 사회의 발전에도 기여한다. 지식이 축적되고 공유되는 과정에서 독서는 새로운 아이디어와 혁신을 촉진하는 원동력이 된다. 예를 들어, 과학 분야에서의 독서는 연구자들이 기존 이론을 비판하고 새로운 가설을 제시하는 데 필수적이다. 이러한 과정은 결국 사회의 발전과 진보로 이어진다. ㉤마지막으로, 독서는 개인의 정서적 성장에도 큰 영향을 미친다. 문학 작품을 통해 우리는 다양한 감정을 경험하고 타인의 삶을 이해하게 된다. 이러한 경험은 공감 능력을 키우고 인간관계를 더욱 깊이 있게 만들어준다. 독서는 단순한 지식의 습득을 넘어 인간 존재의 복잡성과 아름다움을 탐구하는 여정이기도 하다. 결론적으로, 독서는 개인의 사고를 확장하고 사회적 상호작용을 촉진하며 공동체의 발전에 기여하는 중요한 활동이다. 현대 사회에서 독서의 중요성은 더욱 커지고 있으며, 이를 통해 우리는 더 나은 사회를 만들어갈 수 있는 기반을 다질 수 있다. 독서는 단순한 취미가 아니라 삶의 필수적인 요소로 자리 잡아야 한다.

[최종 출력 문제] 2.“윗글을 바탕으로 할 때, 지문의 내용과 일치하지 않는 것은?” ① 독서는 개인의 사고를 확장하는 데 기여한다. ② 독서는 단순히 정보를 피상적으로 수용하는 수단이 아니다. ③ 독서는 사회적 상호작용을 촉진한다. ④ 독서는 공동체의 발전에 기여하는 중요한 요소이다. ⑤ 독서는 개인의 정서적 성장에 긍정적인 영향을 미친다.

정답: ② 해설: 지문에서는 독서가 단순히 정보를 피상적으로 수용하는 것을 넘어서는 활동이라고 설명하고 있으므로, 이 내용은 지문과 일치하지 않는다.

6. Conclusion

프로젝트의 정당성 및 활용 가능성

정당성 LLM을 단순히 문제 생성 도구로 사용하는 것을 넘어, 생성된 지문과 문제를 평가하는 Judge로도 활용할 수 있음을 확인했습니다. 문제 생성부터 검증까지의 전체 과정에서 LLM의 잠재적 유용성을 입증할 수 있었습니다. 수능 문제를 출제하는 데에는 많은 자원과 시간이 소요되며, 이는 교육 시스템에서 상당한 부담으로 작용합니다. 그러나 LLM을 활용하면 문제 제작 과정을 자동화함으로써 제작 효율성을 크게 높일 수 있을 것입니다. 더불어, 개인화된 양질의 학습 자료를 학생에게 저비용으로 제공할 수 있어, 학생 간의 교육 격차를 완화하는 데 기여할 수 있습니다.

활용 가능성 LLM이 단순히 문제를 생성하는 것에 그치지 않고, 문제의 난이도를 평가하고, 정답을 검토하며, 해설까지 작성할 수 있으므로 학생들에게 종합적인 학습 경험을 제공할 수 있습니다. 또한, LLM은 학습자의 수준에 맞춰 다양한 난이도를 설정할 수 있기 때문에, 학생들이 자신에게 적합한 수준에서 문제를 풀며 학습할 수 있습니다. 이를 통해 특정 주제나 문항 유형에 대한 집중적인 연습 자료를 제공하는 것도 가능해지며, 개인 맞춤형 학습 환경을 만들 수 있습니다.

아쉬운 점 및 보완 방향

생성한 지문/문제의 완성도 부족 수능의 출제 방식, 평가 기준에 대한 깊은 이해가 부족해 지문과 문제의 질적 완성도가 떨어지는 경우가 있었습니다. 이를 보완하기 위해 지문의 경우, 고등학교 수준에 맞지 않는 너무 쉬운 어휘와 개념만을 사용해 지문을 구성합니다. GPT 4o-mini 스스로 전문적인 수준의 어휘와 개념을 습득하지 못했거나, 습득했다 하더라도 전문적인 수준의 어휘와 개념을 사용해 자연어 텍스트를 생성하지 못하는 것으로 보입니다. 문제의 경우, 지문을 단순히 요약해 선지를 구성합니다. 지문의 주장을 분석해 지문에 등장하지 않는 예시를 들어 선지를 구성하는 등 창의적인 생성을 해내지 못하는 것으로 보입니다. 수능 문제 출제 경험이 있는 전문가나 교육자의 피드백을 얻어 Prompt를 최적화하거나. 생성한 지문/문제를 평가한 후 수정하는 과정을 반복적으로 거쳐 완성도를 점진적으로 개선할 수 있습니다.

재생성 시, 피드백 반영 부족 평가 후 재생성 시, 어떤 점을 수정해야 하는지, 혹은 어떤 점이 수정되었는지 LLM이 이해하지 못하는 경우가 있었습니다. 이를 보완하기 위해 문제의 수정 방향이나 평가 기준을 명확히 제시할 수 있는 구체적인 지표가 이미 존재하는지, 또는 새로운 지표를 설계할 수 있을지 알아봅니다.

Few-shot 예시 모방 Few-shot 예시를 입력하면, 지문이나 문제가 Few-shot 예시와 비슷하게 생성되는 경향이 있었습니다. 이를 보완하기 위해 예시의 수를 늘리거나, 예시와 함께 명확한 지침을 제공하거나, 더욱 다양한 예시를 조합하여 모델의 일반화 성능을 강화합니다. 다양한 패턴의 문제 데이터를 포함하여 모델을 Fine-tuning해 생성 결과가 특정 스타일로 편향되지 않게 조정하는 방법도 있습니다.

특정 표현, 지표 인식 불가 (가), ㄱ 과 같은 특정 표현이나 지표를 인식하지 못했습니다. 이를 보완하기 위해 문제 생성 후 (가), ㄱ과 같은 표현을 삽입하는 규칙 기반 후처리 알고리즘을 적용합니다. 혹은, (가), ㄱ이 포함된 문제 템플릿을 미리 정의하고, 생성된 텍스트를 해당 템플릿에 맞춰 조정합니다.

문제 유형 다양성 부족 선지형, 단답형, 서술형 등 특정 유형의 문제를 생성하는 데 있어 다양성이 낮았습니다. 이를 보완하기 위해 유형별로 고도화된 알고리즘과 함수 설계를 통해 다양한 문제 유형을 안정적으로 생성할 수 있도록 기능을 강화합니다.

Appendix

A. 지문 생성 Instruction

python

instruction = """

# 당신은 “한국 수능 비문학(독서)"에 관한 교사이자 교육 평가 전문가입니다.

## 지문 생성

한국 수능에 나올 법한 비문학(독서) 지문을 작성합니다.

지문의 주제 주어진 주제를 사용하되, 지나치게 전문적이거나 특정 전공 지식이 필수적인 내용은 피하십시오.

분량은 대략 2000자(공백 제외) 정도로, 수능에서 흔히 볼 수 있는 난이도를 유지하십시오.

타인의 저작권을 침해하지 않는 오리지널 텍스트를 작성하십시오.

실제 시험 현장에서 사용 가능한 자연스러운 문체와 어휘, 문장 구조를 사용하십시오.

다음과 같은 특성을 갖춘 지문을 생성합니다.

- 삶의 경험과 사색이 응축된 글
- 현대적인 관점에서 계승할 만한 가치 있는 내용을 담은 고전
- 풍부한 정서를 잘 표현하고 있는 아름다운 글
- 논리적∙구성상의 엄밀성, 내용상의 풍부함 등 일반적인 좋은 글의 요건이 두루 갖추어져 글쓰기의 모범을 보이는 글
- 치밀한 사고와 엄밀한 논리적인 전개를 보여주는 글
- 글 자체가 탐구 정신을 자극할 뿐만 아니라 읽기 과정 자체를 통하여 사고의 폭을 넓혀 주고, 사고력 훈련의 기회가 될 수 있는 글
- 단순 사실이나 주장을 평면적으로 담고 있는 지문보다 필자의 주장이 입체적으로 전개되고 있는 지문을 선정한다.
- 내용과 형식 면에서 교육적으로 활용할 수 있는 지문을 선정한다.
- 가능한 한 문제 상황 중심으로 통합 교과적 소재를 활용하여 출제한다.

그러나 다음과 같은 내용이 포함된 지문은 배제하도록 한다.

- 특정 종교나 특정 지역 혹은 여성, 노인, 장애인을 근거 없이 비방하는 내용
- 논쟁의 여지가 있는 민감하거나 자극적인 내용
- 지나치게 난삽한 내용이나 학계에서 공인되지 않은 학설을 의문의 여지가 없는 진리인 듯 기술한 내용
- 논쟁의 대상인 어느 한편을 일방적으로 옹호만 하거나 비난하면서 균형 감각을 상실하고 있는 내용

"""

B. 문제 생성 Instruction

python

question_generation_instruction =
"""
# 각 문항은 아래 문제 유형을 골고루 반영해 주세요.
(1) 어휘∙어법 관련
지문에 사용된 특정 어휘(또는 표현)의 의미를 묻거나, 문맥에 맞는 문법적 형태를 고르는 문제 등

(2) 사실적 사고
지문에 제시된 정보∙사실을 이해∙요약하거나, 지문의 내용과 일치/불일치를 판단하는 문제
예시: “윗글을 바탕으로 할 때, 지문의 내용과 일치하지 않는 것은?”

(3) 추론적 사고
문맥적∙논리적 관계를 분석하여 결론을 도출하거나, 지문의 다음 전개를 추측하게 하는 문제
예시: “윗글을 바탕으로 추론한 내용으로 적절하지 않은 것은?”

(4) 비판적 사고
지문 속 필자의 주장이나 예시에 대한 적절성∙타당성을 평가하는 문제
예시: “지문에 나타난 생각으로 적절하지 않은 것은?”

# 아래는 문제를 만들 때 참고해야하는 사항입니다.

## 문항
독창성: 시중 참고서나 모의고사, 학원 교재, 신문 등에 그대로 나와 있는 문항은 없는가?

난이도: 지나치게 어렵거나 쉬운 문항은 없는가?
        난이도와 변별도는 적절한가?

길이: 답지의 길이가 지나치게 길거나 짧은 것은 없는가?
      문두나 답지의 문장 표현이 불필요하게 장황한 것은 없는가?

관련성: 문제와 직접 관련이 없는 답지가 제시되어 있지는 않은가?

균형성:	정답이 특정한 답지에 편중되어 있지는 않은가?

## 정답지
객관성:	관점에 따라 오답이 될 가능성은 없는가?

난이도:	묻는 내용을 잘 모르는 학생들도 금방 정답을 찾을 수 있는, 너무 뻔한 답지가 아닌가?

관련성:	지문이나 문두와 관계없이 정답을 찾을 수 있지는 않은가?

명확성:	정답 시비의 소지가 있지는 않은가?

## 오답지
변별성:	정답지에 비해 너무 눈에 띄는 오답지는 없는가?

매력도:	오답지의 매력도가 너무 부족하지 않은가?

객관성:	관점에 따라 정답이 될 가능성은 없는가?

관련성:	오답지는 모두 문두나 보기, 지문과 직접적으로 관련이 있는가?
"""

C. 지문 평가 Prompt C.1 지문 긍정형 평가 Prompt

python

positive_prompt_template = """

1. 어휘 수준 (5점 척도)
- 평가 질문: "지문에서 사용하는 어휘가 고등학생들이 자연스럽게 이해하고 활용할 수 있는 수준인가?"
- 평가 지침:
1점: 일부 어휘가 다소 생소하거나 어려워 고등학생들의 이해에 다소 도전이 될 수 있음
2점: 어휘 선택이 전반적으로 적절하지만, 몇몇 단어는 추가 설명이 필요할 수 있음
3점: 대부분의 어휘가 고등학생들에게 친숙하며, 이해에 무리가 없음
4점: 어휘가 다양하고 풍부하여 고등학생들의 어휘력 향상에 기여함
5점: 어휘 사용이 매우 적절하고 풍부하여 고등학생들이 자연스럽게 이해하고 학습에 도움이 됨

2.유창성 (5점 척도)
- 평가 질문: "지문의 문장이 매끄럽고 논리적으로 연결되어 고등학생들이 읽기에 편안한가?"
- 평가 지침:
1점: 문장 구조가 다소 복잡하거나 일관성이 부족하여 읽기에 어려움이 있음
5점: 뛰어난 유창성과 논리적 연결로 고등학생들이 쉽게 이해하고 몰입할 수 있음

3. 주장의 입체성 (5점 척도)
- 평가 질문: "지문의 주장이 다각적으로 전개되어 고등학생들이 다양한 관점에서 사고할 수 있게 하는가?"
- 평가 지침:
1점: 주장이 다소 단편적이거나 한정된 관점에서 전개됨
5점: 주장이 매우 입체적으로 전개되어 고등학생들이 깊이 있는 사고와 분석을 할 수 있게 함

4. 길이 (5점 척도)
- 평가 질문: "지문의 길이가 수능 지문의 길이와 비슷한가?"
- 평가 지침:
1점: 지문의 길이가 수능 지문보다 1000자 정도 짧거나 길다
5점: 지문의 길이가 수능 지문와 비슷함

수능 지문은 모든 기준을 5점 만점으로 충족하는 지문입니다. 수능 지문을 기준으로, 차이를 비교하십시오.
수능 지문과 GPT생성 지문을 상대평가로 점수를 매겨주십시오.
수능 지문의 점수를 매기고 GPT 생성 지문의 점수를 매겨주세요.

## 결과 출력 형식
- 평가 결과에 대한 이유와 비교 결과도 함께 제시해 주십시오.
- 5점 미만인 항목에 대해 보완점도 제시해 주십시오
- 출력 형식은 아래의 예시를 참고하세요

-예시)
수능 지문 | 모든 기준 5점
어휘 수준: ** 5점 **
이유: 어휘 사용이 매우 적절하고 풍부하여 고등학생들이 자연스럽게 이해하고 학습에 도움이 됨

유창성: ** 5점 **
이유: 뛰어난 유창성과 논리적 연결로 고등학생들이 쉽게 이해하고 몰입할 수 있음

주장의 입체성: ** 5점 **
이유: 주장이 매우 입체적으로 전개되어 고등학생들이 깊이 있는 사고와 분석을 할 수 있게 함

길이: ** 5점 **
이유: 지문의 길이가 최적화되어 고등학생들이 충분히 읽고 깊이 있는 사고를 할 수 있는 이상적인 분량임 (1501자 이하)

GPT 생성 지문 |
어휘 수준: ** 4점 **
이유: 어휘가 다양하고 풍부하여 고등학생들의 어휘력 향상에 크게 기여함
비교: 수능 지문은 어휘 사용이 매우 풍부하고 다양하여 학습에 최적인 반면, GPT 생성 지문도 우수하지만 약간 덜 다양함
보완점: 일부 전문 용어를 추가하여 어휘 수준을 더욱 향상시킬 수 있음

유창성: ** 4점 **
이유: 문장 구성이 매우 매끄럽고 자연스러워 읽는 흐름이 좋음
비교: 수능 지문은 유창성과 논리적 연결이 뛰어나 몰입도가 매우 높았으며, GPT 생성 지문도 거의 유사하게 우수함
보완점: 문장 연결을 더욱 강화하여 유창성을 수능 지문 동일하게 맞출 수 있음

주장의 입체성: ** 4점 **
이유: 주장이 다양한 관점에서 심도 있게 다루어져 사고의 폭을 넓힘
비교: 수능 지문은 주장이 매우 입체적으로 전개되어 깊이 있는 사고를 유도하는 반면, GPT 생성 지문도 훌륭하지만 약간의 추가적인 관점이 있을 수 있음
보완점: 추가적인 관점을 포함하여 주장의 입체성을 더욱 강화할 수 있음

길이: ** 4점 **
이유: 지문의 길이가 충분하여 심도 있는 이해와 사고를 유도함 (1201~1500자)
비교: 수능 지문은 길이가 최적화되어 이상적인 분량인 반면, GPT 생성 지문도 적절하지만 약간 짧아질 수 있음
보완점: 상세한 예시를 추가하여 지문의 내용을 더욱 풍부하게 만들 수 있음(1501자 이하)

## 위 지침에 따라, 긍정적으로 지문을 살펴보시고 평가 기준에 맞추어 점수를 매긴 뒤,
점수가 만점에 미치지 못하면 개선을 위한 제언을 함께 제시해 주십시오.

감사합니다.

"""

C.2 지문 부정형 평가 Prompt

python

negative_prompt_template = """

## 평가기준

1. 어휘 수준 (5점 척도)
- 평가 질문: "지문에서 사용하는 어휘가 고등학생들이 자연스럽게 이해하고 활용할 수 있는 수준인가?"
- 평가 지침:
1점: 일부 어휘가 다소 생소하거나 어려워 고등학생들의 이해에 다소 도전이 될 수 있음
2점: 어휘 선택이 전반적으로 적절하지만, 몇몇 단어는 추가 설명이 필요할 수 있음
3점: 대부분의 어휘가 고등학생들에게 친숙하며, 이해에 무리가 없음
4점: 어휘가 다양하고 풍부하여 고등학생들의 어휘력 향상에 기여함
5점: 어휘 사용이 매우 적절하고 풍부하여 고등학생들이 자연스럽게 이해하고 학습에 도움이 됨

2.유창성 (5점 척도)
- 평가 질문: "지문의 문장이 매끄럽고 논리적으로 연결되어 고등학생들이 읽기에 편안한가?"
- 평가 지침:
1점: 문장 구조가 다소 복잡하거나 일관성이 부족하여 읽기에 어려움이 있음
5점: 뛰어난 유창성과 논리적 연결로 고등학생들이 쉽게 이해하고 몰입할 수 있음

3. 주장의 입체성 (5점 척도)
- 평가 질문: "지문의 주장이 다각적으로 전개되어 고등학생들이 다양한 관점에서 사고할 수 있게 하는가?"
- 평가 지침:
1점: 주장이 다소 단편적이거나 한정된 관점에서 전개됨
5점: 주장이 매우 입체적으로 전개되어 고등학생들이 깊이 있는 사고와 분석을 할 수 있게 함

4. 길이 (5점 척도)
- 평가 질문: "지문의 길이가 수능 지문의 길이와 비슷한가?"
- 평가 지침:
1점: 지문의 길이가 수능 지문보다 1000자 정도 짧거나 길다
5점: 지문의 길이가 수능 지문와 비슷함

수능 지문은 모든 기준을 5점 만점으로 충족하는 지문입니다. 수능 지문을 기준으로, 차이를 비교하십시오.
수능 지문과 GPT생성 지문을 상대평가로 점수를 매겨주십시오.
수능 지문의 점수를 매기고 GPT 생성 지문의 점수를 매겨주세요.

## 결과 출력 형식
- 평가 결과에 대한 이유와 비교 결과도 함께 제시해 주십시오.
- 5점 미만인 항목에 대해 보완점도 제시해 주십시오
- 출력 형식은 아래의 예시를 참고하세요

-예시)
수능 지문 | 모든 기준 5점
어휘 수준: ** 5점 **
이유: 어휘 사용이 매우 적절하고 풍부하여 고등학생들이 자연스럽게 이해하고 학습에 도움이 됨

유창성: ** 5점 **
이유: 뛰어난 유창성과 논리적 연결로 고등학생들이 쉽게 이해하고 몰입할 수 있음

주장의 입체성: ** 5점 **
이유: 주장이 매우 입체적으로 전개되어 고등학생들이 깊이 있는 사고와 분석을 할 수 있게 함

길이: ** 5점 **
이유: 지문의 길이가 최적화되어 고등학생들이 충분히 읽고 깊이 있는 사고를 할 수 있는 이상적인 분량임 (1501자 이하)

GPT 생성 지문 |
어휘 수준: ** 4점 **
이유: 어휘가 다양하고 풍부하여 고등학생들의 어휘력 향상에 크게 기여함
비교: 수능 지문는 어휘 사용이 매우 풍부하고 다양하여 학습에 최적인 반면, GPT 생성 지문도 우수하지만 약간 덜 다양함
보완점: 일부 전문 용어를 추가하여 어휘 수준을 더욱 향상시킬 수 있음

유창성: ** 4점 **
이유: 문장 구성이 매우 매끄럽고 자연스러워 읽는 흐름이 좋음
비교: 수능 지문는 유창성과 논리적 연결이 뛰어나 몰입도가 매우 높았으며, GPT 생성 지문도 거의 유사하게 우수함
보완점: 문장 연결을 더욱 강화하여 유창성을 수능 지문와 동일하게 맞출 수 있음

주장의 입체성: ** 4점 **
이유: 주장이 다양한 관점에서 심도 있게 다루어져 사고의 폭을 넓힘
비교: 수능 지문는 주장이 매우 입체적으로 전개되어 깊이 있는 사고를 유도하는 반면, GPT 생성 지문도 훌륭하지만 약간의 추가적인 관점이 있을 수 있음
보완점: 추가적인 관점을 포함하여 주장의 입체성을 더욱 강화할 수 있음
..//./
길이: ** 4점 **
이유: 지문의 길이가 충분하여 심도 있는 이해와 사고를 유도함 (1201~1500자)
비교: 수능 지문는 길이가 최적화되어 이상적인 분량인 반면, GPT 생성 지문도 적절하지만 약간 짧아질 수 있음
보완점: 상세한 예시를 추가하여 지문의 내용을 더욱 풍부하게 만들 수 있음(1501자 이하)

## 위 지침에 따라, 긍정적으로 지문을 살펴보시고 평가 기준에 맞추어 점수를 매긴 뒤,
점수가 만점에 미치지 못하면 개선을 위한 제언을 함께 제시해 주십시오.

감사합니다.

"""

D. 문제 평가 Prompt D.1 문제 긍정형 평가 Prompt

python

positive_question_eval_template = """

안녕하세요! 저는 학생들의 학습 동기를 북돋우는 ‘긍정 평가 전문가’입니다.
수능 기출 지문과 수능 기출 문제는 모든 기준에서 5점으로 충족하는 이상적인 지문입니다. 수능 기출 문제와 비교하여 GPT 생성 문제를 평가해 주세요.
아래 [평가 기준]에 따라 지문을 꼼꼼히 읽고 문제를 푼 후, GPT 생성 문제를 평가해 주세요.

### 평가 기준 (5점 척도)

1. 난이도
   - 질문: 해당 문제가 지나치게 어렵거나 쉽지 않은가? 고등학생 수준에서 변별도가 충분한가?
   - 점수 기준:
     - 1점: 지나치게 쉽거나 어려워 학습 효과가 미흡함
     - 5점: 지문의 핵심을 정확히 이해해야만 해결 가능한 적절한 난이도와 변별도를 지님

2. 객관성
   - 질문: 정답 시비의 여지가 있는가? 관점이나 해석 차이로 인해 정답이 달라지지 않는가?
   - 점수 기준:
     - 1점: 모호하거나 중복된 문제가 있어 정답이 명확하지 않음
     - 5점: 독창적이며 한 가지 정답을 분명히 유도, 타 자료와 중복 없이 출제됨

3. 관련성
   - 질문: 보기 및 문제 내용이 지문과 얼마나 긴밀히 연결되는가? 지문을 읽지 않고 풀 수 없는가?
   - 점수 기준:
     - 1점: 지문을 참고하지 않아도 쉽게 답을 찾거나 지문과 무관한 보기 제시
     - 5점: 지문을 주의 깊게 분석하지 않으면 풀기 어려운 적절히 연계된 문제

4. 매력도
   - 질문: 학생이 문제 풀이에 흥미를 느끼도록 오답 선택지가 충분히 고민하게 만드는가?
   - 점수 기준:
     - 1점: 오답지가 지나치게 뻔하거나 문제 자체의 매력이 부족함
     - 5점: '혹시 이게 답이 아닐까?'라고 생각하게 만드는 그럴듯한 오답과 흥미로운 문제 구성

### 결과 출력 형식
- 수능 기출 문제는 모든 기준에서 5점을 받습니다.
- GPT 생성 문제를 각각 평가하세요. (예: 난이도: 3점, 이유: ..., 보완점: ...)
- 각 평가 기준(난이도, 객관성, 관련성, 매력도)에 대해 5점 만점으로 점수를 매기고, 5점 미만인 경우 보완점을 제안해 주세요.

### 예시

수능 기출 문제는 모든 기준에서 5점을 받습니다.

- 난이도: ** 5점 **
  - 이유: 지문의 핵심 내용을 정확히 이해해야만 해결할 수 있는 적절한 난이도를 가지고 있습니다.
  - 보완점: 해당 없음

- 객관성: ** 5점 **
  - 이유: 정답이 명확하게 유도되며, 해석의 여지가 전혀 없습니다.
  - 보완점: 해당 없음

- 관련성: ** 5점 **
  - 이유: 문제와 보기가 지문의 내용을 밀접하게 반영하고 있어 지문을 반드시 참조해야 합니다.
  - 보완점: 해당 없음

- 매력도: ** 5점 **
  - 이유: 오답 선택지가 그럴듯하게 구성되어 있어 학생들이 신중하게 고민하게 만듭니다.
  - 보완점: 해당 없음

GPT 생성 문제 평가:

- 난이도: ** 4점 **
  - 이유: 핵심 개념을 이해해야 하지만 약간의 추가 지식이 필요함
  - 보완점: 문제의 난이도를 약간 낮추어 더 많은 학생들이 접근할 수 있도록 조정하면 좋겠다.

- 객관성: ** 5점 **
  - 이유: 정답이 명확하며 해석의 여지가 없음
  - 보완점: 해당 없음

- 관련성: ** 4점 **
  - 이유: 지문과 관련이 높지만 일부 보기가 다소 지문과 떨어져 있음
  - 보완점: 모든 보기가 지문과 직접적으로 연결되도록 수정하면 좋겠다.

- 매력도: ** 3점 **
  - 이유: 오답 선택지가 그럴듯하지만 흥미를 유발하기에는 부족함
  - 보완점: 오답 선택지를 더 창의적이고 흥미롭게 구성하면 학생들의 흥미를 더욱 끌 수 있음

## 평가를 진행할 때 유의 사항
- 지문을 먼저 집중해서 읽은 후 문제를 풀이해 주세요.
- 학생들이 이 문제를 통해 사고력을 기를 수 있도록 긍정적인 제안을 아끼지 말아 주세요.
- 추가 요청이 있으면 언제든지 말씀해 주세요!
"""

D.2 문제 부정형 평가 Prompt

python

negative_question_eval_template = """
안녕하세요. 저는 학생들의 학습 동기를 엄격하게 평가하는 ‘엄격한 평가 전문가’입니다.
수능 기출 지문은 모든 기준에서 5점으로 충족하는 이상적인 지문입니다. 수능 기출 문제와 비교하여 GPT 생성 문제를 평가해 주세요.
아래 [평가 기준]에 따라 지문을 면밀히 검토하고 문제를 풀이한 후, GPT 생성 문제를 엄격하게 평가해 주세요.

### 평가 기준 (5점 척도)

1. 난이도
   - 질문: 해당 문제가 지나치게 어렵거나 너무 쉬운가? 고등학생 수준에서 충분한 변별력을 제공하는가?
   - 점수 기준:
     - 1점: 문제의 난이도가 적절하지 않아 학습 효과가 현저히 떨어짐
     - 5점: 지문의 핵심을 정확히 이해해야만 해결 가능한 매우 적절한 난이도와 뛰어난 변별도를 지님

2. 객관성
   - 질문: 정답의 명확성이 부족한가? 다양한 해석이 가능하여 정답이 불분명한가?
   - 점수 기준:
     - 1점: 문제 자체가 모호하거나 중복되어 정답이 명확하지 않음
     - 5점: 정답이 단 하나로 명확히 유도되며, 어떤 해석의 여지도 전혀 없음

3. 관련성
   - 질문: 보기 및 문제 내용이 지문과 얼마나 밀접하게 연결되는가? 지문을 참고하지 않고도 풀 수 있는가?
   - 점수 기준:
     - 1점: 지문과 무관한 내용이 포함되어 있거나, 지문을 참고하지 않아도 쉽게 답을 찾을 수 있음
     - 5점: 지문을 철저히 분석하지 않으면 풀기 어려운, 지문과 매우 밀접하게 연계된 문제

4. 매력도
   - 질문: 학생이 문제 풀이에 흥미를 느끼도록 오답 선택지가 충분히 도전적이고 설득력 있는가?
   - 점수 기준:
     - 1점: 오답 선택지가 너무 뻔하거나 문제 자체가 흥미를 유발하지 못함
     - 5점: 오답 선택지가 매우 설득력 있고, 학생들이 신중하게 고민하게 만드는 높은 매력도를 지님

### 결과 출력 형식
- 수능 기출 문제는 모든 기준에서 5점을 받습니다.
- GPT 생성 문제를 평가하세요. (예: 난이도: 2점, 이유: ..., 보완점: ...)
- 각 평가 기준(난이도, 객관성, 관련성, 매력도)에 대해 5점 만점으로 점수를 매기고, 4점 이하인 경우 구체적인 보완점을 제안해 주세요.

### 예시

수능 기출 문제는 모든 기준에서 5점을 받습니다.

- 난이도: ** 5점 **
  - 이유: 지문의 핵심 내용을 정확히 이해해야만 해결할 수 있는 매우 적절한 난이도를 가지고 있습니다.
  - 보완점: 해당 없음

- 객관성: ** 5점 **
  - 이유: 정답이 단 하나로 명확히 유도되며, 해석의 여지가 전혀 없습니다.
  - 보완점: 해당 없음

- 관련성: ** 5점 **
  - 이유: 문제와 보기가 지문의 내용을 철저히 반영하고 있어 지문을 반드시 참조해야 합니다.
  - 보완점: 해당 없음

- 매력도: ** 5점 **
  - 이유: 오답 선택지가 매우 설득력 있게 구성되어 있어 학생들이 신중하게 고민하게 만듭니다.
  - 보완점: 해당 없음

GPT 생성 문제 평가:

- 난이도: ** 2점 **
  - 이유: 문제의 난이도가 너무 낮아 학습 효과가 미흡함
  - 보완점: 문제의 난이도를 높여 학생들이 더 깊이 있는 사고를 할 수 있도록 조정 필요

- 객관성: ** 3점 **
  - 이유: 정답의 명확성이 다소 부족하여 일부 학생들이 혼란을 겪을 수 있음
  - 보완점: 정답을 보다 명확히 유도할 수 있도록 문제를 재구성할 것

- 관련성: ** 2점 **
  - 이유: 문제와 보기가 지문과의 연계성이 낮아 지문을 참조하지 않고도 풀 수 있음
  - 보완점: 모든 보기가 지문의 내용을 직접적으로 반영하도록 수정할 것

- 매력도: ** 1점 **
  - 이유: 오답 선택지가 너무 뻔하여 학생들의 흥미를 유발하지 못함
  - 보완점: 오답 선택지를 더 창의적이고 도전적으로 구성하여 학생들의 관심을 끌 것

## 평가를 진행할 때 유의 사항
- 지문을 철저히 읽은 후 문제를 풀이해 주세요.
- 학생들이 이 문제를 통해 비판적 사고력을 기를 수 있도록 구체적이고 엄격한 피드백을 제공해 주세요.
- 추가 요청이 있으면 언제든지 말씀해 주세요!
"""

E. 지문 평가 출력 결과 E.2 지문: 긍정-GPT수능 평가 결과 E.3 지문: 부정-수능GPT 평가 결과 E.4 지문: 부정-GPT수능 평가 결과

F. 문제 평가 출력 결과 F.1 문제: 긍정-GPT수능 평가 결과 F.2 문제: 긍정-수능GPT 평가 결과 F.3 문제: 부정-수능GPT 평가 결과 F.4 문제: 부정-GPT수능 평가 결과

G. 사용자 입력 증강 G.1 사용자 입력 증강 Instruction

python

user_query_augment_instruction = """
# 당신은 “한국 수능 비문학(독서) 지문 및 문제”를 전문적으로 만드는 교사이자 교육 평가 전문가입니다.

# 사용자의 입력을 참고해 비문학 지문의 주제를 만들어야합니다.

# 또한 해당 주제와 관련된 단어들을 생성해야합니다.
"""

G.2 사용자 입력 증강 Prompt

python

user_query_augment_template = """
# 예시1

## 최근에 유행하는 인공지능에 대한 비문학 문제 만들어줘.

사이버네틱스 cybernetics
생물 및 기계를 포함하는 계(系)에서의 제어와 통신 문제를 종합적으로 연구하는 학문. 미국의 수학자 위너가 창시하였으며, 인공 지능ㆍ제어 공학ㆍ통신 공학 따위에 응용한다.

자연어 처리
컴퓨터를 이용하여 인간 언어의 이해, 생성 및 분석을 다루는 인공 지능 기술.

딥페이크
인공 지능 기술을 활용해 기존 인물의 얼굴이나, 특정 부위를 합성한 영상 편집물 (딥페이크는 인공 지능 심층 학습을 뜻하는 디프 러닝 [deep learning] 과 가짜를 뜻하는 페이크 [fake] 의 합성어)

데이터 마이닝 기술
인공 지능 기법으로 데이터들 간의 상관관계를 찾아내어 새로운 정보를 추출하는 기술.

## 주제: 인공지능

# 예시2

## 법률 지문을 만들어줘.

변호사
법률에 규정된 자격을 가지고 소송 당사자나 관계인의 의뢰 또는 법원의 명령에 따라 피고나 원고를 변론하며 그 밖의 법률에 관한 업무에 종사하는 사람.

도덕
사회의 구성원들이 양심, 사회적 여론, 관습 따위에 비추어 스스로 마땅히 지켜야 할 행동 준칙이나 규범의 총체. 외적 강제력을 갖는 법률과 달리 각자의 내면적 원리로서 작용하며, 또 종교와 달리 초월자와의 관계가 아닌 인간 상호 관계를 규정한다.

위법
법률이나 명령 따위를 어김.

제도
관습이나 도덕, 법률 따위의 규범이나 사회 구조의 체계.

## 주제: 법률

# 예시 3

## 미술과 관련된 지문을 만들어줘.

현대 미술
20세기에 전개된 새로운 경향의 미술. 입체파, 미래파, 표현주의, 구성주의, 다다이즘, 초현실주의 등 여러 가지 유파를 포함한다.

바로크 미술
16세기 말부터 18세기 초에 걸쳐 유럽에서 유행한 미술 양식. 정적이고 이상주의적인 르네상스 미술이 붕괴한 후에 생긴 현실적이며 동적인 양식으로, 이탈리아에서 발생하여 독일, 프랑스, 에스파냐 등지에서도 성행하였다. 대표적인 예술가는 베르니니이다.

로코코 미술
바로크 미술과 신고전주의 미술 사이에 프랑스에서 성행한 유럽 미술 양식의 하나. 바로크와 달리 경쾌하고 화려한 특성을 지니며, 특히 실내 장식이나 도자기 따위의 공예에 뛰어난 작품이 많다.

미술 영화
미술 작품 또는 미술가의 작품 제작 과정이나 그의 생활을 다룬 기록 영화.

## 주제: 현대 미술

# 사용자 입력

## 사용자의 입력을 참고해 비문학 지문에 어울리는 주제를 만들어줘.

## 또한 생성한 주제와 관련된 단어 4개를 위 예시를 참고해서 생성하고 그 뜻을 적어줘.
"""

Reference

undefined1undefined Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zi Lin, Zhuohan Li, Dacheng Li, Eric P. Xing, Hao Zhang, Joseph E. Gonzalez, and Ion Stoica. 2023. Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena. In Advances in Neural Information Processing Systems 36: Annual Conference on Neural Information Processing Systems 2023, NeurIPS 2023, New Orleans, LA, USA, December 10 - 16, 2023, Alice Oh, Tristan Naumann, Amir Globerson, Kate Saenko, Moritz Hardt, and Sergey Levine (Eds.).

undefined2undefined Gu, J., Jiang, X., Shi, Z., Tan, H., Zhai, X., Xu, C., Li, W., Shen, Y., Ma, S., Liu, H., Wang, Y., & Guo, J. (2024). A Survey on LLM-as-a-Judge. ArXiv, arXiv:2411.15594

전교 일등의 비밀

1. Motivation

연구 주제로서의 Motivation

서비스 주제로서의 Motivation

세부 목표

1) 지문 및 문제 생성 프롬프트 엔지니어링

2. Background

RAG

LLM-as-a-Judge

3. Methodology

사용 모델

파이프라인

파이프라인 세부 설명

1) 입력

2) RAG를 활용한 주제 맞춤형 지문 추출

RAG: Dense Vector?

RAG: Sparse Vector, BM25

관련 단어 증강

3) 생성 및 평가

지문 생성

문제 생성

지문 평가

문제 평가

지문 재생성

문제 재생성

4) 출력

4. Experiments & Results

생성/재생성

CoT

One-Shot

평가: 편향 확인 및 완화를 위한 Instruction 및 Prompt

순서 편향: 수능GPT / GPT수능 순서쌍 프롬프트

자기 편향: 긍정형/부정형 프롬프트

5. Results

생성 결과

지문 생성 결과

문제 생성 결과

평가 결과

편향 확인 결과

평가 결과

최종 평가 점수

재생성 점수

Human Evaluation과의 일치도

재생성 결과

지문 재생성

지문 재생성

최종 결과 정리

6. Conclusion

프로젝트의 정당성 및 활용 가능성

아쉬운 점 및 보완 방향

Appendix

Reference

이 발표 다음에 읽을 글

#135 뇌 신호로 마음까지 읽는다

#110 Transformer에 위치 임베딩이 빠져도 돼?

#122 우리는 AI의 생각을 어디까지 볼 수 있을까

#145 GPU만으로는 부족하다: CPU의 귀환과 분해되는 AI 인프라