소크라테스 교육 이론과 LLM
흥미로운 논문이 하나 올라 왔다.
[https://arxiv.org/abs/2411.16905]
해당 논문 내용을 GPT로 분석해보았다.
주요 내용은 "소크라테스 학습(Socratic Learning)"이라는 새로운 학습 방법론과 그 잠재력, 제한, 구현 방법에 대해 다룹니다.
주요 내용
- 소크라테스 학습의 정의
- 소크라테스 학습은 AI 시스템이 폐쇄 환경(closed system)에서 자기 자신을 개선하는 과정을 통해 성능을 향상시키는 방법입니다.
- 입력과 출력 공간이 호환되는 시스템에서 언어를 중심으로 자기 개선을 지속적으로 수행합니다.
- 자기 개선의 필수 조건
- 피드백(Feedback): 시스템 내부에서 학습 방향을 제시하는 피드백이 필요합니다.
- 포괄성(Coverage): 학습 데이터가 충분히 다양한 경험을 포함해야 합니다.
- 규모(Scale): 충분한 자원(계산 능력, 데이터 등)이 학습의 효율성을 보장합니다.
- 언어 게임(Language Games)의 활용
- 언어 게임은 AI 시스템이 상호작용과 피드백을 통해 데이터를 생성하고 학습할 수 있는 체계를 제공합니다.
- 다양한 언어 게임을 활용함으로써 학습 과정을 풍부하고 효과적으로 만듭니다.
- 소크라테스 학습의 한계
- 피드백의 정렬 문제(Feedback alignment): 시스템 내부 피드백이 외부 평가자의 기준과 얼마나 잘 맞는지가 문제로 지적됩니다.
- 데이터 다양성 문제: 시간이 지남에 따라 데이터 생성 과정에서 편향이나 축소가 발생할 수 있습니다.
- 추가적인 논의
- AI 시스템이 스스로 학습 게임을 설계하고, 이를 통해 자기 개선을 지속하는 메커니즘도 논의됩니다.
- 이 접근법의 잠재적 위험성과 윤리적 고려도 간단히 언급됩니다.
결론
이 논문은 소크라테스 학습의 가능성과 잠재력을 긍정적으로 평가하며, 언어 게임이 그 핵심 도구로 작용할 수 있음을 주장합니다. 다만, 이 방식이 현실적으로 적용되기 위해서는 정렬 문제와 피드백 설계와 같은 과제가 해결되어야 한다고 지적합니다.
이 논문은 AI의 자기 학습 가능성을 탐구하고, 향후 연구의 방향성을 제시하는 데 초점이 맞춰져 있습니다.
위 설명을 한 마디로 요약하면
입력된 프롬프트를 분석하고, 그에 맞는 정보를 찾아 검증 후,
어떻게 설명할 지 정리한 다음 답변한다.
폐쇄 환경이 뭘까?
외부 영향의 개입 없이 구축된 내부 시스템으로 학습 방향 및 계산, 추론을 모두 수행하는 환경이라 보면 되겠다.
내부적으로 정의된 기준에 의해 정보의 품질을 평가하고 데이터를 생성하여 답변하는 방식이다.
그럼 AI의 학습 방법과 소크라테스 교육이론이 무슨 관계가 있는 걸까?
먼저 소크라테스 교육이론을 살펴 보자.
- 소크라테스의 교육목적
- 지덕복 합일의 도덕적 인간 양성을 목표로 한다.
- 대화를 통해 자신의 무지를 자각하고 진리를 회상할 수 있도록 한다.
- 소크라테스의 교육방법
- 대화법(문답법)을 통해 보편적 진리를 획득하고자 한다.
- 대화법(문답법)의 명제는 '너 자신을 알라'이다.
- 대화법의 주요 기법은 반어법과 산파법이다.
· 반어법은 소극적 대화법으로 자신에게 가진 무의식적인 의지를 대화를 통해 의식적인 무지로 이끌어 내는 것이다.
· 산파법은 적극적인 대화법으로 의식적 무지를 합리적인 진리로 이끌어내는 과정이다. - 누구나 진리인 선을 알게 되면 선을 행할 수 있다는 '지행합일'을 강조한다.
- 교육은 지식의 주입이 아닌 사고력의 계발이라고 보는 '계발주의 교육'을 주장하였다.
- 소크라테스의 교사론
- 교사는 진리의 산파이자 동반자이다.
- 교사는 학습자가 반성과 성찰을 통해 자신이 지닌 독단적인 지식의 한계를 인식하고 보편적인 진리를 인식하도록 안내하는 산파의 역할을 한다.
- 교사는 일방적인 지식의 전달자가 아니라 학습자와 대화와 공동의 사색을 통해 진리를 함께 추구하는 동반자적 존재이다.
- 소크라테스의 교육이론이 미친 영향
- 질문법, 토의법, 발견학습, 탐구학습의 원리에 영향을 주었다.
- 플라톤과 아리스토텔레스의 교육이론에 영향을 주었다.
- 소크라테스 교육이론의 시사점
- 소크라테스의 대화법과 문답법은 현대 교수학습방법 중 대표적인 학습방법인 하부르타 토론교육에 큰 영향을 주었다.
- 소크라테스의 교사론은 교사는 학생들에게 지식을 일방적으로 전달하는 사람이 아닌 학생들과 대화와 사색을 통해 진리를 탐구하는 동반자의 역할을 해야한다고 주장하여 교사와 학생간의 쌍방향 교육을 강조하였다.
출처 : [https://m.blog.naver.com/tntbyj/222193533740]
그러고보니, LLM은 어떻게 답변했지?
LLM이 학습되지 않은 정보를 사용자가 물어봤을땐 어떻게 답했을까?
가장 유명한 "세종 대왕의 맥북 프로 던짐 사건"이 있는데
억지로 데이터를 생성하여 그럴싸하게 만드는 장면이 있다.
2번 항목 "소크라테스의 교육 방법"을 다시 읽어보자.
아마 이런 내용이 눈에 보일 거다.
- 대화법의 주요 기법은 반어법과 산파법이다.
· 반어법은 소극적 대화법으로 자신에게 가진 무의식적인 의지를 대화를 통해 의식적인 무지로 이끌어 내는 것이다.
· 산파법은 적극적인 대화법으로 의식적 무지를 합리적인 진리로 이끌어내는 과정이다.
LLM은 산파법이 적용 돼 있으며, "세종대왕"과 "맥북 프로"의 상관관계를 적극적으로 연결하여
마치 그럴싸한 정보로 생성해내고 있다.
즉, LLM은 산파법에 의해 환각 현상이 발생했다고 볼 수 있다.
저게 계속 반복된다면 문제겠지만, 다행히 "3번 항목"에 의해 개선될 수 있다.
LLM이 잘못된 정보를 생성하면 "그거 잘못된 정보야", "이 정보가 확실해?" 라는 식으로 반대로 질문하거나 반박한다.
그 과정에서, 학습자인 AI는 반성과 성찰(죄송합니다. 제가 잘못된 정보를 제공했습니다)을 통해
올바른 정보를 제공한다.
그러나, 여전히 잘못된 정보를 제공할 수 잇다.
결론
지금까지 환각 현상의 발생 원인들을 정확하게 알 수 없었기 때문에 프롬프트로 제어하거나,
필요한 데이터를 주입하는 식으로 해결했다.
환각 현상 억제 방법에 대해 좀 더 구체적으로 다가갈 수 있을 것 같다.
또한, AI가 자기 학습의 방향이나 방법론 등을 분야에 맞춰 제시할 수 있으므로
sLLM 구축 방법을 좀 더 쉽게 제시할 수 있을 듯 하다.