라벨링 안 된 데이터 활용해 자체 진화하는 LLM 기술 '테스트-타임 강화학습' 등장 박찬 기자 업데이트 2025.04.24 19:00 댓글 1 (사진=셔터스톡) 인간의 개입 없이도 대형언어모델(LLM)이 스스로 정답을 찾아가며 학습할 수 있는 새로운 강화 학습(RL) 기법이 등장했다. 칭화대학교와 상하이 AI 랩 연구진은 23일(현지시간) 라벨이 없는 테스트 데이터만으로 학습을 가능하게 하는 ‘테스트-타임 강화학습(TTRL)’ 프레임워크 논문을 온라인 아카이브에 게재했다. 대부분 LLM은 인간이 라벨링한 데이터에 학습을 의존하고 있다. RL을 활용한 다양한 학습법이 등장했지만, 여전히 대부분은 사람이 평가하고 라벨을 붙이는 과정이 필요해 시간과 비용 부담을 일으킨다. 특히 교육이나 과학처럼 복잡하고 계속 변하는 환경에서는, 잘 정리된 훈련 데이터만으로는 부족하다는 지적이 있다. 또 기존 방법들은 추론 과정에서 뚜렷한 보상 기준이 없어 성능을 높이는 데 한계가 있다는 비판도 나온다. TTRL은 이런 한계를 극복하기 위해 제안된 방법으로, 별도의 라벨 없이 테스트 데이터만을 활용해 RL을 진행할 수 있는 방식이다. 언어모델이 가진 기존 지식을 활용해, 여러개의 응답 중 가장 많이 나온 답변을 임시 정답(라벨)으로 삼는다. 그리고 이 정답과 같은 답을 낸 응답에는 보상을 주는 식으로 모델을 훈련다. 이 방식 덕분에 사람의 개입 없이도, 모델이 스스로 학습하고 성능을 점점 높일 수 있게 된다는 원리다. TTRL 개요도 (사진=arXiv) TTRL은 모델이 정답을 몰라도 스스로 학습할 수 있도록 돕는 두 단계의 과정을 거친다. 먼저, 하나의 질문(프롬프트)에 대해 모델이 여러개의 답변을 만들어낸다. 그중 가장 많이 나온 답변을 ‘임시 정답’으로 정한다. 이렇게 하면 실제 정답이 없어도, 모델이 스스로 기준을 만들어 학습할 수 있게 된다. 다음 단계에서는 이 임시 정답과 각 답변이 얼마나 일치하는지를 확인한다. 정답과 같은 답변에는 보상을 주고, 다르면 보상을 주지 않는다. 이 보상 정보를 바탕으로 PPO나 GRPO 같은 RL 알고리즘을 사용해 모델을 점점 더 똑똑하게 만든다. 그 결과, 모델은 추론할 때 더 정확하고 일관된 답을 낼 수 있게 된다는 설명이다. 이 방법은 구조가 비교적 간단하고, 기존 RL 방식과도 잘 어울린다고 밝혔다. 실험에서는 모델이 만든 64개의 답변 중 다수결로 임시 정답을 정하고, 그중 16개를 골라 학습에 사용하는 방식을 택했다. 벤치마크 결과 (사진=arXiv) 그 결과, 수학 문제 해결 능력을 평가하는 세가지 벤치마크 'AIME 2024'과 'AMC', '매스-500(MATH-500)' 등에서 효과를 입증했다. '큐원2.5-매스-7B' 모델의 AIME 2024 정답률은 기존 16.7%에서 43.3%로, 159.3%나 향상됐다. 세 벤치마크 전반에서 평균 84.1%의 성능 향상을 보였다. 더 작은 모델인 '큐원2.5-매스-1.5B'조차도 매스-500 점수가 33.0%에서 80.0%로 대폭 개선됐다. 주목할 만한 점은, 모델이 자체 생성한 라벨 기준보다 더 높은 성능을 낸다는 것이다. 이는 다수결을 통해 만든 불완전한 임시 정답을 사용해도 자기강화(self-reinforcing) 학습이 가능하다는 것을 보여준다. 특정 데이터셋을 학습한 모델이 다른 테스트셋에서도 성능 향상을 유지하는 갓도 확인됐다. 이는 TTRL이 특정 과제에 과적합(overfitting) 되지 않으며, 넓은 범위에서 일반화 능력을 지원한다는 설명이다. 연구진은 "이번 연구이 핵심 과제는 실제 정보에 접근하지 않고 추론 과정에서 보상을 추정하는 것"이라며 "실험 결과는 다양한 작업에서 TTRL이 효과적이라는 것을 보여주며 광범위한 작업과 도메인에 적용될 가능성을 보여준다"라고 강조했다. TTRL의 코드는 깃허브에서 사용할 수 있다. 박찬 기자 cpark@aitimes.com 출처 : AI타임스(https://www.aitimes.com)