
더에듀 정은수 객원기자 | 인공지능(AI) 디지털교과서(DT) 도입 논란이 이어지고 있는 가운데, 생성형 AI의 교육적 사용이 학습 성과와 고차 사고력에 긍정적 영향을 끼친다는 종합적인 연구 결과가 나왔다.
진 왕과 원샹 판 항저우 보통대(우리나라의 사범대와 유사) 연구진은 지난 6일 네이처 산하 저널인 ‘휴머니티스 앤 소셜 사이언스 커뮤니케이션(Humanities and Social Sciences Communications)’에 이런 내용을 포함한 연구논문 ‘챗GPT가 학생들의 학습 성과, 학습 인식도, 고차 사고력에 미치는 영향: 메타분석을 통한 고찰(The effect of ChatGPT on students’ learning performance, learning perception, and higher-order thinking: insights from a meta-analysis)’을 발표했다.
이번 연구는 2022년 11월부터 2025년 2월까지 진행된 총 6621개의 챗GPT 관련 연구 논문 중 이번 연구 주제에 적합하게 설계된 51개를 살폈다.
학습 성과 개선에 효과 커
그 결과 챗GPT는 학습 성과 개선에는 강한 효과(헤지스의 g=0.867)를 나타냈다. 이는 기존 연구 결과와 궤를 같이한다. 다만, 종합적으로 이를 다시 확인했다는 의미 정도일 것이다.
연구진은 학습 성과에 유독 큰 효과를 드러내는 이유로 챗GPT가 빠르게 ▲지식을 제공하고 ▲질문에 답하고 ▲학습 성과 개선에 필요한 콘텐츠를 제작하며 ▲새로운 개념을 위한 구조적이고 논리적인 체계를 제공하고 ▲어려운 정보를 쉬운 언어로 제공할 수 있기 때문이라는 기존 연구를 들어 설명했다.
학습 인식(헤지스의 g=0.456)과 고차 사고력(헤지스의 g=0.457)에는 보통 정도의 긍정적 효과를 나타냈다. 보통 정도의 효과란 통계적으로 유의미하지만, 크지는 않은 효과를 말한다.

실제 분석값을 보면 고차 사고력은 더 높은 유의수준(P<0.05)에서 검증을 진행한 만큼 통계적인 신뢰성이 학습 성과와 학습 인식도에 비해 부족하다고 볼 수 있다.
이에 연구진은 학습 인식에서 효과가 작아지는 것은 더 깊은 학습에 관한 관심을 끌어내는 상호작용은 하지 못하기 때문일 수 있으며, 교사가 이 부분을 채워줘야 한다고 권고했다.
고차 사고력에서 효과가 작아지는 것은 기존 정보와 패턴에 기반해 훈련을 받은 모델인 만큼 비판적 분석력이나 창의적인 문제 해결 방법을 제공하는 데 한계가 있고, 정보의 부정확성과 편향성이 고차 사고력을 오히려 저해할 수 있기 때문이라고 설명했다.
세 가지 영역 각각에 대한 조절 변인 분석도 진행했다. 조절 변인은 학교급, 과정의 종류, 학습 모델, 지속 기간, 챗GPT의 역할, 챗GPT 활용 영역으로 설정했다.
학습 성과 위해서는 문제 기반 학습 활용이 효과적
학습 성과에서는 과정의 종류에 따른 효과 차이가 크게 나타났는데, STEM 관련이나 언어 학습과 학문적 작문 계열보다는 기능과 역량 개발 과정에 큰 효과를 보였다.
연구진은 이에 대해 “기능과 역량 개발 과정은 보통 잘 규정된 과제 목표와 단계별 절차를 포함하고 있기 때문일 수 있다”고 설명했다.

학습 모델에 따른 차이도 컸다. 특히 문제 기반 학습에서 두각을 드러냈다. 반면에 프로젝트 기반 학습에서는 가장 약한 효과를 나타냈다.
이에 대해 연구진은 “문제 기반 학습에서는 명확한 설명을 제공하고, 복잡한 개념을 설명하고, 다양한 정보를 제공할 수 있지만, 종합적인 현실 세계의 프로젝트를 수행하는 데는 한계가 있을 수 있다”고 분석했다.
학생이 질문 방법 어느 정도 익혀야 활용 효과
사용 기간에서도 차이가 나타났는데, 4~8주 사용 사례가 가장 효과가 컸다. 특히 1주 미만의 사용에서는 효과가 가장 작았다. 이는 챗GPT를 사용해 질문하는 기능을 습득해야 효과적으로 사용할 수 있음을 시사하고 있다.
나머지 변인에 따른 효과 차이는 유의미하지 않았다.
조절 변인으로 유의미한 차이를 드러내지는 않았지만, 평가 도구로서 챗GPT의 활용 영역의 효과를 분석한 결과를 다른 AI 기반 평가 도구 연구 결과와 비교한다면 더 큰 효과를 나타내고 있었다.
연구진은 “생성형 AI의 의사소통 기능 등이 더 다양한 학습 시나리오를 지원해 더 큰 효과 크기가 나타났을 수 있다”고 해석했다.
고차 사고력 발달에는 지능형 튜터 역할이 효과적
학습 인식도에서는 유일하게 '활용 기간'만 의미 있는 조절 변인이었다. 이 경우는 8주 이상의 경우에서 뚜렷하게 가장 큰 효과 차이를 나타냈다.
연구진은 기간이 길어질수록 효과가 있는 점에 대해 “챗GPT가 제공하는 긍정적인 피드백이 학습에 대한 정서를 긍정적으로 강화하기 때문일 수 있다”고 봤다.
고차 사고력 관련 효과의 조절 변인으로는 과정의 종류가 가장 큰 영향을 끼쳤다. 특히 STEM 관련 과정에 큰 효과를 나타냈지만, 어학 학습과 학문적 작문에는 중간 정도의 효과, 기능과 역량 개발에는 작은 효과를 보였다.

챗GPT의 역할도 의미 있는 조절 변수였다. 지능형 튜터의 역할을 할 때 고차 사고력에 가장 큰 효과를 나타냈다. 지능형 학습 도구의 역할은 보통 정도의 효과를 보였고, 학습 동반자와 혼합형은 관련 연구가 각각 한 건밖에 없어 분석에서 제외했다.
연구진은 그 이유로 튜터 역할을 할 경우 “맞춤형 지도, 피드백, 평가가 가능하고 학생들이 지속적으로 학습 과정에 대해 성찰하면서 학습 전략을 실시간으로 조정하는 과정에서 고차 사고 기능의 사용이 촉진되기 때문일 수 있다”고 설명했다.
고차 사고력 관련 연구는 초중등 대상 연구 중에는 없어서 학교급의 조절 변인 효과는 확인할 수 없었다.
임의 사용 효과 없어: 교과, 학습 모델, 기간 고려와 교사의 지원 필수적
연구진은 이런 연구 결과를 바탕으로 현실적인 제언도 했다. 이들은 “챗GPT를 임의로 활용해서는 안 되고 대신 과학적이고 합리적으로 교과, 학습 모델, 기간 등을 고려해 활용해야 한다”고 전제한 뒤 여섯 가지 제언 사항을 나열했다.
첫째, 챗GPT에 창의성과 비판적 사고력이 부족하기 때문에, 고차 사고력 발달을 위해 활용할 때는 필요한 교육적 체계와 필요한 학습 스캐폴딩을 제공하는 일이 필수적이다
둘째, 다양한 학년, 특히 중등과 고등 교육에 걸쳐 학생 학습 지원을 위해 활용하는 것이 좋다. 중등에서는 학생들의 관심을 유지하면서 어려운 개념에 대한 이해와 기억을 증진할 수 있으며, 대학에서는 학습 개선을 위한 맞춤형 조언을 받도록 활용하는 것을 권할 수 있다.
셋째, 챗GPT는 다양한 과정에 적극적으로 활용될 수 있다. STEM 관련 과정에서는 다양한 정보를 제공하고 시나리오에 기반한 문제를 생성함으로써 문제 기반 학습 환경을 조성할 수 있다. 기능과 역량 개발 훈련에서는 더 맞춤형 안내를 통해 도움을 주고, 언어와 작문 과정에서는 내용 이해와 작문의 정확도 개선에 도움을 줄 수 있다.
넷째, 챗GPT는 다양한 학습 모델에 적용할 수 있지만, 앞서 언급한 대로 문제 기반 학습에서 학생들의 학습 성과를 가장 잘 지원한다.
다섯째, 챗GPT의 활용은 지속적으로 하는 것이 학습 지원에 도움이 된다. 권장 기간은 4~8주다. 더 짧은 기간 이용할 때는 교사가 양질의 챗GPT 프롬프트 작성 방법 지도 등 관련 스캐폴딩을 제공해야 한다.
더 오래 활용할 때는 블랜디드 러닝이나 거꾸로 교실 같은 수업 모델을 고려하고 챗GPT를 수업 준비, 수업 중 상호작용, 수업 후 성찰 등 각각의 다른 교수 단계에서 더 전략적으로 활용해 학습 성과를 높일 수 있다.
또한, 정기적인 형성 평가를 해 지식 습득을 저해하는 기술에 대한 과잉 의존을 방지하고 더 깊은 학습과 장기적인 숙달을 도울 수 있다.
마지막으로 챗GPT는 지능형 튜터, 지능형 학습 파트너, 지능형 학습 도구 등 유연하게 수업에 활용할 수 있으므로 교수학습 활동의 필요에 따라 적절하게 적용돼야 한다.
유·초등에는 적용할 수 없는 연구 결과
이번 연구를 이해할 때 주의해야 할 점은, 6천 건이 넘는 연구 보고서를 살폈지만, 조건에 맞는 연구는 51건이어서 메타 연구로서는 작은 표본이라는 점이다.
특히, 초등을 다룬 보고서는 한 건, 유치원은 한 건도 없으므로 이 결과를 유·초등에 적용하기는 어렵다.
또한, 학습 인식도와 고차 사고력을 다룬 연구도 각각 19건, 9건으로 상대적으로 적어서 이에 대한 챗GPT의 영향을 온전히 분석하기 어려웠다.
조절 변인도 7가지만 살피는 한계가 있었다. 살펴본 변인 외에도 학생의 문화적 배경, 부모의 직업, 각국의 관련 정책 등 다양한 조절 변인이 있을 수 있다.