챗 GPT란 무엇인가? | 챗봇 시대 불교

챗 GPT란 무엇인가?

김재인

철학자, 경희대학교 비교문화연구소 교수

챗GPT의 챗(chat)은 ‘채팅’ 형태의 인터페이스 지칭

2022년 11월 30일, 마이크로소프트에서 투자한 비영리재단 오픈AI사가 출시한 챗GPT가 화제다. 구글도 2023년 3월, 챗GPT의 대항마로 바드(Bard)를 출시했고, 5월에는 영어 외에 한국어와 일본어로도 이용할 수 있게 했다. 이 글에서는 챗GPT를 중심으로 최근의 언어 생성 인공지능을 이해할 수 있도록 최대한 쉽게 설명해보도록 하겠다(졸저 『AI 빅뱅: 생성 인공지능과 인문학 르네상스』는 훨씬 포괄적인 논의를 담고 있다).

2016년 알파고가 준 첫 충격의 여진은 시간이 지나면서 바둑 애호가 범위에서 머물렀다. 반면 챗GPT는 누구나 쉽게 이용해볼 수 있다는 점에서 충격의 범위가 훨씬 넓다. 이는 ‘채팅’ 형태로 이용할 수 있다는 특징 때문이다. 가볍게 물어봐도, 순식간에 몇 문단의 문장을 생성한다. 챗GPT라는 이름의 앞 글자인 챗(chat)이 바로 ‘채팅’ 형태의 인터페이스를 지칭한다. 우리는 카카오톡이나 메신저에 익숙하다. 챗GPT는 이런 익숙한 사용 방식을 채택해서 초심자도 쉽게 접근할 수 있게 열어주었다. 심지어 카카오톡을 통해 챗GPT를 이용할 수 있도록 한 ‘아숙업(askup)’이라는 서비스가 있을 정도다.

GPT란 챗GPT를 비롯한 많은 생성 인공지능의 ‘기반 기술’

그렇다면 GPT란 무엇인가? 챗GPT를 비롯한 많은 생성 인공지능의 ‘기반 기술’이다. 말하자면, 배후에서 혹은 바탕에서 돌아가면서 챗GPT를 후원하는 것이 GPT다. 채팅 방식이 이용자 쪽의 문제라면, GPT는 개발자 쪽의 문제라고 이해해도 좋겠다. GPT는 Generative Pre-trained Transformer라는 표현의 앞 글자를 딴 것이다. 우리말로 해도 ‘사전 훈련 생성 트랜스포머’라는 좀 괴상한 명칭이다. 본래 이 기반 기술은 컴퓨터 과학자가 편의상 붙인 이름이다. 일반 이용자에게 서비스할 때는 더 멋진 포장이 필요했을 터였다. 그런데 임시로 출시한 챗GPT라는 명칭이 그만 폭발적인 인기를 얻게 되어, 부르기도 힘든 저 이름을 전 세계인이 써야만 하게 되었다.

우리도 어쩔 수 없이 저 명칭의 각 대목을 뜯어볼 수밖에 없다. 먼저 Generative는 ‘생성’이라는 뜻이다. 엄밀하게 말해 ‘생성’하는 것인지는 논란의 여지가 있지만, 우리가 요구하는 그림, 언어, 음악, 동영상, 코드 등을 만들어내는 건 분명하다. 이 점에서 인간 고유의 능력인 ‘생성’ 혹은 ‘창작’을 위협하는 게 아닌지 두려움을 주는 것이기도 하다.

다음으로 Pre-trained는 ‘사전 훈련’이라는 뜻이다. 그렇다면 무엇을 사전 훈련했다는 말일까? GPT는 인터넷에서 긁어올 수 있는 수많은 문서를 바탕으로 사전에 분석을 마쳤다. 문서는 문장으로, 문장은 단어로, 단어는 기계가 처리할 수 있는 가장 작은 단위인 토큰(token)으로 분해된다. 단어와 토큰은 비슷해 보이지만, 예컨대 문장부호, 압축어(예로, “I’m”, “난”), 약자 등은 단어는 아니지만 분석에 꼭 필요한 단위로 별도로 처리되어야 하므로, 토큰이라는 개념이 필요하다. 바로 언어를 쪼개고 쪼갠 가장 작은 단위인 토큰들의 관계를 분석하는 일을 사전 훈련했다고 한다.

사전에 등재된 표제어를 기준으로 보면, 한국어는 110만 개 정도, 영어는 52만 개 정도라고 한다. 언어마다 표제어의 수가 다르겠지만, 인간의 언어라는 게 개수가 그렇게 많은 건 아니라고 판단해도 좋다. 더욱이 많이 사용하는 단어가 있고 아주 적게 사용하는 단어가 있다. 가령 셰익스피어가 실제로 사용한 단어는 중복을 제외하면 3만 1,534개라고 한다. 이 중에 1만 4,376개는 딱 한 번만 사용되었고, 4,343개는 두 번만 사용되었다. 그 많은 인간사를 표현하기 위해 고작(?) 이 정도의 어휘면 충분했다니 놀랍다. 수집할 수 있는 인간 언어의 ‘모든’ 관계를 분석했는데, 이런 관계를 매개변수(parameter)라고 한다. GPT의 세 번째 버전인 GPT-3의 경우 분석된 관계가 1,750억 개다. 매개변수가 많아지면 언어 전체의 세밀한 좌표 혹은 지도가 그만큼 정밀해지고 해상도가 높아졌다는 뜻이다. 그러나 매개변수가 무작정 많아진다고 능사는 아닌 것이, 인간 언어의 개수에 한계가 있기에, 어느 이상으로 늘어나게 되면 불필요한 중복이 생기게 된다.

끝으로 Transformer는 ‘변형기’라는 정도의 뜻인데, 여기서는 고유명사로 사용되어 그냥 ‘트랜스포머’라고 부른다. 본래 구글의 연구자들은 2017년 「주목이 전부다(Attention is all you need)」라는 논문에서 도입한 용어다. 이 명칭은 영화 <트랜스포머>에서 따왔다고 한다. 자연어를 처리하는 ‘모델’, 혹은 기반 기술이라고 이해하면 된다. 엄청난 양의 언어(토큰)를 사용했기 때문에 ‘초거대 언어 모델(Large Language Model, LLM)’이라고 부르기도 한다. 최근의 생성 인공지능은 거의 대부분 바로 이 초거대 언어 모델에 기반하고 있다. 이에 따라 각종 언어 관련 문제 풀이, 무작위 글짓기, 번역, 주어진 문장에 따른 간단한 코딩도 가능해졌다. 이 GPT가 지금 유행하는 생성 인공지능의 원천이다.

초거대 언어 모델은 법률, 행정, 백과사전, 시와 소설, 역사, 철학, 신문 기사 등 활용할 수 있는 모든 문장을 데이터로 삼아, 개별 단어(정확히는 언어 ‘토큰’) 다음에 어떤 단어가 오는지를 학습했다. 학습이라는 표현을 썼지만 통계적 빈도를 추출해 활용한다고 이해하면 더 좋다. 이렇게 되면 어떤 단어 다음에 올 수 있을 법한 단어가 추천되고, 또 어떤 미완성 문장 다음에 어떤 단어들이 올지 추천되며, 문장 중간중간 구멍이 뚫린 곳에 어떤 단어가 들어갈지도, 나아가 한 문장 혹은 몇 개 문장 뒤에 어떤 문장 혹은 문장들이 올지도 추천될 수 있다. 초거대 언어 모델에 기반한 언어 생성은 이런 식으로 이루어진다. 새 문장들의 생성은 철저하게 통계와 확률 그리고 여기에 가미되는 변이의 미세한 편향(bias)과 가중치(weight)에 따라 이루어진다. 편향과 가중치를 주지 않으면 매번 같은 문장이 생성될 것이기 때문이다.

이런 언어 생성 기능에 언어로 설명(label)이 붙은 이미지, 소리, 음성, 음악, 동영상, 컴퓨터 코드, 수식 등 비언어적 요소를 함께 학습한 것이 ‘멀티모달(multi-modal)’이다. 여러(multi) 개의 모드(mode), 즉 방식을 학습했다는 뜻이다. 이렇게 하면 언어 말고도 다양한 생성이 가능해진다. 요컨대 멀티모달 모델은 언어로 설명되거나 표현된 ‘세상’의 모든 것을 학습했고, 따라서 언어 생성뿐 아니라 세계 생성도 할 수 있으리라 기대된다.

멀티모달은 ‘언어(로 설명되거나 표현된)-이미지’, ‘언어-소리’, ‘언어-동영상’ 등 기본적으로 언어에 다른 요소가 짝지어진 데이터로 훈련되었다. 이 점에서 멀티모달 역시 언어에 전적으로 의존하고 있다. 챗GPT를 비롯한 생성 인공지능의 한계는 이 점 때문에 생겨난다. 언어에는 ‘과잉’인 부분과 ‘결여’인 부분이 있다. 과잉은 세계에 존재하지 않지만 언어에만 있는 것을 지칭한다. 신화의 세계, 소설이나 영화 같은 허구의 세계도 백과사전의 진술과 동등하게 학습에 쓰인다. 이것은 과잉이다. 결여는 세계에는 존재하지만 언어에는 존재하지 않는 것을 지칭한다. 시각이나 청각 말고 후각, 촉각, 미각 같은 감각의 영역, 미술이나 음악 감상 시의 느낌의 영역 등은 언어로 서술하기 어렵다. 이것은 결여다.

진실이 아닌 내용을 진실인 양 내뱉는

챗GPT의 ‘환각’ 현상 가려낼 전문 지식 필요

챗GPT에서 가장 문제가 되는 것이 진실이 아닌 내용을 마치 진실인 양 천연덕스럽게 내뱉는 환각’ 현상이다. 챗GPT는 내용의 진실성을 충족시키려고 만들어진 것이 아니다. 그저 말이 되는 문장을 그럴듯하게 생성하는 것에만 초점이 맞춰져 있다. 따라서 챗GPT를 써보면 금세 느끼게 되는 점인데, 자신이 잘 아는 영역에 대해서는 ‘틀린’ 이야기를 너무 많이 생성한다. 이처럼 생성 내용이 틀렸다는 걸 알아채기 위해서는 자신의 전문 지식이 동원된다. 아는 만큼 분별할 수 있다는 뜻이다.

무지가 공포와 예속 낳아… 새롭고 강력한 기술도 이해하면 활용할 수 있어

챗GPT가 처음 등장했을 때, 인간 본연의 활동인 생성을 대체한다고 해서 두려움이 컸다. 얼마의 시간이 흐른 지금, 챗GPT가 잘해내는 일과 하기 어려운 일이 가려지고 있다. 새롭고 강력한 기술이 등장할 때마다 우리는 두려움을 느끼고 경계하며, 아예 이해하기를 포기하려 하는 경우가 많다. 이럴 때일수록 냉정하게 이해해보려는 자세가 필요하다. 무지는 공포를 낳고, 나아가 예속을 낳는다. 이해하고 나면, 활용할 수 있는 길이 열리는 법이다.

김재인

철학자이자 경희대학교 비교문화연구소 학술연구 교수이다. 서울대 미학과를 졸업했고 동 대학원 철학과에서 석사와 박사 학위를 받았다. 서울대 철학사상연구소 연구원 등을 지냈고, 서울대, 한국외대, 홍익대 등에서 강의했다. 주요 저서로 『인공지능의 시대, 인간을 다시 묻다』, 『AI 빅뱅』 등이 있다.