이 포스팅을 읽기 전 참고 사항
- 개인적인 후기일 뿐,
독서 전 반드시 참고할 건 아니니
가볍게 읽기를 바란다.
-책의 내용이 일부 포함되어 있다.
챗GPT는 3,000억 개의 토큰과 5조 개의 문서로 학습했습니다. 그런데 라마3는 무려 15조 개의 토큰을 학습했 습니다. 챗GPT보다 토큰이 무려 50배나 많습니다. 여기에다 컴퓨터 코드도 이전 버전인 라마2보다 네 배나 많이 학습했습니다.
인공지능에는 규모의 법칙이란 게 있습니다. 컴퓨팅 파워를 더 많이 넣을수록, 학습 데이터를 더 많이 넣을수록, 매개변수를 크게 잡을수록 인공지능의 성능이 더 좋아지더라는 것인데요, 지금까지는 최적의 비례라는 게 있어서 셋이 함께 커질 때 효율이 높다고 돼 있었습니다. 실제로도 그렇고요.
그런데 메타는 매개변수는 작게 둔 채로 학습 데이터를 무려 50배나 더 많이 넣어버린 것입니다. 그러니까 최적의 비례가 아닌 것이지요. 더 놀라운 것은 메타가 아직 규모의 법칙의 끝을 보지 못했다고 밝혔다는 것입니다. 그러니까 그만큼 집어넣었는데도, 여전히 더 많은 학습 데이터를 넣으면 품질이 더 좋아질 여지가 있더라는 겁니다.
마이크로소프트의 접근도 아주 특별합니다. 물론 파이-3도 4조 8,000억 개의 토큰을 사용했습니다. 챗GPT의 16배지요. 하지만 라마3의 15조에 비하면 3분의 1 수준입니다. 파이-3는 학습 데이터의 양을 늘리는 대신 학습 데이터의 질을 높이는 데 집중했습니다.
다. 마이크로소프트의 표현을 빌리자면 교과서와 같은 자료, 사물을 매우 잘 설명하는 양질의 문서를 구하고 만드는 데 엄청난 자원을 투입했습니다. 그랬더니 파이-3가 이 정도의 매개변수를 가지고도 놀라운 성능을 발휘하더라는 것입니다.
이 두 가지 시도는 아주 흥미로운데요, 라마3가 학습 데이터의 양을 가지고 승부를 했다면, 파이-3는 학습 데이터의 질로 접근해서 각기 놀라운 성취를 이뤘습니다. 인공지능도 좋은 책을 많이 읽으면 똑똑해진다는 것을 증명한 사례라고 할까요. (그러니 사람이 책을 읽으면 얼마나 더 똑똑해지겠습니까!)
1강
걷잡을 수 없는 변화의 물결
인공지능, 우리의 일과 삶에 급격히 파고들다 48-49p
이를 통해 인공지능도 똑똑해지는 걸 알 수 있습니다. 인간도 마찬가지라는 거죠. 기본적인 지능 수준을 가진 인간이라면, 꾸준한 학습을 통해 성장할 수 있다는 이야기가 됩니다. 지능이 높을 수록 학습의 기간이 짧아지긴 하겠지만, 볼 수 있고 들을 수 있고 감각적인 느낌을 잘 받아들이고 이해하려고 하는 순간 인간도 개선의 여지가 충분히 있다는 뜻이 됩니다.
MIT 교수이자 아이로봇 iRobot의 공동 창업자인 로드니 브룩스Rodney Brooks 는, 초기부터 몸을 가진 Al의 중요성을 강조해온 대표적 인물입니다. 그는 "세계가 최고의 모델"이라는 유명한 말을 하기도 했습니다. 1991년에 발표한 그의 논문 "Tnteligence Without Representation”은 '지능에는 표상이 필요 없다'는 도발적인 아이디어를 주장해 큰 반향을 불렀습니다.
이들의 주장을 요약하면 다음과 같습니다.
1. 지능은 신체와 환경의 상호작용에서 발현된다: 브룩스는 "지능은 신체와 환경의 상호작용에서 창발한다"고 말했습니다. 실제 물리 환경과의 상호작용이 문제 해결과 적응에 필수적이라는 것입니다.
2. 실제 환경의 복잡성을 반영: 현실 세계는 매우 복잡하고 역동적입니다. 몸을 가진 AI는 이러한 복잡성을 직접 마주함으로써 강건하고 적응력 있는 에이전트로 발전할 수 있습니다.
3. 학습의 효율성: 르쿤이 지적하듯, 물리 환경과의 상호작용은 데이터 효율적 학습을 가능하게 합니다. 에이전트는 능동적 탐색을 통해 가장 유용한 정보를 선별적으로 습득할 수 있습니다.
1강 걷잡을 수 없는 변화의 물결
인공지능, 우리의 일과 삶에 급격히 파고들다 65-66p
1번의 주장에 크게 공감합니다. 우리 인간의 뇌는 환경의 영향을 많이 받습니다. 높은 천장고의 공간에서 창의적 사고를 발휘하기 좋고, 러닝머신 위에서 뛰는 것보다 야외에서 뛰는 것이 더 높은 만족감을 줍니다. 뇌 활성화에도 큰 영향을 준다고 하죠. 창의적인 생각, 아이디어를 떠올리기 위해서는 야외에서 뛰는 걸 추천한다고 합니다.
이러한 인간의 특성에 맞게 AI도 몸을 가져야 한다고 하는데요. 그럴 수 있다면 AI는 소형화가 가능해질 지도 모릅니다. 몇백 평 크기의 GPU를 수백 수천 개를 장착한 컴퓨터가 아니라 사람 하나 정도의 덩치로 대부분의 작업이 해결될 수도 있는 거죠. 뒤에 이어지는 두 번쨰와 세 번째의 주장도 비슷한 맥락입니다.
결국 이런 방식으로는 인공지능을 구현하지 못한다는 것을 밝히는 논문이 나왔습니다. 이 때문에 10년씩 두 번의 '인공지능의 겨울'이 있었습니다. 그리고 캐나다에서 그 긴 겨울을 버틴 인공지능의 선구자 제프리 힌턴 Geotfrey Hinton이 딥러닝에서 새로운 돌파구를 만들 어내면서 지금의 인공지능 부흥기가 도래합니다. 그래서 캐나다가 인공지능의 메카로 불리게 된 것이지요.
새로운 접근법은 사진의 차이점들을 구분하는 것까지 모두 인공지능에 맡깁니다. 그러니까 고양이 사진을 15만 장 주고 '이 15만 장의 사진들 간 차이점을 네가 다 잡아내라' 하는 셈이지요. 잡아낸 특징들이 1,000만 개일 수도 있고, 1억 개일 수도 있겠지요. 이 특징들 중에 어떤 것은 고양이'라는 잠재된 패턴과 밀접한 관계가 있을 것이고, 어떤 특징들은 그다지 관계가 없거나, 아무 관계가 없을 겁니다. 이 1,000만 개, 1억 개의 특징들 하나하나에 대해 얼마나 밀접하게 관계가 있는가에 따라 가중치를 주는 거예요. 이렇게 매긴 가중치를 매개변수'라고 부릅니다. 그러곤 '어떤 특징들에 몇 점을 줬을 때 고양이를 가장 잘 가려낼 수 있을까'를 끊임없이 돌려보는 거지요. 그러니까 1,000만 개, 1억 개의 특징들에 대해 가장 적절한 매개변수 값을 찾을 때까지 계속 바꿔가면서 돌려보는 겁니다. 사람은 평생 해도 마칠 수 없는 계산이지만, 컴퓨터는 합니다. 1 초에 312조 번 실수 계산을 하는 녀석이니까요. 이런 GPU를 수십 대. 수백 대, 심지어 1만 대를 붙입니다.
2강 모두를 놀라게 만든 거대언어모델, LLM의 등장
챗GPT로 알아보는 인공지능의 정체
78p
문제는 매개변수에 가중치에 대한 점수를 준 걸 설명할 수가 없는 것이 현재, 인공지능에서 우리가 느낄 수밖에 없는 한계라고 합니다. 수능 문제도 왜 틀렸는지 알려면 풀이과정을 써놨다면 알 수 있지만 적지 않았다면 확실히 알기 어렵습니다. 계산 실수인지, 문제 해석에서 착오를 일으킨 건지는 풀이과정이 증명하기 때문이죠. 인공지능은 계산적으로, 정해진 매커니즘으로 움직이는데, 설명할 수가 없다고 합니다. 이런 방식으로는 우린 인공지능에게 꼼짝도 못할 상황에 처할 지도 모릅니다. 앞으로의 개발에 있어 인간이 이해할 수 있는 수준의 정보가 반드시 공개되어야 할 것입니다. Open AI의 비공개 전환은 그런 점에서 충분히 논란이 될 만한 행보입니다.
소형화의 흐름도 거셉니다. 오픈AI, 마이크로소프트, 구글, 메타, 애플 등이 잇따라 앞서 나온 더 큰 모델과 맞먹는 성능을 보이는 작은 모델들을 내놓고 있습니다.
소형화는 몇 가지 이유에서 필연이라고 할 수 있습니다. 우선 현재 의 AI는 자원을 너무 많이 씁니다. 챗GPT를 학습시키는 데 3.7조 원이 들었다고 합니다. 라마3.1은 최신 GPU H100을 1만 6,000대 나 돌렸습니다. 한 번에 몇천 가구분의 전기를 씁니다. 이래서는 수지를 맞추기가 어렵습니다.
두 번째는 앞에서 본 것처럼 스마트폰, 노트북과 같은 개인용 기기에 올릴 수 있어야 하기 때문입니다. 개인정보를 제대로 쓰려면 이렇게 하는 게 필수가 됩니다.
세 번째로, 인공지능은 인간의 지능을 기계로 구현하려는 시도입니다. 인간의 뇌는 불과 860억 개쯤의 뉴런은 가지고도 온갖 일을 다 해냅니다. 성인 남성의 하루 평균 에너지 소비량은 121와트인데, 그중에서 뇌는 20퍼센트쯤을 씁니다. 하루 24와트쯤으로 그 모든 일들을 해낸다는 것입니다. 인공지능이 되려면 지금보다 훨씬 더 작아져야 하는 것은 당연한 일이 됩니다.
거대언어모델을 어떻게 소형화할 수 있을까요? 몇 가지 방법들이 있습니다.
고품질의 학습 데이터 사용
앞서 본 것처럼 책과 같은 고품질의 학습 데이터를 많이 학습하면 작은 크기의 모델로도 상대적으로 높은 성능을 낼 수 있습니다. 마이크로소프트의 파이-3가 대표적인 사례입니다.
양자화
거대언어모델의 매개변수는 대개 32비트 부동소수점으로 표기합니다. 이를 16비트 부동소수점으로 변환하면 모델 크기를 절반으로 줄일 수 있습니다. 8비트 정수로 변환하면 모델 크기를 4분의 1로 줄일 수 있겠지요. 이를 양자화'라고 합니다. 이렇게 하면 정확도는 떨어지겠지만 처리 속도가 올라가고 에너지도 덜 쓸 수 있게 됩니다. 경우에 따라 모바일 기기에도 올릴 수 있습니다.
3강
인공지능이 인간보다 똑똑해질 수 있을까?
생성형 AI의 놀라운 능력과 최근의 기술 흐름 196-197p
소형화를 위해서는 여러가지 방법이 있는데, 지식증류, 큰 모델의 값을 받아 자신의 값과 비교 검토하는 과정 등이 있다고 합니다. 우리 인간의 뇌는 패턴을 통해 학습하고 저장한 뒤에 자주 쓰이는 것들만 남깁니다. 고양이를 보며 귀엽다, 예쁘다의 단어를 우선적으로 쓴다고 했을 때 징그럽다, 꺼림직하다 등과 같은 단어의 사용빈도는 상대적으로 적겠죠. 또 책을 읽을 때도 흥미로운 부분, 기억에 남기고 알 법한 것들 그리고 아는 것들 위주로 인덱싱합니다. 내가 책을 읽고 이렇게 독후감을 쓰는 것도 마찬가지 입니다. 관심있는 내용과 알 법한 것들 위주로 색인 작업을 한 뒤에 독후감을 씁니다.
이런 인간의 방식은 주관적이기 때문에 같은 책을 읽어도 사람마다 다르게 정리됩니다. 인공지능은 인간의 학습 패턴을 그대로 복제할 필요는 없겠지만 답습할 필요는 있어 보입니다. 인간이 요구하는 건 정해져 있기 때문이죠.
오픈AI는 GPT-4부터는 스펙도, 모델도 공개하지 않고 있습니다. 모델의 크기, 투입한 하드웨어의 규모, 학습에 사용한 데이터 세트, 훈련 방법 어느 것도 밝히지 않습니다. 단지 API만 공개했습니다. 오픈AI 쪽은 이것을 더 이상 밝히지 않는 이유로 '기업 비밀'을 꼽았는데, 사실 오픈AI의 이런 태도는 설립 취지에 비춰보면 아주 이상해 보이기도 합니다. 오픈AI의 CEO인 샘 올트먼은 "인공일반지능이 만약에 고장 나면 무엇인가 다른 조치가 필요할 수 있습니다. 이 때문에 특정 회사가 이런 AI를 소유해서는 안 됩니다"라고 말한 바 있습니다. 이 때문에 오픈AI는 사실상 '클로즈드 Closed ' AI가 아니냐는 비판을 받고 있습니다.
4강 열려버린 판도라의 상자 AI의 확산, 그리고 필연적으로 도래할 충격들 239p
앞서 말했듯, 인공지능의 학습 과정을 인간이 명확히 알 수 있는 방법이 없습니다. 때문에 오픈소스로 모두에게 공개될 필요가 있는 것이죠. 윈도우, Mac OS 등의 기반인 리눅스, 유닉스와 같은 길을 걸어야 하죠. 오픈AI의 기술은 그런 기반이 될 수 있는 틀이 되어야 합니다. 이를 통해 새로운 프로그램이 등장하고 또 쉽게 수정될 수 있어야 합니다. 언제든 수정 재배포가 가능할 때 필요한 업데이트 혹은 보안 등의 여러 이슈들에 빠르게 대응할 수 있으니까요. 인공지능의 혁신이라고 말할 수 있는 GPT는 그러지 않았습니다. 아이폰과 GPT의 연계의 이유에는 이런 뉘앙스도 깔려있는데 말이죠.(아.. 물론 폐쇄적인 정보 처리 때문에 AI 시장 선점을 놓친게 크지만요)
이 책은 AI를 이해할 수 있는 접근하기 쉬운 책입니다. 물론 어려울 수 있겠지만, 그렇다고 아예 이해를 못할 정도는 아닙니다. 왜냐구요? AI 문외자인 제가 읽었으니까요. 우린 인공지능을 빨리 이해해야 합니다. 인공지능 스스로도 자신의 판단 과정에 대해 이유를 설명할 수 없기 때문이죠. 우리가 만들었으니 우리가 책임지고 알아내려고 노력해야 합니다. 그러기 위해서는 관심부터 먼저 가져야겠죠. 지금 리눅스를 알고 유닉스를 알려고 하는 것보다 AI를 알아가는 것이 더 빠를 지도 모릅니다.