보안정보

전문화된 보안 관련 자료, 보안 트렌드를 엿볼 수 있는
차세대 통합보안관리 기업 이글루코퍼레이션 보안정보입니다.

작지만 오히려 좋아! 소형 언어 모델(sLLM)

2023.08.02

13,695

01. 요즘 대세 생성형 인공지능(AI), 그리고 언어 모델

챗GPT로 대표되는 생성형 AI가 화두로 떠오른 가운데 언어 모델(Language Model)에 대한 관심도 덩달아 높아지고 있다. 언어 모델이란 대용량의 텍스트에서 언어 이해 능력과 지식을 학습하도록 훈련된 AI 모델을 일컫는다. 방대한 텍스트가 포함된 데이터로부터 정보를 추출하고 분류하는 것에서 더 나아가 직접 텍스트까지 생성해 낸다. 한 마디로 딥러닝을 통해 수많은 데이터를 미리 학습해 추론하고, 이를 문장으로 표현하며 대화를 이어나갈 수 있는 모델로서, 사실상 생성형 AI의 핵심 기술이라고 해도 과언이 아니다. 오늘날 챗GPT가 촉발한 언어 모델 경쟁은 국내로도 이어지고 있다. 국내 기업 역시 한국어 기반의 언어 모델 개발 계획을 잇따라 내놓으며 대세에 합류하는 추세다.

[그림 1] 국내 기업의 언어 모델 개발 추진 현황 (출처: KISTEP 과학기술정책센터)

세상에서 제일 유명한 생성형 AI의 대표주자, 챗GPT는 대형 언어 모델(LLM)을 기반으로 한다. 언어 모델의 크기는 통상 매개변수(파라미터) 개수에 따라 결정이 되는데 보통 1,000억 개 이상일 때 대형 언어 모델이라 분류된다. 챗GPT에 적용된 ‘GPT-3’의 매개변수는 1,750억 개이며, 구글이 개발한 '팜(PaLM)'의 경우 5,400억 개에 달하는 것으로 알려져 있다.

매개변수는 사람의 뇌에서 정보를 학습하고 기억하는 시냅스와 유사한 역할을 한다. 이에 이론상으로는, 매개변수의 수가 많으면 많을수록 성능이 높아지고 또 더욱 복잡하고 정교한 기능을 수행할 수 있다고 여겨진다. 내로라하는 빅테크들이 매개변수의 수를 언급하며 각자의 언어 모델에 대한 성능을 강조하는 이유도 여기에 있다.

그렇지만 과연 언어 모델에 있어 매개변수는 언제나 다다익선(多多益善)인 것일까? 해당 언어 모델이 어떤 목적으로 활용되는지에 따라 다르겠지만 그렇기 때문에 더더욱 언어 모델의 크기가 모든 경우의 유일한 해답이 되어주지는 않을 것이다. 때론 비즈니스 목표에 맞게 사전 최적화된 경량 모델을 이용하는 것이, 더욱 유리할 수도 있다는 말이다.

02. 떠오르는 샛별, 소형 언어 모델(sLLM)

이러한 배경에서 대형 언어 모델 열풍 속 소형 언어 모델(sLLM)이 등장했다. 소형 언어 모델이란 그 이름에서부터 알 수 있듯이, 대형 모델에 비해 매개변수의 수가 수십억 내지 수백억대로 비교적 크기가 작은 언어 모델을 말한다.

소형 언어 모델이 주목 받기 시작한 건 올해 초 메타의 ‘라마(LLaMA)’가 공개되고서부터다. 메타는 라마를 매개변수 개수에 따라 총 4가지 버전으로 내놓았는데, 그중 가장 작은 모델은 매개변수가 70억 개에 불과했고 가장 큰 모델 역시 650억 개로, 경쟁사들 대비 확연한 차이를 보였다. 그럼에도 메타는 이제까지와는 다른 의미로, 매개변수의 수를 강점으로 내세웠는데 개수가 적은 대신 용량을 다른 모델 대비 1/10 수준으로 낮출 수 있었기 때문이다. 이에 따라 훨씬 적은 컴퓨팅 파워가 요구돼 모바일이나 노트북으로도 활용할 수 있도록 실용성을 극대화했다고 강조했다. 게다가 메타는 이러한 장점을 더욱 돋보이게 하고자 라마를 오픈소스 형태로 공개하기도 했다.

[그림 2] 개방성과 효율성을 강조한 메타의 LLaMA (출처: Meta AI 블로그)

구동 비용이 너무 높다는 점은 꾸준히 대형 언어 모델의 단점으로 지적돼 왔다. 한 마디로 그 크기만큼이나 훈련하고 유지하는 데 막대한 비용과 시간이 소요된다는 말이다. 구글의 팜은 4,000개의 칩으로 이뤄진 슈퍼컴퓨터 2대로 50일 이상 훈련되었고, 챗GPT의 GPT-3는 초기 훈련 비용에만 1000만 달러(약 132억 원)가 들었다. 그뿐만 아니라 챗GPT가 역대급 흥행했음에도 불구하고, 챗GPT 개발사 오픈AI는 최근 수천억 원대의 영업 손실을 기록했는데 그 원인으로 훈련 및 유지를 위한 비용이 지목됐다.

그에 반해 소형 언어 모델은 훈련에 요구되는 데이터나 시간, 비용이 상대적으로 적다는 큰 장점이 있다. 스탠퍼드대학교는 메타의 라마 중 매개변수가 가장 작은 버전(7B)을 기반으로 한 소형 언어 모델 ‘알파카 7B’를 선보였다. 알파카는 5만 2000개의 데이터를 토대로 AI 반도체를 탑재한 컴퓨터 8대를 통해 단 3시간 만에 훈련을 끝냈고, 개발에 소요된 비용은 오픈AI의 API 사용 비용 약 500달러와 라마 7B 사용 비용 100달러 안팎으로 총 600달러(약 77만 원)에 불과했다. 그럼에도 연구진에 따르면 알파카가 GPT-3.5와 질적으로 비슷한 성능을 보였다고 한다. 메일 작성, 생산성 도구 등 다양한 분야에서 GPT와 비교해 보았을 때 알파카는 90개 항목에서, GPT는 89개 항목에서 성능이 상대보다 앞섰다고 연구팀은 밝혔다.

[그림 3] 소형 언어 모델 Alpaca 7B (출처: 스탠퍼드대학교 기초모델 연구센터(CRFM) 블로그)

이를 이어 데이터 플랫폼 기업 데이터브릭스(Databricks)는 서버 1대에서 3시간 훈련해 개발한 매개변수 60억 개의 소형 언어 모델 ‘돌리(Dolly)’를 선보였고, AI 반도체 스타트업 세레브라스(Cerebras)는 매개변수 1억 개부터 130억 개 사이의 소형 언어 모델 7종을 개발해 오픈소스로 공개했다. 대형 언어 모델을 누구나 사용하기에는, 또 모든 서비스에 적용하기에는 너무 비싸고 무겁다. 이에 경량화하여 운영 비용을 줄이고 다양한 기기나 서비스에 적용하고자 하는 접근법이 하나의 트렌드로 떠오르는 추세다.

이러한 흐름에 발맞춰 구글 또한 최근 연례 개발자 컨퍼런스 ‘구글 I/O’를 통해 ‘팜2(PaLM2)’를 게코(Gecko), 오터(Otter), 비슨(Bison), 유니콘(Unicorn)의 4가지 크기로 세분화하여 출시한다고 밝힌 바 있다. 다양한 사용 사례에 맞게 모델의 크기를 선택하고 쉽게 배포할 수 있도록 한 것이다. 그중에서도 가장 규모가 작은 게코는 모바일은 물론 오프라인에서도 작동 가능한 것으로 알려졌다.

[그림 4] 다양한 규모의 언어 모델 제품군을 선보인 구글 (출처: Google 한국 블로그)

챗GPT가 가능한 최대한의 데이터를 끌어와 학습한, 수많은 정보를 보유하고 있는 백과사전이지만 누군가에게는 그보다 어느 한 분야에 특화된 전문 서적이 유용할 수 있다. 데이터브릭스의 CEO 알리 고드시(Ali Ghodsi)는 ‘챗GPT가 세상 모든 정보를 학습했지만, 기업은 세상의 모든 정보를 필요로 하지는 않는다. 챗GPT는 회사가 보유한 데이터를 학습한 적도 없다’라고 지적한 바 있다.

특정 산업이나 영역에 맞게 설계되고 최적화된 버티컬 AI(Vertical AI)로서 활용하기에는 소형 언어 모델이 더욱 적합하다. 비록 일상적인 대화 역량은 떨어질지라도, 학습 데이터의 깊이와 질에 따라 특정 분야에서는 대형 모델을 뛰어넘는 답변을 보여줄 잠재력이 충분하기 때문이다. 또한 다른 애플리케이션과 통합하여 사용하기에도 가볍고 유연한 모델이 더욱 효과적이다. 소형 언어 모델이 주목받게 된 가장 큰 이유이기도 하다. 미세 조정을 통해 매개변수를 줄이고 비용을 절감하며 정확도를 높이는 맞춤형 언어 모델로서 높은 활용도를 보일 것이라 기대받는다.

미국의 AI 스타트업 갓잇AI(Got It AI)는 챗봇 애플리케이션에 적용할 수 있는 기업용 소형 언어 모델 '엘마(ELMAR)'를 공개했다. 엘마는 작은 규모의 사내 구축형(온프레미스) 언어 모델이다. 데이터 외부 유출에 민감한 기업들을 타겟으로, 사내에 구축해 가볍게 실행할 수 있으면서도 미세 조정을 통해 성능을 높였다.

[그림 5] 온프레미스형 소형 언어 모델 ELMAR (출처: Got It AI)

갓잇AI의 CEO 피터 레란(Peter Relan)은 모든 기업이 크고 강력한 모델을 필요로 하는 것은 아니며 오히려 데이터가 외부로 반출되는 것을 원하지 않는 기업이 많다고 언급하며, 소형 언어 모델의 또 다른 강점을 이야기했다. 폐쇄적이고 활용이 어려운 대형 모델에 비해 이러한 소형 모델은 기업의 입장에서 보다 경제적이고 신속하게 만들 수 있는 데다 보유한 데이터를 활용해 맞춤형으로 구축할 수 있기 때문이다. 이에 향후에는 정보 유출을 우려하는 기업이나 국가 정부가 저마다의 독자적인 언어 모델을 구축해 자체적으로 운영하는 모습을 볼 수 있지 않을까 조심스레 전망해 본다.