소소한 컴퓨터 이야기

1일차 - ChatGPT ? LLM이 뭔데 ?

by Cori

INTRO

November 30, 2022  - 처음 ChatGPT가 세상에 등장한 날

ChatGPT 관련 타임라인을 살펴보면 다음과 같습니다.

https://www.expressvpn.com/blog/how-has-chatgpt-changed-our-lives/

ChatGPT의 성능은 모두가 아시다시피 강력해서, 우리 삶에 많은 편의를 가져다주었습니다. 대학교 리포트를 작성하기도 하고, 제안서 작업을 대신해주기도 하고, 번역 및 코딩 등 여러 일들을 대신 수행해주었죠

https://twimbit.com/insights/chatgpt-trailblazers

사용의 편리성 및 막강한 성능 덕분에, ChatGPT를 이용하는 이용자 수가 1억명을 돌파하는데에 까지는 많은 시간이 걸리지 않았습니다. 요즘 젊은 층에서 인기가 많은 인스타, 틱톡이 각각 30개월, 9개월이라는 시간에 걸쳐 1억명을 달성한데 비해, ChatGPT는 불과 2달만에 1억명의 사용자를 모았습니다.

https://www.gptkorea.or.kr/cf03475e-581b-4915-a78b-c092213d0b22

이렇게 인기가 치솟다보니, 사람들의 AI에 대한 관심도도 자연스레 올라가게 되었고, ChatGPT를 활용한 기술 개발에도 관심을 가지기 시작했습니다. 하지만 많은 사람들이 ChatGPT = LLM = AI 로 생각하고 있어, 이번 세미나를 통해 ChatGPT가 AI라는 분야에서 어디에 속하는지, 그 외 기술은 어떤 것들이 있는지 등에 대해 소개드리려 합니다. 

LLM 모델의 정의

LLM은 Large Language Model의 약자로, 이름에서 알 수 있듯이 대형 언어 모델을 의미합니다. 여기 그림에서 볼 수 있듯이 Large Language Model을 통해 우리는 구조화된 데이터를 비롯한 텍스트, 음성, 이미지 등의 소스를 Large Language Model에 전달해 이 정보를 학습하도록 구현할 수 있습니다. 훈련된 LLM은 데이터에서 정보 추출, 객체 인식, 이미지 캡셔닝, 감정 분석 등 다양한 영역에서 활용됩니다.

https://www.civilsdaily.com/news/crafting-safe-generative-ai-systems/

AI는 기본적으로 사람의 뇌의 구조를 모방하는 목표를 가지고 있으며, 이를 구현하기 위해 신경망 (NN)이라는 개념을 도입했습니다. 신경망은 input과 output, hidden state로 구성되어 있으며, input을 통해 전달받은 입력 값을 hidden state에서 처리한 후, output 레이어로 전달하여 결과값을 반환합니다. 이 과정은 사람의 뇌에서 ~ 에 해당합니다.

https://www.semanticscholar.org/paper/A-CMOS-Spiking-Neuron-for-Brain-Inspired-Neural-and-Wu-Saxena/293455e20d1856d9a2788a1a09b45112f533357c

이런 신경망들이 겹겹이 쌓이면 깊이 쌓였다 해서 Deep Neural Network가 됩니다. Deep Neural Network는 신경망 구조에 따라 RNN, CNN, Transformer Model 구조로 구분할 수 있습니다. CNN 모델은 Convolution Neural Network의 약자로, ~ 입니다. RNN은 Recurrent Neural Network의 약자로, 순환 신경망 구조를 띄고 있어 시간적 흐름에 따른 처리를 할 수 있도록 설계되었습니다.

https://mriquestions.com/deep-network-types.html%EF%BB%BF

Deep Neural Network에는 Transformer 모델도 포함되어 있는데, 해당 구조에 대해서는 2일차에 좀 더 자세하게 살펴볼 예정입니다. Llama와 Mistral 모델 모두 Transformer 구조를 띄고 있는 것을 볼 수 있듯이 현존하는 대부분의 LLM 모델은 트랜스포머 모델 구조에 기반하고 있습니다.

https://medium.com/@EleventhHourEnthusiast/paper-reviews-mistral-7b-and-mixtral-8x7b-e8f5a011ebbf

학습한 정보는 모델 구조 중 파라미터에 저장되는데, 모델별로 보유한 파라미터 수에 따라 해당 모델이 LLM인지, 단순 LM인지 등을 파악하는 기준이 됩니다. 보통 파라미터 수가 2~30B (2~300억)을 넘어가면 우리는 해당 모델을 LLM이라 정의합니다.

https://towardsdatascience.com/all-you-need-to-know-to-develop-using-large-language-models-5c45708156bc

AI, Machine Learning, Deep Learning 등의 벤다이어그램을 그려보면 다음과 같습니다. AI가 가장 큰 틀을 차지하고 있고, 머신러닝이 그 다음, 머신러닝의 범주로 Deep Learning이 포함되어 있습니다.

LLM 모델의 역사

LLM의 역사와 함께, AI 암흑기에 대해 설명드리겠습니다. AI는 총 2번의 암흑기를 거쳐왔습니다.

https://towardsdatascience.com/history-of-the-first-ai-winter-6f8c2186f80b, https://levelup.gitconnected.com/the-brief-history-of-large-language-models-a-journey-from-eliza-to-gpt-4-and-google-bard-167c614af5af?gi=5cf7d238d867

첫번째 암흑기는 LLM의 시조격 모델인 ELIZA와 SHRDLU가 등장하고 얼마 안 가 발생했습니다. ELIZA와 SHRDLU 모델은 규칙 기반 시스템이었으며, 제한 사항이 많았고 복잡한 언어 이해나 생성 작업을 수행할 수 있는 능력이 부족했습니다. 규칙 기반 시스템의 한계와 현실적인 문제 해결 능력의 부족으로 인해 연구에 대한 회의론이 퍼졌고, 자금 지원이 급격히 줄어들었습니다. 이는 언어 모델을 포함한 모든 AI 연구에 타격을 주었습니다.

https://en.wikipedia.org/wiki/ELIZA, https://cryptlabs.com/understanding-shrdlu-a-pioneering-ai-in-language-and-reasoning/

1980년대 초반, 전문가 시스템이 AI의 주요 응용으로 떠오르면서 잠시 활기를 띠었으나, 이내 유지보수의 어려움과 확장성의 한계로 인해 실망을 안겨주었습니다. 그와 동시에 1980년대 후반부터 1990년대에 걸쳐 통계적 언어 모델(예: n-그램 모델)이 도입되었으나, 상대적으로 단순한 통계적 방법론에 기반한 모델들이었습니다. 1980년대 후반에 들어서면서 전문가 시스템의 한계가 드러나고, 통계적 언어 모델 역시 큰 성과를 거두지 못하고 연구 자원 부족의 문제 등으로 인해 AI에 대한 관심이 급격히 감소했습니다. 이 시기를 저희는 2번째 암흑기라 칭합니다.

2000년대 중반 이후, 특히 2010년대에 들어 LLM의 기초를 다지는데 중요한 역할을 한 Word2Vec(2013) 같은 임베딩 기술이 등장했습니다. Word2Vec을 발전시킨 Transformer 모델이 2017년 등장했고, 해당 구조는 LLM이 자연어 처리 작업에서 혁신을 이루는 발판을 마련했습니다. 현재는 두번째 암흑기를 극복한 상태로 보고 있으며, 다만 커져가는 LLM 모델을 사용하기 위해 발생하는 자원적인 문제에 대해서는 여전히 해결해야 할 과제로 남아있습니다.

https://www.cdotrends.com/story/3909/microsoft-openai-planning-usd100b-ai-supercomputer

AI, LLM 말고 또 뭐가 있는데 ?

 AI는 LLM 외에도 다양한 분야에서 활발히 활용되고 있습니다. 이미지 생성 기술을 활용한 SORA와 DALL-E, Netflix와 Disney+의 콘텐츠 추천 시스템, 그리고 음성 합성 기술을 활용한 목소리 복원 시스템 등이 그 예입니다. 이처럼 AI는 이미지를 창작하고, 개인화된 추천을 제공하며, 음성을 재현하는 등 다양한 방식으로 우리의 일상에 깊이 스며들어 있으며, 앞으로도 더욱 발전해 다양한 산업에서 중요한 역할을 할 것입니다.

블로그의 정보

코딩하는 오리

Cori