Carpe diem

NLP 관련 석사 과정 재학 중 (2022.03 ~ )

AI 15

Llama Index 살펴보기

해당 포스트는 해외블로그 Medium에 게시된 포스트 및 Llama 공식 문서 내용을 정리 한 것이다. Llama Index 왜 쓰는데 ? Llama Index 사용 이유 ! 여러 LLM (Large Language Model)들은 위키피디아, 소스 코드 등과 같은 대량의 공개 데이터에 대해 사전 훈련되어 있다. 하지만, 이런 LLM들은 보통 사용자의 데이터나 해당 문제에 특화된 데이터로는 훈련되어 있지 않다. 본인의 데이터로 LLM을 세밀하게 조정할 수도 있지만, 파라미터 수가 기본 Billion (B) 이상인 요즘 언어 모델을 새로 학습하는 것은 상당한 비용이 소모된다. 비용적인 문제로 인해, LLM이 최근 정보를 학습하도록 업데이트하는 것은 쉽지 않으며, 이러한 문제를 해결하기 위해 여러 방법론이 ..

AI 2024.03.11

내 컴퓨터에서 LLM 모델 돌릴 수 있을까 ?

LLM 모델이 사용하는 메모리 계산하는 방법을 간략하게 소개하고, 추가적으로 내게 주어진 환경에서 LLM 모델을 돌릴 수 있는지 확인할 수 있는 사이트를 소개한다. Model on GPU Ram LLM을 이용한 학습 / 추론 시 GPU 등의 Accelerator를 활용하게 되는데, Accelerator 내 메모리에 모델의 파라미터를 업로드한다. 하지만 7B ~ 1.76T의 모델 파라미터를 Accelerator로 구동하는 것은 현실적으로 어려운 일이며, 이에 상용 GPU (NVIDIA RTX 3080 등)을 통한 LLM 활용 방법론이 대두되었다. Memory Usage 1. 모델 학습 모델 학습에는 Optimizer 상태를 저장하는 저장소와 디바이스 메모리에 Gradient를 저장해야 한다. 이는 모델 학..

AI 2024.02.20

Bi-encoder, Cross-encoder, Poly-encoder (구현 실습)

※ 연구하면서 혼자 구현해본 내용이기에 틀린게 있을 수 있음 ※ 사용 데이터세트는 송영숙님의 챗봇 데이터 0. 사전 작업 1. Bi-encoder 2. Cross-encoder Cross-encoder는 Sentence Trasnforemr 라이브러리를 이용해 구현 3. Poly-encoder ** attention 연산을 위와 같이 작성하였더니, Poly-encoder 출력 값과 Bi-encoder 출력 결과가 동일하게 나와서 수정 ♣ 전체 코드 https://github.com/Jaedong95/Chatbot/tree/main/Encoder ♣ 참고 자료 [개념] https://ratsgo.github.io/nlpbook/docs/language_model/tr_self_attention/ [코드] ..

Bi-encoder, Cross-encoder, Poly-encoder (이론)

⊙ 해당 포스팅은 다른 분들이 작성한 내용을 최소한으로 요약 정리한 포스팅입니다. ⊙ 보다 자세한 내용 (수식 등)을 알고 싶으신 분들은 맨 아래 페이지의 참고 자료에 있는 사이트들을 참고해주세요. 0. Bi-encoder & Cross-encoder - pairwise comparison task 문제를 해결하기 위한 인코더 - 다음에 올 문장을 예측하는 등의 작업에 사용됨 - 두 인코더 모두 Cross-Entropy Loss를 최소화도록 학습함 1) Bi-encoder Context Encoder와 Candidate Encoder가 각각 context 문장과 해당 context 문장 다음에 올 후보 문장을 인코딩함 인코딩 결과로 Context Embedding(ctxt Emb), Candidate E..

대학원 AI 면접, 필기 시험 대비 기초 지식 정리

[개요] 선형대수, 확률과 통계, 기본 인공지능에 관한 지식들을 정리하여 향후 면접에서나 필기 시험에 대비하기 위한 포스팅 [내용 정리] Part I. 선형대수학 -> 선형대수 관련 내용은 '다크프로그래머'님의 티스토리에 정리가 상당히 잘 되어 있어, 해당 사이트를 보며 공부 Part II. 확률과 통계 -> 다음 사이트에 올라와있는 PDF를 사용해 공부 2021 수능용 확률과 통계 개념 총정리 새과정에 맞춰 정리한 2021 수능용 확률과 통계 개념 총정리 입니다. 2021 수능용 확률과 통계 개념 총정리... blog.naver.com Part III. 기본 인공지능 1. 인공지능 개요 1) 인공지능이란 ? -> 기계가 사람의 지능을 모방하게 하는 기술로, 다트머스대학 수학과 교수인 '존 메카시'가 "..

AI 2021.12.11

DNN(Deep Neural Networks) 성능 개선

[개요] Deep Neural Networks의 성능을 개선하는 방법에 대해 알아본다. [내용 정리] 1. 최적화 (Optimization) 0) 정의 -> Train data에서 최고의 성능을 얻으려고 모델 파라미터들을 조정하는 과정 1) 일반화 (Generalization) · 훈련된 모델이 처음 보는 데이터에 대해 잘 추론할 수 있는 상태 · 학습을 통해 일반화된 특징들을 잘 찾은 상태 2) 과대적합 (Overfitting) · 검증 결과 Train set에 대한 성능은 좋은데 validation dataset에 대한 성능은 안 좋은 상태로, 학습을 과하게 한 상태를 말함 · 학습이 과하게 되어 쓸데 없는 패턴을 모두 외워버려, 오히려 처음 본 데이터에 대한 예측 성능이 떨어진다. · 보통 Trai..

AI 2021.12.06