Carpe diem

NLP 관련 석사 과정 재학 중 (2022.03 ~ )

전체 글 149

Jupyter Notebook Kernel Restart 오류 해결

Hugging Face에서 LLM 모델 다운 받기 아래 명령어를 통해 LLM 모델을 로컬 컴퓨터로 다운 받을 수 있다. from transformers import AutoModelForCausalLM, AutoTokenizer, AutoConfig, AutoModel model_id = "Hugging Face 모델 이름" tokenizer = AutoTokenizer.from_pretrained(model_id) model = AutoModelForCausalLM.from_pretrained(model_id) config = AutoConfig.from_pretrained(model_id) 주피터에서 모델 다운 혹은 다운받은 모델을 로드할 때, 가끔 다음 오류가 발생한다. 'the kernel for..

잡다한 이야기 2024.01.09

Window 딥러닝 서버 세팅 일지

기존에 세팅한 Ubuntu를 제거하고, 윈도우에 다시 딥러닝 수행 환경을 구축한다. 1. 정보 조회 $ nvidia-smi nvidia driver는 설치되어 있고, Cuda 11.6 이하 버전을 설치할 수 있다. 2. Install Cuda Cuda homepage에서 Cuda를 설치할 수 있다. 가장 익숙한 10.2 Cuda를 설치하려 한다. 1) Base Installer 우선 Base Installer 설치 및 실행. Cuda 위치는 다음과 같다. * 설치 후, 해당 디렉토리에 가서 숨긴 파일 조회를 해 봐도 CUDA가 보이지 않는다.. 검색 결과 다음 디렉토리에 있다. 2) Patch 1 & 2 패치 파일들도 까는게 좋을거 같다.. base install 완료 후 각 파일들도 설치해주자 3. I..

Server 2023.02.24

Ubuntu 딥러닝 서버 세팅 일지

1. 학교로부터 전달 받은 노트북(Dell)에는 Windows가 기본으로 깔려 있었다. - Outlook 계정을 새로 만들고, 기본 세팅 완료 후 Window 환경으로 접속 * Outlook 계정: lamdaco@outlook.kr 2. 부팅용 USB에 Ubuntu 22.02 버전 iso 파일을 설치, Rufus를 이용하여 설치용 디스크로 만들었다. - dell ubuntu 설치 3. USB를 끼워둔 상태로, Dell 노트북을 재부팅하고, 빠르게 F12 키를 연타하여 BIOS 창으로 진입한다. - BIOS 설정 창에서, 노트북 부팅 순서를 USB가 최우선이 되도록 순서 변경 (기존: Windows manager) 4. 이후 다시 노트북을 실행시키고, Ubuntu를 설치해주었다. - 혹시 몰라 Window..

Server 2023.02.06

Reddit data Crawling (Reddit API)

[Reddit Data 크롤링을 하기 위한 5가지 방법] 1. Manual Scraping - 쉽지만, 속도 측면에서 별로 효율적이지 못함 2. Reddit API - 손쉽게 게시물 크롤링 가능 .. Bt Reddit 스레드의 게시물 수를 1,000개로 제한 3. Third-Party APIs - 효과적이고, 확장 가능하지만 비용효율적이지 못함 4. Custom Scraping Scripts - 사용자 정의, 확장 가능하지만 높은 코딩 수준 요구, 비용효율적이지 못함 5. Click Once & Scrape Repetitively - 간편하지만, 1달에 9만원 정도 비용 지불 필요 (2주 무료체험 가능) Reddit API를 이용한 Reddit Data 크롤링 1. Reddit 홈페이지 회원 가입 2. ..

Python/crawling 2022.12.08

Github에 올라간 파일, Python으로 다운받아 사용하기

보통 다른 사람의 Github 코드 테스트를 해볼 때 전체 repo를 다운받기도 하지만, 하나의 파일만 다운받고 싶을 때가 있다. 그런데, 하나의 파일을 위해 전체 repo를 다운받기는 좀 그렇다. 서울특별시 행정구역 경계 파일인 geojson 파일을 받으려고 한다고 해보자. 저기서 다운로드를 클릭하면, 다음과 같이 raw.githubusercontent 페이지로 이동된다. 해당 경로를 복사하여, Colab과 같은 코드 실행 창에서 다음과 같이 입력하면, 다운받을 수 있다. ♣ 그 외 자료 wget, curl 명령어를 이용해 파일 한 개 다운받기 - https://dreamlog.tistory.com/611 폴더 하나 다운받기 - https://falaner.tistory.com/86

잡다한 이야기 2022.10.27

Jupyter Notebook, Colab 실행 셀에 이미지 넣기

가끔가다 Jupyter Notebook이나 Google의 Colab에 이미지 파일을 넣어야 할 때가 있다. Jupyter Notebook의 경우, 실행 셀의 유형을 Markdown으로 설정한 후, ![nn](이미지경로/파일명)과 같이 작성해주면 된다. Colab의 경우, 우선 드라이브에 업로드 한 img 파일을 우클릭하고, 링크 생성 -> 링크 복사 클릭 복사한 경로를 확인해보면, 다음과 같은 형태이다. https://drive.google.com/file/d/1i9bYcjOFHtcBpyjtgSwhqzoiux9M7Qto/view?usp=sharing 위 값에서 1i9b ~ Qto가 대상 image의 id에 해당한다. 이미지의 id 값을 아래 'your_id' 부분에 넣어주자. https://drive.g..

잡다한 이야기 2022.10.27