소소한 컴퓨터 이야기

웹페이지 크롤링 서비스, FireCrawl

by Cori

이곳저곳 떠돌아 다니던 중, 알아두면 당장은 아니더라도 유용하게 쓸 수 있을 것 같은 사이트를 하나 발견했다.

Firecrawl이라는 사이트인데, 웹사이트 링크를 입력하면 해당 링크 내 내용을 스크래핑하고, LLM 학습 데이터 형태로 변환할 수 있다.

 

새로 회원가입하면, 무료로 500 크레딧을 준다. 해당 프로그램을 만든 사이트를 활용해 LLM Extract를 진행하면 다음과 같이 content와 메타 데이터를 추출할 수 있다.

LLM Extract 기능이 아닌 Crawl 기능을 사용하면 다음과 같은 형태의 파일을 얻을 수 있다.

'BlaBla' 카테고리의 다른 글

나의 개발 일지 (3) RAG 구현 및 개선  (0) 2024.08.14
나의 개발 일지 (2) Docker 설정  (0) 2024.08.12
나의 개발 일지 (1) 서버 세팅  (0) 2024.08.12
전자서명 가능한 사이트  (0) 2024.07.15

블로그의 정보

코딩하는 오리

Cori

활동하기