소소한 컴퓨터 이야기

웹페이지 크롤링 서비스, FireCrawl

by Cori

이곳저곳 떠돌아 다니던 중, 알아두면 당장은 아니더라도 유용하게 쓸 수 있을 것 같은 사이트를 하나 발견했다.

Firecrawl이라는 사이트인데, 웹사이트 링크를 입력하면 해당 링크 내 내용을 스크래핑하고, LLM 학습 데이터 형태로 변환할 수 있다.

 

새로 회원가입하면, 무료로 500 크레딧을 준다. 해당 프로그램을 만든 사이트를 활용해 LLM Extract를 진행하면 다음과 같이 content와 메타 데이터를 추출할 수 있다.

LLM Extract 기능이 아닌 Crawl 기능을 사용하면 다음과 같은 형태의 파일을 얻을 수 있다.

블로그의 정보

코딩하는 오리

Cori

활동하기