(본 내용은 2022년 7월 28일 기준으로 작성되었습니다.)

전세계 사용자가 몰리는 유명 웹사이트들이 있습니다. 이러한 웹사이트들은 전 세계로부터 들어오는 어뷰징 트래픽이 많은데요. 리스틀리를 사용해 데이터를 수집할 시, 수집 속도가 너무 빠르다면 해당 웹사이트는 이러한 시도를 어뷰징으로 판단하게 되어 데이터 추출이 실패하게 됩니다. 최악의 상황으로는 사용자의 IP address를 차단당할 수 있지요. 이러한 상황을 방지하기 위해서 리스틀리 팀은 실행속도를 사용자가 조절할 수 있도록, 데이터보드 우측 상단에 파란색 bar를 만들어두었습니다.

1. 추출 속도 줄이기

데이터 수집 속도는 동시 수집하는 URL 개수를 의미합니다. 즉 추출속도=15는 최대 15개 웹페이지를 동시 수집한다는 뜻입니다. 이는 수집당하는 사이트 입장에서는 트래픽 공격이 될 수 있습니다. 실제로 많은 사이트들이 짧은 시간 동안 너무 많은 방문을 하면, 사람/로봇인지 인증하라는 문구를 띄우기도 하고 IP 차단을 해서 방문자체를 영구적으로 거부하기도 합니다. 결국 추출 실패하는 것이죠.

리스틀리에서는 이를 예방, 보완하기 위해 사용자가 직접 추출 속도를 조절할 수 있는 기능을 제공합니다. 저희가 추천하는 값은 최저값 1 또는 2 입니다. 사람이 실제로 수집하는 속도와 비슷해지는거죠. 수집 속도가 느려지는 만큼, 추출이 실패할 가능성은 낮아집니다.

아래 스크린샷처럼 리스틀리 데이터보드로 간 뒤, 우측 상단의 실행속도 바를 확인하고 눌러주세요.

Untitled

원하는 속도로 조정하신 뒤 [네] 버튼을 눌러주세요.

추출속도를 1로 선택하면 가장 느리게, 반대로 15 를 선택하면 가장 빠르게 수집할 수 있습니다. (한 번에 1개의 URL을 수집하느냐, 15개의 URL을 수집하느냐의 차이입니다.)

Untitled

2. 추출 속도 높이기