Main Data Crawling에 관해

STEAM IC.의 메인 화면에는 스팀 사이트에서 인기가 있거나 할인하는 제품을 크롤링해서

뿌리고 싶었다. 스팀비비가 그러기도 했고…

근데 막상 크롤링을 해서 뿌렸더니 페이지가 로딩하는 데에도 시간이 꽤 걸렸다.

처음에는 동적인 데이터에 대해서 크롤링하려다보니 selenium을 사용했다.

그랬더니 로딩하는 데에만 7초가 걸렸다. 그래서 다시 beautifulsoup4를 이용했다.

그래도 2~3초가 걸렸다. 만약 사이트를 사용하는 이용자가 여러명이라면 메인 페이지로

이동할 때마다 요청을 계속하게 되는 것이다.

이 데이터를 데이터베이스에 저장하고 싶지는 않았다.

계속 데이터의 정보가 바뀌기도 했고, 저장할 필요를 못 느꼈다.

그래서 생각한 것이 크롤링할 정적 페이지를 텍스트 파일로 저장해놓았다.

그런 다음 텍스트 파일에서 불러와서 뿌렸다. 속도는 역시 빨랐다.

하지만 내가 수동으로 함수를 실행시켜서 텍스트 파일을 업데이트해야 했다.

테스트 과정에서는 상관없지만, 나중에 배포하면 어떻게 할 지 생각을 좀 더 해봐야겠다.

Share