Crawling - get_text() Option

“오늘의집”이라는 사이트를 이곳저곳 클릭하다보니 스토어의 상품과 모두

연관되어 있다는 것을 확인했다.

그래서 팀 회의에서 카테고리 중에 스토어를 먼저 구현하자는 의견이 나왔고,

스토어의 상품에 대한 정보는 유저가 아닌 관리자의 작업이기 때문에 크롤링을

먼저 하기로 했다.

requests와 beautifulsoup4를 사용했고, 하는 과정 중에 “br” 태그를 만났다.

1	ans = q.select_one('section.answer > p.answer-context').get_text()

위와 같이 parser를 했으나, 문자열이 잘려서 나오는 결과를 받았다.

그래서 get_text()의 다른 옵션이 있지 않을까 생각되어 검색하기 시작했다.

검색해보니 다음과 같은 옵션을 추가해서 해당 “p” 태그 안에 있던 문자열을 모두

가져올 수 있었다.

1
2
3

# strip과 separator 옵션 적용
# 공백 제거 및 구분
ans = q.select_one('section.answer > p.answer-context').get_text(strip=True, separator=" ")

지눅쿠의 개발 블로그