-
웹크롤링을 위한 도커 설정 레퍼런스 모음 (Scraping Browser)통계.머신러닝.딥러닝/파이썬 2024. 9. 6. 03:56반응형
도커에 접근하게 되기 까지..
웹크롤링을 해야 하는데 리소스는 많이 잡아먹지 않으면서 동시에 여러 개를 설정할 수 있지 않을까?
생각을 했었는데 셀레니움을 활용하는 동적 크롤링까지 충분히 작동한다.
하지만, 네이버에서 꽁꽁 숨겨두어 물리적인 마우스 클릭이 필요한 나에게는 아직은 필요성이 그렇게 높지 않는 듯 하다.
그러나 나중에 도커를 설정할 때 시간을 줄이기 위해 레퍼런스를 미리 모아둔다.
게시글이 삭제되지 않기를 바랄 뿐,,
Ubuntu 20.04 Docker 설치하기. - 달소씨의 하루
+++최신버전에서는 스크립트로 편하게 설치하실 수 있습니다. 스크립트로 Docker 설치하기 먼저 Ubuntu에 ssh로 접근하셔서 아래 명령어로 스크립트를 받고 실행시켜주세요. 자동으로 스크립트가 실
blog.dalso.org
[java, selenium] web crawling (웹 크롤링)
최근 좀 길게 웹 크롤링에 대해 작업을 했다. 넓은 범위로 크롤링 중인지라 길어지게 되었고, 어느정도 정리가 되어가고 있어 내용을 정리해 보고자 한다. 참고로 나는 docker에 ubuntu + tomcat + seleni
deonggi.tistory.com
IP 우회가 가능한 브라우저가 있다. 프로그래밍 관련 유명 유튜버인 노마드 코더가 소개한 'scraping browser'는 유료이지만, 브라우저를 새로 실행할 때마다 ip가 우회되는 듯 하다(영상 시청).
그리고 국가도 설정이 가능해서 네이버나 우리나라 사이트에서 크롤링을 할 때 유용하게 사용될 듯 싶다.

우리나라에서 바이럴용 ip를 대여 해주는 업체가 있는데 실제 사용해보니,, 퀄리티가 그렇게 좋지 못하다. 네이버 카페 바이럴을 위해 사용했었는데 과도한 트래픽을 발생시켜 블랙리스트에 올라 쫓겨났다.
이 사이트에서도 트래픽 관리는 필수인 듯 한데 광고가 많이 뜨는 페이지는 차단을 할 수 있는 것 같다. 주식 관련 정보 크롤링 할 때 한 번 사용해봐야 겠다.
반응형'통계.머신러닝.딥러닝 > 파이썬' 카테고리의 다른 글
단순 사칙연산 계산기 파이썬 코드 (1) 2024.09.16 파이썬 자동화를 위한 가상환경 설치하기(feat. VMware workstation "Could not detect" 에러 해결 과정) - 미해결 (3) 2024.09.14 웹크롤링을 위한 파이썬+VSCODE(비주얼 스튜디오 코드) 설정 (5) 2024.09.06 파이썬, 자바, 자바스크립트: 언어 특징과 활용 분야의 다양성 (2) 2023.12.14 챗GPT로 알아보는 파이썬의 장단점😎 (1) 2023.12.14