반응형
해당 포스팅은 추후에 기억을 상기시키기 위한 목적으로 작성하는 것으로
혹시 잘못된 부분이나 해당 글에 대한 문제가 있다면 댓글로 남겨주시면 감사하겠습니다.
# 크롤링(Crawling)
# 순서
# 웹 사이트 접속 행위(요청,Req)
# HTML 데이터를 가져오기(조회,Res) -> Parsing
from urllib.request import urlopen
from bs4 import BeautifulSoup
bsObject = BeautifulSoup(html, "html.parser")
# 위 네이버 뉴스 링크 경로에서 img 태그를 모두 찾은 다음
# 해당 link에 있는 scr 경로를 조회하는 코드
for link in bsObject.find_all("img"):
print(link.text.strip(), link.get("src"))
여기서 만약 bs4가 설치되어 있지 않거나, 가상환경에 설치를 하고자 한다면
아래와 같이 코드 작성하여 가상환경 실행 후 설치하기
# terminal or Bash
python -m venv 가상환경이름 # <--- 생성
./가상환경이름/Scripts/activate.bat # <--- 가상환경 실행
pip install bs4 # <--- BeutifulSoup4 설치
'Crawling' 카테고리의 다른 글
Crawling[Crawling, Basic] 네이버 주식 크롤링 (0) | 2024.03.13 |
---|