Crawling

[Crawling, Basic] 기초

hminor 2024. 3. 13. 14:50
반응형

해당 포스팅은 추후에 기억을 상기시키기 위한 목적으로 작성하는 것으로
혹시 잘못된 부분이나 해당 글에 대한 문제가 있다면 댓글로 남겨주시면 감사하겠습니다.


# 크롤링(Crawling)

# 순서

# 웹 사이트 접속 행위(요청,Req)

# HTML 데이터를 가져오기(조회,Res) -> Parsing

 

from urllib.request import urlopen
from bs4 import BeautifulSoup


html = urlopen("https://news.naver.com/")
bsObject = BeautifulSoup(html, "html.parser")

# 위 네이버 뉴스 링크 경로에서 img 태그를 모두 찾은 다음
# 해당 link에 있는 scr 경로를 조회하는 코드
for link in bsObject.find_all("img"):
    print(link.text.strip(), link.get("src"))

 

여기서 만약 bs4가 설치되어 있지 않거나, 가상환경에 설치를 하고자 한다면
아래와 같이 코드 작성하여 가상환경 실행 후 설치하기

# terminal or Bash
python -m venv 가상환경이름  # <--- 생성

./가상환경이름/Scripts/activate.bat # <--- 가상환경 실행


pip install bs4 # <--- BeutifulSoup4 설치

 

 

'Crawling' 카테고리의 다른 글

Crawling[Crawling, Basic] 네이버 주식 크롤링  (0) 2024.03.13