[Crawling, Basic] 기초

Crawling

hminor 2024. 3. 13. 14:50

해당 포스팅은 추후에 기억을 상기시키기 위한 목적으로 작성하는 것으로
혹시 잘못된 부분이나 해당 글에 대한 문제가 있다면 댓글로 남겨주시면 감사하겠습니다.

# 크롤링(Crawling)

# 순서

# 웹 사이트 접속 행위(요청,Req)

# HTML 데이터를 가져오기(조회,Res) -> Parsing

from urllib.request import urlopen

from bs4 import BeautifulSoup

bsObject = BeautifulSoup(html, "html.parser")

# 위 네이버 뉴스 링크 경로에서 img 태그를 모두 찾은 다음

# 해당 link에 있는 scr 경로를 조회하는 코드

for link in bsObject.find_all("img"):

print(link.text.strip(), link.get("src"))

여기서 만약 bs4가 설치되어 있지 않거나, 가상환경에 설치를 하고자 한다면
아래와 같이 코드 작성하여 가상환경 실행 후 설치하기

# terminal or Bash
python -m venv 가상환경이름  # <--- 생성

./가상환경이름/Scripts/activate.bat # <--- 가상환경 실행


pip install bs4 # <--- BeutifulSoup4 설치

Crawling[Crawling, Basic] 네이버 주식 크롤링 (0)	2024.03.13

나만의 개발블로그

나도 개발자..?

백준, SWEA, SQL, Container, 오블완, react, mysql, docker, 티스토리챌린지, 알고리즘, Flutter, 파이썬, Firebase, 프로그래머스, 자바, 정보처리기사, springboot, 소프트웨어 구축, 금융dt, 플러터,

나만의 개발블로그