BeautifulSoup으로 데이터 추출하기

# HTML 문서 파싱하기
from bs4 import BeautifulSoup
html = resp.text
soup = BeautifulSoup(html, 'html.parser')
 
# 태그로 찾기
titles = soup.find_all('h3', class_='news_tit')
 
# CSS 선택자로 찾기 (더 간편)
titles = soup.select('h3.news_tit')
 
# 텍스트 추출하기
for title in titles:
    print(title.text.strip())
    print(title.get('href'))  # 링크 추출

BeautifulSoup 주요 메소드

find() - 조건에 맞는 첫 번째 태그만 찾기
find_all() - 조건에 맞는 모든 태그 찾기
select_one() - CSS 선택자로 첫 번째 태그 찾기
select() - CSS 선택자로 모든 태그 찾기

실전 활용 팁

CSS 선택자가 HTML 구조 파악에 더 직관적입니다:

div.news_area > a.title - 자식 선택
div#main_content h3 - 하위 요소 선택
a[href*="naver"] - 속성으로 선택

결과 예시

뉴스 제목:

"파이썬으로 데이터 수집, 분석까지 한번에"

"웹 크롤링 실무에서 이렇게 활용한다"

"AI 시대, 데이터 수집 자동화 필수"