📌 사람이 접속한 것처럼 보이는 방법
웹 크롤링을 할 때 사람처럼 접속된 것처럼 보이게 하여 웹사이트 차단을 피할 수 있습니다. 웹사이트는 종종 봇을 차단하려고 하므로, 브라우저에서 접속한 것처럼 보이게 하는 방법을 사용하면 더 효과적입니다. 이를 위해 User-Agent 헤더를 설정하는 방법을 사용할 수 있습니다.
🚦 1. 브라우저에서 개발자 도구 열기
- 웹 브라우저를 열고, 개발자 도구를 엽니다.
- Chrome: F12 또는 Ctrl + Shift + I (Windows) / Cmd + Option + I (Mac)
- Firefox: F12 또는 Ctrl + Shift + I (Windows) / Cmd + Option + I (Mac)
- 네트워크(Network) 탭을 선택합니다.
- 새로고침(F5) 버튼을 눌러 페이지를 새로고침합니다.
- 네트워크 탭에 로드되는 HTTP 요청을 확인할 수 있습니다.
🚦 2. User-Agent 값 복사하기
개발자 도구에서 새로고침 후, 네트워크 요청을 확인하면 User-Agent 헤더를 볼 수 있습니다. 이 값은 웹사이트가 클라이언트를 식별하는 데 사용하는 브라우저 정보를 담고 있습니다.
예를 들어, 아래와 같은 User-Agent 값이 있습니다:
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36
이 값을 웹 크롤링 코드에 추가하면, 해당 요청이 사람의 브라우저에서 보내는 것처럼 보이게 됩니다.
🚦 3. Python 코드에서 User-Agent 설정하기
import requests
# 사람처럼 보이게 하기 위한 User-Agent 설정
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
}
# 웹 페이지 요청
url = 'https://www.example.com'
response = requests.get(url, headers=headers)
# 응답 확인
print(response.text)
이 코드에서는 requests 라이브러리를 사용하여 User-Agent 값을 헤더에 추가하고, 이를 통해 사람이 접속한 것처럼 보이도록 요청을 보냅니다.
✅ 결론
User-Agent를 설정하는 방법은 웹사이트에서 봇을 차단하지 않도록 하여 크롤링 시에 사람처럼 보이게 할 수 있는 유용한 방법입니다. 이를 통해 웹 크롤링을 할 때 접속 차단을 피할 수 있으며, 다양한 웹사이트에서 데이터를 안전하게 추출할 수 있습니다.
검색
'웹스크래핑과 데이터 수집' 카테고리의 다른 글
Chapter 3-1 Web Scraping 과제 (광고 x) (0) | 2025.04.16 |
---|---|
Chapter 2-1 사람이 접속한것 처럼 보이는 방법 (0) | 2025.04.15 |
Chapter 1-6 BeautifulSoup 설치하기 (0) | 2025.04.15 |
Chapter 1-5 BeautifulSoup 소개 (0) | 2025.04.15 |
Chapter 1-4 정적 스크래핑과 동적 스크래핑 (0) | 2025.04.15 |