웹스크래핑과 데이터 수집

Chapter 1-6 사람이 접속한것 처럼 보이는 방법

Chansman 2025. 4. 15. 13:35

📌 사람이 접속한 것처럼 보이는 방법

웹 크롤링을 할 때 사람처럼 접속된 것처럼 보이게 하여 웹사이트 차단을 피할 수 있습니다. 웹사이트는 종종 봇을 차단하려고 하므로, 브라우저에서 접속한 것처럼 보이게 하는 방법을 사용하면 더 효과적입니다. 이를 위해 User-Agent 헤더를 설정하는 방법을 사용할 수 있습니다.

🚦 1. 브라우저에서 개발자 도구 열기

  1. 웹 브라우저를 열고, 개발자 도구를 엽니다.
    • Chrome: F12 또는 Ctrl + Shift + I (Windows) / Cmd + Option + I (Mac)
    • Firefox: F12 또는 Ctrl + Shift + I (Windows) / Cmd + Option + I (Mac)
  2. 네트워크(Network) 탭을 선택합니다.
  3. 새로고침(F5) 버튼을 눌러 페이지를 새로고침합니다.
  4. 네트워크 탭에 로드되는 HTTP 요청을 확인할 수 있습니다.

🚦 2. User-Agent 값 복사하기

개발자 도구에서 새로고침 후, 네트워크 요청을 확인하면 User-Agent 헤더를 볼 수 있습니다. 이 값은 웹사이트가 클라이언트를 식별하는 데 사용하는 브라우저 정보를 담고 있습니다.

예를 들어, 아래와 같은 User-Agent 값이 있습니다:

 
Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36
 

이 값을 웹 크롤링 코드에 추가하면, 해당 요청이 사람의 브라우저에서 보내는 것처럼 보이게 됩니다.


🚦 3. Python 코드에서 User-Agent 설정하기

 
import requests

# 사람처럼 보이게 하기 위한 User-Agent 설정
headers = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
}

# 웹 페이지 요청
url = 'https://www.example.com'
response = requests.get(url, headers=headers)

# 응답 확인
print(response.text)
 

이 코드에서는 requests 라이브러리를 사용하여 User-Agent 값을 헤더에 추가하고, 이를 통해 사람이 접속한 것처럼 보이도록 요청을 보냅니다.


✅ 결론

User-Agent를 설정하는 방법은 웹사이트에서 봇을 차단하지 않도록 하여 크롤링 시에 사람처럼 보이게 할 수 있는 유용한 방법입니다. 이를 통해 웹 크롤링을 할 때 접속 차단을 피할 수 있으며, 다양한 웹사이트에서 데이터를 안전하게 추출할 수 있습니다.

 
 
 
 

 

 
 
검색