웹스크래핑과 데이터 수집
Chapter 2-1 사람이 접속한것 처럼 보이는 방법
Chansman
2025. 4. 15. 14:06
📌 셀레니움(Selenium)이란?
Selenium은 웹 애플리케이션의 자동화 테스트와 웹 브라우저 제어를 위해 개발된 오픈 소스 프레임워크입니다. 2004년에 Jason Huggins가 개발을 시작했으며, 이후 JavaScriptTestRunner라는 프로그램을 기반으로 Selenium이라는 이름으로 발전했습니다. Selenium은 테스트 자동화를 쉽게 할 수 있도록 다양한 웹 브라우저와 플랫폼에서 웹 애플리케이션을 테스트하고 브라우저 동작을 제어하는 데 사용됩니다.
🚦 셀레니움의 특징
- 웹 브라우저 자동화: Selenium은 웹 브라우저의 동작을 자동화할 수 있어, 반복적인 작업을 자동으로 실행할 수 있습니다.
- 다양한 언어 지원: Selenium은 Java, JavaScript, Python, C#, PHP, Ruby, Perl 등 다양한 프로그래밍 언어로 지원되어, 여러 환경에서 활용할 수 있습니다.
- 브라우저 호환성: Selenium은 Chrome, Firefox, Edge, Safari 등 다양한 브라우저를 지원합니다.
🛠 셀레니움 설치 방법
Selenium을 사용하려면 몇 가지 라이브러리를 설치해야 합니다. 아래는 Mac과 Windows에서 설치 방법입니다.
1. Mac에서 설치:
- Selenium 설치:
pip3 install selenium
- Webdriver_manager 설치:
webdriver_manager는 ChromeDriver 등의 브라우저 드라이버를 자동으로 설치하고 관리할 수 있는 라이브러리입니다.
pip3 install webdriver_manager
2. Windows에서 설치:
- Selenium 설치:
pip install selenium
- Webdriver_manager 설치:
pip install webdriver_manager
📜 셀레니움 패키지 사용 예시
Selenium은 웹 애플리케이션을 자동화하고 테스트하는 도구로, 브라우저를 직접 제어하여 사용자의 동작을 자동으로 수행할 수 있습니다. 아래는 Selenium을 사용하여 Chrome 브라우저를 제어하는 간단한 코드 예시입니다.
1. Selenium과 WebDriver 설정
# Selenium 4.10 이상 버전에서는 WebDriver가 자동으로 브라우저 드라이버를 다운로드하고 설정합니다.
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
# Chrome 브라우저 설정 및 WebDriver 실행
options = webdriver.ChromeOptions()
options.add_argument("--headless") # 브라우저를 화면 없이 실행 (Headless 모드)
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()), options=options)
# 네이버 웹사이트에 접속
driver.get("https://www.naver.com")
# 웹 페이지 제목 출력
print(driver.title)
# 웹 브라우저 종료
driver.quit()
2. 코드 설명:
- webdriver.Chrome(): ChromeDriver를 사용하여 Chrome 브라우저를 실행합니다.
- webdriver_manager.chrome.ChromeDriverManager(): 자동으로 최신 버전의 ChromeDriver를 다운로드하고 설정합니다.
- options.add_argument("--headless"): Headless 모드로 실행하여 브라우저 창을 띄우지 않고, 배경에서 실행할 수 있습니다.
- driver.get(url): 지정한 URL을 브라우저에서 열고 페이지를 로딩합니다.
- driver.quit(): 테스트가 끝난 후 브라우저를 종료합니다.
✅ Selenium의 사용 사례
- 웹 크롤링: 웹 페이지에서 데이터를 추출하고, 반복적인 작업을 자동화하는 데 사용됩니다.
- 자동화된 테스트: 웹 애플리케이션의 기능을 자동으로 테스트하여 품질을 보장하는 데 사용됩니다.
- 웹 애플리케이션의 사용자 동작 시뮬레이션: 사용자의 입력을 자동으로 실행하여 웹 페이지의 동작을 테스트하거나 모니터링합니다.
결론
Selenium은 웹 브라우저 자동화를 위한 강력한 도구로, 웹 크롤링, 자동화된 테스트, 사용자 동작 시뮬레이션 등 다양한 작업을 효율적으로 처리할 수 있습니다. 웹 브라우저 제어를 통해 반복적인 작업을 자동화하고, 자동화된 테스트를 수행하는 데 매우 유용합니다.