'웹스크래핑과 데이터 수집' 카테고리의 글 목록 (2 Page)

📌 BeautifulSoup 설치하기웹 크롤링을 시작하려면 먼저 BeautifulSoup과 requests를 설치해야 합니다. 아래는 Mac과 Windows에서 BeautifulSoup과 관련 패키지를 설치하는 방법입니다.🚦 Mac에서 BeautifulSoup 설치하기pip 업그레이드:pip3 install --upgrade piprequests 설치: requests는 웹 페이지의 HTML 문서를 가져올 때 사용되는 라이브러리입니다. 아래 명령어를 통해 설치합니다.pip3 install requestsBeautifulSoup 설치: BeautifulSoup은 HTML 문서에서 원하는 데이터를 추출할 때 사용됩니다. 아래 명령어로 설치합니다.pip3 install beautifulsoup4💻 Win..

📌 BeautifulSoup란?BeautifulSoup는 파이썬을 위한 HTML/XML 파싱 라이브러리입니다. 이 라이브러리를 사용하면 HTML 또는 XML 문서를 파싱하여 DOM (Document Object Model) 구조를 만들 수 있습니다. DOM 구조는 우리가 웹페이지에서 데이터를 효율적으로 추출할 수 있도록 도와줍니다.웹 스크래핑을 할 때 BeautifulSoup은 웹 페이지의 HTML 소스를 파싱하여 트리 구조로 변환하고, 이를 통해 웹 페이지에서 원하는 정보를 쉽게 찾을 수 있도록 돕습니다.🚦 DOM 구조DOM은 HTML 문서나 XML 문서의 구조를 트리 형태로 표현한 모델입니다. 트리 구조에서 각 노드는 HTML 태그나 속성을 나타냅니다.예시:HTML 문서: ..

📌 정적 스크래핑과 동적 스크래핑웹 스크래핑은 웹 페이지에서 데이터를 추출하는 기술입니다. 웹 페이지가 정적인지 동적인지에 따라 스크래핑 방식이 달라집니다.🚦 정적 웹 페이지정적 웹 페이지는 서버에 이미 저장된 HTML 문서를 클라이언트에게 전송하는 방식입니다.사용자는 서버에 저장된 데이터가 변경되지 않는 한 고정된 웹 페이지를 보게 됩니다.모든 사용자는 같은 결과의 웹 페이지를 서버에서 요청하고 응답을 받습니다.예시: 기업 소개 페이지, 블로그 게시글정적 크롤링이미 작성된 HTML 문서를 누구나 동일하게 가져올 수 있기 때문에, requests.get 방식으로 사이트의 HTML 코드를 전송받아 데이터를 크롤링하는 방식입니다.주로 정적 페이지에서 데이터를 쉽게 수집할 수 있습니다.import requ..

📌 HTTP Method: GET 방식HTTP Method는 웹에서 클라이언트와 서버 간에 데이터를 주고받기 위한 전송 규약인 HTTP 프로토콜을 사용하여 이루어집니다. 대표적인 HTTP Method로는 GET, POST, PUT, DELETE가 있습니다.💡 **HTTP**는 **Hyper Text Transfer Protocol**의 약자로, 웹에서 클라이언트와 서버 간에 **Request(요청)**과 **Response(응답)**으로 데이터를 주고받을 수 있게 해주는 프로토콜입니다.🚦 HTTP 요청 메시지와 응답 메시지 구조HTTP 요청 메시지HTTP 응답 메시지요청 라인 상태 라인헤더 : 요청 헤더 헤더 : 응답 헤더공백 라인 공백 라인본문 : 요청 메시지 본문 : 응답 메시지💻 GET 방식..

🚦 웹 크롤링(Web Crawling) 이란?웹 크롤링은 웹상의 정보들을 탐색하고 수집하는 작업을 의미합니다. 예를 들어, 구글이나 네이버와 같은 검색 엔진이 사용자에게 검색 결과를 제공하기 위해 수행하는 작업이 웹 크롤링입니다. 크롤러(Crawler)는 이 작업을 자동화하는 소프트웨어로, 웹페이지를 탐색하고 그에 대한 정보를 수집하여 검색 결과를 생성합니다.예시:네이버나 Google에서 검색한 키워드에 관련된 블로그, 카페, 광고 등의 URL과 내용을 복사하고 이를 분석하여 요약본을 제공합니다.크롤링의 장점:방대한 양의 정보 수집: 크롤링은 여러 웹사이트를 돌아다니며 많은 양의 정보를 수집할 수 있습니다.실시간 정보 제공: 지속적으로 웹을 탐색하며 실시간 정보를 수집하고, 자주 변화하는 데이터를 추적..

📌 웹 스크래핑이란?웹 스크래핑은 컴퓨터 소프트웨어 기술을 활용해 웹 사이트 내의 정보를 자동으로 추출하는 것입니다. 다양한 웹 데이터를 수집하여 분석하는 데 유용한 기술입니다.🚦 웹 스크래핑 과정주제 선정원하는 데이터를 수집할 주제를 선택합니다.원하는 데이터를 갖고 있는 사이트 찾기수집하려는 정보가 포함된 웹사이트를 찾습니다.웹 사이트 분석데이터가 위치한 웹사이트의 HTML 구조를 분석합니다.웹 사이트에서 데이터 추출웹 크롤링 도구나 파이썬 라이브러리(예: BeautifulSoup)를 이용해 데이터를 추출합니다.데이터 처리추출한 데이터를 정리하고 필요한 형식으로 변환합니다.데이터 활용가공된 데이터를 분석, 시각화, 또는 다른 용도로 활용합니다.💻 웹 스크래핑 주의사항1. 데이터 수집을 위한 규칙성..

티스토리툴바