출처: https://astrocosmos.tistory.com/202 [ASTROCOSMOS:티스토리] 'metacode' 태그의 글 목록 (4 Page) :: 하나둘셋넷
728x90

[웹 크롤링] 메타코드 강의 후기 - "4강 관광 상품 리뷰 크롤링 및 분석 프로젝트(1)"

메타코드M (mcode.co.kr)

 

메타코드M

빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.

mcode.co.kr

 

하나투어 페이지의 주소는 아래와 같습니다.

https://www.hanatour.com/trp/pkg/CHPC0PKG0200M200?pkgCd=AVP228240501ZEA&prePage=major-products&directSale=PL00113904

 

나트랑/달랏 5일#위장을채워달랏#나트랑반나절자유시간#1일1간식#달랏야시장#랑비엔SUV포함#죽림

여행경보단계 외교부에서 운영하는 여행경보단계는 여행유의 / 여행자제 / 철수권고 / 여행금지 4단계로 구분되며 외교부 '해외안전여행' 사이트(www.0404.go.kr)에서 상세정보를 확인할 수 있습니

www.hanatour.com

 

페이지 Url 변화 확인

"하나투어" 홈페이지에서 베스트탭을 눌러 상품을 찾습니다.

하나의 상품을 선택하고, 아래로 스크롤을 하면 "여행후기" 탭을 확인할 수 있습니다.

여행후기탭을 누를 때와 누르지 않았을 때 url에는 변화가 생기지 않는 모습을 볼 수 있습니다.

이러한 상황에서 selenium을 통한 크롤링이 유용합니다.

 

여행후기 버튼 클릭 구현

 

여행후기 버튼 클릭을 구현하기 위하여 F12를 눌러 개발자 모드를 실행합니다.

개발자 모드에서 마우스 버튼을 클릭한 뒤에, "여행후기" 탭을 눌러 태그를 확인하고 XPath를 복사합니다.

아래의 코드에 복사한 값을 붙여넣습니다.

review_link = WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.XPATH, '//*[@id="ulTag"]/li[6]/a')))

 

여기에서 웹페이지가 로드될 때까지 기다리도록 "EC.presence_of_element_located()"를 활용합니다.

 

Box 안의 요소 불러오기, selector 복사

 

후기 안의 요소들을 불러오는 것이 목표입니다.

개발자 모드에서 마우스를 통해 Box의 태그 정보들을 확인하고 "Copy selector"를 수행합니다. 결과는 아래와 같습니다.

"sticky06 > div > div.rating_list > ul > li:nth-child(1)" 

현재 클래스는 "list_review_v2" 입니다.

따라서 'ul.list_review_v2 > li' 를 통하여 클래스가 list_review_v2인 ul 태그들의 자식들인 li들을 찾습니다.

코드는 아래와 같습니다.

lis = driver.find_elements(By.CSS_SELECTOR, 'ul.list_review_v2 > li')

 

리뷰에 대한 정보 추출

 

리뷰의 정보들을 하나씩 추출하는 것이 목적입니다.

리뷰의 정보들dms 'rating_info' 클래스 안에 span 태그로 기록되어 있습니다.

따라서 find_elements(By.TAG_NAME, 'span')을 통하여 각 요소들에 접근합니다.

딕셔너리에 적절한 키 이름을 정의하고 spans[1].text 문법 구조를 통해 해당 값를 넣습니다.

 

리뷰 정보, 리뷰 카테고리 정보 추출

 

리뷰 정보와 리뷰 카테고리를 추출하는 것이 목적입니다.

여기에서는 if 문법을 사용하여 정보가 있으면 해당 정보를 담고, 정보가 없다면 빈 칸으로 하였습니다.

클래스 이름은 F12 개발자 모드에서 확인한 결과 각각 'review_count.con', 'review_cate'입니다.

각각 'review', 'review' 를 키 값으로 하여 .text를 통해 value로 딕셔너리에 추가합니다.

 

추출된 정보를 데이터프레임 형태로 변환

 

for문의 마지막에 reviews.append(review_info)를 작성하여 만들어진 딕셔너리를 위에서 만든 reviews 리스트에 담습니다.

리스트 안에는 딕셔너리 형태의 정보가 담겨있으며, 리스트의 키 값에는 'rating', 'user', 'category', 'date', 'age', 'review', 'review_cate'가 있습니다.

데이터프레임으로 만들기 위하여 pd.DataFrame(reviews)를 사용합니다.

출력을 하면 올바른 결과가 나옴을 확인할 수 있습니다.

 

728x90
728x90

[웹 크롤링] 메타코드 강의 후기 - "3강 예매 가능한 기차표 찾기 프로젝트"

메타코드M (mcode.co.kr)

 

메타코드M

빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.

mcode.co.kr

 

코레일 예약 페이지 주소는 아래와 같습니다.

https://www.letskorail.com/ebizprd/EbizPrdTicketPr21111_i1.do

 

레츠코레일 LetsKorail

한국철도공사, 레츠코레일, 승차권 예매, 기차여행상품, 운행정보 안내

www.letskorail.com

 

url을 복사합니다.

 

미래 시점의 데이터를 사용할 것이며, 2 페이지 정도 넘어간 다음에 url을 복사합니다.

url = 'https://www.letskorail.com/ebizprd/EbizPrdTicketPr21111_i1.do?&txtGoAbrdDt=20240417&txtGoHour=093200&selGoYear=2024&selGoMonth=04&selGoDay=17&selGoHour=00&txtGoPage=2&txtGoStartCode=0001&txtGoStart=%EC%84%9C%EC%9A%B8&txtGoEndCode=0020&txtGoEnd=%EB%B6%80%EC%82%B0&selGoTrain=05&selGoRoom=&selGoRoom1=&txtGoTrnNo=&useSeatFlg=&useServiceFlg=&selGoSeat=&selGoService=&txtPnrNo=&hidRsvChgNo=&hidStlFlg=&radJobId=1&SeandYo=&hidRsvTpCd=03&selGoSeat1=015&selGoSeat2=&txtPsgCnt1=1&txtPsgCnt2=0&txtMenuId=11&txtPsgFlg_1=1&txtPsgFlg_2=0&txtPsgFlg_3=0&txtPsgFlg_4=0&txtPsgFlg_5=0&txtPsgFlg_8=&chkCpn=N&txtSeatAttCd_4=015&txtSeatAttCd_3=000&txtSeatAttCd_2=000&txtGoStartCode2=&txtGoEndCode2=&hidDiscount=&hidEasyTalk=&adjcCheckYn=N'

 

아래 코드를 실행함으로써, 본격적인 데이터를 탐색하기 전에 필수 라이브러리들인

BeautifulSoup, selenium, ChromeDriverManager, WebdriverWait 라이브러리 등을 불러옵니다.

from bs4 import BeautifulSoup
import pandas as pd

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.support.ui import WebDriverWait

 

 

아래 코드를 통하여, Selenium 웹 드라이버를 실행하는 과정을 수행합니다.

# Selenium 웹 드라이버 실행
driver = webdriver.Chrome(service = service)
driver.get(url)
wait = WebDriverWait(driver, 10)

 

테이블 정보를 담는 데이터프레임을 생성합니다.

리스트 구조를 활용하여 for문을 돌면서 각 tr의 td 데이터를 담는 데이터프레임을 생성합니다.

컬럼 이름들은 다음과 같습니다.

columns = [
    '구분', '열차번호', '출발시각', '도착시각', '특실/우등실', '일반실', '유아',
    '자유석/입석', '인터넷특가(멤버십혜택)', '예약대기', '정차역(경유)', '차량유형/편성정보', '운임요금', '소요시간']

 

아래와 같이 tr 안의 td에 들어있는 값들을 하나씩 리스트에 추가하는 코드를 작성합니다.

# 데이터를 저장할 빈 리스트 생성
data_rows = []

# table_contents의 각 tr 태그(행)에 대해 반복하면서 ,td 데이터를 컬럼에 담는다.
for tr in table_contents.find_all('tr'):
    # 각 열에 해당하는 데이터 추출
    data = []
    for td in tr.find_all('td'):
        text = td.get_text(strip=True)
        # 열에 데이터를 추가
        data.append(text)
    # 데이터를 행으로 추가
    data_rows.append(data)

 

마지막 코드를 통하여 데이터프레임 구조로 저장합니다.

df = pd.DataFrame(data_rows, columns = columns)
df

 

현재 이미지 태그의 값들은 데이터 프레임에 담기지 않은 모습을 보인다.

 

위에서와 마찬가지로 for문 구조를 작성하는데, 이번에는 td.find('img') 코드를 추가하여,

위에서 만든 데이터프레임에 빈 칸이 생기는 경우가 없도록 할 것입니다.

# table_contents의 각 tr 태그(행)에 대해 반복하면서, td 데이터를 컬럼에 담아준다.
for tr in table_contents.find_all('tr'):
    # 각 열에 해당하는 데이터 추출
    data = []
    for td in tr.find_all('td'):
        # td 안에 있는 im 태그가 있는지 확인, alt 속성 추출
        img_tag = td.find('img')
        # img_tag가 존재하면
        if img_tag:
            text = img_tag.get("alt", "")
        else:
            text = td.get_text(strip=True)
            
        # 열에 데이터를 추가
        data.append(text)
    # data, 즉 방금까지 td 태그들이 쌓인 data 리스트에 url도 하나 더 추가
    data.append(url)
    # 데이터를 행으로 추가
    data_rows.append(data)

 

"if img_tag" 조건문을 추가하고 img 태그가 있는 경우에는 "img_tag.get("alt", "")" 과정이 수행되도록 합니다.

그 외의 경우에는 위에서 진행한 대로 "td.get_text(strip=True)" 과정이 진행되도록 합니다.

 

다음 버튼 활용

 

원하는 위치에 대하여 Copy XPath를 진행합니다.

복사된 XPath는 "//*[@id="divResult"]/table[2]/tbody/tr/td/a[2]/img" 형태입니다.

#'다음' 버튼 찾아서 클릭
        try:
            next_button = driver.find_element(By.XPATH, '//*[@id="divResult"]/table[2]/tbody/tr/td/a[2]') # copy XPATH
        except:   #이전 버튼이 없어서 위치가 2번째가 아니라 1번째 a태그로 변경된
            next_button = driver.find_element(By.XPATH, '//*[@id="divResult"]/table[2]/tbody/tr/td/a[1]') # copy XPATH
        
        next_button.click()
        time.sleep(2)

 

except 문에 적혀있듯이 다음 버튼을 클릭하여 넘어가면 그 이후에는 [2] 부분을 [1]로 변경하여 동작히 수행되도록 만들어 줍니다.

다음 버튼을 클릭하면 이전 버튼이 사라지기 때문에 이러한 XPath 경로의 변화가 생깁니다.

 

중복제거

 

drop_duplicates 함수를 사용하여 데이터프레임 상에서 중복되는 요소를 제거합니다.

subset 안에는 중복을 제거할 열을 선택합니다. 이번 경우에는 "출발시각"이 같은 경우를 중복으로 선택하였습니다.

뒤에서 keep = 'first' 옵션을 활용하여 중복되는 요소 중에서 가장 처음에 나온 행만 남기도록 합니다.

데이터 처리가 완료된 이후에는 df.head(20)을 통해 올바르게 작업이 수행되었는지 확인합니다.

 

예약 가능한 일반실 찾기

 

 

" df[ df['일반실'] == '예약하기' ] " 코드를 수행함으로써 일반실 중에서 예약이 가능한 경우만 출력하도록 합니다.

" reset_index(drop=True) "를 진행하는 이유는 원하는 값들만 가져오면서 인덱스 값들이 0, 1, 2, 4 등으로 변하기 때문입니다.

옵션은 drop=True를 넣어줌으로써 새로운 인덱스 열을 추가하지는 않고, 기존 인덱스 열의 숫자를 0, 1, 2, 3 순서로 바꾸어줍니다.

확인하는 과정은 head() 함수를 사용하여 진행합니다.

728x90
728x90

메타코드 강의 후기

메타코드M (mcode.co.kr)

 

메타코드M

빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.

mcode.co.kr

Javascript로 만든 페이지에 대응하는 방법을 배울 것입니다.

 

개발자 모드로 박스 컨텐츠의 정보를 확인합니다.

 

박스컨텐츠에 대한 정보는 <a></a> 태그로 되어있는 경우가 많습니다.

클래스 부분의 정보를 복사하여 가져옵니다.

 

box_contents = soup.find_all('a', class_='box-content flex-style')
box_contents

 

가져온 클래스 정보를 코드에 위와 같이 입력합니다.

여러 개의 정보를 가져와야 하므로 "soup.find_all"을 사용했습니다.

 

크롤링이 되지 않는 경우 -> selenium의 webdriver 사용

 

 

크롤링이 되지 않는 경우에는 selenium으로부터 webdriver를 가져와서 크롤링을 진행합니다.

필요한 라이브러리들은 위 사진에서 확인할 수 있습니다.

정적인 페이지의 경우는 Requests와 Beautifulsoup으로 크롤링이 가능하며,

동적인 페이지의 경우는 Selenium을 사용하는 경우에 해당합니다.

 

Selenium을 통한 크롤링 준비

 

 

Selenium의 webdriver를 통하여 웹 드라이버를 실행하는 코드입니다.

해당 코드를 실행하면 새로운 브라우저를 통하여 url 주소에 해당하는 페이지가 실행됨을 확인할 수 있습니다.

wait의 경우 브라우저의 안정적인 실행을 위해 설정하며, 이 경우에는 10초로 설정했습니다.

html 변수에 페이지 소스를 담아 이후 크롤링에 사용할 것입니다.

 

크롤링 시도

 

 

soup = BeautifulSoup(html, 'html.parser')를 통해 soup 변수에 selenium을 통하여 얻은 페이지 소스를 대입하여 크롤링을 시도한 결과 출력에서 볼 수 있듯이 정보를 가져오는 것에 성공했음을 확인할 수 있습니다.

박스 컨텐츠를 가져오는 것이 목적이기 때문에 F12 개발자 모드에서 확인한 클래스 이름인 "box_content flex-style"을 형식에 맞게 입력하였습니다.

태그의 종류는 "a 태그"에 해당합니다.

 

불러온 정보 다루기

 

 

len 함수를 통해 확인할 수 있듯이 현재 box_contents는 리스트 형식이며, 그 안에 값들은 12개가 담겨있습니다.

box_contents[0] 등으로 숫자를 입력하며 각 위치에 어떤 값들이 담겨 있는지 쉽게 확인할 수 있습니다.

태그 정보와 클래스 이름도 확인할 수 있습니다.

리스트 구조이므로 후에 for문 등 다양한 방법으로 데이터를 다루기에 용이한 상태가 되었습니다.

 

원하는 정보 선택 출력

 

 

위의 방식을 통하여 컨텐츠에서 원하는 정보만 출력할 수 있습니다.

box_contents는 리스트 구조이므로 먼저 인덱스 번호를 통해 어떤 정보를 가져올 것인지 정합니다.

해당 요소의 태그와 class 정보는 쉽게 확인할 수 있습니다.

".find()" 안에 확인한 태그 정보와 class 이름을 넣으면 위에서 볼 수 있듯이 필요한 정보를 출력할 수 있습니다.

 

리스트에 정보 담기

 

리스트 구조를 활용하면 페이지에서 원하는 정보들을 편하게 추출하고 관리할 수 있습니다.

url 변수에 기본 주소 + href 정보를 통해 페이지에 대한 주소 정보를 담습니다.

title, body, date 변수에 개발자 모드에서 확인한 태그 정보와 클래스 정보를 활용하여 정보를 담습니다.

반복문의 각 변수들을 해당 리스트에 append하여 정보를 추가합니다.

box_contents의 길이만큼 반복문이 진행됩니다.

 

csv 파일로 저장

 

리스트 구조를 딕셔너리 구조로 변환한 뒤에,

pd.DataFrame() 함수를 사용하여 데이터프레임 변환합니다.

df.to_csv() 함수를 사용하면 데이터프레임 구조의 정보를 csv 파일 형태로 저장할 수 있습니다.

pd.read_csv() 함수를 사용하면 저장된 csv 파일 내용을 확인할 수 있습니다.

728x90
728x90

메타코드 강의

"웹 크롤링 기초 강의ㅣ뉴스, 기차 예매, 여행 사이트 실습"

https://mcode.co.kr/video/list2?viewMode=view&idx=92

 

각각의 뉴스에서 정보 수집

KBS 뉴스탭에서 전체 카테고리를 선택하고 일자별 뉴스 항목에 접근합니다.
먼저, 한 항목을 선택하여 페이지로 이동합니다. F12 버튼을 통해 개발자 모드에 접근하면 각 element들에 대한 자세한 정보를 얻을 수 있으며 이는 뒤에서 바로 진행할 것입니다.

하나의 요소에서 정보를 수집하는 것으로 시작하여, 추후에 여러 뉴스에서 정보를 수집하는 실습을 진행할 것입니다.

 

개발자 모드 F12를 통한 요소 분석

타이틀 부분은 h4로 싸여 있고 class는 "headline-title"임을 확인할 수 있습니다.
본문 부분은 "detail-body font-size"라는 클래스로 되어있음을 확인할 수 있습니다.
개발자 모드에서 접근한 뒤, 화살표 버튼을 통해 내가 원하는 요소에 대한 정보를 쉽게 얻을 수 있습니다.
< br > 태그는 엔터 기능에 해당합니다.

 

라이브러리 호출

기본적인 라이브러리들을 호출하기 위하여 아래 코드를 실행합니다.

import requests
from bs4 import BeautifulSoup

위에서 호출한 requests 라이브러리를 통하여 url의 텍스트 정보를 가져올 수 있습니다.

url = 'https://news.kbs.co.kr/news/pc/view/view.do?ncd=7936381'
html_doc = requests.get(url).text
html_doc

url의 정보의 경우 현재 접속한 페이지의 상단에서 "복사"를 통해 가져오도록 합니다.

위에서 가져온 url 정보를 읽을 때에는 뒤에 .text를 통해 읽도록 합니다.

 

class 정보 수집

title1 = soup.find('h4', class_ = 'headline-title')
title1

이 코드를 실행하여 제목 정보를 가져옵니다.
개발자 모드의 정보에서 title의 class가 어떻게 되는지 쉽게 확인할 수 있으며, 복사 붙여넣기를 통해 'headline-title'을 가져옵니다.

개발자 모드의 좌측 상단의 마우스를 통해 해당 요소의 클래스 정보를 쉽게 찾을 수 있으며, 해당 코드 부분에 마우스 부분을 올려 해당 컨텐츠의 코드 부분이 맞는지 한 번 더 확인하도록 합니다.

 

리스트를 통한 여러 뉴스 데이터 크롤링

아래 코드를 통하여 여러 뉴스들을 하나의 리스트로 담고 데이터프레임으로 만든 뒤에 최종적으로는 csv 파일 형태로 저장합니다.

url_list = []
title_list = []
body_list = []

url1 = 'https://news.kbs.co.kr/news/pc/view/view.do?ncd=7937463'
html_doc1 = requests.get(url1).text
soup1 = BeautifulSoup(html_doc1, 'html.parser')
title1 = soup1.find('h4', class_ = 'headline-title').text
body1 = soup1.find('div', class_='detail-body font-size').text

url_list.append(url1)
title_list.append(title1)
body_list.append(body1)

url2 = 'https://news.kbs.co.kr/news/pc/view/view.do?ncd=7937458'
html_doc2 = requests.get(url2).text
soup2 = BeautifulSoup(html_doc2, 'html.parser')
title2 = soup2.find('h4', class_ = 'headline-title').text
body2 = soup2.find('div', class_ = 'detail-body font-size').text

url_list.append(url2)
title_list.append(title2)
body_list.append(body2)

data12 = {'뉴스url':url_list, '제목':title_list, '내용': body_list}

df12 = pd.DataFrame(data12)
df12.to_csv('new12_kbs.csv', index = False)
pd.read_csv('./news12_kbs.csv')

 

현재는 2개의 뉴스 정보를 추출하는 것이 목적입니다. 따라서, url1, url2의 변수에 각각의 사이트에서 가져온 url 주소를 입력합니다.

list.append()를 활용하여 url, title, body에 대한 정보를 담은 리스트를 생성합니다..

생성된 리스트를 통해 딕셔너리 구조를 변환한 뒤 데이터프레임 구조로 변환하고 이를 csv 형식으로 저장합니다.

 

위에서 저장한 CSV 파일을 확인합니다.

 

화면에서 볼 수 있듯이 url_list에 두 개의 뉴스를 담았기 때문에,

2개의 행으로 구성된 데이터프레임 구조가 CSV로 잘 저장되었음을 확인할 수 있습니다.

Jupyter lab에서 아래에서 볼 수 있듯이 Pandas 라이브러리를 활용하여 읽어볼 수도 있습니다.

컬럼 정보 또한 잘 설정이 되었는지도 확인합니다.

 

 

728x90

+ Recent posts