출처: https://astrocosmos.tistory.com/202 [ASTROCOSMOS:티스토리] '파이썬' 태그의 글 목록 :: 하나둘셋넷
728x90

[웹 크롤링] 메타코드 강의 후기 - "4강 관광 상품 리뷰 크롤링 및 분석 프로젝트(2)"

메타코드M (mcode.co.kr)

 

메타코드M

빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.

mcode.co.kr

 

리뷰 데이터 시각화 - 날짜 데이터

 

날짜별 리뷰 수를 시각화하는 과정을 진행할 것입니다.

날짜형으로 변환하는 과정이 필요하기 때문에 matplotlib.dates를 "mdates"라는 이름으로 import합니다.

형식을 변형해야 하는 컬럼은 "date" 컬럼입니다.

df['date'] = pd.to_datetime(df['date']) 코드로 데이터 형식을 변경합니다.

현재 mdates는 사용하지 않았습니다.

 

"연도 - 월" 형태로 변형

 

madates.DateFormatter('%Y-%m') 함수를 date_format이라는 변수에 선언합니다.

x축에 해당 형식을 설정하기 위하여 plt.gca().xaxis.set_major_locator(mdates.MonthLocator())를 지정합니다.

x축의 값들을 보다 잘 보일 수 있도록 하기 위하여 rotation을 설정했습니다.

plt.grid() 설정하여 그래프의 값들을 보다 쉽게 확인할 수 있도록 합니다.

( MonthLocator 오타 )

 

나이대 데이터 가져오기

 

나이대에 따른 값들을 시각화하는 것이 목적입니다.

데이터에서 age 컬럼에 원치 않는 형식의 값들이 들어있는 상황입니다.

따라서, 나이대와 관련한 정보만을 남기는 것이 필요합니다.

str.endswith('대') 함수를 사용하였으며, 끝 부분이 "대" 로 끝나는 값들을 선택하겠다는 것을 의미합니다.

 

그래프 형태 다듬기

 

그래프의 형태를 보기 좋게 다듬는 과정입니다.

먼저, sort_values() 함수를 수행하여 groupby를 통하여 연산된 값들이 정렬될 수 있도록 합니다.

그래프를 그린 결과 y축의 범위 조정이 필요했고, 따라서 plt.ylim(4, None) 함수를 적용했습니다.

x축에는 rotatio 함수를 적용하여 값들을 더 잘 볼 수 있도록 합니다.

 

 

위에서는 값들을 기준으로 정렬이 수행되었습니다.

따라서, 나이대가 뒤섞이는 모습을 확인할 수 있습니다. 값보다는 위의 코드는, 나이대에 따른 정렬을 원할 때 사용하는 코드입니다.

나이대가 index로 설정되어 있기 때문에 .sort_index()를 수행하니 원하는 형태로 값이 출력되었습니다.

그래프를 그리는 목적에 맞게 사용할 수 있도록 합니다.

 

Outro

 

마지막, Outro 영상을 보며 강의를 완강했습니다.

선생님께서, 업무를 수행하다 보면 단순 반복적인 업무를 맞이할 수도 있을 것이며 이때 크롤링에서 배운 지식들이 도움이 될 수 있다고 말씀해주셨습니다.

어려움을 겪게되면, 연락을 주셔도 된다고 말씀해주셔서 큰 힘이 되었습니다.

제 역량을 한 층 끌어올릴 수 있는 만족스러운 강의였습니다.

728x90
728x90

[웹 크롤링] 메타코드 강의 후기 - "4강 관광 상품 리뷰 크롤링 및 분석 프로젝트(2)"

메타코드M (mcode.co.kr)

 

메타코드M

빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.

mcode.co.kr

 

페이지네이션을 위한 페이지 탐색

 

F12 개발자 모드에 진입하여 페이지 넘기기 기능에 대한 클래스를 찾아봅니다.

확인 결과, <div class="paginate">로 적혀있음을 확인할 수 있습니다.

(By.CLASS_NAME, "pagenate")를 작성합니다.

이 요소를 찾기까지 기다리도록 selenium.webdriver.support로부터 expected_conditions를 가져옵니다.

 

마지막 번호에서 넘어가는 기능 구현

 

10 단위로 페이지 버튼의 변경이 일어납니다.

따라서 조건 문제 page_num % 10 != 0 으로 설정을 하였습니다.

10의 배수가 되었을 때는 {page_num+1}에 따라 선택된 버튼이 아닌,

화살표를 클릭할 수 있도록 XPATH를 설정합니다.

마지막 페이지인 경우는 except에 설정했습니다.

 

XPATH를 찾는 과정에서의 오류

 

실제 코드를 실행해보니 오류가 발생하였습니다.

확인 결과 위에서 By.CLASS_NAME으로 'pagenate'을 찾을 때 문제가 생김을 확인할 수 있습니다.

따라서, CLASS 이름이 아닌, XPATH를 통하여 탐색을 하도록 변경해줍니다.

F12 개발자 모드에 진입하여 XPATH를 Copy하고 driver.find_element(By.XPATH, '') 형식에 맞게 넣어줍니다.

 

수집된 데이터에 대한 분석, 시각화 - 라이브러리 불러오기

 

데이터 분석을 위한 기본 라이브러리들을 불러오는 과정입니다.

Pandas, Matplotlib, Seaborn을 우선 불러올 것이며,

한글 폰트를 읽을 수 있도록 설정합니다.

강의는 MAC OS 환경에서 진행되어 family = 'AppleGothic'으로 되어있으며, 윈도우의 경우는 'Malgun Gothic을 입력합니다.

 

데이터 분석 - 카테고리별 리뷰 수 계산

 

카테고리 리뷰 수에 대한 분석을 먼저 진행합니다.

데이터 프레임 중에서 'category' 컬럼을 선택합니다.

value_counts() 함수를 사용하면 각 항목별로 값들이 몇 개씩 들어있는지 확인할 수 있습니다.

가족여행, 아동동반 항목의 숫자가 눈에 띄는 모습을 보입니다.

 

데이터 시각화

 

위에서 생성한 value_counts() 함수의 결과를 시각화합니다.

드래그한 함수들을 통하여 그래프를 꾸밀 수 있습니다.

옵션들을 정리하면, title은 "카테고리별 리뷰 수", xlabel은 "카테고리", ylabel은 "리뷰 수"로 지정했습니다.

x 축의 값들을 보다 보기 편하도록 rotation 값을 주었습니다.

728x90
728x90

[웹 크롤링] 메타코드 강의 후기 - "4강 관광 상품 리뷰 크롤링 및 분석 프로젝트(1)"

메타코드M (mcode.co.kr)

 

메타코드M

빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.

mcode.co.kr

 

하나투어 페이지의 주소는 아래와 같습니다.

https://www.hanatour.com/trp/pkg/CHPC0PKG0200M200?pkgCd=AVP228240501ZEA&prePage=major-products&directSale=PL00113904

 

나트랑/달랏 5일#위장을채워달랏#나트랑반나절자유시간#1일1간식#달랏야시장#랑비엔SUV포함#죽림

여행경보단계 외교부에서 운영하는 여행경보단계는 여행유의 / 여행자제 / 철수권고 / 여행금지 4단계로 구분되며 외교부 '해외안전여행' 사이트(www.0404.go.kr)에서 상세정보를 확인할 수 있습니

www.hanatour.com

 

페이지 Url 변화 확인

"하나투어" 홈페이지에서 베스트탭을 눌러 상품을 찾습니다.

하나의 상품을 선택하고, 아래로 스크롤을 하면 "여행후기" 탭을 확인할 수 있습니다.

여행후기탭을 누를 때와 누르지 않았을 때 url에는 변화가 생기지 않는 모습을 볼 수 있습니다.

이러한 상황에서 selenium을 통한 크롤링이 유용합니다.

 

여행후기 버튼 클릭 구현

 

여행후기 버튼 클릭을 구현하기 위하여 F12를 눌러 개발자 모드를 실행합니다.

개발자 모드에서 마우스 버튼을 클릭한 뒤에, "여행후기" 탭을 눌러 태그를 확인하고 XPath를 복사합니다.

아래의 코드에 복사한 값을 붙여넣습니다.

review_link = WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.XPATH, '//*[@id="ulTag"]/li[6]/a')))

 

여기에서 웹페이지가 로드될 때까지 기다리도록 "EC.presence_of_element_located()"를 활용합니다.

 

Box 안의 요소 불러오기, selector 복사

 

후기 안의 요소들을 불러오는 것이 목표입니다.

개발자 모드에서 마우스를 통해 Box의 태그 정보들을 확인하고 "Copy selector"를 수행합니다. 결과는 아래와 같습니다.

"sticky06 > div > div.rating_list > ul > li:nth-child(1)" 

현재 클래스는 "list_review_v2" 입니다.

따라서 'ul.list_review_v2 > li' 를 통하여 클래스가 list_review_v2인 ul 태그들의 자식들인 li들을 찾습니다.

코드는 아래와 같습니다.

lis = driver.find_elements(By.CSS_SELECTOR, 'ul.list_review_v2 > li')

 

리뷰에 대한 정보 추출

 

리뷰의 정보들을 하나씩 추출하는 것이 목적입니다.

리뷰의 정보들dms 'rating_info' 클래스 안에 span 태그로 기록되어 있습니다.

따라서 find_elements(By.TAG_NAME, 'span')을 통하여 각 요소들에 접근합니다.

딕셔너리에 적절한 키 이름을 정의하고 spans[1].text 문법 구조를 통해 해당 값를 넣습니다.

 

리뷰 정보, 리뷰 카테고리 정보 추출

 

리뷰 정보와 리뷰 카테고리를 추출하는 것이 목적입니다.

여기에서는 if 문법을 사용하여 정보가 있으면 해당 정보를 담고, 정보가 없다면 빈 칸으로 하였습니다.

클래스 이름은 F12 개발자 모드에서 확인한 결과 각각 'review_count.con', 'review_cate'입니다.

각각 'review', 'review' 를 키 값으로 하여 .text를 통해 value로 딕셔너리에 추가합니다.

 

추출된 정보를 데이터프레임 형태로 변환

 

for문의 마지막에 reviews.append(review_info)를 작성하여 만들어진 딕셔너리를 위에서 만든 reviews 리스트에 담습니다.

리스트 안에는 딕셔너리 형태의 정보가 담겨있으며, 리스트의 키 값에는 'rating', 'user', 'category', 'date', 'age', 'review', 'review_cate'가 있습니다.

데이터프레임으로 만들기 위하여 pd.DataFrame(reviews)를 사용합니다.

출력을 하면 올바른 결과가 나옴을 확인할 수 있습니다.

 

728x90
728x90

[웹 크롤링] 메타코드 강의 후기 - "3강 예매 가능한 기차표 찾기 프로젝트"

메타코드M (mcode.co.kr)

 

메타코드M

빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.

mcode.co.kr

 

코레일 예약 페이지 주소는 아래와 같습니다.

https://www.letskorail.com/ebizprd/EbizPrdTicketPr21111_i1.do

 

레츠코레일 LetsKorail

한국철도공사, 레츠코레일, 승차권 예매, 기차여행상품, 운행정보 안내

www.letskorail.com

 

url을 복사합니다.

 

미래 시점의 데이터를 사용할 것이며, 2 페이지 정도 넘어간 다음에 url을 복사합니다.

url = 'https://www.letskorail.com/ebizprd/EbizPrdTicketPr21111_i1.do?&txtGoAbrdDt=20240417&txtGoHour=093200&selGoYear=2024&selGoMonth=04&selGoDay=17&selGoHour=00&txtGoPage=2&txtGoStartCode=0001&txtGoStart=%EC%84%9C%EC%9A%B8&txtGoEndCode=0020&txtGoEnd=%EB%B6%80%EC%82%B0&selGoTrain=05&selGoRoom=&selGoRoom1=&txtGoTrnNo=&useSeatFlg=&useServiceFlg=&selGoSeat=&selGoService=&txtPnrNo=&hidRsvChgNo=&hidStlFlg=&radJobId=1&SeandYo=&hidRsvTpCd=03&selGoSeat1=015&selGoSeat2=&txtPsgCnt1=1&txtPsgCnt2=0&txtMenuId=11&txtPsgFlg_1=1&txtPsgFlg_2=0&txtPsgFlg_3=0&txtPsgFlg_4=0&txtPsgFlg_5=0&txtPsgFlg_8=&chkCpn=N&txtSeatAttCd_4=015&txtSeatAttCd_3=000&txtSeatAttCd_2=000&txtGoStartCode2=&txtGoEndCode2=&hidDiscount=&hidEasyTalk=&adjcCheckYn=N'

 

아래 코드를 실행함으로써, 본격적인 데이터를 탐색하기 전에 필수 라이브러리들인

BeautifulSoup, selenium, ChromeDriverManager, WebdriverWait 라이브러리 등을 불러옵니다.

from bs4 import BeautifulSoup
import pandas as pd

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.support.ui import WebDriverWait

 

 

아래 코드를 통하여, Selenium 웹 드라이버를 실행하는 과정을 수행합니다.

# Selenium 웹 드라이버 실행
driver = webdriver.Chrome(service = service)
driver.get(url)
wait = WebDriverWait(driver, 10)

 

테이블 정보를 담는 데이터프레임을 생성합니다.

리스트 구조를 활용하여 for문을 돌면서 각 tr의 td 데이터를 담는 데이터프레임을 생성합니다.

컬럼 이름들은 다음과 같습니다.

columns = [
    '구분', '열차번호', '출발시각', '도착시각', '특실/우등실', '일반실', '유아',
    '자유석/입석', '인터넷특가(멤버십혜택)', '예약대기', '정차역(경유)', '차량유형/편성정보', '운임요금', '소요시간']

 

아래와 같이 tr 안의 td에 들어있는 값들을 하나씩 리스트에 추가하는 코드를 작성합니다.

# 데이터를 저장할 빈 리스트 생성
data_rows = []

# table_contents의 각 tr 태그(행)에 대해 반복하면서 ,td 데이터를 컬럼에 담는다.
for tr in table_contents.find_all('tr'):
    # 각 열에 해당하는 데이터 추출
    data = []
    for td in tr.find_all('td'):
        text = td.get_text(strip=True)
        # 열에 데이터를 추가
        data.append(text)
    # 데이터를 행으로 추가
    data_rows.append(data)

 

마지막 코드를 통하여 데이터프레임 구조로 저장합니다.

df = pd.DataFrame(data_rows, columns = columns)
df

 

현재 이미지 태그의 값들은 데이터 프레임에 담기지 않은 모습을 보인다.

 

위에서와 마찬가지로 for문 구조를 작성하는데, 이번에는 td.find('img') 코드를 추가하여,

위에서 만든 데이터프레임에 빈 칸이 생기는 경우가 없도록 할 것입니다.

# table_contents의 각 tr 태그(행)에 대해 반복하면서, td 데이터를 컬럼에 담아준다.
for tr in table_contents.find_all('tr'):
    # 각 열에 해당하는 데이터 추출
    data = []
    for td in tr.find_all('td'):
        # td 안에 있는 im 태그가 있는지 확인, alt 속성 추출
        img_tag = td.find('img')
        # img_tag가 존재하면
        if img_tag:
            text = img_tag.get("alt", "")
        else:
            text = td.get_text(strip=True)
            
        # 열에 데이터를 추가
        data.append(text)
    # data, 즉 방금까지 td 태그들이 쌓인 data 리스트에 url도 하나 더 추가
    data.append(url)
    # 데이터를 행으로 추가
    data_rows.append(data)

 

"if img_tag" 조건문을 추가하고 img 태그가 있는 경우에는 "img_tag.get("alt", "")" 과정이 수행되도록 합니다.

그 외의 경우에는 위에서 진행한 대로 "td.get_text(strip=True)" 과정이 진행되도록 합니다.

 

다음 버튼 활용

 

원하는 위치에 대하여 Copy XPath를 진행합니다.

복사된 XPath는 "//*[@id="divResult"]/table[2]/tbody/tr/td/a[2]/img" 형태입니다.

#'다음' 버튼 찾아서 클릭
        try:
            next_button = driver.find_element(By.XPATH, '//*[@id="divResult"]/table[2]/tbody/tr/td/a[2]') # copy XPATH
        except:   #이전 버튼이 없어서 위치가 2번째가 아니라 1번째 a태그로 변경된
            next_button = driver.find_element(By.XPATH, '//*[@id="divResult"]/table[2]/tbody/tr/td/a[1]') # copy XPATH
        
        next_button.click()
        time.sleep(2)

 

except 문에 적혀있듯이 다음 버튼을 클릭하여 넘어가면 그 이후에는 [2] 부분을 [1]로 변경하여 동작히 수행되도록 만들어 줍니다.

다음 버튼을 클릭하면 이전 버튼이 사라지기 때문에 이러한 XPath 경로의 변화가 생깁니다.

 

중복제거

 

drop_duplicates 함수를 사용하여 데이터프레임 상에서 중복되는 요소를 제거합니다.

subset 안에는 중복을 제거할 열을 선택합니다. 이번 경우에는 "출발시각"이 같은 경우를 중복으로 선택하였습니다.

뒤에서 keep = 'first' 옵션을 활용하여 중복되는 요소 중에서 가장 처음에 나온 행만 남기도록 합니다.

데이터 처리가 완료된 이후에는 df.head(20)을 통해 올바르게 작업이 수행되었는지 확인합니다.

 

예약 가능한 일반실 찾기

 

 

" df[ df['일반실'] == '예약하기' ] " 코드를 수행함으로써 일반실 중에서 예약이 가능한 경우만 출력하도록 합니다.

" reset_index(drop=True) "를 진행하는 이유는 원하는 값들만 가져오면서 인덱스 값들이 0, 1, 2, 4 등으로 변하기 때문입니다.

옵션은 drop=True를 넣어줌으로써 새로운 인덱스 열을 추가하지는 않고, 기존 인덱스 열의 숫자를 0, 1, 2, 3 순서로 바꾸어줍니다.

확인하는 과정은 head() 함수를 사용하여 진행합니다.

728x90
728x90

데이터 전처리] 1,234 등 숫자에서 쉼표를 제거하고 숫자형으로 형식 변경, 빈 칸 np.nan으로 대체 및 제거, str.replace(',', '').astype(float), np.nan, subset

 

seoul_monthly_2023['대여건수'] = seoul_monthly_2023['대여건수'].str.replace(',', '').astype(float)
seoul_monthly_2023['반납건수'] = seoul_monthly_2023['반납건수'].str.replace(',', '')
seoul_monthly_2023['반납건수'] = seoul_monthly_2023['반납건수'].str.replace(' - ', '')
seoul_monthly_2023['반납건수'].replace('', np.nan, inplace = True)
seoul_monthly_2023.dropna(subset=['반납건수'], inplace= True)
seoul_monthly_2023['반납건수'] = seoul_monthly_2023['반납건수'].astype(float)
728x90
728x90

Python_기법] 이메일

 

라이브러리 import

 

import smtplib
from email.mime.multipart import MIMEMultipart
from email.mime.text import MIMEText
from email.mime.base import MIMEBase
from email import encoders

 

파일

 

def send_email(subject, body, recipient, files):
    sender = '메일@메일.com'
    password = '앱 비밀번호'

    server = smtplib.SMTP('smtp.gmail.com', 587)
    server.starttls()
    server.login(sender, password)

    message = MIMEMultipart()
    message['From'] = sender
    message['To'] = recipient
    message['Subject'] = subject
    message.attach(MIMEText(body, 'plain'))

    for file in files: # files의 항목들을 연다.
        attachment = open(file, 'rb')
        part = MIMEBase('application', 'octet-stream') # MIMEBase 타입을 설정한다. 'application', 'octet-stream' 이것은 일반적인 바이너리 파일을 나타내는 MIME, 다양한 유형의 파일 첨부 가능
        part.set_payload((attachment).read())
        encoders.encode_base64(part) # ASCII 문자열로 변환하여 이메일을 통한 전송 중에 데이터가 손상되지 않도록 한다.
        part.add_header('Content-Disposition', "attachment; filename= %s" % file)
        message.attach(part)

    # 이메일 발송
    server.send_message(message)
    server.quit()

 

함수 사용

 

if st.button('Sending email'): # streamlit 전송 버튼
    send_email(
        subject = '제목',
        body = 'Check This File',
        recipient = '메일@메일.com',
        files = ['./under.csv', './over.csv']
        )
    st.write('Complete')
728x90
728x90

목적

- 실시간 수질 정보 조회 및 생활 용수와 공업 용수의 상태 파악

- 민간 및 기업에 모두 유용한 데이터를 제공하는 것

 

활용 데이터

한국수자원공사_실시간 수도정보 수질(시간) 조회 서비스(GW)

 

 

사용 라이브러리

from datetime import datetime
from datetime import timedelta
import pandas as pd
import requests
import pprint
from os import name
import pandas as pd
import bs4

 

인증키 확인

서비스 URL

http://apis.data.go.kr/B500001/rwis/waterQuality/list 

 

요청 메시지 명세

항목명(영문) 항목명(국문) 항목크기 항목구분 샘플데이터 항목설명
stDt 조회시작일자 10 1 2015-11-18 조회시작일자
stTm 조회시작시간 2 1 00 조회시작시간
edDt 조회종료일자 10 1 2015-11-18 조회종료일자
edTm 조회종료시간 2 1 24 조회종료시간
fcltyMngNo 시설관리번호 10 0 4824012333 시설관리번호
sujCode 사업장코드 3 0 333 사업장코드
liIndDiv 생활공업구분 1 0 1 생활:1, 공업:2
numOfRows 줄수 10 0 10 줄수
pageNo 페이지번호 10 0 1 페이지번호

 

※ 항목구분 : 필수(1), 옵션(0), 1건 이상 복수건(1..n), 0건 또는 복수건(0..n)

오퍼레이션 목록

1) 1시간 수질정보 조회 waterQualityList

2) 정수장 코드 조회 fcltyList

3) 공급지역 정수장 코드 조회 supplyLgldCodeList

 

서비스와 URL 조합

http://apis.data.go.kr/B500001/rwis/waterQuality/list/waterQualityList

http://apis.data.go.kr/B500001/rwis/waterQuality/list/fcltyList

http://apis.data.go.kr/B500001/rwis/waterQuality/list/supplyLgldCodeList

 

파이썬 샘플 코드

 

import requests

url = 'http://apis.data.go.kr/B500001/rwis/waterQuality/list'
params ={'serviceKey' : '서비스키', 'stDt' : '2015-11-18', 'stTm' : '00', 'edDt' : '2015-11-18', 'edTm' : '24', 'fcltyMngNo' : '4824012333', 'sujCode' : '333', 'liIndDiv' : '1', 'numOfRows' : '10', 'pageNo' : '1' }

response = requests.get(url, params=params)
print(response.content)

 

시간 결정

from datetime import datetime
from datetime import timedelta
print(datetime.today())
print(datetime.today().strftime("%Y-%m-%d %H:%M:%S"))
print(datetime.today().strftime("%Y-%m-%d"))

five_years_ago = datetime.today() - timedelta(days = 5*365)
five_years_ago.strftime("%Y-%m-%d")

 

url, params 설정

import pandas as pd
import requests
import pprint

decoding_key = '디코딩_key'

url = 'http://apis.data.go.kr/B500001/rwis/waterQuality/list'
# params ={'serviceKey' : '서비스키', 
#          'stDt' : '2015-11-18', 
#          'stTm' : '00', 
#          'edDt' : '2015-11-18', 
#          'edTm' : '24', 
#          'fcltyMngNo' : '4824012333', 
#          'sujCode' : '333', 
#          'liIndDiv' : '1', 
#          'numOfRows' : '10', 
#          'pageNo' : '1' }

params ={'serviceKey' : decoding_key, 
         'stDt' : five_years_ago.strftime("%Y-%m-%d"), # 조회시작일자
         'stTm' : '00',  # 조회시작시간
         'edDt' : datetime.today().strftime("%Y-%m-%d"), # 조회종료일자
         'edTm' : '24', # 조회종료시간
         'fcltyMngNo' : '4824012333' # 시설관리번호
         # 'sujCode' : '333'  # 사업장코드
         # 'liIndDiv' : '1'  # 생활공업구분
         # 'numOfRows' : '10'  # 줄수
         # 'pageNo' : '1'  # 페이지번호
        }
response = requests.get(url, params=params)

# xml 내용
content = response.text
print('content',content)

# 깔끔한 출력 위한 코드
pp = pprint.PrettyPrinter(indent=4)
print('pp', pp)

### xml을 DataFrame으로 변환하기 ###
from os import name
import pandas as pd
import bs4

#bs4 사용하여 item 태그 분리
xml_obj = bs4.BeautifulSoup(content,'lxml-xml')
print('xml_obj', xml_obj)
rows = xml_obj.findAll('item')
print(rows)

# 각 행의 컬럼, 이름, 값을 가지는 리스트 만들기
row_list = [] # 행값
name_list = [] # 열이름값
value_list = [] #데이터값

# xml 안의 데이터 수집
for i in range(0, len(rows)):
    columns = rows[i].find_all()
    #첫째 행 데이터 수집
    for j in range(0,len(columns)):
        if i ==0:
            # 컬럼 이름 값 저장
            name_list.append(columns[j].name)
        # 컬럼의 각 데이터 값 저장
        value_list.append(columns[j].text)
    # 각 행의 value값 전체 저장
    row_list.append(value_list)
    # 데이터 리스트 값 초기화
    value_list=[]
    
#xml값 DataFrame으로 만들기
water_df = pd.DataFrame(row_list, columns=name_list)
print(water_df.head(19))

#xml값 DataFrame으로 만들기
#Assertion Error가 난 경우
water_df = pd.DataFrame(water_df)
# 이후에 컬럼을 설정해 주세요.
water_df

 

제공 기관과 데이터 설명이 일치하지 않음

- 필수 parameter 정보 불일치

- 예제와 다른 경우의 데이터를 추출하기 어렵다.

 

 

결론

공공데이터 포털에서는 활용 많은 순으로 데이터를 활용할 것

728x90
728x90

내용

  • PCA
  • PCA 코드
  • 주성분 누적 분산 그래프 elbow method
PCA 사용하기
* 선언

- 생성할 주성분의 개수 지정
- 원래 feature의 수만큼 지정할 수 있음
( 일반적으로 feature 수 만큼 지정 )
- 생성 후 조정할 수 있음
* 적용
- x_train으로 fit & transform
- 다른 데이터는 적용
- 결과는 numpy array
* 코드
# 라이브러리
from sklearn.decomposition import PCA

# 주성분 분석 선언
pca = PCA(n_components=n)

# 만들고, 적용
x_train_pc = pca.fit_transform(x_train)
x_val_pc = pca.transform(x_val)

 

코드
1. 데이터 준비

(1) 라이브러리 로딩

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklean.model_selection import train_test_split


(2) 스케일링
scaler = MinMaxScaler()
x = scaler.fit_transform(x)

(3) 데이터 분할
x_train, x_val, y_train, y_val = train_test_split(x, y, test_size = .3, random = 20)


2. 차원 축소 : 주성분 PCA

(1) 주성분 만들기
from sklearn.decomposition import PCA

(2) 주성분 분석 수행
# 주성분을 몇 개로 할지 결정( 최대값 : 전체 feature 수)
n = x_train.shape[1]

# 주성분 분석 선언
pca = PCA(n_components = n)

# 만들고 적용
x_train_pc = pca.fit_transform(x_train)
x_val_pc = pca.transform(x_val)

(3) 결과는 numpy array로 주어지므로 데이터 프레임으로 변환

# 컬럼 이름 생성
column_names = ['PC' + str(i+1) for i in range(n) ]

# 데이터프레임으로 변환
x_train_pc = pd.DataFrame(x_train_pc, columns = column_names )
x_val_pc = pd.DataFrame(x_val_pc, columns = column_names
연습

# 주성분 1개짜리
pca1 = PCA(n_components = 1)
x_pc1 = pca1.fit_transform(x_train)

# 주성분 2개짜리
pca2 = PCA(n_components = 2)
x_pc2 = pca2.fit_transform(x_train)

# 주성분 3개짜리
pca3 = PCA(n_components = 3)
x_pc3 = pca3.fit_transform(x_train)
주성분 누적 분산 그래프

- 그래프를 보고 적절한 주성분의 개수를 지정(elbow method)
- x축 : PC 수
- y축 : 전체 분산크기 - 누적분산크기

# 코드
plt.plot( range(1, n+1), pca.explained_variance_ratio_, marker = '.')
plt.xlabel('No. of PC')

728x90

+ Recent posts