[웹 크롤링] 메타코드 강의 후기 - "4강 관광 상품 리뷰 크롤링 및 분석 프로젝트(2)"
리뷰 데이터 시각화 - 날짜 데이터
날짜별 리뷰 수를 시각화하는 과정을 진행할 것입니다.
날짜형으로 변환하는 과정이 필요하기 때문에 matplotlib.dates를 "mdates"라는 이름으로 import합니다.
형식을 변형해야 하는 컬럼은 "date" 컬럼입니다.
df['date'] = pd.to_datetime(df['date']) 코드로 데이터 형식을 변경합니다.
현재 mdates는 사용하지 않았습니다.
"연도 - 월" 형태로 변형
madates.DateFormatter('%Y-%m') 함수를 date_format이라는 변수에 선언합니다.
x축에 해당 형식을 설정하기 위하여 plt.gca().xaxis.set_major_locator(mdates.MonthLocator())를 지정합니다.
x축의 값들을 보다 잘 보일 수 있도록 하기 위하여 rotation을 설정했습니다.
plt.grid() 설정하여 그래프의 값들을 보다 쉽게 확인할 수 있도록 합니다.
( MonthLocator 오타 )
나이대 데이터 가져오기
나이대에 따른 값들을 시각화하는 것이 목적입니다.
데이터에서 age 컬럼에 원치 않는 형식의 값들이 들어있는 상황입니다.
따라서, 나이대와 관련한 정보만을 남기는 것이 필요합니다.
str.endswith('대') 함수를 사용하였으며, 끝 부분이 "대" 로 끝나는 값들을 선택하겠다는 것을 의미합니다.
그래프 형태 다듬기
그래프의 형태를 보기 좋게 다듬는 과정입니다.
먼저, sort_values() 함수를 수행하여 groupby를 통하여 연산된 값들이 정렬될 수 있도록 합니다.
그래프를 그린 결과 y축의 범위 조정이 필요했고, 따라서 plt.ylim(4, None) 함수를 적용했습니다.
x축에는 rotatio 함수를 적용하여 값들을 더 잘 볼 수 있도록 합니다.
위에서는 값들을 기준으로 정렬이 수행되었습니다.
따라서, 나이대가 뒤섞이는 모습을 확인할 수 있습니다. 값보다는 위의 코드는, 나이대에 따른 정렬을 원할 때 사용하는 코드입니다.
나이대가 index로 설정되어 있기 때문에 .sort_index()를 수행하니 원하는 형태로 값이 출력되었습니다.
그래프를 그리는 목적에 맞게 사용할 수 있도록 합니다.
Outro
마지막, Outro 영상을 보며 강의를 완강했습니다.
선생님께서, 업무를 수행하다 보면 단순 반복적인 업무를 맞이할 수도 있을 것이며 이때 크롤링에서 배운 지식들이 도움이 될 수 있다고 말씀해주셨습니다.
어려움을 겪게되면, 연락을 주셔도 된다고 말씀해주셔서 큰 힘이 되었습니다.
제 역량을 한 층 끌어올릴 수 있는 만족스러운 강의였습니다.
'Crawling - 메타코드' 카테고리의 다른 글
[웹 크롤링] 메타코드 강의 후기 - "4강 관광 상품 리뷰 크롤링 및 분석 프로젝트(2)" (0) | 2024.04.25 |
---|---|
[웹 크롤링] 메타코드 강의 후기 - "4강 관광 상품 리뷰 크롤링 및 분석 프로젝트(1)" (0) | 2024.04.20 |
[웹 크롤링] 메타코드 강의 후기 - "3강 예매 가능한 기차표 찾기 프로젝트" (0) | 2024.04.16 |
메타코드 강의 후기_2강 : 뉴스 크롤링 자동화 프로젝트 - "크롤링이 안될 때", "Selenium, WebDriver 이용 크롤링" (0) | 2024.04.13 |
메타코드 - [ 효율적 뉴스 정보 수집 ] 메타코드 강의 후기 ( 2강 : 뉴스 크롤링 자동화 프로젝트 ) (1) | 2024.04.12 |