출처: https://astrocosmos.tistory.com/202 [ASTROCOSMOS:티스토리] [웹 크롤링] 메타코드 강의 후기 - "4강 관광 상품 리뷰 크롤링 및 분석 프로젝트(3), 완강 후기" :: 하나둘셋넷
728x90

[웹 크롤링] 메타코드 강의 후기 - "4강 관광 상품 리뷰 크롤링 및 분석 프로젝트(2)"

메타코드M (mcode.co.kr)

 

메타코드M

빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.

mcode.co.kr

 

리뷰 데이터 시각화 - 날짜 데이터

 

날짜별 리뷰 수를 시각화하는 과정을 진행할 것입니다.

날짜형으로 변환하는 과정이 필요하기 때문에 matplotlib.dates를 "mdates"라는 이름으로 import합니다.

형식을 변형해야 하는 컬럼은 "date" 컬럼입니다.

df['date'] = pd.to_datetime(df['date']) 코드로 데이터 형식을 변경합니다.

현재 mdates는 사용하지 않았습니다.

 

"연도 - 월" 형태로 변형

 

madates.DateFormatter('%Y-%m') 함수를 date_format이라는 변수에 선언합니다.

x축에 해당 형식을 설정하기 위하여 plt.gca().xaxis.set_major_locator(mdates.MonthLocator())를 지정합니다.

x축의 값들을 보다 잘 보일 수 있도록 하기 위하여 rotation을 설정했습니다.

plt.grid() 설정하여 그래프의 값들을 보다 쉽게 확인할 수 있도록 합니다.

( MonthLocator 오타 )

 

나이대 데이터 가져오기

 

나이대에 따른 값들을 시각화하는 것이 목적입니다.

데이터에서 age 컬럼에 원치 않는 형식의 값들이 들어있는 상황입니다.

따라서, 나이대와 관련한 정보만을 남기는 것이 필요합니다.

str.endswith('대') 함수를 사용하였으며, 끝 부분이 "대" 로 끝나는 값들을 선택하겠다는 것을 의미합니다.

 

그래프 형태 다듬기

 

그래프의 형태를 보기 좋게 다듬는 과정입니다.

먼저, sort_values() 함수를 수행하여 groupby를 통하여 연산된 값들이 정렬될 수 있도록 합니다.

그래프를 그린 결과 y축의 범위 조정이 필요했고, 따라서 plt.ylim(4, None) 함수를 적용했습니다.

x축에는 rotatio 함수를 적용하여 값들을 더 잘 볼 수 있도록 합니다.

 

 

위에서는 값들을 기준으로 정렬이 수행되었습니다.

따라서, 나이대가 뒤섞이는 모습을 확인할 수 있습니다. 값보다는 위의 코드는, 나이대에 따른 정렬을 원할 때 사용하는 코드입니다.

나이대가 index로 설정되어 있기 때문에 .sort_index()를 수행하니 원하는 형태로 값이 출력되었습니다.

그래프를 그리는 목적에 맞게 사용할 수 있도록 합니다.

 

Outro

 

마지막, Outro 영상을 보며 강의를 완강했습니다.

선생님께서, 업무를 수행하다 보면 단순 반복적인 업무를 맞이할 수도 있을 것이며 이때 크롤링에서 배운 지식들이 도움이 될 수 있다고 말씀해주셨습니다.

어려움을 겪게되면, 연락을 주셔도 된다고 말씀해주셔서 큰 힘이 되었습니다.

제 역량을 한 층 끌어올릴 수 있는 만족스러운 강의였습니다.

728x90

+ Recent posts