[통계 기초의 모든것 올인원] 메타코드 강의 후기 - 연속확률분포

https://mcode.co.kr/video/list2?viewMode=view&idx=94

 

메타코드M

빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.

mcode.co.kr

표본분포

표본분포는 통계량의 확률분포이다.

통계량에는 평균, 표준편차, 분산, 중위값 등이 있다.

평균의 확률분포와 같은 개념을 의미한다.

전수 조사가 어려울 경우, 샘플링을 한다. 이때, 샘플링 과정을 여러 번( ex 1,000번 )한다.

이러한 과정을 진행하면 샘플링한 값들의 평균에 대한 확률분포를 구할 수 있다.

 

중심극한정리

임의의 모집단 => 내가 그 집단이 어떠한 성질을 가지고 있는지 모른다.

만약 샘플 사이즈 n이 충분히 크다면 근사적으로 정규분포를 따르는 것을 말한다.

어떠한 집단이 정규분포인지 정하는 것이 매우 중요하다.

따라서, 이 중심극한정리를 통하여 집단의 특성을 정하는 것은 매우 유용하게 된다.

 

카이제곱 분포

카이제곱 분포, t 분포는 표본분포에서 나온 개념이다.

통계량에 대한 분포를 의미한다.

카이제곱은 이 통계량 중에서 표본분산에 대한 분포를 말한다.

확률변수가 각각 표준정규분포를 따르고 독립일 때, 이들의 제곱합이 자유도 k인 카이제곱 분포를 따른다.

자유도 k만 알면 카이제곱 분포의 모양을 결정할 수 있게 된다.

카이제곱 분포는 원래 치우친 모양을 나타낸다.

 

카이제곱 분포 특징 정리

단봉분포는 하나의 봉우리만 가진다는 것을 의미한다.

오른쪽에 긴 꼬리를 가지는 Positive Skew 형태를 나타낸다. 즉, 양의 이상치 값을 갖는다.

정규분포를 따르는 각각의 확률변수 Z의 갯수만큼 자유도를 가진다.

이때, 이 자유도가 커질수록 정규분포에 가까워지게 된다.

표본분산만 가지고 있을 때 모분산을 추정하고 싶은 경우에 활용한다.

 

연속확률분포 예제 1

확률변수에 대하여 상수가 붙어있다면 제곱이 붙어서 나오게 되므로 이 경우에는 분모에 n^2이 생기게 된다.

확률표본이므로 X1부터 Xn까지 각각 독립이 된다.

따라서, 각각이 Var이 붙어서 연결된다.

동일한 모집단에서 나왔으므로 각각 시그마 제곱이므로 nσ^2이 되고 최종적으로 계산하면 σ^2/n이 된다.

 

연속확률분포 예제 2

이전 문제까지는 확률에 대해서 계산을 하다가 이번 문제는 학생 숫자에 대해서 물어보고 있다.

x가 60점에서 80점 사이에 있을 확률을 구한다.

(60-70) / 70 = -1이 되고, (80-70) / 70 = 1이다.

파란색 부분이 0.159에 해당하는 정규분포이므로 양쪽이 Bell 모양에 해당한다.

따라서 0.159 X 2 = 0.318이 된다.

100 * ( 1 - 0.318 )을 계산하면 정답에 해당한다.

 

[통계 기초의 모든것 올인원] 메타코드 강의 후기 - 이산확률분포

https://mcode.co.kr/video/list2?viewMode=view&idx=94

 

메타코드M

빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.

mcode.co.kr

이산확률 분포 : 이항분포, 베르누이 시행

베르누이 시행은 성공아니면 실패로 판변이 되는 것을 말한다.

동전 던지기를 한 번 하면 베르누이 시행, 여러 번 반복하면 이항분포에 해당한다.

사상이 두 개만 있으므로 1-pp만 있게 된다.

확률변수 X의 평균(기댓값)은 p, 확률변수 X의 분산은 p(1-p)이다.

 

이항확률분포

베르누이 시행을 반복하여 특정한 횟수의 성공/실패가 나타날 확률이 이항확률분포에 해당한다.

어떤 사건이 a 아니면 b에만 해당한다면 이 분포에 해당한다.

x에는 성공 횟수, n에는 시행 횟수를 대입한다.

앞에 n이 곱해져 있는 것을 제외하면 베르누이 시행과 식이 유사한 모습을 볼 수 있다.

 

이산확률분포 예제 풀이 1번

앞에서 배운 베르누이 시행에 대한 개념이다.

앞에서 확률과 확률변수에 대해 공부할 때, E(x^2 )- μ^2 형태로 정의한 공식이 있다.

x의 제곱을 했을 때 0이면 0, 1이면 1로 나온다.

즉 차이가 없으므로 E(x^2)은 p에 해당한다.

따라서 X의 분산이 p(1-p) 임을 확인할 수 있다.

 

이산확률분포 예제 풀이 2번

4 이상의 눈이 나올 확률은 p이다.

주사위를 5번 던지므로 n = 5에 해당한다.

눈이 두 번 나오는 경우가 궁금하므로 n = 2에 해당한다.

p의 경우 4 이상인 경우는 4, 5, 6이므로 확률은 1/2에 해당한다.

 

이산확률분포 예제 풀이 3번

동전을 5번 던지므로 n = 5 이다.앞면과 뒷면이므로 p = 1/2 이다.

기댓값에 대한 공식은 np이다.

분산에 대한 공식은 np(1-p)이다.

기본 공식을 적용하면 정답을 구할 수 있는 문제이다.

 

이산확률 예제 풀이 4번

3회 청구될 확률이므로 우선 x=3에 해당한다.

한 해에, 어떤 한 해에 조건이 붙어 있어 단위 시간을 나타낸다. 따라서 이 문제는 포아송 분포에 해당한다.

포아송 분포에서는 람다를 구해야 한다.

1000명의 보험자 X (1/2000) = 0.5회 청구된다. 따라서 람다는 0.5에 해당한다.

공식에서 x와 람다를 대입하면 정답을 구할 수 있다.

[통계 기초의 모든것 올인원] 메타코드 강의 후기 - "2강 확률과 확률변수"

 

 

메타코드M

빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.

mcode.co.kr

 

조건부 확률

모집단의 20%가 A이므로, P(A) = 0.2로 설정하고, 이에 따라 나머지 집단인 B에 대해서는 P(B)로 설정하였습니다.

A 고객에 대하여 사고가 날 확률을 정의하면 P(C|A) = 0.3으로 계산할 수 있습니다.

B 고객에 대하여 사고가 날 확률을 정의하면 P(C|B) = 0.1로 계산할 수 있습니다.

조건부 확률에 대한 식을 생각하면, P(C∩B) / P(B) 이므로 P(C∩B) 값을 구할 수 있고 A에 대해서도 같은 과정을 수행할 수 있습니다. 따라서 구한 값들을 더한다면 새 고객에 대한 사고 확률을 계산할 수 있습니다.

 

베이즈 정리

사전 확률을 사후 확률로 전환할 수 있다는 것이 베이즈 정리에서의 가장 중요한 점입니다.

데이터가 추가됨에 따라 확률을 업데이트 할 수 있습니다.

예시로서, 성적이 얼마나 오를지에 대해 예측하는 것을 들어주셨습니다.

대상에 대하여, "책을 몇 개 샀다", "이번 모의고사에서 몇 점 맞았다"의 정보가 추가됨에 따라 사후 확률을 추정할 수 있게됩니다.

 

확률변수

확률 변수는 이름은 변수로 되어있지만, 함수를 의미합니다.

사건의 실수값을 맵핑하는 개념으로 생각하면 된다고 설명을 해주셨습니다.

확률분포는 확률변수를 설명해주는 개념입니다.

밑의 예시를 통하여 보다 확률 변수를 쉽게 이해할 수 있도록 돕는 것입니다.

 

이산확률변수, 연속확률변수

이산확률의 경우 정의된 확률의 값을 셀 수 있습니다.

따라서 확률질량 함수의 경우 특정 값에 대해 각 확률이 대응됩니다.

연속확률 변수의 경우 이산확률변수와는 다르게, 특정 값으로 정해지지 않는다는 특성을 갖습니다.

연속형이므로, 취할 수 있는 값이 무한대에 해당한다는 특징이 있습니다.

 

기대값 - 이산확률변수, 연속확률변수

이산확률 변수의 경우, 각 변수에 대하여 일어날 확률을 곱하는 과정을 수행합니다.

이후에 해당 값들을 모두 더해주면 이산확률변수에서의 기대값인 E(X) 값을 계산할 수 있습니다.

연속확률 변수의 경우, 위에서와 마찬가지로 변수에 확률을 곱하는 과정을 수행합니다.

연속형 값이므로 더해주는 것이 아닌 적분을 수행한다는 것이 위의 과정과 차이가 있습니다.

 

기대값에 대한 공식

위 식들은 기대값에 대하여 외워두면 좋은 공식들입니다.

가장 위의 E(a)의 경우 상수 a에 대한 기대값은 상수 a라는 것을 의미합니다.

E(X + b)의 경우, 우리나라 선수들의 평균 키보다 A 국가대표팀들의 평균 키가 3cm 큰 상황을 예시로 들어주셨습니다.

이 경우 A 국가대표팀에 대하여 평균을 구하는 것이 아닌 우리나라 선수들의 평균 키에서 3cm를 더하면 됩니다.

ERD 관련 사이트 & 개념 정리

ERD 관련 사이트

ERD Cloud

 

ERDCloud

Draw ERD with your team members. All states are shared in real time. And it's FREE. Database modeling tool.

www.erdcloud.com

Cacoo

 

🔎 cacoo: Google 검색

 

www.google.co.kr

 

식별 관계

부모 테이블의 기본키 또는 유니크 키를 자식 테이블이 자신의 기본키로 사용하는 관계

부모 테이블의 키가 자신의 기본키에 포함되기 때문에 반드시 부모 테이블에 데이터가 존재해야 자식 테이블에 데이터 입력 가능

식별 관계는 ERD 상에서 실선으로 표시

 

비식별 관계

부모 테이블의 기본키 또는 유니크 키를 자신의 기본키로 사용하지 않고, 외래키로 사용

자식 데이터는 부모 데이터가 없어도 독립적으로 생성 가능

ERD 상에서 점선으로 표시

 

N:M 관계

문제점

1. 데이터 중복

2. 고객이 구매한 상품 내용을 볼 때, 테이블 참조 모호

3. 정규화 필요

4. 테이블(엔터티)의 독립성과 필드의 종속성 파악 필요

 

해결

중간 매핑 테이블을 둔다.

 

엔터티 종류

핵심 엔터티(Key Entity)

 

중요 엔터티(Main Entity)

 

행위 엔터티(Action Entity)

 

[통계 기초의 모든것 올인원] 메타코드 강의 후기 - "1강 통계량"

 

메타코드M

빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.

mcode.co.kr

 

평균의 종류

산술 평균이란 모든 자료의 값을 더한 뒤에, 자료의 수로 나누어 준 값을 의미하며 평상 시에 자주 다루는 평균의 개념에 해당합니다.

산술 평균은 극단값에 영향을 받는다는 특징이 있고 이 부분은 데이터를 분석함에 있어 주의해야 할 부분입니다.

가중평균은 자료의 중요성이 다를 경우, 중요도에 따라 가중치를 부여한 평균을 의미합니다.

가중평균의 경우 분모를 보면, 자료의 갯수가 아닌 가중치의 합인 것을 볼 수 있으며 이 부분이 산술평균과 차이가 있습니다.

 

기하평균의 개념

기하평균의 경우, 비율에 대한 값을 다룰 때 사용하는 평균의 개념을 말합니다.

수업 때, 예시로서 내가 주식에서 100%의 수익을 달성하고 다음 날에 -100%의 손해를 발생했을 때, 이 비율에 대하여 산술평균으로 접근하면 오류가 생긴다는 상황을 들어주셨습니다.

이 예시를 통해, 보다 쉽게 이 개념을 받아들일 수 있었습니다.

위에서의 평균 개념들과 다르게 곱하고 제곱근을 한다는 특징이 있습니다.

 

분산, 표본분산

분산의 경우 편차 제곱의 합을 자료의 수로 나눈 값을 의미합니다.

여기에서 편차란 평균과 자료값의 차이를 의미합니다.

강의자료에서는 분모에 (n-1)이 적혀있는데 이는 표본분산인 경우를 의미합니다.

모분산의 경우는 n으로 나누며 시그마로 표시하고, 표본분산의 경우 (n-1)로 나누며 s로 표기합니다.

 

 

표준 편차에 식의 두 가지 형태

표준 편차 계산을 위한 수식을 2가지 배웠습니다.

저 두 수식이 왜 같은지에 대해 증명을 하는 과정을 보며, 이해도를 높일 수 있었습니다.

예제를 풀며 왜 두 가지 수식을 알고 있어야 하는지 느낄 수 있었습니다.

다양한 상황에서 데이터를 분석함에 있어서는 같은 개념에 대해서도 여러 가지 형태의 수식을 배워두면 유용할 것임을 배웠습니다.

 

왜도, 첨도

왜도의 경우 분포의 비대칭도가 어느정도 되는지 나타내는 수치로 영어로는 Skewness라고 합니다.

오른쪽으로 긴 꼬리가 있는 경우를 Positive Skew라고 합니다.

이 때는 양의 값으로 이상치가 있는 경우를 의미하기 때문에 평균이 이에 영향을 받아 중앙값보다 우측으로 위치하는 특징을 보입니다.

반대로 음의 값으로 이상치가 있는 경우는 Negative Skew라고 하며 Positive Skew와는 반대의 상황을 보입니다.

 

상관성 분석

상관성에 대한 개념과 공분산, 상관계수에 대한 개념을 배웠습니다.

상관계수는 확률변수 간의 변화가 서로 어느 정도로 관계가 있는 정도를 나타내는 값입니다.

절대값이 1에 가까울수록 상관관계가 강함을 의미하며, +1에 가까운 경우는 양의 상관 관계에 해당하고, -1에 가까울 경우에는 음의 상관관계에 해당합니다.

단, 특정 구간을 기준으로 양의 선형관계와 음의 선형관계가 달라지는 자료라면 상관계수 값으로는 0에 가깝게 나오겠지만 제대로 된 분석을 하지는 않을 것이므로 이 수치만을 보고 판단해서는 안된다고 배웠습니다.

 

[웹 크롤링] 메타코드 강의 후기 - "4강 관광 상품 리뷰 크롤링 및 분석 프로젝트(2)"

메타코드M (mcode.co.kr)

 

메타코드M

빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.

mcode.co.kr

 

리뷰 데이터 시각화 - 날짜 데이터

 

날짜별 리뷰 수를 시각화하는 과정을 진행할 것입니다.

날짜형으로 변환하는 과정이 필요하기 때문에 matplotlib.dates를 "mdates"라는 이름으로 import합니다.

형식을 변형해야 하는 컬럼은 "date" 컬럼입니다.

df['date'] = pd.to_datetime(df['date']) 코드로 데이터 형식을 변경합니다.

현재 mdates는 사용하지 않았습니다.

 

"연도 - 월" 형태로 변형

 

madates.DateFormatter('%Y-%m') 함수를 date_format이라는 변수에 선언합니다.

x축에 해당 형식을 설정하기 위하여 plt.gca().xaxis.set_major_locator(mdates.MonthLocator())를 지정합니다.

x축의 값들을 보다 잘 보일 수 있도록 하기 위하여 rotation을 설정했습니다.

plt.grid() 설정하여 그래프의 값들을 보다 쉽게 확인할 수 있도록 합니다.

( MonthLocator 오타 )

 

나이대 데이터 가져오기

 

나이대에 따른 값들을 시각화하는 것이 목적입니다.

데이터에서 age 컬럼에 원치 않는 형식의 값들이 들어있는 상황입니다.

따라서, 나이대와 관련한 정보만을 남기는 것이 필요합니다.

str.endswith('대') 함수를 사용하였으며, 끝 부분이 "대" 로 끝나는 값들을 선택하겠다는 것을 의미합니다.

 

그래프 형태 다듬기

 

그래프의 형태를 보기 좋게 다듬는 과정입니다.

먼저, sort_values() 함수를 수행하여 groupby를 통하여 연산된 값들이 정렬될 수 있도록 합니다.

그래프를 그린 결과 y축의 범위 조정이 필요했고, 따라서 plt.ylim(4, None) 함수를 적용했습니다.

x축에는 rotatio 함수를 적용하여 값들을 더 잘 볼 수 있도록 합니다.

 

 

위에서는 값들을 기준으로 정렬이 수행되었습니다.

따라서, 나이대가 뒤섞이는 모습을 확인할 수 있습니다. 값보다는 위의 코드는, 나이대에 따른 정렬을 원할 때 사용하는 코드입니다.

나이대가 index로 설정되어 있기 때문에 .sort_index()를 수행하니 원하는 형태로 값이 출력되었습니다.

그래프를 그리는 목적에 맞게 사용할 수 있도록 합니다.

 

Outro

 

마지막, Outro 영상을 보며 강의를 완강했습니다.

선생님께서, 업무를 수행하다 보면 단순 반복적인 업무를 맞이할 수도 있을 것이며 이때 크롤링에서 배운 지식들이 도움이 될 수 있다고 말씀해주셨습니다.

어려움을 겪게되면, 연락을 주셔도 된다고 말씀해주셔서 큰 힘이 되었습니다.

제 역량을 한 층 끌어올릴 수 있는 만족스러운 강의였습니다.

[웹 크롤링] 메타코드 강의 후기 - "4강 관광 상품 리뷰 크롤링 및 분석 프로젝트(2)"

메타코드M (mcode.co.kr)

 

메타코드M

빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.

mcode.co.kr

 

페이지네이션을 위한 페이지 탐색

 

F12 개발자 모드에 진입하여 페이지 넘기기 기능에 대한 클래스를 찾아봅니다.

확인 결과, <div class="paginate">로 적혀있음을 확인할 수 있습니다.

(By.CLASS_NAME, "pagenate")를 작성합니다.

이 요소를 찾기까지 기다리도록 selenium.webdriver.support로부터 expected_conditions를 가져옵니다.

 

마지막 번호에서 넘어가는 기능 구현

 

10 단위로 페이지 버튼의 변경이 일어납니다.

따라서 조건 문제 page_num % 10 != 0 으로 설정을 하였습니다.

10의 배수가 되었을 때는 {page_num+1}에 따라 선택된 버튼이 아닌,

화살표를 클릭할 수 있도록 XPATH를 설정합니다.

마지막 페이지인 경우는 except에 설정했습니다.

 

XPATH를 찾는 과정에서의 오류

 

실제 코드를 실행해보니 오류가 발생하였습니다.

확인 결과 위에서 By.CLASS_NAME으로 'pagenate'을 찾을 때 문제가 생김을 확인할 수 있습니다.

따라서, CLASS 이름이 아닌, XPATH를 통하여 탐색을 하도록 변경해줍니다.

F12 개발자 모드에 진입하여 XPATH를 Copy하고 driver.find_element(By.XPATH, '') 형식에 맞게 넣어줍니다.

 

수집된 데이터에 대한 분석, 시각화 - 라이브러리 불러오기

 

데이터 분석을 위한 기본 라이브러리들을 불러오는 과정입니다.

Pandas, Matplotlib, Seaborn을 우선 불러올 것이며,

한글 폰트를 읽을 수 있도록 설정합니다.

강의는 MAC OS 환경에서 진행되어 family = 'AppleGothic'으로 되어있으며, 윈도우의 경우는 'Malgun Gothic을 입력합니다.

 

데이터 분석 - 카테고리별 리뷰 수 계산

 

카테고리 리뷰 수에 대한 분석을 먼저 진행합니다.

데이터 프레임 중에서 'category' 컬럼을 선택합니다.

value_counts() 함수를 사용하면 각 항목별로 값들이 몇 개씩 들어있는지 확인할 수 있습니다.

가족여행, 아동동반 항목의 숫자가 눈에 띄는 모습을 보입니다.

 

데이터 시각화

 

위에서 생성한 value_counts() 함수의 결과를 시각화합니다.

드래그한 함수들을 통하여 그래프를 꾸밀 수 있습니다.

옵션들을 정리하면, title은 "카테고리별 리뷰 수", xlabel은 "카테고리", ylabel은 "리뷰 수"로 지정했습니다.

x 축의 값들을 보다 보기 편하도록 rotation 값을 주었습니다.

[웹 크롤링] 메타코드 강의 후기 - "4강 관광 상품 리뷰 크롤링 및 분석 프로젝트(1)"

메타코드M (mcode.co.kr)

 

메타코드M

빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.

mcode.co.kr

 

하나투어 페이지의 주소는 아래와 같습니다.

https://www.hanatour.com/trp/pkg/CHPC0PKG0200M200?pkgCd=AVP228240501ZEA&prePage=major-products&directSale=PL00113904

 

나트랑/달랏 5일#위장을채워달랏#나트랑반나절자유시간#1일1간식#달랏야시장#랑비엔SUV포함#죽림

여행경보단계 외교부에서 운영하는 여행경보단계는 여행유의 / 여행자제 / 철수권고 / 여행금지 4단계로 구분되며 외교부 '해외안전여행' 사이트(www.0404.go.kr)에서 상세정보를 확인할 수 있습니

www.hanatour.com

 

페이지 Url 변화 확인

"하나투어" 홈페이지에서 베스트탭을 눌러 상품을 찾습니다.

하나의 상품을 선택하고, 아래로 스크롤을 하면 "여행후기" 탭을 확인할 수 있습니다.

여행후기탭을 누를 때와 누르지 않았을 때 url에는 변화가 생기지 않는 모습을 볼 수 있습니다.

이러한 상황에서 selenium을 통한 크롤링이 유용합니다.

 

여행후기 버튼 클릭 구현

 

여행후기 버튼 클릭을 구현하기 위하여 F12를 눌러 개발자 모드를 실행합니다.

개발자 모드에서 마우스 버튼을 클릭한 뒤에, "여행후기" 탭을 눌러 태그를 확인하고 XPath를 복사합니다.

아래의 코드에 복사한 값을 붙여넣습니다.

review_link = WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.XPATH, '//*[@id="ulTag"]/li[6]/a')))

 

여기에서 웹페이지가 로드될 때까지 기다리도록 "EC.presence_of_element_located()"를 활용합니다.

 

Box 안의 요소 불러오기, selector 복사

 

후기 안의 요소들을 불러오는 것이 목표입니다.

개발자 모드에서 마우스를 통해 Box의 태그 정보들을 확인하고 "Copy selector"를 수행합니다. 결과는 아래와 같습니다.

"sticky06 > div > div.rating_list > ul > li:nth-child(1)" 

현재 클래스는 "list_review_v2" 입니다.

따라서 'ul.list_review_v2 > li' 를 통하여 클래스가 list_review_v2인 ul 태그들의 자식들인 li들을 찾습니다.

코드는 아래와 같습니다.

lis = driver.find_elements(By.CSS_SELECTOR, 'ul.list_review_v2 > li')

 

리뷰에 대한 정보 추출

 

리뷰의 정보들을 하나씩 추출하는 것이 목적입니다.

리뷰의 정보들dms 'rating_info' 클래스 안에 span 태그로 기록되어 있습니다.

따라서 find_elements(By.TAG_NAME, 'span')을 통하여 각 요소들에 접근합니다.

딕셔너리에 적절한 키 이름을 정의하고 spans[1].text 문법 구조를 통해 해당 값를 넣습니다.

 

리뷰 정보, 리뷰 카테고리 정보 추출

 

리뷰 정보와 리뷰 카테고리를 추출하는 것이 목적입니다.

여기에서는 if 문법을 사용하여 정보가 있으면 해당 정보를 담고, 정보가 없다면 빈 칸으로 하였습니다.

클래스 이름은 F12 개발자 모드에서 확인한 결과 각각 'review_count.con', 'review_cate'입니다.

각각 'review', 'review' 를 키 값으로 하여 .text를 통해 value로 딕셔너리에 추가합니다.

 

추출된 정보를 데이터프레임 형태로 변환

 

for문의 마지막에 reviews.append(review_info)를 작성하여 만들어진 딕셔너리를 위에서 만든 reviews 리스트에 담습니다.

리스트 안에는 딕셔너리 형태의 정보가 담겨있으며, 리스트의 키 값에는 'rating', 'user', 'category', 'date', 'age', 'review', 'review_cate'가 있습니다.

데이터프레임으로 만들기 위하여 pd.DataFrame(reviews)를 사용합니다.

출력을 하면 올바른 결과가 나옴을 확인할 수 있습니다.

 

[웹 크롤링] 메타코드 강의 후기 - "3강 예매 가능한 기차표 찾기 프로젝트"

메타코드M (mcode.co.kr)

 

메타코드M

빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.

mcode.co.kr

 

코레일 예약 페이지 주소는 아래와 같습니다.

https://www.letskorail.com/ebizprd/EbizPrdTicketPr21111_i1.do

 

레츠코레일 LetsKorail

한국철도공사, 레츠코레일, 승차권 예매, 기차여행상품, 운행정보 안내

www.letskorail.com

 

url을 복사합니다.

 

미래 시점의 데이터를 사용할 것이며, 2 페이지 정도 넘어간 다음에 url을 복사합니다.

url = 'https://www.letskorail.com/ebizprd/EbizPrdTicketPr21111_i1.do?&txtGoAbrdDt=20240417&txtGoHour=093200&selGoYear=2024&selGoMonth=04&selGoDay=17&selGoHour=00&txtGoPage=2&txtGoStartCode=0001&txtGoStart=%EC%84%9C%EC%9A%B8&txtGoEndCode=0020&txtGoEnd=%EB%B6%80%EC%82%B0&selGoTrain=05&selGoRoom=&selGoRoom1=&txtGoTrnNo=&useSeatFlg=&useServiceFlg=&selGoSeat=&selGoService=&txtPnrNo=&hidRsvChgNo=&hidStlFlg=&radJobId=1&SeandYo=&hidRsvTpCd=03&selGoSeat1=015&selGoSeat2=&txtPsgCnt1=1&txtPsgCnt2=0&txtMenuId=11&txtPsgFlg_1=1&txtPsgFlg_2=0&txtPsgFlg_3=0&txtPsgFlg_4=0&txtPsgFlg_5=0&txtPsgFlg_8=&chkCpn=N&txtSeatAttCd_4=015&txtSeatAttCd_3=000&txtSeatAttCd_2=000&txtGoStartCode2=&txtGoEndCode2=&hidDiscount=&hidEasyTalk=&adjcCheckYn=N'

 

아래 코드를 실행함으로써, 본격적인 데이터를 탐색하기 전에 필수 라이브러리들인

BeautifulSoup, selenium, ChromeDriverManager, WebdriverWait 라이브러리 등을 불러옵니다.

from bs4 import BeautifulSoup
import pandas as pd

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.support.ui import WebDriverWait

 

 

아래 코드를 통하여, Selenium 웹 드라이버를 실행하는 과정을 수행합니다.

# Selenium 웹 드라이버 실행
driver = webdriver.Chrome(service = service)
driver.get(url)
wait = WebDriverWait(driver, 10)

 

테이블 정보를 담는 데이터프레임을 생성합니다.

리스트 구조를 활용하여 for문을 돌면서 각 tr의 td 데이터를 담는 데이터프레임을 생성합니다.

컬럼 이름들은 다음과 같습니다.

columns = [
    '구분', '열차번호', '출발시각', '도착시각', '특실/우등실', '일반실', '유아',
    '자유석/입석', '인터넷특가(멤버십혜택)', '예약대기', '정차역(경유)', '차량유형/편성정보', '운임요금', '소요시간']

 

아래와 같이 tr 안의 td에 들어있는 값들을 하나씩 리스트에 추가하는 코드를 작성합니다.

# 데이터를 저장할 빈 리스트 생성
data_rows = []

# table_contents의 각 tr 태그(행)에 대해 반복하면서 ,td 데이터를 컬럼에 담는다.
for tr in table_contents.find_all('tr'):
    # 각 열에 해당하는 데이터 추출
    data = []
    for td in tr.find_all('td'):
        text = td.get_text(strip=True)
        # 열에 데이터를 추가
        data.append(text)
    # 데이터를 행으로 추가
    data_rows.append(data)

 

마지막 코드를 통하여 데이터프레임 구조로 저장합니다.

df = pd.DataFrame(data_rows, columns = columns)
df

 

현재 이미지 태그의 값들은 데이터 프레임에 담기지 않은 모습을 보인다.

 

위에서와 마찬가지로 for문 구조를 작성하는데, 이번에는 td.find('img') 코드를 추가하여,

위에서 만든 데이터프레임에 빈 칸이 생기는 경우가 없도록 할 것입니다.

# table_contents의 각 tr 태그(행)에 대해 반복하면서, td 데이터를 컬럼에 담아준다.
for tr in table_contents.find_all('tr'):
    # 각 열에 해당하는 데이터 추출
    data = []
    for td in tr.find_all('td'):
        # td 안에 있는 im 태그가 있는지 확인, alt 속성 추출
        img_tag = td.find('img')
        # img_tag가 존재하면
        if img_tag:
            text = img_tag.get("alt", "")
        else:
            text = td.get_text(strip=True)
            
        # 열에 데이터를 추가
        data.append(text)
    # data, 즉 방금까지 td 태그들이 쌓인 data 리스트에 url도 하나 더 추가
    data.append(url)
    # 데이터를 행으로 추가
    data_rows.append(data)

 

"if img_tag" 조건문을 추가하고 img 태그가 있는 경우에는 "img_tag.get("alt", "")" 과정이 수행되도록 합니다.

그 외의 경우에는 위에서 진행한 대로 "td.get_text(strip=True)" 과정이 진행되도록 합니다.

 

다음 버튼 활용

 

원하는 위치에 대하여 Copy XPath를 진행합니다.

복사된 XPath는 "//*[@id="divResult"]/table[2]/tbody/tr/td/a[2]/img" 형태입니다.

#'다음' 버튼 찾아서 클릭
        try:
            next_button = driver.find_element(By.XPATH, '//*[@id="divResult"]/table[2]/tbody/tr/td/a[2]') # copy XPATH
        except:   #이전 버튼이 없어서 위치가 2번째가 아니라 1번째 a태그로 변경된
            next_button = driver.find_element(By.XPATH, '//*[@id="divResult"]/table[2]/tbody/tr/td/a[1]') # copy XPATH
        
        next_button.click()
        time.sleep(2)

 

except 문에 적혀있듯이 다음 버튼을 클릭하여 넘어가면 그 이후에는 [2] 부분을 [1]로 변경하여 동작히 수행되도록 만들어 줍니다.

다음 버튼을 클릭하면 이전 버튼이 사라지기 때문에 이러한 XPath 경로의 변화가 생깁니다.

 

중복제거

 

drop_duplicates 함수를 사용하여 데이터프레임 상에서 중복되는 요소를 제거합니다.

subset 안에는 중복을 제거할 열을 선택합니다. 이번 경우에는 "출발시각"이 같은 경우를 중복으로 선택하였습니다.

뒤에서 keep = 'first' 옵션을 활용하여 중복되는 요소 중에서 가장 처음에 나온 행만 남기도록 합니다.

데이터 처리가 완료된 이후에는 df.head(20)을 통해 올바르게 작업이 수행되었는지 확인합니다.

 

예약 가능한 일반실 찾기

 

 

" df[ df['일반실'] == '예약하기' ] " 코드를 수행함으로써 일반실 중에서 예약이 가능한 경우만 출력하도록 합니다.

" reset_index(drop=True) "를 진행하는 이유는 원하는 값들만 가져오면서 인덱스 값들이 0, 1, 2, 4 등으로 변하기 때문입니다.

옵션은 drop=True를 넣어줌으로써 새로운 인덱스 열을 추가하지는 않고, 기존 인덱스 열의 숫자를 0, 1, 2, 3 순서로 바꾸어줍니다.

확인하는 과정은 head() 함수를 사용하여 진행합니다.

Table 다루기

  • 기초 단축키
    • 주석 : ctrl + /
    • 라이브 서버 실행 : ALT + L + O
    • HTML 기본 구성 요소 꺼내기 : ! + Enter

결과물

"rowspan", "colspan", "align", "th", "bgcolor", "border" 등의 기능을 사용하여 테이블을 꾸미는 실습을 진행합니다.

  1. "rowspan" : 아래로 정해진 숫자만큼 행을 병합합니다.
  2. "colspan" : 아래로 정해진 숫자만큼 열을 병합합니다.
  3. "align" : 텍스트의 정렬 방향을 결정합니다.
  4. "th" : 표의 헤더 부분을 작성합니다.
  5. "bgcolor" : 배경색을 설정합니다.
  6. "border" : 표 테두리의 두께를 설정합니다.

 

가장 기본적인 표

    <table border = '1px solid black'>
        <tr>
            <td>1번칸</td>
            <td>2번칸</td>
            
        </tr>

        <tr>
            <td>3번칸</td>
            <td>4번칸</td>
        </tr>

        <tr>
            <td>5번칸</td>
            <td>6번칸</td>
        </tr>
    </table>

 

가장 기본적인 표 구조입니다.

<table border = '1px solid black'>을 통하여 표 테두리의 두께를 설정합니다.

<tr></tr>을 통해 행을 지정하고, <td></td>를 설정하여 각 열마다 정보를 대입합니다.

총 3행 2열의 테이블이 생성됩니다.

 

"rowspan", "colspan" 활용

<table border="">
        <tr>
            <td>메뉴</td>
            <td>가격</td>
            <td>특이사항</td>
        </tr>

        <tr>
            <td>아메리카노</td>
            <td>3000</td>
            <td rowspan="3">사계절 가능</td>
        </tr>

        <tr>
            <td>카페라떼</td>
            <td>3500</td>
        </tr>

        <tr>
            <td>자바칩프라푸치노</td>
            <td>4500</td>
        </tr>

        <tr>
            <td colspan="3">청귤에이드는 조금만 기다려주세요</td>
        </tr>
    </table>

 

rowspan과 colspan을 모두 활용한 테이블 구조입니다.

아메티카노의 3번째 컬럼 아래로 행 3개를 병합하고 싶기 때문에 <td rowspan ="3">사계절 가능</td>로 작성했습니다.

마지막 행에서는 해당 열들을 모두 병합하고 싶기 때문에 <td colspan="3"></td>를 사용했습니다.

총 5행 3열의 테이블이 생성되며 이중에서 3개의 행이 병합된 부분이 있고, 마지마 행의 컬럼은 모두 병합됩니다.

 

th, width, bgcolor, align을 활용한 테이블 꾸미기

<table border = "1px solid balck" width = "300px">
        <tr bgcolor = 'pink'>
            <th width = '100px'> 메뉴 </th>
            <th>가격</th>
            <th>특이사항</th>
        </tr>

        <tr>
            <td>아메리카노</td>
            <td align = 'right'>3000</td>
            <td rowspan='3'>사계절가능</td>
        </tr>

        <tr>
            <td>카페라떼</td>
            <td align = 'right'>3500</td>
        </tr>

        <tr>
            <td>자바칩프라푸치노</td>
            <td align = "right">4500</td>
        </tr>

        <tr>
            <td colspan = '3'>청귤에이드는 조금만 기다려주세요~</td>
        </tr>

    </table>

<table border = "1px solid black" width = "300px">를 통하여 테두리의 색과 두께, 전체 테이블의 너비를 정합니다.

<tr bgcolor = 'pink'> 를 통해 해당 행의 배경색을 지정합니다.

<th width = 100px>메뉴</th>를 통해 테이블 헤더 부분 컬럼 내용을 작성합니다.

<td align = 'right'>3000</td>를 통하여 해당 글자를 오른쪽으로 정렬합니다.

<td rowspan = '3'>사계절가능</td>을 통하여 해당 행 아래로 3개의 행들을 병합합니다.

<td colspan='3'>청귤에이드는 조금만 기다려주세요~</td>를 통하여 해당 행의 컬럼 3개를 병합합니다.

 

'HTML > HTML 기초' 카테고리의 다른 글

HTML, CSS - Box 다루기  (0) 2024.04.12

메타코드 강의 후기

메타코드M (mcode.co.kr)

 

메타코드M

빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.

mcode.co.kr

Javascript로 만든 페이지에 대응하는 방법을 배울 것입니다.

 

개발자 모드로 박스 컨텐츠의 정보를 확인합니다.

 

박스컨텐츠에 대한 정보는 <a></a> 태그로 되어있는 경우가 많습니다.

클래스 부분의 정보를 복사하여 가져옵니다.

 

box_contents = soup.find_all('a', class_='box-content flex-style')
box_contents

 

가져온 클래스 정보를 코드에 위와 같이 입력합니다.

여러 개의 정보를 가져와야 하므로 "soup.find_all"을 사용했습니다.

 

크롤링이 되지 않는 경우 -> selenium의 webdriver 사용

 

 

크롤링이 되지 않는 경우에는 selenium으로부터 webdriver를 가져와서 크롤링을 진행합니다.

필요한 라이브러리들은 위 사진에서 확인할 수 있습니다.

정적인 페이지의 경우는 Requests와 Beautifulsoup으로 크롤링이 가능하며,

동적인 페이지의 경우는 Selenium을 사용하는 경우에 해당합니다.

 

Selenium을 통한 크롤링 준비

 

 

Selenium의 webdriver를 통하여 웹 드라이버를 실행하는 코드입니다.

해당 코드를 실행하면 새로운 브라우저를 통하여 url 주소에 해당하는 페이지가 실행됨을 확인할 수 있습니다.

wait의 경우 브라우저의 안정적인 실행을 위해 설정하며, 이 경우에는 10초로 설정했습니다.

html 변수에 페이지 소스를 담아 이후 크롤링에 사용할 것입니다.

 

크롤링 시도

 

 

soup = BeautifulSoup(html, 'html.parser')를 통해 soup 변수에 selenium을 통하여 얻은 페이지 소스를 대입하여 크롤링을 시도한 결과 출력에서 볼 수 있듯이 정보를 가져오는 것에 성공했음을 확인할 수 있습니다.

박스 컨텐츠를 가져오는 것이 목적이기 때문에 F12 개발자 모드에서 확인한 클래스 이름인 "box_content flex-style"을 형식에 맞게 입력하였습니다.

태그의 종류는 "a 태그"에 해당합니다.

 

불러온 정보 다루기

 

 

len 함수를 통해 확인할 수 있듯이 현재 box_contents는 리스트 형식이며, 그 안에 값들은 12개가 담겨있습니다.

box_contents[0] 등으로 숫자를 입력하며 각 위치에 어떤 값들이 담겨 있는지 쉽게 확인할 수 있습니다.

태그 정보와 클래스 이름도 확인할 수 있습니다.

리스트 구조이므로 후에 for문 등 다양한 방법으로 데이터를 다루기에 용이한 상태가 되었습니다.

 

원하는 정보 선택 출력

 

 

위의 방식을 통하여 컨텐츠에서 원하는 정보만 출력할 수 있습니다.

box_contents는 리스트 구조이므로 먼저 인덱스 번호를 통해 어떤 정보를 가져올 것인지 정합니다.

해당 요소의 태그와 class 정보는 쉽게 확인할 수 있습니다.

".find()" 안에 확인한 태그 정보와 class 이름을 넣으면 위에서 볼 수 있듯이 필요한 정보를 출력할 수 있습니다.

 

리스트에 정보 담기

 

리스트 구조를 활용하면 페이지에서 원하는 정보들을 편하게 추출하고 관리할 수 있습니다.

url 변수에 기본 주소 + href 정보를 통해 페이지에 대한 주소 정보를 담습니다.

title, body, date 변수에 개발자 모드에서 확인한 태그 정보와 클래스 정보를 활용하여 정보를 담습니다.

반복문의 각 변수들을 해당 리스트에 append하여 정보를 추가합니다.

box_contents의 길이만큼 반복문이 진행됩니다.

 

csv 파일로 저장

 

리스트 구조를 딕셔너리 구조로 변환한 뒤에,

pd.DataFrame() 함수를 사용하여 데이터프레임 변환합니다.

df.to_csv() 함수를 사용하면 데이터프레임 구조의 정보를 csv 파일 형태로 저장할 수 있습니다.

pd.read_csv() 함수를 사용하면 저장된 csv 파일 내용을 확인할 수 있습니다.

메타코드 강의

"웹 크롤링 기초 강의ㅣ뉴스, 기차 예매, 여행 사이트 실습"

https://mcode.co.kr/video/list2?viewMode=view&idx=92

 

각각의 뉴스에서 정보 수집

KBS 뉴스탭에서 전체 카테고리를 선택하고 일자별 뉴스 항목에 접근합니다.
먼저, 한 항목을 선택하여 페이지로 이동합니다. F12 버튼을 통해 개발자 모드에 접근하면 각 element들에 대한 자세한 정보를 얻을 수 있으며 이는 뒤에서 바로 진행할 것입니다.

하나의 요소에서 정보를 수집하는 것으로 시작하여, 추후에 여러 뉴스에서 정보를 수집하는 실습을 진행할 것입니다.

 

개발자 모드 F12를 통한 요소 분석

타이틀 부분은 h4로 싸여 있고 class는 "headline-title"임을 확인할 수 있습니다.
본문 부분은 "detail-body font-size"라는 클래스로 되어있음을 확인할 수 있습니다.
개발자 모드에서 접근한 뒤, 화살표 버튼을 통해 내가 원하는 요소에 대한 정보를 쉽게 얻을 수 있습니다.
< br > 태그는 엔터 기능에 해당합니다.

 

라이브러리 호출

기본적인 라이브러리들을 호출하기 위하여 아래 코드를 실행합니다.

import requests
from bs4 import BeautifulSoup

위에서 호출한 requests 라이브러리를 통하여 url의 텍스트 정보를 가져올 수 있습니다.

url = 'https://news.kbs.co.kr/news/pc/view/view.do?ncd=7936381'
html_doc = requests.get(url).text
html_doc

url의 정보의 경우 현재 접속한 페이지의 상단에서 "복사"를 통해 가져오도록 합니다.

위에서 가져온 url 정보를 읽을 때에는 뒤에 .text를 통해 읽도록 합니다.

 

class 정보 수집

title1 = soup.find('h4', class_ = 'headline-title')
title1

이 코드를 실행하여 제목 정보를 가져옵니다.
개발자 모드의 정보에서 title의 class가 어떻게 되는지 쉽게 확인할 수 있으며, 복사 붙여넣기를 통해 'headline-title'을 가져옵니다.

개발자 모드의 좌측 상단의 마우스를 통해 해당 요소의 클래스 정보를 쉽게 찾을 수 있으며, 해당 코드 부분에 마우스 부분을 올려 해당 컨텐츠의 코드 부분이 맞는지 한 번 더 확인하도록 합니다.

 

리스트를 통한 여러 뉴스 데이터 크롤링

아래 코드를 통하여 여러 뉴스들을 하나의 리스트로 담고 데이터프레임으로 만든 뒤에 최종적으로는 csv 파일 형태로 저장합니다.

url_list = []
title_list = []
body_list = []

url1 = 'https://news.kbs.co.kr/news/pc/view/view.do?ncd=7937463'
html_doc1 = requests.get(url1).text
soup1 = BeautifulSoup(html_doc1, 'html.parser')
title1 = soup1.find('h4', class_ = 'headline-title').text
body1 = soup1.find('div', class_='detail-body font-size').text

url_list.append(url1)
title_list.append(title1)
body_list.append(body1)

url2 = 'https://news.kbs.co.kr/news/pc/view/view.do?ncd=7937458'
html_doc2 = requests.get(url2).text
soup2 = BeautifulSoup(html_doc2, 'html.parser')
title2 = soup2.find('h4', class_ = 'headline-title').text
body2 = soup2.find('div', class_ = 'detail-body font-size').text

url_list.append(url2)
title_list.append(title2)
body_list.append(body2)

data12 = {'뉴스url':url_list, '제목':title_list, '내용': body_list}

df12 = pd.DataFrame(data12)
df12.to_csv('new12_kbs.csv', index = False)
pd.read_csv('./news12_kbs.csv')

 

현재는 2개의 뉴스 정보를 추출하는 것이 목적입니다. 따라서, url1, url2의 변수에 각각의 사이트에서 가져온 url 주소를 입력합니다.

list.append()를 활용하여 url, title, body에 대한 정보를 담은 리스트를 생성합니다..

생성된 리스트를 통해 딕셔너리 구조를 변환한 뒤 데이터프레임 구조로 변환하고 이를 csv 형식으로 저장합니다.

 

위에서 저장한 CSV 파일을 확인합니다.

 

화면에서 볼 수 있듯이 url_list에 두 개의 뉴스를 담았기 때문에,

2개의 행으로 구성된 데이터프레임 구조가 CSV로 잘 저장되었음을 확인할 수 있습니다.

Jupyter lab에서 아래에서 볼 수 있듯이 Pandas 라이브러리를 활용하여 읽어볼 수도 있습니다.

컬럼 정보 또한 잘 설정이 되었는지도 확인합니다.

 

 

Box 다루기

  • 기초 단축키
    • 주석 : ctrl + /
    • 라이브 서버 실행 : ALT + L + O
    • HTML 기본 구성 요소 꺼내기 : ! + Enter
 

HTML 코드   

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>Document</title>
    <style>
        div{
            width : 300px;
            height : 300px;
            border : 15px solid gray;
            padding : 20px;
            background-color: moccasin;
        }
        .bb{
            box-sizing: border-box;
            background-color: skyblue;
        }
    </style>


</head>
<body>
    <div class = 'cb'>
    </div>
        <p>content-box</p>
    <div class = 'bb'>
        <p>border-box</p>
    </div>

</body>
</html>

 

<div></div>에서 전체 컨텐츠에 대한 형식을 지정합니다.

이 경우에는 너비, 높이, 테두리 넓이, padding, 배경색을 지정했습니다.

.bb 클래스에 대해서는 box-sizing을 별로도 border-box로 만들고, 색도 다르게 설정했습니다.

이렇게 꾸미는 과정을 진행하기 위해서는 <head></head> 안에 <style></style>을 만들고 진행합니다.

 

 

 

출력 결과

 

출력 결과는 위와 같습니다.

cb 클래스는 별도의 꾸미는 과정을 진행하지 않아 div의 내용이 그대로 적용되었고, 그 안에 p 태그를 통해 대입한 content-box 텍스트가 삽입되었습니다.

bb 클래스에는 div 외에 새롭게 정의한 내용인 border-box가 적용되었음을 확인할 수 있습니다.

위의 box와 마찬가지로 p 태그를 통해 텍스트를 추가했습니다.

'HTML > HTML 기초' 카테고리의 다른 글

HTML - Table 다루기  (0) 2024.04.14

KT Aivle School 에이블스쿨 기자단] 1.15(월) ~ 수료

 

호평이 쏟아지는 우리 조 Big Project 작품

 
ZEP 메타버스 환경에서 서로 다른 조 부스를 다니면서 구경을 하고 패들렛에 의견을 남겨주었다.
 
메타버스 환경에서 자기 부스에 사람들을 많이 오도록 하기 위해 다들 바쁘게 움직였다.
 
우리 조는 시간대를 나누어 부스를 지킬 시간을 정하여 부스가 비어있는 없도록 했다.
 

 
주변에 돌아다니는 에이블러들에게 꾸준히 홍보를 했다.
 
우리 조 부스는 입구쪽에 위치해서 새로 오는 사람들에게  홍보를 하기에 유리한 부분이 존재했다.
 

우수기자단 선정

다른 에이블 기자단 글들을 보며, 우수 기자단 선정에 대한 기대감이 줄어들기도 했는데,
 
운이 좋게도 이런 결과를 얻을 수 있어서 에이블 수료식을 기분 좋게 마무리할 수 있었다.
 
갑작스럽게 앞에 나가서 소감을 발표하게 되어 정신이 없었는데,
 
 "블로그를 처음 운영했는데, 기자단을 시작할 때 세웠던 한 달에 최소 3개 이상 글 업로드를 하겠다는 원칙을
 
지키다 보니 이런 결과를 얻을 수 있었다. 꾸준히 노력하면 어떤 형태로든 보상을 받는다는 것을 느낄 수 있었다."
 
라는 내용으로 소감을 말했다.
 

SQL 스터디 모집

에이블스쿨 수료 이후에도 데이터분야에 관심이 있는 에이블러들과 힘께 SQL 스터디를 하며 실력을 늘리고 싶어서, 에이블 단체 톡방에 채팅을 남겼다.
 
다행이도 관심을 가져준 에이블러들이 생각보다 많아서 원활하게 모집을 마무리 할 수 있었고, 마감 이후에도 신청을 하는 인원들이 있어서 우선 대기 인원으로 기록해두고, 결원이 생기면 연락드리기로 했다.
 

직접 만든 SQL 스터디 노션 페이지 중 일부이다.
 
에이블스쿨 기간 동안에 Python 스터디, SQL 스터디를 운영해보며
 
팀즈, zep 메타버스를 활용해보며 각 플랫폼의 장단점을 알 수 있었고,
 
이번에 새로운 SQL 스터디를 운영할 때는 노션 + 팀즈 조합으로 스터디를 운영하기로 계획을 세웠다.

KT Aivle School 에이블스쿨 기자단] 1.8(월)~ 1.12(금) 빅프 마무리

 

발표자료 완성

 

 빅프로젝트를 진행하면서 때로는 어려움을 겪기도 했지만 꺾이지 않고 꾸준히 하다보니 결국 마침표를 찍을 수 있었다.

 

그동안 배웠던 기획안 작성, IT 인프라 구성도, Streamlit을 통한 대시보드 제작, Python을 통한 다양한 기능 구현들을 실제로 해보니 난이도는 높았지만 Mini Project를 진행할 때와는 비교가 되지 않을 정도로 성취감을 느낄 수 있었다.

 

프로젝트를 완수하는 데에 있어 매주 진행되었던 그룹코칭이 도움이 되었다고 느낀다.

 

발표를 하면 지적을 받는 일이 대부분이었지만 이 과정을 통해 완성도 있게 프로젝트를 마무리 할 수 있었다고 느낀다.

 

Streamlit을 통한 대시보드 제작

 

대시보드를 제작하는 과정에서는 수업 중에 배운 Streamlit을 활용하였다.

 

Python 환경에서 간단하게 데이터 기반으로 웹 어플리케이션을 제작할 수 있도록 하는 라이브러리이다.

 

인공지능 모델, Python을 통해 구현한 함수를 통해 동적으로 반응하는 대시보드를 제작하고 이에 대해 시연 영상을 찍으며 머릿 속에 생각하던 아이디어를 구현했다는 것에 뿌듯함을 느꼈다.

 

활용 데이터

 

데이터 분석 및 전처리를 담당하며 공공포털들을 돌아다니며 데이터를 수집하고 가공하다 보니 이정도 양의 데이터가 쌓이게 되었다.

 

데이터를 다루면서 어렵게 느껴졌던 부분은 데이터마다 excel, csv 등 형식이 달랐고 담고 있는 내용도 조금씩 달랐기 때문에 데이터를 통합하는 과정에서 데이터 간에 공통된 요소를 찾고 이 중에서 필요한 부분을 선택하는 과정에 시간이 소요되었다.

 

csv 파일이더라도 파일마다 인코딩 형식이 다른 경우도 존재했다. 또한, 파일 형태가 아닌 API를 통해 정보가 제공되는 경우에도 시간 소요가 발생했다.

 

KT 빅프로젝트 관리 시스템

 

그동안 Teams를 통해 조별모임, 그룹코칭, 과제 제출 및 공지사항들을 안내받았다.

 

이러한 관리 시스템을 통해 체계적으로 과제들을 수행할 수 있었다고 생각한다.

 

앞으로 어떤 과업을 수행하게 된다면 빅프로젝트 과정에서 했듯이 계획을 확실하게 세우고 이를 진행시키려고 한다.

 

빅프로젝트 발표 일정

 

빅프로젝트의 발표는 15일에 사전점검을 마친 이후에 16일부터 진행될 예정이다.

 

빅프로젝트 발표회의 경우 "ZEP" 메타버스 환경에서 진행된다.

 

팀마다 부스를 부여받고, 캐릭터를 통해 이동하면서 다른 팀의 부스에 방문하여 작품들을 구경하고 에이블러들과 소통하는 시스템이다.

 

지금까지 해보지 못한 방식의 발표 진행방식이라 이 부분에 흥미가 생겼고, 어떻게 부스를 운영해야 할 것인지도 생각할 필요성을 느꼈다.

SQL GROUP BY] 년, 월, 성별 별 상품 구매 회원 수 구하기

https://school.programmers.co.kr/learn/courses/30/lessons/131532

 

프로그래머스

코드 중심의 개발자 채용. 스택 기반의 포지션 매칭. 프로그래머스의 개발자 맞춤형 프로필을 등록하고, 나와 기술 궁합이 잘 맞는 기업들을 매칭 받으세요.

programmers.co.kr

-- 코드를 입력하세요
SELECT DATE_FORMAT(O.SALES_DATE, '%Y') as YEAR, DATE_FORMAT(O.SALES_DATE, '%m') as MONTH,
        GENDER, COUNT(DISTINCT(U.USER_ID)) as USERS
FROM USER_INFO U
INNER JOIN ONLINE_SALE O on U.USER_ID = O.USER_ID
WHERE GENDER IS NOT NULL 
GROUP BY YEAR, MONTH, U.GENDER
ORDER BY YEAR, MONTH, U.GENDER

 

SQL String, Date] 오랜 기간 보호한 동물(2)

https://school.programmers.co.kr/learn/courses/30/lessons/59411

 

프로그래머스

코드 중심의 개발자 채용. 스택 기반의 포지션 매칭. 프로그래머스의 개발자 맞춤형 프로필을 등록하고, 나와 기술 궁합이 잘 맞는 기업들을 매칭 받으세요.

programmers.co.kr

-- 코드를 입력하세요
SELECT I.ANIMAL_ID, I.NAME
FROM ANIMAL_INS I
INNER JOIN ANIMAL_OUTS O on I.ANIMAL_ID = O.ANIMAL_ID
ORDER BY DATEDIFF(O.DATETIME, I.DATETIME) DESC
LIMIT 2

SQL String, Date] 취소되지 않은 진료 예약 조회하기

https://school.programmers.co.kr/learn/courses/30/lessons/157342

 

프로그래머스

코드 중심의 개발자 채용. 스택 기반의 포지션 매칭. 프로그래머스의 개발자 맞춤형 프로필을 등록하고, 나와 기술 궁합이 잘 맞는 기업들을 매칭 받으세요.

programmers.co.kr

-- 코드를 입력하세요

# "1월 2일" - "1월 1일"인 경우 1일이 아닌 2일로 계산해야 한다.

SELECT CAR_ID, ROUND(AVG(DATEDIFF(END_DATE,START_DATE)+1),1) as AVERAGE_DURATION
FROM CAR_RENTAL_COMPANY_RENTAL_HISTORY
GROUP BY CAR_ID
HAVING AVG(DATEDIFF(END_DATE, START_DATE)+1) >= 7
ORDER BY AVERAGE_DURATION DESC, CAR_ID DESC

SQL GROUP BY] 성분으로 구분한 아이스크림 총 주문량

https://school.programmers.co.kr/learn/courses/30/lessons/133026

 

프로그래머스

코드 중심의 개발자 채용. 스택 기반의 포지션 매칭. 프로그래머스의 개발자 맞춤형 프로필을 등록하고, 나와 기술 궁합이 잘 맞는 기업들을 매칭 받으세요.

programmers.co.kr

-- 코드를 입력하세요
SELECT I.INGREDIENT_TYPE, SUM(F.TOTAL_ORDER) as TOTAL_ORDER
FROM FIRST_HALF F
INNER JOIN ICECREAM_INFO I ON F.FLAVOR = I.FLAVOR
GROUP BY INGREDIENT_TYPE

SQL GROUP BY] 고양이와 개는 몇 마리 있을까

https://school.programmers.co.kr/learn/courses/30/lessons/59040

 

프로그래머스

코드 중심의 개발자 채용. 스택 기반의 포지션 매칭. 프로그래머스의 개발자 맞춤형 프로필을 등록하고, 나와 기술 궁합이 잘 맞는 기업들을 매칭 받으세요.

programmers.co.kr

-- 코드를 입력하세요
SELECT ANIMAL_TYPE, COUNT(ANIMAL_TYPE) as count
    FROM ANIMAL_INS
    GROUP BY ANIMAL_TYPE
    ORDER BY ANIMAL_TYPE

데이터 전처리 딕셔너리]

딕셔너리 생성

{
    '치즈달걀말이': {'가격': 5000},
    '시금치된장국': {'가격': 3000},
    '수수밥': {'가격': 2000},
    '견과류멸치볶음': {'가격': 4000},
    '배추김치': {'가격': 1000}
}

 

SQL String, Date] 취소되지 않은 진료 예약 조회하기

https://school.programmers.co.kr/learn/courses/30/lessons/132204

 

프로그래머스

코드 중심의 개발자 채용. 스택 기반의 포지션 매칭. 프로그래머스의 개발자 맞춤형 프로필을 등록하고, 나와 기술 궁합이 잘 맞는 기업들을 매칭 받으세요.

programmers.co.kr

-- 코드를 입력하세요
SELECT A.APNT_NO, P.PT_NAME,  A.PT_NO,  D.MCDP_CD, D.DR_NAME, A.APNT_YMD 
FROM PATIENT P
LEFT JOIN APPOINTMENT A ON P.PT_NO = A.PT_NO
LEFT JOIN DOCTOR D on D.DR_ID = A.MDDR_ID	
WHERE (A.APNT_CNCL_YN = 'N') 
    AND (DATE(A.APNT_YMD) = '2022-04-13')
    AND (D.MCDP_CD = 'CS')
ORDER BY A.APNT_YMD

KT Aivle School 에이블스쿨 기자단] 12.25(월)~ 1.5(금) 빅프 진행

 

데이터 수집 - 식단 정보

 

우리 조는 어린이 식단 생성 및 이에 대한 영양 정보 제공과 이에 대한 분석 서비스를 제공할 것으로 정했다.

 

정보를 정리함에 있어서 CSV로 제공되는 파일 같은 경우에는 보다 빠르게 활용이 가능하여 편했는데, API를 통해 JSON으로 제공하는 파일의 경우 데이터를 얻어내는 데에 과정이 좀 더 필요하여 번거로웠다.

 

귀찮게 느껴지도 했지만, API를 통해 정보를 얻어내는 데에 익숙해지는 기회가 되었다.

 

인프라 구성도 작성

최종 산출물

 

나는 인프라 구성도를 작성하는 역할도 맡았는데, 이를 그리는 과정에서 처음에는 낯설기도 했다.

 

AWS의 경우에는, 수업 시간에 다뤄보기도 했고, 개인적으로 배우고 싶다는 마음이 있어서 강의 또한 찾아들었기 때문에 문제가 없었지만, KT 클라우드로 그려내야 했기 때문에 낯설기도 했지만 정보를 찾아보며 결국 그려내었고 기술 코칭 시간에 문제가 없다는 피드백을 받을 수 있었다.

 

2차 컨설팅

 

12.28(목)에는 2차 컨설팅을 받았다.

 

저번에 합격했던 자소서에 대한 피드백을 신청했는데, 합격 자소서라 피드백이 그렇게 많을까 싶었는데, 피드백을 받다보니 고칠 부분이 많았음을 배울 수 있었다.

 

자기소개서는 보면 볼수록 고쳐야 하는 부분을 찾게 되므로 입사 지원을 할 때는 미리 자기소개서를 작성해두고 제출 기간이 되기 전까지 꾸준히 다시 보며 수정할 부분을 찾는 것이 좋을 거 같다는 생각을 다시 한 번 하게 되었다.

 

얼마 남지 않은 빅프로젝트

 

처음 시작할 때만 해도 시간이 엄청 남을 것이라 생각했는데, 정신없이 맡은 역할을 수행하다보니 어느덧 빅프의 마지막 일정이 머지 않게 되었다.

 

빅프가 끝나면, 사실상 에이블스쿨 과정도 끝나는 셈이니 긴 여정이 끝나느라 성취감이 들기도 할 거 같지만, 한편으로는 본격적으로 취업 시장에 뛰어들어야 하니 두려움이 앞서기도 한다.

 

나의 경우에는 회사에 지원도 하겠지만 취업이 잘 되지 않을 경우에는, 대학원에도 지원을 해볼 생각이다.

 

대학원도 경쟁률이 높기 때문에 이 또한 철저하게 미리미리 준비해둘 것이다. 

 

정보처리기사 준비

 

에이블스쿨을 이수하는 동안, ADsP와 SQLD 자격증을 취득했다.

 

비전공자로서 역량을 키우기 위해 24년도 1회에 시행하는 정보처리기사 시험에 응시할 계획을 세웠다.

 

데이터분석가 직무를 희망하는데, 저번 면접 때 SQL 지식이 크게 모자름을 느꼈다.

 

SQLD 자격증에서 배운 내용에 더해 정보처리기사 과목에 있는 SQL 내용을 공부하면, 이 부분을 개선할 수 있을 거라 생각했다.

 

자격증이 전부인 것은 아니지만, 이 자격증을 공부하는 과정에서 필요한 이론 지식들을 흡수할 수 있을 거라 생각하고 있다.

 

데이콘 수상 인증서 발급, 에이블스쿨을 하면서 느낀 역량 발전

 

이번에 DACON에서 열린 "데이터 분석 아이디어 경진대회 - 월간 데이콘"에서의 수상한 것에 대한 인증서가 발급되었다.

 

그렇게 대단하지는 않다고 느낄 수 있지만, 에이블스쿨을 통해 역량이 키워짐은 느낄 수 있는 기회였다.

 

에이블스쿨 과정이 데이터를 다루는 기술을 늘리는 데에도 어느 정도 도움이 되었음을 느꼈다.

 

다만, 교육에서 알려주는 내용에 그치지 않고 스스로 필요한 부분을 찾아보고 공부할 때에 진정으로 역량을 키울 수 있으니 꾸준히 공부하기로 다짐했다.

SQL GROUP BY] 특정 기간동안 대여 가능한 자동차들의 대여비용 구하기

https://school.programmers.co.kr/learn/courses/30/lessons/157339

 

프로그래머스

코드 중심의 개발자 채용. 스택 기반의 포지션 매칭. 프로그래머스의 개발자 맞춤형 프로필을 등록하고, 나와 기술 궁합이 잘 맞는 기업들을 매칭 받으세요.

programmers.co.kr

SELECT C.CAR_ID, C.CAR_TYPE, ROUND((C.DAILY_FEE * 30 * (1 - D.DISCOUNT_RATE / 100.0))) AS FEE

FROM CAR_RENTAL_COMPANY_CAR C

INNER JOIN CAR_RENTAL_COMPANY_DISCOUNT_PLAN D ON C.CAR_TYPE = D.CAR_TYPE AND D.DURATION_TYPE = '30일 이상'

### '세단','SUV' 조건에 속하면서 11월에 대여중인 CAR_ID가 11월에 대여 중인 그룹에는 속하지 않아야 한다. ###
WHERE C.CAR_TYPE IN ('세단', 'SUV')
        AND C.CAR_ID NOT IN (
            SELECT H.CAR_ID
            FROM CAR_RENTAL_COMPANY_RENTAL_HISTORY H
            WHERE (H.START_DATE <= '2022-11-30' AND H.END_DATE >= '2022-11-01')
        )
        
GROUP BY C.CAR_ID
HAVING FEE >= 500000 AND FEE < 2000000
ORDER BY FEE DESC, C.CAR_TYPE, C.CAR_ID DESC;

SQL JOIN] 상품 별 오프라인 매출 구하기

https://school.programmers.co.kr/learn/courses/30/lessons/131533

 

프로그래머스

코드 중심의 개발자 채용. 스택 기반의 포지션 매칭. 프로그래머스의 개발자 맞춤형 프로필을 등록하고, 나와 기술 궁합이 잘 맞는 기업들을 매칭 받으세요.

programmers.co.kr

-- 코드를 입력하세요
SELECT P.PRODUCT_CODE, SUM(O.SALES_AMOUNT) * P.PRICE as SALES
    FROM PRODUCT P
    INNER JOIN OFFLINE_SALE O on P.PRODUCT_ID = O.PRODUCT_ID
    GROUP BY P.PRODUCT_ID
    ORDER BY SALES DESC,  P.PRODUCT_CODE

SQL GROUP BY] 자동차 종류 별 특정 옵션이 포함된 자동차 수 구하기

https://school.programmers.co.kr/learn/courses/30/lessons/151137

 

프로그래머스

코드 중심의 개발자 채용. 스택 기반의 포지션 매칭. 프로그래머스의 개발자 맞춤형 프로필을 등록하고, 나와 기술 궁합이 잘 맞는 기업들을 매칭 받으세요.

programmers.co.kr

-- 코드를 입력하세요
SELECT CAR_TYPE,COUNT(CAR_ID) as CARS
    FROM CAR_RENTAL_COMPANY_CAR
    WHERE OPTIONS LIKE '%통풍시트%'
                OR OPTIONS LIKE '%열선시트%'
                OR OPTIONS LIKE '%가죽시트%'
    GROUP BY CAR_TYPE
    ORDER BY CAR_TYPE

데이터 전처리 기본세팅 - 경고 무시

 

경고 무시

import warnings

# 모든 경고 무시
warnings.filterwarnings('ignore')

# 특정 경고 무시
warnings.filterwarnings('ignore', category=RuntimeWarning)

데이터 자료형 리스트

제거 - ( ) 괄호 제거

import re

# 주어진 메뉴 리스트
menu_list = [
    '(우유제외)스크램블에그',
    '고로케',
    '카레고등어구이',
    '콩가루배춧국',
    '크림리조또(간식)',
    '돼지고기파인애플볶음밥',
    '샤인머스켓',
    '고구마스프',
    '돼지고기깻잎볶음',
    '(저염·저당)쇠갈비찜',
    '온청포묵국',
    '양배추샐러드(딸기드레싱)'
]

# 괄호 안의 내용을 제거하는 정규 표현식
regex = re.compile(r'\([^)]*\)')

# 메뉴에서 괄호 안의 내용 제거
cleaned_menu = [regex.sub('', menu).strip() for menu in menu_list]
cleaned_menu

reset_index

# 단지 코드를 index로 전용면적 구간을 컬럼(열)으로 하여 전용면적별세대수 구하기(pivot)
# 결과를 result_5_1 저장
# 단지 코드를 index --> 컬럼으로 변경하기 : reset_index, drop = False, inplace = True

result_5_1 = group_5_1.pivot(index='단지코드', columns ='전용면적구간', values = '전용면적별세대수')
result_5_1.reset_index(inplace = True, drop = False)
display(result_5_1.head())
type(result_5_1)

 

컬럼 -인덱스 변환

## save_check 데이터 프레임의 ['model_name', 'valid_data'] 컬럼을 지정하여 인덱스로 설정해 줍니다.

## 변환한 값은 result_comp 변수에 할당해 주세요.

## 참고함수: set_index

result_comp = save_check.set_index(["model_name","valid_data"])

result_comp

 

# reset_index 원본 데이터

path = 'https://raw.githubusercontent.com/Jangrae/csv/master/pop_simple.csv'
pop = pd.read_csv(path) 
pop.set_index('year', inplace = True)
pop.index.name = None


# 확인
pop.head()

 

 

인덱스 초기화

# pop.reset_index(drop=False)
pop.reset_index(drop=False,inplace=True)


# 확인
pop.head(10)

 

 

# reset_index 활용 drop

# 데이터 읽어오기
import pandas as pd
path = 'https://raw.githubusercontent.com/Jangrae/csv/master/tips.csv'
pop = pd.read_csv(path) 
tip = pd.DataFrame(pop)

tip_top10 = tip.sort_values(by='total_bill',ascending=False)
tip_top10

 

기본 상태

 

drop = Flase 설정

tip_top10 = tip.sort_values(by='total_bill',ascending=False)
tip_top10.reset_index(drop=True, inplace = True)

tip_top10

 

 

drop = True 설정

tip_top10 = tip.sort_values(by='total_bill',ascending=False)
tip_top10.reset_index(drop=True, inplace = True)

tip_top10

data.index.name 활용_데이터 확인 

import numpy as np
import pandas as pd
import os
import csv
import matplotlib.pyplot as plt

data = pd.read_csv('./csv/교원+1인당+학생수(구별)_20230820151017.csv',index_col=0)

data

 

data.index.name = None 적용

import numpy as np
import pandas as pd
import os
import csv
import matplotlib.pyplot as plt

data = pd.read_csv('./csv/교원+1인당+학생수(구별)_20230820151017.csv',index_col=0)
data.index.name = None

data

 

data.index.name = None 적용

import pandas as pd

path = 'https://raw.githubusercontent.com/Jangrae/csv/master/pop_simple.csv'
pop = pd.read_csv(path) 
pop.set_index('year', inplace = True)
pop.index.name = None

# 인덱스 초기화
pop.reset_index(drop=False,inplace=True)


# 확인
pop.head(10)

 

 

데이터 전처리 병합, 합치기]

 

병합, 합치기 - pd.concat() 행 방향으로 붙이기

bicycle_new = pd.concat([f19, f20])
bicycle_new = pd.concat([bicycle_new, f21])

 

병합, 합치기 - pd.concat() 열 방향으로 붙이려면?

bicycle_new = pd.concat([f19, f20], axis =1)

 

병합, 합치기 - pd.merge()

# 데이터프레임 조인
pop = pd.merge(pop01,pop02, on='year', how='outer')
pop = pd.merge(pop,pop03, on='year', how = 'outer')
pop.head()

 

 

+ Recent posts