일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 명상
- 영화 올드 줄거리
- 감사인사
- Python
- GA
- 데이터문해력
- 프로그래머스
- 알파줄거리
- 채용공고
- 티스토리
- 코오롱베네트
- 데이터 분석
- 구글애널리틱스4
- 수명예측 인공지능
- 코딩
- GA4
- 기사스크랩
- ㅂㅂ
- 벚꽃
- Google Analytics
- 미라클 모닝
- 벚꽃개화시기
- 6시 기상
- 얼음여왕
- 구글애널리틱스
- 니다
- 독서
- Today
- Total
목록데이터 분석/Python | SQL | BI Tools (40)
Data Analyst KIM
집에 와서 3일동안 배운 Django를 이용해서 복습을 하면서 내가 원하는 형태의 블로그를 만들고 싶었다. 그래서 나는 티스토리의 나의 블로그와 동일하게 만들어 보고자 간단하게 미니 프로젝트를 진행해보았다. 다음 사진의 왼쪽은 내가 직접 만든 서버의 블로그이고 오른쪽은 티스토리 블로그이다. 정말 똑같이 잘 만든 것 같다. HTML,CSS를 활용하여 PyCharm에서 만들었다. 실제로 티스토리 블로그에서 내가 글을 작성하면 데이터 베이스에 쌓이고 댓글을 달거나 이미지를 추가하는 등의 작업이 현실의 서버와 비슷하도록 만들어보았다. KIM blog를 클릭하면 다음과 같은 화면이 나온다. 글을 작성하기 위해서 글 작성 버튼을 눌린다. 그리고 글을 작성해본다. 작성 후 댓글도 달아보자 최종적으로 서버에 저장이 되..
빅데이터 양성과정을 듣고 있는 정보통계학과 학생이다. 내가 이 과정을 듣기로 결심한 가장 큰 이유는 프로젝트이다. 나는 문제를 해결하는 과정에서 끊임없이 생각을 하고 가장 현명한 방법을 찾는 것에 희열을 느낀다. 그래서 코딩을 하는 그룹으로 활동을 하고 있으며 어떠한 문제가 주어졌을 때, 좋은 의사결정을 하기 위해서 생각을 한다. 물론 코딩 실력도 중요하다. 하지만 코딩을 하기 전 80%는 문제를 해결하기 위해서 생각을 하는 시간에 투자를 해야한다. 그래서 이 과정을 통해서 현업에 종사하는 분들과 함께 프로젝트를 진행해서 내가 풀고자 하는 문제를 해결하는 것이 목표이다. 즉, 나는 프로젝트 성과발표에서 1등을 하는 것이 목표이기도 하다. 또한 이 과정을 선택한 이유는 웹 서버와 데이터베이스에 대한 내용도..
(위 파일을 활용하여 전처리를 진행해봐라) 데이터 분석을 하기 위해서는 데이터의 특성을 알고 있어야 한다. 먼저 탐색적 자료분석(EDA)를 통해서 특성을 파악하자. 함수 내용 df.info() 데이터 구성과 특성 확인 df.head() df.tail() 데이터 행 추출 df.shape 행,열 수 확인 df.describe() 수학적 통계값(count,mean,std,min,max,...) 주요 전처리 과정 데이터의 특성은 EDA과정을 한 후 전처리를 진행해야한다. 필요없는 컬럼 삭제 결측치 처리 이상치 처리 범주형 변수일 경우 => 인코딩 수치형 변수일 경우 => 스케일링 주로 위와 같은 과정은 필수적이다. 필요없는 컬럼의 경우에는 drop또는 pop으로 처리를 해준다. 종속변수와 관계가 없는 변수인 경..
DataFrame이란? - 2차원테이블 데이터 구조를 가진 자료형 - Machine Learning에서 data 변형을 위해 가장 많이 사용 기본적으로 데이터를 다루기 위해서는 pandas라이브러리를 활용하여 사용을 한다. 그 중에서도 데이터 프레임을 가장 많이 다룬다. 내가 원하는 모델링을 하기 위해서는 원하는 형태로 가공을 해야한다. 그 과정에서 컬럼 생성,제거,원하는 컬럼 추출,그룹화,인덱싱 등등을 사용하게 된다. 위 폴더를 활용해서 데이터를 다루기 위한 기초를 다질 수 있다.
https://ultra-drum-f66.notion.site/4-d3dbd2cd0ba245c5ada789f02d10463b?pvs=4 4. 데이터 시각화 1. Matplotlib 라이브러리 ultra-drum-f66.notion.site
1. 숫자를 문자열로 바꿔주기 cast(_ as varchar) 2. 문자열 컬럼에서 일부만 잘라내기 left(cast(_ as varchar),개수) => 처음 개수 substring(cast(_ as varchar),시작,개수) => 중간 개수 right(cast(_ as varchar),개수) => 마지막 개수 3. yyyy-mm-dd 형식으로 이어주기 concat() + ,'-', 활용 || 활용 연령대 그룹 만들어보기(20,30,40대) 그룹 별 gmv합계 구하기 TOP3 카테고리와 그 외 상품의 매출액 비교하기 특정 키워드가 담긴 상품과 그렇지 않은 상품의 매출 비교하기