owned this note
owned this note
Published
Linked with GitHub
###### tags: `연대강의`
# 4월 6일
Data Ingestion
# 데이터 캠프
- 데이터캠프를 사용하지 않은 이유가 혹시 있나해서요?
- 정확히 어떤식으로 하는건지 잘 몰라서 하지 못했습니다.
- 중간에 들어와서 사용 방법에 대해 잘 숙지하지 못했습니다. 어떤 기능을 제공하는지 잘 모르겠습니다.
- 좋은지 몰랐었습니다.어제 알고 사용하니 좋습니다.
- 알고 있는 내용이라 스킵했습니다.
- 데이터캠프를 사용하신 분은 어땠는지?
- 데이터캠프를 사용한 소감?
- 배우고 바로바로 코드를 실습할 수 있어서 좋았습니다 (일주일에 4-5시간 정도 한 것 같습니다)
- 프로그램 설치 없이 웹에서 진행이 되어 유동적인 학습이 가능했습니다.
- 파이썬, R, SQL 등 다양한 프로그램을 배워볼 수 있어서 좋았습니다.
- 자주 쓰일만한 것들을 위주로 알려줘서 좋았습니다.(주당4시간)
- 영어가 어렵긴 하지만 자세한 설명이 있어서 좋습니다!
- 주당 본 수업에 사용한 시간?
- 주당 7시간 내
- 주당 2시간 정도 사용했습니다
- 주당 3시간 정도 합니다.
- 주당 1시간
- 주당 5~6시간
- 주당 5시간 이내
- 주당 2시간
# 프로젝트 선정
1. 팀(미정) : **이형선**, 양정열, 김채형, 주용우, 조유림
- 주제 : 아파트 구매 추천 시스템
- 세부 :
1) 데이터 수집
- 부동산 종류가 매우 많기 때문에 '아파트'의 형태로 한정
- 데이터 수집이 어렵고, 분석의 용이를 위해 '서울' 혹은 '서울,경기,인천' 정도로 한정
- 어떤 변수와의 관계를 살펴볼 건지, 외부 데이터 수집이 가능한 지 논의
2) 아파트 실거래가 예측 기반 추천 알고리즘
- 시계열/ML/DL 중 어떤 기법을 사용할 건지 논의
3) 예측 결과를 한 눈에 살펴볼 수 있는 대시보드 구현
- '조건별 검색', '지도', '시간별 추이', '예측 구간' 시각화 방안 고안
- 실제 고객이 검색하는 조건을 가정하여 구현
- 시각화 방안과 별개로 대시보드 레이아웃을 어떻게 할지 고안
- 요구사항 :
1) 크롤링 : 외부 데이터의 여부에 따라
2) 모델링 : R packages
3) 시각화 : chrolopleth, ggplot2
4) 대시보드 : Shiny
- 참고 : [실거래가 공개시스템](http://rtdown.molit.go.kr/)
- 진행사항 : 주제 선정 완료, 구체적인 방안은 추후 논의 예정
2. 5조(미정) : 손지현, 이시우, 서아론, **박경재**, 정윤호, 조병준
- 주제 : 기상변인, 물가상승률, 유가 등 변수를 기반으로 농산물 가격을 예측 ~~(lstm, elasticnet model (미정) ) ~~
- 세부 : data ingestion : 공공데이터 활용(api , csv 등)
feature extraction : corr , skew(about target) 확인후 feature selection -> ~
model : 여러 model 돌려보면서 matrix 비교 후 최종선정
3. 코뿔소(코로나에 뿔난 소시민들) : 서경덕, 손지우, **이재상**, 이현탁, 정권상
- 주제 : 미국 주별 코로나 확진자 데이터로 전염병 취약지역 판단
- 세부 :
1) 관심사항
- 주별 코로나 발생률에 미치는 변수찾기.
- 해당변수가 다른 나라사례에 적용이 되는지
- 해당변수와 이전의 전염병 창궐 케이스에서 주별로 영향을 끼친 변수와의 비교.
4. 사응일간 : **오태환** 강동원 백원희 유건욱 이청파
- 주제 : 음원차트 순위 예측
- 목표 : 음원 순위에 영향을 주는 종합적인 변수들을 수집하고 이를 이용해 음원차트 순위를 예측, 추가적으로 outlier를 찾으면 음원 사재기 판별까지 기대
- 세부 과정
- 고려 중인 변수들
- 가수의 특징 : 그룹인지, 혼성, 여성, 남성, 연령, top 100
- 유명세 : 유투브-조회수, 좋아요, 인스타, 네이버 검색량, 작곡가의 히트곡
- 회사 : 당시주식총액, 소속 가수, 회사 설립 지속 연도, 배급사, 홍보정도
- 곡 : 장르, 빠르기, 키, 길이, 주제
- 기타 : 계절, OST-시청률, 화제성,별점,콘서트관객수, 노래방 순위, 방송 횟수, 발매일
- 크롤링 및 데이터 수집
- 데이터 클린징 및 변수 변환 등
- 적절한 기법을 선택해 모델링
- 최신 음원들에 적용해 모델 test
- outlier 찾아보기
- 진행사항 : 주제선정 완료, 크롤링할 데이터 구체화중
# PDF vs 엑셀 vs csv 파일 차이점?
- csv
- 구분자가 쉼표
- 한글이 종종 깨진다. (UTF-8)
- 데이터를 추출하기 쉽다.
- 데이터 그 자체를 다룬다. raw data
- csv는 ,으로 구분되어 있습니다
- PDF
- 보기에만 좋고 data로 다루기 쉽지않다?
- 보안성이 좋다.
- 다양한 환경에서 동일하게 볼 수 있다.
- 무겁다.
- 시각적인 표상이 가장 좋다.
- PDF는 사진형태?의 데이터라 생각됩니다.
- 엑셀
- '자료' 외로 폰트, 글씨 크기, 색상 등 시각적으로 더 다양한 요소(?)를 담고 있다.
- 표 형식의 데이터
- 직관적이다.
- 엑셀은... microsoft에서 제공하는 EXCEL 기반 데이터로 알고 있습니다.
- 자체 프로그램을 통한 분석이 가능하다
- csv를 편리하게 다룰 수 있는 툴이다
- 유료다. 비싸다. 매우.
# 옛날 코드
manifesto_loop_list <- list()
for(i in 1:17) {
cat("처리중...", sido_number[i], "\n")
manifesto_loop_list[[i]] <- get_manifesto_list(sido_number[i])
}
manifest_df <- manifesto_loop_list %>%
enframe() %>%
unnest(value)
# Github 로그인
https://statkclee.github.io/data-science/ds-gitlab.html