changed 4 years ago
Linked with GitHub
tags: 연대강의

4월 6일

Data Ingestion

데이터 캠프

  • 데이터캠프를 사용하지 않은 이유가 혹시 있나해서요?

    • 정확히 어떤식으로 하는건지 잘 몰라서 하지 못했습니다.
    • 중간에 들어와서 사용 방법에 대해 잘 숙지하지 못했습니다. 어떤 기능을 제공하는지 잘 모르겠습니다.
    • 좋은지 몰랐었습니다.어제 알고 사용하니 좋습니다.
    • 알고 있는 내용이라 스킵했습니다.
    • 데이터캠프를 사용하신 분은 어땠는지?
  • 데이터캠프를 사용한 소감?

    • 배우고 바로바로 코드를 실습할 수 있어서 좋았습니다 (일주일에 4-5시간 정도 한 것 같습니다)
    • 프로그램 설치 없이 웹에서 진행이 되어 유동적인 학습이 가능했습니다.
    • 파이썬, R, SQL 등 다양한 프로그램을 배워볼 수 있어서 좋았습니다.
    • 자주 쓰일만한 것들을 위주로 알려줘서 좋았습니다.(주당4시간)
    • 영어가 어렵긴 하지만 자세한 설명이 있어서 좋습니다!
  • 주당 본 수업에 사용한 시간?

    • 주당 7시간 내
    • 주당 2시간 정도 사용했습니다
    • 주당 3시간 정도 합니다.
    • 주당 1시간
    • 주당 5~6시간
    • 주당 5시간 이내
    • 주당 2시간

프로젝트 선정

  1. 팀(미정) : 이형선, 양정열, 김채형, 주용우, 조유림

    • 주제 : 아파트 구매 추천 시스템
    • 세부 :
      1. 데이터 수집
        • 부동산 종류가 매우 많기 때문에 '아파트'의 형태로 한정
        • 데이터 수집이 어렵고, 분석의 용이를 위해 '서울' 혹은 '서울,경기,인천' 정도로 한정
        • 어떤 변수와의 관계를 살펴볼 건지, 외부 데이터 수집이 가능한 지 논의
      2. 아파트 실거래가 예측 기반 추천 알고리즘
        • 시계열/ML/DL 중 어떤 기법을 사용할 건지 논의
      3. 예측 결과를 한 눈에 살펴볼 수 있는 대시보드 구현
        • '조건별 검색', '지도', '시간별 추이', '예측 구간' 시각화 방안 고안
        • 실제 고객이 검색하는 조건을 가정하여 구현
        • 시각화 방안과 별개로 대시보드 레이아웃을 어떻게 할지 고안
    • 요구사항 :
      1. 크롤링 : 외부 데이터의 여부에 따라
      2. 모델링 : R packages
      3. 시각화 : chrolopleth, ggplot2
      4. 대시보드 : Shiny
    • 참고 : 실거래가 공개시스템
    • 진행사항 : 주제 선정 완료, 구체적인 방안은 추후 논의 예정
  2. 5조(미정) : 손지현, 이시우, 서아론, 박경재, 정윤호, 조병준

    • 주제 : 기상변인, 물가상승률, 유가 등 변수를 기반으로 농산물 가격을 예측 ~~(lstm, elasticnet model (미정) ) ~~
    • 세부 : data ingestion : 공공데이터 활용(api , csv 등)
      feature extraction : corr , skew(about target) 확인후 feature selection -> ~
      model : 여러 model 돌려보면서 matrix 비교 후 최종선정
  3. 코뿔소(코로나에 뿔난 소시민들) : 서경덕, 손지우, 이재상, 이현탁, 정권상

    • 주제 : 미국 주별 코로나 확진자 데이터로 전염병 취약지역 판단
    • 세부 :
      1. 관심사항
      • 주별 코로나 발생률에 미치는 변수찾기.
      • 해당변수가 다른 나라사례에 적용이 되는지
      • 해당변수와 이전의 전염병 창궐 케이스에서 주별로 영향을 끼친 변수와의 비교.
  4. 사응일간 : 오태환 강동원 백원희 유건욱 이청파

    • 주제 : 음원차트 순위 예측
      • 목표 : 음원 순위에 영향을 주는 종합적인 변수들을 수집하고 이를 이용해 음원차트 순위를 예측, 추가적으로 outlier를 찾으면 음원 사재기 판별까지 기대
    • 세부 과정
      • 고려 중인 변수들
        • 가수의 특징 : 그룹인지, 혼성, 여성, 남성, 연령, top 100
        • 유명세 : 유투브-조회수, 좋아요, 인스타, 네이버 검색량, 작곡가의 히트곡
        • 회사 : 당시주식총액, 소속 가수, 회사 설립 지속 연도, 배급사, 홍보정도
        • 곡 : 장르, 빠르기, 키, 길이, 주제
        • 기타 : 계절, OST-시청률, 화제성,별점,콘서트관객수, 노래방 순위, 방송 횟수, 발매일
      • 크롤링 및 데이터 수집
      • 데이터 클린징 및 변수 변환 등
      • 적절한 기법을 선택해 모델링
      • 최신 음원들에 적용해 모델 test
      • outlier 찾아보기
    • 진행사항 : 주제선정 완료, 크롤링할 데이터 구체화중

PDF vs 엑셀 vs csv 파일 차이점?

  • csv

    • 구분자가 쉼표
    • 한글이 종종 깨진다. (UTF-8)
    • 데이터를 추출하기 쉽다.
    • 데이터 그 자체를 다룬다. raw data
    • csv는 ,으로 구분되어 있습니다
  • PDF

    • 보기에만 좋고 data로 다루기 쉽지않다?
    • 보안성이 좋다.
    • 다양한 환경에서 동일하게 볼 수 있다.
    • 무겁다.
    • 시각적인 표상이 가장 좋다.
    • PDF는 사진형태?의 데이터라 생각됩니다.
  • 엑셀

    • '자료' 외로 폰트, 글씨 크기, 색상 등 시각적으로 더 다양한 요소(?)를 담고 있다.
    • 표 형식의 데이터
    • 직관적이다.
    • 엑셀은 microsoft에서 제공하는 EXCEL 기반 데이터로 알고 있습니다.
    • 자체 프로그램을 통한 분석이 가능하다
    • csv를 편리하게 다룰 수 있는 툴이다
    • 유료다. 비싸다. 매우.

옛날 코드

manifesto_loop_list <- list()

for(i in 1:17) {
cat("처리중", sido_number[i], "\n")
manifesto_loop_list[[i]] <- get_manifesto_list(sido_number[i])
}

manifest_df <- manifesto_loop_list %>%
enframe() %>%
unnest(value)

Github 로그인

https://statkclee.github.io/data-science/ds-gitlab.html

Select a repo