tags: `연대강의`

4월 6일

Data Ingestion

데이터 캠프

데이터캠프를 사용하지 않은 이유가 혹시 있나해서요?
- 정확히 어떤식으로 하는건지 잘 몰라서 하지 못했습니다.
- 중간에 들어와서 사용 방법에 대해 잘 숙지하지 못했습니다. 어떤 기능을 제공하는지 잘 모르겠습니다.
- 좋은지 몰랐었습니다.어제 알고 사용하니 좋습니다.
- 알고 있는 내용이라 스킵했습니다.
- 데이터캠프를 사용하신 분은 어땠는지?
데이터캠프를 사용한 소감?
- 배우고 바로바로 코드를 실습할 수 있어서 좋았습니다 (일주일에 4-5시간 정도 한 것 같습니다)
- 프로그램 설치 없이 웹에서 진행이 되어 유동적인 학습이 가능했습니다.
- 파이썬, R, SQL 등 다양한 프로그램을 배워볼 수 있어서 좋았습니다.
- 자주 쓰일만한 것들을 위주로 알려줘서 좋았습니다.(주당4시간)
- 영어가 어렵긴 하지만 자세한 설명이 있어서 좋습니다!
주당 본 수업에 사용한 시간?
- 주당 7시간 내
- 주당 2시간 정도 사용했습니다
- 주당 3시간 정도 합니다.
- 주당 1시간
- 주당 5~6시간
- 주당 5시간 이내
- 주당 2시간

프로젝트 선정

팀(미정) : 이형선, 양정열, 김채형, 주용우, 조유림
- 주제 : 아파트 구매 추천 시스템
- 세부 :
  1. 데이터 수집
    - 부동산 종류가 매우 많기 때문에 '아파트'의 형태로 한정
    - 데이터 수집이 어렵고, 분석의 용이를 위해 '서울' 혹은 '서울,경기,인천' 정도로 한정
    - 어떤 변수와의 관계를 살펴볼 건지, 외부 데이터 수집이 가능한 지 논의
  2. 아파트 실거래가 예측 기반 추천 알고리즘
    - 시계열/ML/DL 중 어떤 기법을 사용할 건지 논의
  3. 예측 결과를 한 눈에 살펴볼 수 있는 대시보드 구현
    - '조건별 검색', '지도', '시간별 추이', '예측 구간' 시각화 방안 고안
    - 실제 고객이 검색하는 조건을 가정하여 구현
    - 시각화 방안과 별개로 대시보드 레이아웃을 어떻게 할지 고안
- 요구사항 :
  1. 크롤링 : 외부 데이터의 여부에 따라
  2. 모델링 : R packages
  3. 시각화 : chrolopleth, ggplot2
  4. 대시보드 : Shiny
- 참고 : 실거래가 공개시스템
- 진행사항 : 주제 선정 완료, 구체적인 방안은 추후 논의 예정
5조(미정) : 손지현, 이시우, 서아론, 박경재, 정윤호, 조병준
- 주제 : 기상변인, 물가상승률, 유가 등 변수를 기반으로 농산물 가격을 예측 ~~(lstm, elasticnet model (미정) ) ~~
- 세부 : data ingestion : 공공데이터 활용(api , csv 등)
  feature extraction : corr , skew(about target) 확인후 feature selection -> ~
  model : 여러 model 돌려보면서 matrix 비교 후 최종선정
코뿔소(코로나에 뿔난 소시민들) : 서경덕, 손지우, 이재상, 이현탁, 정권상
- 주제 : 미국 주별 코로나 확진자 데이터로 전염병 취약지역 판단
- 세부 :
  1. 관심사항
  - 주별 코로나 발생률에 미치는 변수찾기.
  - 해당변수가 다른 나라사례에 적용이 되는지
  - 해당변수와 이전의 전염병 창궐 케이스에서 주별로 영향을 끼친 변수와의 비교.
사응일간 : 오태환 강동원 백원희 유건욱 이청파
- 주제 : 음원차트 순위 예측
  - 목표 : 음원 순위에 영향을 주는 종합적인 변수들을 수집하고 이를 이용해 음원차트 순위를 예측, 추가적으로 outlier를 찾으면 음원 사재기 판별까지 기대
- 세부 과정
  - 고려 중인 변수들
    - 가수의 특징 : 그룹인지, 혼성, 여성, 남성, 연령, top 100
    - 유명세 : 유투브-조회수, 좋아요, 인스타, 네이버 검색량, 작곡가의 히트곡
    - 회사 : 당시주식총액, 소속 가수, 회사 설립 지속 연도, 배급사, 홍보정도
    - 곡 : 장르, 빠르기, 키, 길이, 주제
    - 기타 : 계절, OST-시청률, 화제성,별점,콘서트관객수, 노래방 순위, 방송 횟수, 발매일
  - 크롤링 및 데이터 수집
  - 데이터 클린징 및 변수 변환 등
  - 적절한 기법을 선택해 모델링
  - 최신 음원들에 적용해 모델 test
  - outlier 찾아보기
- 진행사항 : 주제선정 완료, 크롤링할 데이터 구체화중

PDF vs 엑셀 vs csv 파일 차이점?

csv
- 구분자가 쉼표
- 한글이 종종 깨진다. (UTF-8)
- 데이터를 추출하기 쉽다.
- 데이터 그 자체를 다룬다. raw data
- csv는 ,으로 구분되어 있습니다
PDF
- 보기에만 좋고 data로 다루기 쉽지않다?
- 보안성이 좋다.
- 다양한 환경에서 동일하게 볼 수 있다.
- 무겁다.
- 시각적인 표상이 가장 좋다.
- PDF는 사진형태?의 데이터라 생각됩니다.
엑셀
- '자료' 외로 폰트, 글씨 크기, 색상 등 시각적으로 더 다양한 요소(?)를 담고 있다.
- 표 형식의 데이터
- 직관적이다.
- 엑셀은… microsoft에서 제공하는 EXCEL 기반 데이터로 알고 있습니다.
- 자체 프로그램을 통한 분석이 가능하다
- csv를 편리하게 다룰 수 있는 툴이다
- 유료다. 비싸다. 매우.

옛날 코드

manifesto_loop_list <- list()

for(i in 1:17) {
cat("처리중…", sido_number[i], "\n")
manifesto_loop_list[[i]] <- get_manifesto_list(sido_number[i])
}

manifest_df <- manifesto_loop_list %>%
enframe() %>%
unnest(value)

Github 로그인

https://statkclee.github.io/data-science/ds-gitlab.html

Syntax	Example	Reference
# Header	Header	基本排版
- Unordered List	Unordered List
1. Ordered List	Ordered List
- [ ] Todo List	Todo List
> Blockquote	Blockquote
Bold font	Bold font
Italics font	Italics font
~~Strikethrough~~	~~Strikethrough~~
19^th^	19^th
H~2~O	H₂O
++Inserted text++	Inserted text
==Marked text==	Marked text
[link text](https:// "title")	Link
![image alt](https:// "title")	Image
`Code`	`Code`	在筆記中貼入程式碼
```javascript var i = 0; ```	`var i = 0;`	在筆記中貼入程式碼
:smile:		Emoji list
{%youtube youtube_id %}	Externals
$L^aT_eX$	L^aT_eX
:::info This is a alert area. :::	This is a alert area.

tags: 연대강의

4월 6일

데이터 캠프

프로젝트 선정

PDF vs 엑셀 vs csv 파일 차이점?

옛날 코드

Github 로그인

tags: `연대강의`