owned this note
owned this note
Published
Linked with GitHub
###### tags: `연대강의`
# 6월 8일
블로그/이력서를 과목 웹사이트에 PULL REQUEST 해주세요... 검토 후 승인해 드리겠습니다.
# 프로젝트
## casa
- 모델링 세부사항 수정
- VAR 방법의 경우 분산이 커지는 문제점을 발견하여 이전에 시도하였던 ARIMA 모형을 적용
- 대신, 이전에 시도하였던 방법과는 다르게 사용자가 입력한 아파트의 거래액에 결측치가 있을 때, 앞서 군집하였던 그룹에서 해당 결측치를 채워넣는 방식
- Shell 구현
- 문서화 작업
## 코뿔소
- 모델링 일부분 수정
- 충전소 입지 주요변수 파악: [충전소 주인 입장] "특정 구에 충전소를 설치해도 괜찮은가"
- 수소차 수요 증감 시뮬레이션: [수소차 주인 입장] "특정 구 또는 행정동에 충전소가 설치된다면, 수소차를 살 것인가"
- 시각화 및 대쉬보드 레이아웃 완성
- 페이지 생성 및 테마 설정 완료
- 모델링, 시각화 대쉬보드 추가 예정
## 사응일간
- 모델 완성
- F1 score가 가장 높은 cat boost 모델을 사실상 최종 모델 : 샤이니 모델 구현
- 파생 변수 하나 더 추가(title song 여부)해서 확인해볼 예정
- 발표 자료 생성 및 샤이니 초기 구현 완료
- 신곡 예측, 사재기 감지 두 방향으로 구현 중
- 추가 시각화 및 구체화 예정
- 샤이니의 경우 일부 문제가 발견되어 계속 수정중
- 발표 Rmd 파일 작성중 (초안 완성)
## 골든타임
* 파이썬/R을 통해 필요한 api 호출 및 데이터 전처리 완료 (지정 응급의료기관 402개, 지역 일반 병/의원 9만여 개)
* 효율적인 워크플로우를 위해 작업 결과들을 통합하는 중
* 주성분분석을 통해 응급의료에 관한 지표로 사용할 수 있는 병원 점수 구성 (모든 응급의료기관 적용에 문제 없도록 지속적으로 수정 중)
* 기존의 응급의료기관 등급을 활용하여 타당도를 검정할 예정
* 이후 공식 지정 응급의료기관 402곳에 적용하여 기초 시각화 (R 'leaflet' 패키지 , Python jupyter notebook으로 사전작업 완료)
* 각자 담당한 코드 수합하여 발표 Rmd 파일 제작 병행 중
* JPA + Springboot 이용 DB migration 작성 완료(H2에 테스트완료)
-> AWS S3 환경설정후 Docker 컨테이너에 적용, 배포 자동화
(AWS Fargate)
* 제언 파트에 활용할 행정구역별 인구 자료 찾는 중
# 강의교재
## `reticulate` 파이썬
- Python Basics: http://statkclee.github.io/raspberry-pi/raspberry-pi-programming-science.html
- R 마크다운 파이썬(Python) 환경설정: https://statkclee.github.io/sw4ds/sw4ds-oop-python-rmarkdown.html
- R마크다운 내 파이썬 코드 내장 후 컴파일 작업
- 파이썬 쥬피터 노트북: https://statkclee.github.io/nlp2/nlp-toolchain.html
- 쥬피터노트북 → html 파일 생성
- 예측모형: https://statkclee.github.io/model/model-python-wine.html
- R 데이터 조작 및 시각화(ggplot) + 파이썬 장점 예측모형 파이프라인(sklearn)
- R 마크다운 문서화
## 통계검정 다시 보기
- https://statkclee.github.io/model/model-glm-testing.html
- 코딩 기반 통계적 추론(Statistical Inference): https://statkclee.github.io/statistics/stat-inference.html
- `tidyverse`: https://statkclee.github.io/statistics/stat-tidyverse-inference.html
## 질문: 파이썬으로 이모지(emoji) 그리는 법 아시는 분? 혹은 이모지 그래프 데이터에서 직접 해보신분?
- 잘모르겠습니다... 이모지 데이터 관련해서 경험은 없습니다.
- 유니코드 사용하면 되는 걸로 알고 있습니다.
- 많은 프로젝트를 진행해 보았지만, 이모지를 써본적은 없습니다
https://statkclee.github.io/viz/viz-emoji.html
## 각자/전원/모두 상기 코로나 10 사망자 국기가 포함된 그래프를 보고 유추할 수 있는 것을 적어주세요.
1. 직관적이다.
1. 직관적이고 사람들이 이해하기 쉽다.
1. 알아보기 쉽다
1. 그래프를 보고 다시 왼쪽으로 눈을 돌려 나라를 확인할 필요가없다.
(ML의 Feature로 들어갈수있는지 궁금합니다(Onehot encoding))
1. 데이터사이언스에 대해 잘 모르는 사람에게도 보여주기 좋다.
1. 별거 아니지만 조금이라도 디자인한 것 같은 느낌을 준다.
1. 한눈에 알아 볼 수 있다. 외국인도 그래프를 이해할 수 있다.
1. 깔끔한 느낌이 든다 + 바로 이해가 된다.
1. 더욱 직관적으로 결과를 알아볼 수 있다. 프레젠테이션을 할 때 글씨 보다는 이모지로 보여주는 것이 여러 사람 앞에서 더 효과적일 것 같다.
1. 한눈에 확인하기 편하다.
1. 축에 대한 탐구가 효율적이다.
1. 보다 간편한 인지과제가 되었다.
1. 한눈에 알아볼 수 있다.
1. 한눈에 이해하기 쉽다
8. 보는 사람으로 하여금 흥미를 유발하고 관심을 갖게 하기 좋다.
9. 한번에 알아보기 쉽다.
10. 한눈에 볼 수 있어 직관적으로 결과를 이해할 수 있다.
11. 한눈에 볼 수 있어 직관적으로 결과를 이해할 수 있다.
12. 직관적이며 한눈에 x,y축 값을 알아볼 수 있다.
첫점이 아니라, 끝점에 국기를 배치함으로써 UX를 더 고려한 디자인을 하였다.
14. 별도의 라벨링 없이 이해할 수 있어 직관적이다.
어떤 정보를 알리고자 하는지 이해가 쉽다.
15. 시각적 효과가 있다
## 질문: 맥주를 마신 사람은 모기에 잘 물린다?
- 그렇다: 유건욱, 오태환, 이현탁, 이청파, 서아론, 주용우, 박경재, 이형선, 조병준, 정윤호, 서경덕, 양정열
- 아니다: 이시우, 강동원, 손지현, 정권상