owned this note
owned this note
Published
Linked with GitHub
###### tags: `연대강의`
# 4월 27일
# Science 저널 문제점
1. 논문에 저술된 방식으로 집필했을 때 생각되는 문제점
* 논문 제작에 사용된 프로그램의 버전이 다르거나, 사용이 용이하지 않아 문제가 생길 수 있다.
* 상용 소프트웨어 회사가 파산했을 때... 어떻게 될 거이냐?
* 남들이 이해할 수 없거나 모르는 명칭 혹은 대상을 거론 (Sam)
* 관계자만이 이해할 Abbreviation(줄임말)의 사용
* (논문 제출자 문제) 데이터를 제대로 관리하지 않아서 찾기 힘들게 되어있었다 + 데이터를 USB에다가만 두고 백업을 안했다.
* naming issue , version이나 file의 history를 알수없어서 관리가 힘들다. merge할때 crash issue 대비 x
* 남들이 다룰 수 없는 방법으로 데이터를 다룸.
* 데이터셋에 관해 신뢰할 만한 가이드 부재
* 알 수 없는 축약어 사용, 다른 프로그램 사용으로 인한 충돌 문제.
2. 이렇게 출판된 논문을 그럼에도 불구하고 믿겠다 아니 가짜 논문이라 못믿겠다. 각자 + 표시해주세요.
- 믿는 사람:
- 못 믿는 사람: 손지현, 서경덕, 유건욱, 정윤호, 박경재, 정권상, 오태환, 주용, 이현탁, 손지우, 이청파, 서아론, 이형선, 강동원, 김채형, 조병준, 조유림, 양정열
3. 해결 방안?
- 하드카피가 아닌 마크다운? 형식과 같이 코드도 포함되어 논문 구독자가 직접 실행해볼 수 있는 방식으로 제작
- 통용되는 규범이나 규칙이 필요
- 하나의 repository에 기반하여 작업을 진행
- 논문의 과정을 검토하는 기관을 둔다
- 데이터를 일부 공개하고, 데이터에 대한 가이드를 만든다
- 데이터 출처 + 방법론에 대한 정보 필요
- 지속적으로 상호작용 가능한 연락망/책임 저자 정보 유지
- 사용자들이 각자 진행하고 있는 것에 대한 정보를 공유
- 국가, 공공기관에서 툴 제작
# (가상의 논문) 코로나19 극복하는 방안
- 제목
- 저자, 소속
- 초록
- Introduction
- 연구 목적 / 중요성 / 시의적절성
- 선행연구(메타분석) / 관련연구 Related works
- 연구 디자인 / 방법론
- 논문 제작에 활용될 Raw 데이터 소개
- 모델링 과정(모델링, 모델 평가 및 테스트 등)
- 연구 결과(수치적 결과) / 기여
- 논의 / 향후연구
- 결론
- Reference
- 연구지원/기여
# 이론
- https://statkclee.github.io/comp_document/cd_compendium.html
## 문제점
- http://statkclee.github.io/mlrv/
- https://www.youtube.com/watch?v=N2zK3sAtr-4&feature=emb_logo
##
- Springer: https://www.springer.com/gp/livingreviews/latex-templates
- IEEE: https://journals.ieeeauthorcenter.ieee.org/create-your-ieee-journal-article/authoring-tools-and-templates/ieee-article-templates/templates-for-ieee-signal-processing-letters/
- Elsevier:
# 데이터 과학 제품 공유
- https://statkclee.github.io/comp_document/cd-netlify.html
- https://app.netlify.com/drop
# 한글 $\LaTeX$
- https://statkclee.github.io/comp_document/latex-intro.html
## 자주 사용되는 $\LaTeX$ 수식
- https://statkclee.github.io/comp_document/cd-latex.html
# 블로그 → 논문
- https://statkclee.github.io/comp_document/automation-kasdba.html
- [`distill`](https://github.com/statkclee/sharing-distill)
# 재현가능한 논문저작
- 도커: https://statkclee.github.io/comp_document/cd-docker-rstudio-dockerfile.html
- Git/GitHub: http://statkclee.github.io/swcarpentry-version-5-3-new/lessons-5-2/novice/git/index.html
# 프로젝트 진행사항
- 사응일간
- 대략적인 개요
- Y 변수 : 1~100위 까지를 10개의 그룹으로 나누어 클래시파잉
- X 변수 : 크롤링을 통해 변수를 생성하고 파생변수 등 생성
- 목적 : 클래시파잉을 통한 예측 및 이상치 탐색
- 모델링 방법 : 랜덤 포레스트, 베이지안 클래시파이어 고려 중
- 참고 문헌 및 논문
- 관련된 국내외 논문 탐색 : 추가 변수들 반영
- 크롤링 진행중
- 완료 : 음원차트, 구글트렌드, 유튜브
- 진행중 : 인터넷 커뮤니티, 네이버 트렌드, 라디오 선곡표
- 일단 대략적인 x변수들 선택 완료 (추후 필요시 추가 크롤링 진행 예정)
- 크롤링 이후 일정
- 추출한 데이터를 바탕으로 프로토타입 모델 구현 예정 (2019년 6월 ~ 2019년 12월)
- 크롤링한 데이터를 DB로 만들지 논의중
- 만들어낸 모델을 통해 음원 순위 예측 사이트 제작 논의중
- **h3골든타임**
**주제 : 응급 의료 취약지 도출**
1. 응급 의료 취약지를 어떤 변인을 통해 도출할 것인가?
1. **접근성** : 지역 ~ 응급 시설
- 해당 지역과 가까운 응급 시설은 어디인가?
1. **의료 시설 인프라**
- 해당 응급 질환에 대한 적절한 조치를 받을 수 있는 환경인가?
1. **지역별 응급 상황 발생 가능성 차이**
a. 인구 밀도
b. 취약 계층 (인구 중 노약자/어린이 비율)
1. 데이터 활용 방안
**scoring** : 위에서 선정한 변수들로 특정 지역의 응급 의료 체계 점수화 방안 논의중
1. **접근성** : 해당 마을의 중심에서 30분 이내에 도달할 수 있는 응급 시설
1. **의료 시설 인프라** : 공공 응급의료 API 활용, 각 의료 시설에서 다룰 수 있는 응급 질환 목록을 점수화.
1. **지역별 차이** : 통계 자료 활용 예정, 해당 지역의 인구 밀도, 취약 계층(영유아, 중노년층)
1. (추가) 시각화
- 시각화를 통해 직관적인 인식 가능.
1. (논의 중) 예측 모델 - 인구 수 증가에 따른 응급 의료 시설 수요
- 해당 지역의 인구수 증가(인구밀도 변화)에 따른 추후 응급 의료 시설 수요 예측.
1. 추가 논의점
- 응급 상황 종류 - 골든타임에 따른 scoring 여부.
- 현재 open api 요청해서 xml parsing 하는과정은 완료하였는데, 다른 형태(json 등)에 대한 크롤링 코드작성중
- 추후 머신러닝을 위한 Feature extraction(특징추출 -> 인코딩) 예정
- 코뿔소
- 주제 : 서울시 수소차 충전소 입지 선정
- 현재진행상황 : 수소차 및 수소전기차 개념 정리, 관련 데이터 찾기 -> 깃헙 'reference'에 파일 업로드 완료
1) 수소차 기준 정리: 현대차 Nexo를 기준으로
2) 수소충전소: 동곡충전소, 팔룡수소충전소를 기준으로
3) 수소경제 정부 로드맵 정리 요약
- 단기 전략과 중장기 전략으로 나누어서 접근
- 차후 계획 : 금일 수업 후 회의를 통해 필요한 변수 선정 및 모델 결정
1. 예상필요 변수
1) 교통량
2) 경제인구(잠재수요인구)
3) 접근 반경 내 수소차 대수
4) 대형마트나 관공서 고려한 입지적합성
5) 공시지가
6) 부지 규모
7) 접근성
*서울시 공공데이터를 포함하여 다양한 데이터 수집 완료된 상태
2. 추가적으로 필요한 데이터
1) 충전소 수와 수요량의 상관관계에 관한 자료
2) B.6 품질시스템
3) 2019년 시내버스 데이터
4) 대중교통_월간통계자료
5) 버스노선정보
6) 서울시 마을버스 현황 통계
7) 서울시 천연가서 버스현황 통계
3. 진행상황
1) 래퍼런스 수집 및 자료 요약(약 37개의 래퍼런스 수집과 요약 완료)
2) 필요데이터 정리 및 데이터 구하는 방법 조사.
3) 수소차에 대한 정부 로드맵, 전기차 충전소 사례조사.
PROJECT CASA
- 주제: 부동상 가격 예측 프로그램
- 저번주 진행 사항:
- 네이버 부동산을 이용하여 해당 웹사이트에 있는 정보 중 유의미한 정보 크롤링 진행 완료
- 지하철 역 관련 정보 역시 크롤링하여 부동산 데이터에 추가
- 변수: 지역, 건설사, 준공 시기, 층 수, 세대당 주차 대수, 근처 학교, 날짜에 따른 가격 등
- 데이터 베이스에 저장 완료하였고, 해당 데이터를 이용하여 EDA 및 전처리 진행 중
- 이번주 계획:
- 해당 데이터를 활용한 모델링 계획
- 비지도학습 (K-means, knn 등)
- 시계열분석 (Arima 등)
- 지도학습 (Random Forest, Xgboost, LGBM 등)
- 가장 결과가 좋은 모델링을 선택