tags: 연대강의

4월 27일

Science 저널 문제점

  1. 논문에 저술된 방식으로 집필했을 때 생각되는 문제점
    • 논문 제작에 사용된 프로그램의 버전이 다르거나, 사용이 용이하지 않아 문제가 생길 수 있다.
    • 상용 소프트웨어 회사가 파산했을 때 어떻게 될 거이냐?
    • 남들이 이해할 수 없거나 모르는 명칭 혹은 대상을 거론 (Sam)
    • 관계자만이 이해할 Abbreviation(줄임말)의 사용
    • (논문 제출자 문제) 데이터를 제대로 관리하지 않아서 찾기 힘들게 되어있었다 + 데이터를 USB에다가만 두고 백업을 안했다.
    • naming issue , version이나 file의 history를 알수없어서 관리가 힘들다. merge할때 crash issue 대비 x
    • 남들이 다룰 수 없는 방법으로 데이터를 다룸.
    • 데이터셋에 관해 신뢰할 만한 가이드 부재
    • 알 수 없는 축약어 사용, 다른 프로그램 사용으로 인한 충돌 문제.
  2. 이렇게 출판된 논문을 그럼에도 불구하고 믿겠다 아니 가짜 논문이라 못믿겠다. 각자 + 표시해주세요.
  • 믿는 사람:
  • 못 믿는 사람: 손지현, 서경덕, 유건욱, 정윤호, 박경재, 정권상, 오태환, 주용, 이현탁, 손지우, 이청파, 서아론, 이형선, 강동원, 김채형, 조병준, 조유림, 양정열
  1. 해결 방안?
    • 하드카피가 아닌 마크다운? 형식과 같이 코드도 포함되어 논문 구독자가 직접 실행해볼 수 있는 방식으로 제작
    • 통용되는 규범이나 규칙이 필요
    • 하나의 repository에 기반하여 작업을 진행
    • 논문의 과정을 검토하는 기관을 둔다
    • 데이터를 일부 공개하고, 데이터에 대한 가이드를 만든다
    • 데이터 출처 + 방법론에 대한 정보 필요
    • 지속적으로 상호작용 가능한 연락망/책임 저자 정보 유지
    • 사용자들이 각자 진행하고 있는 것에 대한 정보를 공유
    • 국가, 공공기관에서 툴 제작

(가상의 논문) 코로나19 극복하는 방안

  • 제목
  • 저자, 소속
  • 초록
  • Introduction
  • 연구 목적 / 중요성 / 시의적절성
  • 선행연구(메타분석) / 관련연구 Related works
  • 연구 디자인 / 방법론
  • 논문 제작에 활용될 Raw 데이터 소개
  • 모델링 과정(모델링, 모델 평가 및 테스트 등)
  • 연구 결과(수치적 결과) / 기여
  • 논의 / 향후연구
  • 결론
  • Reference
  • 연구지원/기여

이론

문제점

데이터 과학 제품 공유

한글 \(\LaTeX\)

자주 사용되는 \(\LaTeX\) 수식

블로그 → 논문

재현가능한 논문저작

프로젝트 진행사항

  • 사응일간

    • 대략적인 개요
      • Y 변수 : 1~100위 까지를 10개의 그룹으로 나누어 클래시파잉
      • X 변수 : 크롤링을 통해 변수를 생성하고 파생변수 등 생성
      • 목적 : 클래시파잉을 통한 예측 및 이상치 탐색
      • 모델링 방법 : 랜덤 포레스트, 베이지안 클래시파이어 고려 중
    • 참고 문헌 및 논문
      • 관련된 국내외 논문 탐색 : 추가 변수들 반영
    • 크롤링 진행중
      • 완료 : 음원차트, 구글트렌드, 유튜브
      • 진행중 : 인터넷 커뮤니티, 네이버 트렌드, 라디오 선곡표
      • 일단 대략적인 x변수들 선택 완료 (추후 필요시 추가 크롤링 진행 예정)
    • 크롤링 이후 일정
      • 추출한 데이터를 바탕으로 프로토타입 모델 구현 예정 (2019년 6월 ~ 2019년 12월)
      • 크롤링한 데이터를 DB로 만들지 논의중
      • 만들어낸 모델을 통해 음원 순위 예측 사이트 제작 논의중
  • h3골든타임
    주제 : 응급 의료 취약지 도출

  1. 응급 의료 취약지를 어떤 변인을 통해 도출할 것인가?
    1. 접근성 : 지역 ~ 응급 시설
    • 해당 지역과 가까운 응급 시설은 어디인가?
    1. 의료 시설 인프라
    • 해당 응급 질환에 대한 적절한 조치를 받을 수 있는 환경인가?
    1. 지역별 응급 상황 발생 가능성 차이
      a. 인구 밀도
      b. 취약 계층 (인구 중 노약자/어린이 비율)
  2. 데이터 활용 방안
    scoring : 위에서 선정한 변수들로 특정 지역의 응급 의료 체계 점수화 방안 논의중
    1. 접근성 : 해당 마을의 중심에서 30분 이내에 도달할 수 있는 응급 시설
    2. 의료 시설 인프라 : 공공 응급의료 API 활용, 각 의료 시설에서 다룰 수 있는 응급 질환 목록을 점수화.
    3. 지역별 차이 : 통계 자료 활용 예정, 해당 지역의 인구 밀도, 취약 계층(영유아, 중노년층)
  3. (추가) 시각화
    • 시각화를 통해 직관적인 인식 가능.
  4. (논의 중) 예측 모델 - 인구 수 증가에 따른 응급 의료 시설 수요
    • 해당 지역의 인구수 증가(인구밀도 변화)에 따른 추후 응급 의료 시설 수요 예측.
  5. 추가 논의점
    • 응급 상황 종류 - 골든타임에 따른 scoring 여부.
    • 현재 open api 요청해서 xml parsing 하는과정은 완료하였는데, 다른 형태(json 등)에 대한 크롤링 코드작성중
    • 추후 머신러닝을 위한 Feature extraction(특징추출 -> 인코딩) 예정
  • 코뿔소
    • 주제 : 서울시 수소차 충전소 입지 선정
    • 현재진행상황 : 수소차 및 수소전기차 개념 정리, 관련 데이터 찾기 -> 깃헙 'reference'에 파일 업로드 완료
    1. 수소차 기준 정리: 현대차 Nexo를 기준으로
    2. 수소충전소: 동곡충전소, 팔룡수소충전소를 기준으로
    3. 수소경제 정부 로드맵 정리 요약
      • 단기 전략과 중장기 전략으로 나누어서 접근
    • 차후 계획 : 금일 수업 후 회의를 통해 필요한 변수 선정 및 모델 결정
  1. 예상필요 변수

    1. 교통량
    2. 경제인구(잠재수요인구)
    3. 접근 반경 내 수소차 대수
    4. 대형마트나 관공서 고려한 입지적합성
    5. 공시지가
    6. 부지 규모
    7. 접근성
      *서울시 공공데이터를 포함하여 다양한 데이터 수집 완료된 상태
  2. 추가적으로 필요한 데이터

    1. 충전소 수와 수요량의 상관관계에 관한 자료
    2. B.6 품질시스템
    3. 2019년 시내버스 데이터
    4. 대중교통_월간통계자료
    5. 버스노선정보
    6. 서울시 마을버스 현황 통계
    7. 서울시 천연가서 버스현황 통계
  3. 진행상황

    1. 래퍼런스 수집 및 자료 요약(약 37개의 래퍼런스 수집과 요약 완료)
    2. 필요데이터 정리 및 데이터 구하는 방법 조사.
    3. 수소차에 대한 정부 로드맵, 전기차 충전소 사례조사.

PROJECT CASA

  • 주제: 부동상 가격 예측 프로그램
  • 저번주 진행 사항:
    • 네이버 부동산을 이용하여 해당 웹사이트에 있는 정보 중 유의미한 정보 크롤링 진행 완료
    • 지하철 역 관련 정보 역시 크롤링하여 부동산 데이터에 추가
    • 변수: 지역, 건설사, 준공 시기, 층 수, 세대당 주차 대수, 근처 학교, 날짜에 따른 가격 등
    • 데이터 베이스에 저장 완료하였고, 해당 데이터를 이용하여 EDA 및 전처리 진행 중
  • 이번주 계획:
    • 해당 데이터를 활용한 모델링 계획
      • 비지도학습 (K-means, knn 등)
      • 시계열분석 (Arima 등)
      • 지도학습 (Random Forest, Xgboost, LGBM 등)
    • 가장 결과가 좋은 모델링을 선택
Select a repo