211110 피어세션

--- tags: '피어세션' --- 211110 피어세션 === - 기록자 : 강석민 - 오늘의 한마디 진행 해야 될 것 --- - TodoList 리마인더 - 최종프로젝트 주제 선정 질문 정리 --- 피어세션 진행 --- - Todo 공유 - 석민님: 5,6,7강 수강. 강의 관련 책 공부 중. kobigbert+bart 혼합 모델 코드 구현 중 - 동규님: 3,4,5강 수강. SBERT 다시 읽어봄. sentence transformer 레포도 구경. 리포트 조금 쓰다가 들어옴. - 종현님: 강의 수강 예정, 강의 정리 중. 데이콘 코드 돌아가게끔 정리, 대회 베이스라인 형식으로 만들어볼 예정, 허깅페이스 trainer 소스코드 보면서 잘 이해 못했던 부분들 나름 정리 중 - 채원님: 강의 6강까지 수강. 패스파인더 지원서 작성. 이력서 작성 예정. - 은진님: 안과 검사. 강의 5강 수강 중. 6, 7강 수강 예정. 깃헙 정리 예정. - 태현님: 강의 5, 6강 수강. 학습 정리와 수강 병행하다 수강에 집중하는 중. 알고리즘 한 문제 풀 예정. 리포트 쓰고 데이콘 문제 정의 볼 계획 - - Further Question 모음 - 형태소 분석, 의존구문 분석 등을 위한 코퍼스와, 감정 분석, 유사도 분석 등을 위한 코퍼스는 어떤 경향의 차이를 보일까요? - 형태 분석, 의존구문 분석 말뭉치의 경우 문장의 형식이 정확하게 지켜져야 하며 문장 단위, 문단 단위의 데이터를 구축해야 하는 반면, 감정 분석, 유사도 분석 말뭉치의 경우 다소 문장의 형식이 지켜지지 않아도 되고 짧은 단어가 나열된 시퀀스들도 데이터로 활용될 수 있을 것 같다. - KLUE, KorQuAD와 같은 벤치마크에서 보완할 수 있는 점은 무엇이 있을까요? - Super Glue처럼 klue도 더 어려운 문제를 모아둔 데이터셋이 있으면 좋을 것 같다. - 전처리 과정에서 일본어, 중국어를 처리한 기준을 문장 삭제로 설정한 점이 궁금하다. 왜 10자 이상 등장하면 삭제하는지도 궁금했다 - 대체로 추출기반 모델을 기준으로 정답지가 달려있어서, 생성기반 모델을 위한 답안지가 추가되면 좋을 것 같다. - 데이터셋을 제작하는 데 있어 한국어 데이터 수집의 예상되는 어려운점은 무엇이 있나요? - 오타나 줄임말 등의 처리, 주석 작성의 어려움, 상세한 가이드라인 전달, 한국어 데이터만이 가지고 있는 특징 - 타언어와 섞여있을때 전처리, 영어에 비해 적은 데이터량 - 영어와 다르게 띄어쓰기로 의미 구분을 나누기 어려움 - 질의응답 및 기계 번역 태스크가 활발하게 연구되기 시작한 배경은 무엇일까요? - 사람이 배우려면 많은 시간이 걸리는 지식을 기계로 대체하려는 시도 - Open-domain 대화 데이터셋과 Task-oriented 대화 데이터셋을 구축할 때의 어려운 점은 어떻게 다를까요? - 오픈 도메인: 개인정보 처리가 중요함, 다양한 형태의 주석을 줄 수 있음. domain을 위한 저장공간이 필요함, 도메인이 많을 경우 추출 성능을 위한 task를 생각 해야함 - Task-Oriented: 데이터 수집 자체가 어려울거 같음. 답변에 전문 지식을 요함. 범용적으로 사용하기 위한 데이터 구축이 어려움?, **한번 구축이 되면 수정이나 삭제, 추가가 힘들다**, 모델 자체의 리소스가 커져서 관리가 힘들수가 있음 - 최종 프로젝트 계획 - 라이브러리 - https://python-poetry.org/ - Github - Python 개발 - 서비스 - 디자인도 중요할 듯 - fastAPI, Docker같은 것을 배울 수 있음 내일 까지 계획 --- --- 알고리즘 어려우니 신중하게 시도해보도록 1기 캠퍼 주제 관련, 차주 화요일 세션 진행시 예시 공개 예정 미리 공개 가능한지 여부 기다리는 중, 멘토님께 여쭤보는 것도 좋을 것 같다. 1기때 멘토님이 부캠 멘토 활동하셨는지 궁금 멘토님이 올려주신 과거 멘토링 문서 참고해서 질문 준비해야할지 동규님이 커멘트 남겨주시면 이모지로 반응할 예정 강의에 관해서 별로 할 이야기는 없는 것 같다 강의 관련해서 조사해본게 있다면 공유해보자! 1, 2강 내용이 많이 축약되어있는 것 같아서 관련 책으로 보는 중 강의 내용이 무거운데 추상적인 것 같다 그 틈을 타 이제껏 쌓아둔 학습 부채 청산해볼까 고민중 태깅의 의미? 숫자 1,2,3 - cardinal, ... 이런 태깅을 모아둔 문서가 있나? NER 태깅표가 있는 지? org, person 이런 태깅은 klue 문서에 있을 것 같다 모두의 말뭉치, 개체명 분석 말뭉치의 설명 문서를 보면 개체명 분석 말뭉치의 NER 태깅 분류에 대해 세세하게 알 수 있다.(대분류, 세분류 등) 강의 further question 관련 질문 **최종 프로젝트 주제** - 실제로 만들 수 있는 서비스 - 자연어처리 라이브러리 실 서비스는 음성과 많이 연관되었던 것 같다 상용화까지 아니더라도 서비스를 만들어두고 우리가 할 수 있는게 뭔지 보여주는게 중요할 것. 어떻게 만들어냈느냐에 중점을 두자. 얼마나 유용한 서비스인지보다는 막연히 챗봇보다는 무엇을 할 수 있는건지 의문이 들었다 ... 법률 자문, 심리 상담 등 서비스일수도 있고 법률 기록, 일반인들은 법률을 잘 모르니 판례 데이터를 가지고, 일상적으로 우리가 겪는 판례를 특정해서 특정 상황을 입력하면 관련 판례들을 전해주는 서비스 요약도 되고 검색도 될 것 같다. 그러나 데이터셋을 구하기가 많이 어려울 것 같다. 로펌별로 판례도 많은데 쓸수있는지 확인해보지 못했다. 국가에서 제공해주는 데이터도 있다. 한다면 검색, 요약, 질의응답 등을 포함시킬 수 있을 것 같다 서비스와 라이브러리 무엇이 좋을까? 라이브러리의 장점, 서버를 계속 켜둘 필요가 없다. 유저의 이슈만 보고 개선하면 됨. 서비스를 한다면 gpu도 필요한데 그럼 더 어려워 짐 라이브러리 vs 서비스 라이브러리 - Git - Python - https://python-poetry.org/ 서비스 - Docker - FastAPI - 서버 배포 - Linux