# 데이터셋 제작 TASK ###### tags: `Dataset` ## 랩업리포트 https://docs.google.com/document/d/1RGEmRucW47DxhQr5e1_4u5oTrEG8WLLBSqoMEvX_x9g/edit# ![](https://i.imgur.com/IuOKwFr.jpg) ## 이번주 금요일까지 가야할 길 1. Entity와 RE 정의: 권장 데드라인: 오늘 수요일 https://www.boostcourse.org/boostcampaitech2/lecture/1225996?isDesc=false ### 원시데이터셋 https://drive.google.com/drive/folders/1JlT-40eNmoTtFEEmwoztYNHcbk4GkDsw ### Entity 관계 설정 https://docs.google.com/spreadsheets/d/1z8wL5maxzVf7s4Q4FZcs7ceqDhEHXb9rNflcZUjOrhY/edit?usp=sharing ## Example ### 예시 Klue 릴레이션 셋 https://docs.google.com/spreadsheets/d/1BiKmcJgfIjgd6a8En3w7m8Wk4OtNyVbQ05AjWKt5gC4/edit?usp=sharing ### KLUE-RE Relation set https://docs.google.com/spreadsheets/d/1qhQD6Z5Ftws2VoXfqv_B54XGdL06oNeUBKkClBuAg88/edit#gid=0 ### KLUE-RE Annotation guideline https://docs.google.com/document/d/1nb54H_jxiEh7oMq1anwFP7IC_nqgO276L1amxSV0tCI/edit 3. 가이드라인 만들기(1차 제출): 권장 데드라인: 이번주 금요일 ### 우리의 가이드라인 https://docs.google.com/document/d/1yfMFqm6CfXhYDtJ-8pNoMFDpwW1LuleANaPTj0Qr-bo/edit?usp=sharing ## 한진님 의견 사람 기술 서비스로 문서를 나눠서 각 Entity을 만들면 쉬울 것이다. ## 민재님 의견: 어차피 문장 단위이다. ``` Q2. 비교적 어려운 단어의 (사전적) 의미를 아는 것도 지식을 활용하는 것인가요? 아닙니다. 단어 자체의 내포된 의미를 통해서 관계를 유추하는 것은 지식을 활용하는 것이 아니고, 올바른 관계 유추입니다. <object:민종묵>은 민승세의 아들이나 민명세에게 입적되어 <subject:민철훈>은 민명세의 손자가 된다. → “인물:부모님” (입적은 호적에 올리는 일을 뜻함) *예시 수정필요* Q5. Subject/Object Entity가 직접적으로 연결되지는 않지만 문장 내 정보를 조합하여 추측 가능한 경우는 어떻게 할까요? 명백히 지칭 대상이 다른 경우 (e.g., 동음이의어 등) 를 제외하고는 같은 엔티티로 생각하고 처리해 주세요! 한편 조오섭 예비후보는 담양 출생으로 동신고, 전남대 신방과 졸업하고 △더불어민주당 문재인 후보 광주시당 전략기획 본부장 △<object:문재인> 대통령 직속 국가균형발전위원회 대변인 △<subject:더불어민주당> 광주 북구갑 지역위원장 직무대행 등을 역임했다. → “단체:구성원” 창당 당시 정의당의 대한민국 제19대 국회 국회의원은 노회찬 (서울 노원 병), 심상정 (경기 고양 덕양 갑), 강동원 (전남 남원·순창), 김제남 (비례대표), 박원석 (비례대표), <subject:서기호> (비례대표), 정진후 (<object:비례대표>) 위 7명이었다. → “인물:직업/직함” *예시 수정필요* 서비스 만든 사람 누구, 누구, 누구, 누구 -> 모두 각기 다른 RE으로 묶는다. Q6. 비명시적인 기술의 관계는 어떻게 처리할까요? 문장에서 특별한 근거가 없다면 상위 기술과 하위 기술의 관계는 “관계_없음"이 맞습니다. 다만, NN은 딥러닝 하위 가능???아니면 위의 “상위 기술인지 하위 기술인지 헷갈리면 어떻게 하나요? -> 문장에서 명시적으로 나와야 한다'와 과 충돌하는 항목이면 삭제해야 할수도? “ㅇㅇ그룹과 같이 확실한 상위단체를 의미하는 표현의 경우 구체적인 근거가 없어도 상위/하위 단체에 대한 클래스로 선택될 수 있습니다. 김병원 더불어민주당 나주・화순 국회의원 예비후보가 나주 <object:LG화학>의 관내 이전의 필요성을 제기하고, <subject:LG그룹>의 고성능 이차전지 관련 기업유치와 이전 부지에는 행정복합타운 조성을 추진하겠다는 입장을 밝혔다. → “단체:하위_단체” *예시 수정필요* ``` ## 파일럿 - 각 11개 클래스별로 2개정도 관계를 추출 (총 22개) - 태그토그로 각자 태깅 - 인공지능 문서에서 클래스별 1개 태깅 시도 후 나머지 문서에서 추출 ### Q&A 1. 기술과 서비스를 명확히 구분하는 정의가 어떻게 되나요? - 문장 내에서 기술, 서비스를 구분할때 사람의 추측으로 - 기술, 서비스가 런칭했다는 완전한 문장인것만 할지 - 서비스라는 말이 있던지, 제품이라는 말이있던지, 회사랑 연결되어있는지를 보고 판단함. 2. 기술에서 수학과 이론도 포함할 것인가? - 기술에 관련된 수학 ex) 퍼셉트론, 이런것만 포함 3. 한문장에서 나열되는 엔티티는 각각의 학습데이터로 만들자! ![](https://i.imgur.com/NJHAgWh.png) - 침입탐지시스템 / 컴퓨터게임 -> 관계에 대한 분류만 하면 됌!. 두개의 문서 데이터를 만듬 4. 기관과 같은 A==B인 상황에 어떤걸로 해야할까? ![](https://i.imgur.com/0y1ySS0.png) - 5. 논문은 그런데 책은 어떻게 할까? - 책, 논문 등을 출판물로 포함시키자! - 6. 기계는 서비스로 포함되어야하는가? ![](https://i.imgur.com/wweC32h.png) - 서비스로 포함시키자 07. 중복문서는 태깅을 한문서내에서 다해도 되는지? - 왠지 될거같다. 08. 문서이름은 어떻게 정할지?, 문서 규칙은? - 숫자로 순서대로 넣자 - 한문장씩. 코드로 자르기, 문장 단위로 넣고, 파일로 한번에 업로드 09. 기술:어원 거의 없음!, 기술:개발단체도 서비스와 출시주체관계랑 고민됌! - 삭제 10. 체커프로그램은 스트레이가 개발한 개발기술이라고 볼수 있는가? - 시스템은 서비스인가 기술인가? "전문가 시스템" - 서비스로 본다. - 애매하면 뺀다. 11. 프로젝트를 서비스라고 볼수 있는가? " "프로젝트 MAC" 8 "5세대 컴퓨터 프로젝트" 9 - 애매하면 뺀다. 12. OCR서비스와 같이 범용적 서비스이름은 어떻게 표현할것인가?, 서비스를 붙여서 태깅? ![](https://i.imgur.com/FGG1ZDx.png) - 서비스로 보자. 둘다가능할거같다. 13. OCR은 사전지식으로 알고 있는게 아닌가? ![](https://i.imgur.com/FcA3F7P.png) - 이정도면 충분히 서비스다. 14. OCR의 기술이 패턴매칭기법이라면 == 이긴한데 다른방법을 쓸수 있으니까 하위기술인가? - 기술: 하위기술 / 다른 방법? OCR->문자인식방법 -> pattern matching 기법 - OCR 빼고, 문서에서 단어를 바꿔서 생각해보기 15. 기술: 개발자 <-> 인물: 개발기술 비교해보면, 인물입장에서 보면 편리한데, 기술입장에서 개발을 한사람을 찾는가? - 인물: 개발기술 남기고 하나삭제 16. 출시일이 두개일때.,..? - 각각 두개 다 적용해도 된다.