# 10조 화이트보드 팀 회고
# 좋았던 점
1. 나만의 데이터를 만들 수 있어서 좋았습니다.
- 평소에 사용하던 데이터가 얼마나 많은 노력을 통해 만들어졌다는 것을 익힐 수 있었습니다.
2. 데이터를 만드는데 있어서 고려할 점들과 KLUE 데이터의 대단함을 몸소 느꼈습니다.
3. 데이터를 제작하는 전체적인 과정을 익힐 수 있어서 좋았습니다.
# 아쉬웠던 점
- "스포츠"라는 데이터 특성상 스포츠의 정의, 사용되는 기술, 사용되는 도구에 대한 설명이 많았습니다. 하지만 개체 타입을 따로 정의하는 것 대신 기존의 PLO 타입을 많이 차용했기 때문에 버려지는 문장이 많아서 아쉬웠습니다.
- 데이터에서 문장을 뽑고, 개체를 태깅하고, 관계를 설정하는 것까지 다 한 다음에 상호 검수를 했는데, 사람마다 태깅 방법과 관계 설정방법이 다 다르기 때문에 하나로 통합하는 데에 어려움이 있었습니다.
- 의사소통을 자주 하는 것이 굉장히 중요하다는 것을 느꼈습니다.
- 첫 기준표를 작성한 뒤에 시간이 있었으면 한번 더 기준표를 수정해서 태깅에 도움이 될 수 있었을 거라고 생각되는데 시간이 없는게 아쉬웠습니다.
- 포괄적인 의미보다 좀더 세분화된 의미로 테깅을 했다면 어노테이션을 할 때 범위가 좀더 좁힐 수 있었지 않았을까 싶습니다.
- NER의 각 태그들의 범위가 생각보다 모호하거나 범위가 적은 면이 있고, 또 KLUE 데이터를 확인했을 때도 NER 태깅이 과연 얼마나 효용이 있는가에 대한 의문이 들었습니다. 이 부분에 대해서 리서치를 하면 좋을 것 같습니다.
# 앞으로 개선하면 좋을 점
- 한번 한 문서를 같이 태깅해보고 느낀점을 통해 가이드라인 재작성
- 최소 단위를 설정한 후에, 최소 단위를 끝낸 후에 다 같이 검수하는 방법으로 계속해서 가이드라인을 수정했으면 좋겠다고 생각했습니다.
- 시간이 있다면 관계분석 후 한번 더 가이드라인 만들기
- 먼저 태깅을 한 후에 각 단어들에 달린 태그들에 대한 검수와 합의가 이루어진 후에 관계를 추출하면 더 질 좋은 데이터를 만들 수 있을 것 같습니다.