# Computer Vision
### 컨텍스트 인식 비디오 캡셔닝
> 경북대학교 [ABR Lab.](http://abr.knu.ac.kr/) / 2017.03 ~ 2019.01 (1년 11개월)
<img src="https://i.imgur.com/JOMQ7O3.gif" style="border:solid 1px black">
- 선후 관계, 인과 관계와 같은 **비디오 장면 간의 컨텍스트를 반영**하는 비디오 캡셔닝 모델을 개발하였습니다.
- 신경망을 활용하여 메모리의 read/write 과정을 학습하는 [DNC(Differentiable Neural Computer)](https://www.nature.com/articles/nature20101)를 도입하여 컨텍스트를 저장 및 활용하였습니다.
- 캡션 생성을 위한 모델로는 [DNC-LSTM 인코더-디코더 구조](https://i.imgur.com/7M33UAK.png)를 사용하였으며, 모든 장면에 대해 DNC의 메모리가 연결 되도록하여 과거의 컨텍스트를 지속적으로 반영할 수 있도록 하였습니다.
- [ActivityNet Captions](https://cs.stanford.edu/people/ranjaykrishna/densevid/) 데이터셋에 대한 BLEU/METEOR 스코어를 각각 19%/10% 개선하였으며 장면 간의 관계를 나타내는 `after`,`then`,`begin`,`end` 등의 단어를 적절히 사용해 [reasonable한 캡셔닝 결과](https://i.imgur.com/T7ZsKck.jpg)를 얻었습니다.
**Code** : [link](https://bitbucket.org/hossay/dnc_context/src/master/); **Notion** : [link](https://checker-zinnia-239.notion.site/Long-term-Context-Modeling-for-Dense-Video-Captioning-8f6cb04fb8ac4e0aafb1e75d394162bb)
<br>
### 행위기반 의도인식
> 경북대학교 [ABR Lab.](http://abr.knu.ac.kr/) / 2018.11 ~ 2019.01 (3개월)

- 비디오에서 인식된 액션 시퀀스로부터 **명시적 의도**를 인식하는 프로젝트입니다.
- 액션 시퀀스와 관련된 모든 가능한 의도 간의 매핑을 RNN으로 학습하였습니다.
- Top-3 실시간 의도인식 결과를 보여주는 웹기반 프로토타입을 구현하여 [CES2019에서 전시](https://drive.google.com/file/d/1jM_pL5PHMZb9P6_d7ZRfnqAQKoDvRciO/view?usp=sharing)하였습니다.
**Code** : [link](https://bitbucket.org/hossay/ces_intent_demo/src/master/); **Notion** : [link](https://checker-zinnia-239.notion.site/Explicit-Human-Intention-Recognition-d97d841c51a940cb8dd8a1337800bf28)
<br>
### 핸드 제스처인식
> 경북대학교 [ABR Lab.](http://abr.knu.ac.kr/) / 2018.06 ~ 2018.12 (7개월)

- TV를 제어하기 위한 딥러닝 기반 핸드 제스처 인식 모델을 개발 하였습니다.
- Inception-v1 I3D 모델을 파인튜닝하여 13가지 핸드 제스처 분류하였습니다.
- YOLO 디텍터와 RealSense에서 제공하는 depth 정보를 활용하여 사용자를 위치를 감지하여 오차를 개선하였습니다.
- 가상의 TV를 제스처 인터페이스로 인터랙션하는 GUI 개발하였습니다.
**Code** : [link](https://bitbucket.org/hossay/gesture_tf_local/src/master/)