Авторы описывают свой проект по изучению автоматического распознавания блюд по фотографиям подноса, сделанным фотокамерой расположенной над кассой. Для этого были использованы готовые модели (YOLO различных версий), а также собственная составная модель на основе YOLO и Siamese.
Во-первых, авторы изучили как точность модели YOLO прямо из коробки зависит от размера датасета. Полученные результаты вряд ли могут быть применены в реальной жизни: в лучшем случае полнота (recall) достигает 90% при точности (precision) в 82%. Т.е., условно, каждый десятый омлет не распознается как омлет, и 2 из 10 блюд, названных омлетом, на самом деле не омлеты. Но авторы идут дальше и собирают собсвтвенную гибридную модель, которая уже показывает очень хороший результат: точность и полнота >99%.
Мне это исследование кажется интересным и полезным. Ценно, что авторы подготовили собственный датасет. Кроме того, результат, полученный с помощью собственной гибридной модели, позволяет говорить о практическом применении, особенно если добавить больше камер, как предлагают авторы. Рекоммендую к печати.
Дальше идет некоторое количество замечаний и предложений, которые авторы и редактор могут рассмотреть при финальной подготовке текста к печати.
# Мысли по существу
1. Кроме распознавания картинки можно использовать NFC метки на тарелках. Т.е. блюдо кладется в тарелку с нужной меткой. На кассе моментально формируется чек. Такая система реально используется, например, в Китае. Можно ее упомянуть, и сказать, почему она не подходит в ОИЯИ, или просто игнорировать этот комментарий.
2. В разделе Dataset говорится, что весь датасет состоит из 450 изображений. Почему он не использовался целиком? Больше 270 изображений не дает увеличения точности? Стоит это как-то пояснить.
3. В целом было бы интересно видеть, как хорошо модель справляется с разными классами, какие распознаются лучше, а какие хуже. Впрочем, вероятно, в этой статье для этих деталей места нет. Можно игнорировать.
4. Было бы хорошо проиллюстрировать структуру гибридной модели авторов. Это было бы полезно для упрощения понимания.
# Язык
Текст написан на хорошем английском. Небольшие неточности не затрудняют понимание сути. Вот несколько моментов, на которые я предлагаю обратить авторам:
1. "interest in" -> "the interest to". Лучше еще и в перфекте: "has increased the interest to"
2. "complex background dishes" -- тут непонятно, о чем идет речь.
3. "the main advantage of the study" -> "a valuable by-product of the study"
# Прочее
1. Датасет UEC FOOT 100 упоминается в первый раз без ссылки, которая, впрочем, появляется потом. Видимо, речь о нем идет в контексте работы [1]. Стоит сделать явную связку с предыдущим предложением.
2. Хорошо бы привести названия датасетов к единому стилю по всей статье (заглавные буквы, дефис).
3. То же самое по названиям моделей (YOLO или Yolo) и обозначению версий (\_v5 или \_5). Буква s после номера версии что-то значит?
4. И по названиям метрик (mAP / Map / MAP).
5. Не хватает ссылки или описания датасета COCO.
6. Хорошо бы ввести метрику аccuracy, раз уж она упоминается в статье.
7. Столбцы 2, 3 и 4 Таблицы 3 полностью повторяют Таблицу 2. Лучше совсем убрать Таблицу 2 и просто уточнять в тексте, о каких столбцах идет речь.