Copy of the Internship journal

# Copy of the Internship journal ## Individual task Study the problem of relation extraction and implement several neural-based and rule-based models for relation extraction in nested entities. Изучить проблему извлечения отношений и написать несколько моделей на основе нейронных сетей и правил для извлечения отношений во вложенных сущностях. ## Expected result Comparison of the models' efficiencies on the test dataset on the test dataset using F1-score and correlation matrix. Make visualisation of the results. Explain the result. Сравненить эффективности моделей в наборе тестовых данных с набором тестовых данных с использованием F1-показателя и корреляционной матрицы. Сделайть визуализацию результатов. Объяснить результат. ## A brief description of achieved results I implemented models using python and used the NEREL dataset. I trained neural-based models using the Yandex datasphere. The training for the rule-based methods and visualisations was done on a local machine. I analysed the common errors and models themself and found some insight into the dataset, such as some inconsistencies with the dataset. Я реализовал модели с помощью Python и использовал набор данных NEREL. Я обучал модели на основе нейронных сетей, используя Yandex datasphere. Обучение методам и визуализации на основе правил проводилось на локальной машине. Я проанализировал распространенные ошибки и сами модели и нашел некоторое представление о наборе данных, например, о некоторых несоответствиях с набором данных. ## ![](https://i.imgur.com/v02A4eq.png) ### Task Study common approaches used for named entity recognition and relation extraction. Изучить общие подходы, используемые для распознавания именованных сущностей и извлечения отношений. ### Result I studied common approaches used for named entity recognition and relation extraction and existing datasets for such problems. Я изучил общие подходы, используемые для распознавания именованных сущностей и извлечения отношений, а также существующие наборы данных для таких задач. ## ![](https://i.imgur.com/9rwwxlV.png) ### Task Choose dataset. Preprocess data for relation extraction in nested entities. Выберить набор данных. Предварительно обработайть данные для извлечения отношений во вложенных сущностях. ### Result I chose the NEREL dataset studied among earlier. I preprocessed data using python to fit it for the specific problem of relation extraction in nested entities. Я выбрал изученный набор данных NEREL среди ранее изученных. Я предварительно обработал данные с помощью python, чтобы они соответствовали конкретной проблеме извлечения отношений во вложенных объектах. ## ![](https://i.imgur.com/zplZ0z3.png) ### Task Implement neural-based models. Implement rule-based models. Написать нейронныe модели. Написать модели на основе правил. ### Result I implemented and trained neural-based three models in python. I used a pre-trained BERT model as a base. I implemented custom rule-based models in python. Я реализовал и обучил три нейронные модели на Python. В качестве основы я использовал предварительно обученную модель BERT. Я реализовал пользовательские модели на основе правил в python. ## ![](https://i.imgur.com/3qvXLIE.png) ### Task Make the visualisations. Analyse the results. Сделайть визуализации. Проанализировать результаты. ### Result I generated different visualisations such as confusion matrix and distribution of common errors. Analysing the common errors and models themself, I found some inconsistencies in the dataset. Я создал различные визуализации, такие как матрица несоответствий и распределение распространенных ошибок. Анализируя распространенные ошибки и сами модели, я обнаружил некоторые несоответствия в наборе данных. ## ![](https://i.imgur.com/io0Ec52.png) ### Task Make the visualisations. Analyse the results. Сделайть визуализации. Проанализировать результаты. ### Result I generated different visualisations such as confusion matrix and distribution of common errors. Analysing the common errors and models themself, I found some inconsistencies in the dataset. Я создал различные визуализации, такие как матрица несоответствий и распределение распространенных ошибок. Анализируя распространенные ошибки и сами модели, я обнаружил некоторые несоответствия в наборе данных. ## Quality of student’s work and satisfaction with achieved results ## General recommendations