--- title: Praktika 3.1 --- ![](https://i.imgur.com/LxLcjJB.jpg) -------- **Цель работы**: Сбор метаданных из файлов трёх типов. **Задачи**: 1. Установить следующие утилиты для сбора метаданных из файлов:MetaExtractor. 2. ExifTool (данную утилиту запустить и использовать через CMD). 3. Собрать метаданные файлов трёх типов (pdf, jpg, excel), используя установленные утилиты. 4. Оформить отчёт в виде инструкции. ------------------------ # **Ход выполнения работы**: Данная практическая работа будет выполняться на операционной системе Windows 10. ## **Установка** Обеими утилитами мы будем пользоваться в ОС Windows. * **MetaExtractor**: Скачаем утилиту по следующей ссылке. Утилита не требует установки -- достаточно извлечь исполняемый файл из архива и запустить его. * **ExifTool**: Утилиту возьмем на странице по следующей ссылке. Исполняемый файл переименуем в exiftool.exe и поместим в папку C:\Windows\ для удобного запуска в командной строке. ------------------------- ## **Сбор исходных файлов** Подготовим файлы разных форматов (pdf, jpg, xlsx) для дальнейшего исследования: • .xlsx файл возьмем с раздела с расписанием на сайте РТУ МИРЭА . • .jpg файл возьмем с сервиса “Яндекс.Картинки”. • .pdf файл возьмем со случайного сервиса . Все эти файлы показаны на рисунке 1. <center><img src="https://i.imgur.com/31DnWZv.png"><p></p> Рисунок 1 &ndash; Файлы разных форматов<p></p></center> --- ## **Сбор метаданных** **MetaExtractor**: запустим утилиту. Выберем подготовленные файлы. Процесс выбора файлов показан на рисунке 2. По данным файлам удалось получить крайне мало информации. 1) Для файла .jpg ничего не нашлось. 2) Для файла .pdf нашлась дата создания документа, дата его последнего изменения и количество страниц. 3) Для файла .xlsx нашлась дата создания документа, дата его последнего изменения, автор документа, имя пользователя, внесшего последние изменения, название и версия приложения которым создавался документ. Метаданные могут теряться при скачивании из Интернета. В случае, если файлы были получены напрямую, есть шанс получить больше информации. <center><img src="https://i.imgur.com/u4AWIva.png"><p></p> Рисунок 2 &ndash; Программа MetaExtractor<p></p></center> **ExifTool**: запустим утилиту через командную строку, указав в аргументах папку с необходимыми файлами. 1) Для файла .jpg из интересного разве что размеры изображения. Результат показан на рисунке 3. <center><img src="https://i.imgur.com/lfsNjDA.png"><p></p> Рисунок 3 &ndash; ExifTool файл jpg<p></p></center> 2) Для файла .pdf мы имеем ту же информацию, однако прибавилась дата метаданных в файле, немного информации о настройках и ID документа и шаблона. Результат показан на рисунке 4. <center><img src="https://i.imgur.com/ZhtpsOL.png"><p></p> Рисунок 4 &ndash; ExifTool файл pdf<p></p></center> 3) Для файла .xlsx мы имеем ту же информацию, однако появилась дата последней печати файла и некоторая информация по заголовкам. Результат показан на рисунке 5. <center><img src="https://i.imgur.com/ZkWRKN8.png"><p></p> Рисунок 5 &ndash; ExifTool файл xlsx<p></p></center> В консольном режиме вывода была замечена проблема с кодировкой кириллицы. Эту проблему можно решить сохранением вывода в файл, добавив аргумент -w “название выходного файла” . Сохранив файл теперь видим количество листов в файле и их название. Если и это не поможет, тогда необходимо выбрать текстовый редактор с возможностью выбора кодировки и подобрать необходимую. --- **Вывод** : в ходе практической работы были изучены такие инструменты извлечения метаданных из файлов, как MetaExtractor и ExifTool.