Аспирантура ИСП РАН


Варламов Максим Игоревич

Направление подготовки: 09.06.01 «Информатика и вычислительная техника».
Направленность (специальность): 05.13.11 «Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей».
Дата зачисления: 01 октября 2014 года.
Приказ о зачислении: 10-у от 30.09.2014 года.
Срок окончания аспирантуры: 30 сентября 2018 года.
Форма обучения: очная.

Научные публикации до поступления в аспирантуру

  1. Варламов М.И., Коршунов А.В. Расчет семантической близости концептов на основе кратчайших путей в графе ссылок Википедии. Труды конференции ИОИ-2014: Интеллектуализация обработки информации, 5-10 октября 2014 года, Греция. Стр. 197.

Кандидатские экзамены

Иностранный язык: отлично, 22.06.2015.
История и философия науки: хорошо, 23.06.2015.
Специальность 05.13.11: отлично, 1 июня 2016 года.
Педагогика высшей школы: отлично, июнь 2016 года.

Достижения в научно-исследовательской деятельности

Тема диссертационного исследования: Методы извлечения информации из Веба.
Утверждена на заседании Учёного совета ИСП РАН: Протокол №2014-13 от 26.12.2014 года.
Научный руководитель: Турдаков Денис Юрьевич, к.ф.-м.н., заведующий отделом «Информационных систем».

Сведения о планируемой диссертационной работе

Цель диссертационной работы:

Исследование и разработка методов автоматического извлечения структурированной информации из Веб-ресурсов.

Задачи диссертационной работы:

  • Исследование существующих методов извлечения информации из веб-ресурсов.
  • На основе обучения по размеченным страницам одного или нескольких веб-ресурсов либо по корпусу структурированных данных предметной области.
  • На основе задания модели предметной области для извлечения информации.
  • Разработка методов извлечения информации из Веба, не зависящих от предметной области и не требующих обучения для каждого веб-ресурса.
  • Проведение экспериментальной оценки разработанных методов.

Актуальность и научная новизна планируемой диссертационной работы:

Задача извлечения структурированной информации из веб-ресурсов немногим моложе самого Веба. Первоначально она возникала из представления Всемирной паутины в виде множества веб-интерфейсов к различным серверным базам данных и потребности в унификации доступа к ним. Сегодня Веб хранит колоссальное количество как текстовой, так и медиа-информации и является вместе с тем крупнейшей площадкой для общения людей и обмена мнениями между ними. Эти данные можно использовать для анализа отношения пользователей Веба к различного рода событиям, товарам и услугам, предоставления сервисов агрегации новостей, сравнения цен в интернет-магазинах, рекомендации музыки и фильмов и т.д. Автоматическое извлечение данных, однако, затрудняется нерегулярной структурой веб-страниц и сложной динамической организацией современных веб-приложений.

Для ряда приложений извлечения информации из Веба важно обеспечить охват как можно большего числа различных веб-ресурсов. Методы, обучающиеся на размеченных примерах данных для одного веб-сайта, как правило, слабо применимы к новым веб-ресурсам. Методы без учителя показывают хорошее качество в том случае, если они привязаны к конкретной предметной области, — это определяет схему данных и позволяет разрабатывать для них специализированные эвристики. Таким образом, актуальной задачей остается разработка методов извлечения информации из Веба, которые применимы к различным предметным областям и вместе с тем не требуют разметки обучающих примеров для каждого веб-сайта. Для решения данной задачи можно исследовать как способы обобщения существующих подходов, использующих обучение на размеченных примерах, на большие группы разнородных веб-сайтов, так и способы независимого от веб-ресурса моделирования предметной области.