MediaMetrics: Статьи

Полина Полунина Руководитель Data Science направлений HR, финансы, видео-аналитика, М.Видео-Эльдорадо 20 февраля 2020г.

Анализ данных в ритейле

С Полиной мы поговорим о том как технологии искусственного интеллекта используются в ритейле. Что компании знают о своих клиентах? Какие данные и как собираются? А так же поговорим про хобби Полины: исследования активности вулканов с помощью технологий искусственного интеллекта

Саркис Григорян:

Добрый вечер! Сегодня четверг и традиционно мы встречаемся на радио Mediametrics в передаче «Искусство интеллекта». Сегодня у нас в гостях Полина Полунина. Полина руководит направлениями Data Science по HR, финансам и видеоаналитики в компании М.Видео-Эльдорадо. Полина преподаёт, участвует достаточно удачно в международных конкурсах, что ещё очень интересно, занимается изучением вулканической деятельности тоже с применением методов машинного обучения и искусственного интеллекта. Поэтому я думаю, что мы сегодня очень интересно поговорим. Полина, большое спасибо, что нашла время, пришла к нам.

Полина Полунина:

Вам большое спасибо, что пригласили.

Саркис Григорян:

Полина, расскажи, как твой путь начался, почему это направление, как ты его выбрала. Честно скажу, это вторая девушка у нас в эфире. В основном больше мужчин этим занимаются. У нас такое предвзятое отношение к этому, мы всегда считаем, что наукой занимаются дядьки в очках с диоптриями, а тут красивая девушка и Data Science. Расскажите, как попали.

Полина Полунина:

В целом математика мне нравилась с детства, это, пожалуй, был единственный предмет в школе. Вот сейчас второй интересный момент, второй любимый предмет был физкультура, что тоже для дата-саентистов, для технологических специалистов не самая часто встречающаяся вещь. Это был единственный пожалуй предмет, по которому я домашние задания, что-то сверх делала с удовольствием. Всё остальное меня больше напрягало, я старалась больше уделять внимание математике. Учителя в своё время были не очень довольны, потому что везде кроме математики я садилась на заднюю парту, открывала учебник и это отодвигала. Потом, чуть позже, время подошло к тому, чтобы подумать о поступлении, это 9-10-й класс, у нас в школе (у меня была обычная совершенно школа, не какая-то супер-пупер, совершенно обычная школа в Мытищах) у нас появилась линейка математических классов. Я подумала, вот, наверное, это то, что мне нужно 100 % . И я сделала всё, чтобы туда попасть. Касательно дисбаланса, соотношения девочек и мальчиков, у нас тогда было 32 человека в классе, из них, по-моему, 6 девочек. И дальше, когда я уже поступила, я училась на факе в Вышке, там тоже это процентное соотношение было сдвинуто в сторону 30 на 70, что, кстати, немало. Например, если сравнить с мехматом, то это тоже довольно много. Ну вот, в принципе, если коротко, то так. Закончила я в 12-м году, тогда ещё о Data Science как мы с вами говорим сейчас, не говорили. Тогда было модно заниматься просто обычной аналитикой, считалось, что если ты аналитик, это замечательная топ-профессия. Были всякие разные аналитики, простые, чуть посложнее, если можно так выразиться, это всякий финансовый анализ, какие-то в сторону алгоритмического трейдинга были движения, меня это всё очень интересовало в тот период. Так примерно и получилось, я начала подаваться на какие-то стажировки курса со 2. Моя первая стажировка была в компании Юнилевер как раз аналитиком логистики. Потом я узнала, что бывают классные финансовые аналитики, какие у них зарплаты и подумала, что вот финансы, это то, что мне нужно, я сделаю всё, что только можно и нельзя, чтобы туда попасть. И действительно, так тоже получилось, я четыре года отработала в хедж фонде, делала математические модели для алгоритмического трейдинга среднесрочного. Потом как-то время шло, в Data Science, давайте не будем скромничать, произошел этот самый хайп, взрыв. И я подумала, вот когда-то был замечательный предмет в университете, эконометрика, где самое сложное, что было из этой серии, это модель обычной линейной регрессии. Я помню, как мне было интересно именно этим заниматься, от момента формирования дата сета своими руками, нужно было распарсить какой-то сайт с ценами, собрать данные и потом заполнить пропуски, все те же самые классические проблемы, потом построить какую-то хорошую модель, обосновать, почему она такая. Я подумала, это уже шёл второй, третий даже год моей работы в хедж фонде. А там просто, чтобы вы понимали, ты делаешь постоянно одно и то же. Тебе нужно делать очень маленькие кусочки каких-то больших метастратегий, ты решаешь постоянно одну и ту же задачу на одних и тех же данных и всё. Сложность в том, что структура рынка? она очень сложная, очень много в один и тот же момент времени факторов влияет на неё. То есть когда ты находишь какую-то закономерность, она спокойно через пол года или через год уже перестаёт быть значимой, тебе приходится искать новые и новые. В какой-то момент это становится утомительным. Я начала больше интересоваться Data Science, поступила в Сколтех. Кстати, моим научным руководителем был Евгений Владимирович Бурнаев, который к вам приходил. Совершенно замечательный человек. Я решила пойти в магистратуру, закончила магистратуру Сколтеха и дальше уже продолжала работать как дата саентист.

Саркис Григорян:

А чем сейчас занимаетесь, какой интерес в Data Science у компании М.Видео-Эльдорадо.

Полина Полунина:

Я люблю шутить на эту тему, мало кто знает, но м.Видео и Эльдорадо, это теперь одна компания. Я сама узнала об этом только на собеседовании, но и мои ребята, которые члены моей команды, они тоже узнали об этом на собеседовании, из вакансии ещё некоторые. Какой у нас интерес. В первую очередь, скорее, ненаучный, чем научный, хотя об этом я тоже чуть позже расскажу. Мы идём в этом направлении. Мы, в первую очередь, решаем совершенно конкретные задачи бизнеса. Мы понимаем, что мы не Яндекс мы не Mail, мы не Google ни в коем случае, мы такая, соппортящая функция бизнеса. В первую очередь, это автоматизация, понимание потребностей клиентов, какое-то улучшение самочувствия сотрудников на рабочем месте, у нас такие направления. Говоря более формально, у нас есть три большие ветки, это всё, что касается рекомендательных систем всяких разных, этим у нас занимается совершенно замечательный человек, Владимир Литвинюк. Есть ещё направление так называемое технологическое, там будут речевые технологии, которые совершенно в зародыше сейчас. И всё, что касается архитектуры данных, Дмитрий Васильев тоже потрясающий этим занимается. И у меня так получилось, что целых три такие веточки, это HR, финансы и видео аналитика. О чем тут можно поподробнее рассказать. С персонализацией, то, чем занимается Володя Литвинюк, я думаю, в целом всем всё понятно. Это, в первую очередь, рекомендации на сайте, как холодные, так и горячие, это перенос онлайна методологии в оффлайн. У нас есть такая штука в м.Видео, приложение продавца. Если вы недавно заходили в наши магазины, можно заметить, что к вам может подойти продавец и сказать: давайте я вам сейчас что-нибудь подберу. У него в руках вот этот планшет, он вас там регистрирует, если вы уже есть в системе, происходит этот match, connect, и все те же самые рекомендации, которые на сайте показываются, высвечиваются в приложении продавца. Рекомендации по подбору всяких соппортящих товаров, типа аксессуаров, расходников и так далее. Методы расширения корзины тоже присутствуют.

Саркис Григорян:

Есть в рекомендательных системах какое-то планирование, мы же понимаем, что мы не можем до конца улучшить настолько, чтобы всё продавать. То есть мы говорим только о каком-то постепенном улучшении, увеличении количества продаж на клиента, но при этом клиенты, условно говоря, мы можем показывать рекламу определённым образом, потом клиенты становятся к ней слепые. Мы должны к ней как-то по-другому подходить. Как вот этот процесс окучивания клиента происходит? То есть насколько его поведение меняется и вам приходится как-то перестраиваться, что-то об этом.

Полина Полунина:

Тут такой момент, не то, чтобы мы с помощью каких-то методов машинного обучения решаем, какую рекламу человеку показать. Мы, скорее, как это происходит, человек заходит на сайт, он заходит в свой личный кабинет, и тогда подтягивается совершенно понятная модель, которая по истории покупок этого человека матчит историю его покупок с другими клиентами, и какая-то рекомендация начинает высвечиваться справа в квадратиках с товаром. Дальше клиент начинает переходить по каким-то вкладкам, может быть, по этим, может быть, используя поиск, и мы понимаем, что сейчас он интересуется совершенно понятной категорией, и опять же моделька такая начинает ему показывать что-то из этой категории, наиболее подходящая, на основе покупок других клиентов, похожих на него. Поэтому в какой момент он может устать от чего-то, я такого момента не вижу. По этому направлению я не вижу проблему, мы не видим такой проблемы, мы по этому направлению не работаем. Что ещё. Анализируем ли мы, в каком случае наши рекомендации привели к покупке, а в каком не привели. Да, анализируем. Мы используем это в моделях, как фичи.

Саркис Григорян:

Улучшение рекомендательного движка, получается.

Полина Полунина:

Конечно. Но так как рекомендательные модели у нас уже в целом в продакшне, какого-то такого большого исследования на эту тему уже не происходит. Скорее, раз в период мы смотрим, как она отрабатывает, считаем наши математические показатели и смотрим, если они начинают ухудшаться, значит нужно что-то добавить. То есть это где-то на самом деле один дата саентист, который одну встроенную модель в продакшене мониторит на постоянке и то неполное рабочее время.

Саркис Григорян:

Ты ещё упомянула про состояние сотрудников.

Полина Полунина:

Да, это мне гораздо ближе, потому что это моё направление, я этим занимаюсь, направления HR. Что мы там делаем. Начинаем мы с подбора, у нас есть стороннее закупленное ПО, которые агрегирует нам все заявки, все резюме кандидатов, которые к нам подаются через headhunter, SuperJob, через любые сайты, через наш сайт. Это всё агрегируется и каким-то образом подсвечивается в кабинете специалистов по подбору. Что делаем мы. Мы делаем лингвистический Match резюме с вакансией и высвечиваем какой-то скор, насколько человек подходит. Кроме этого, у нас в тесте уже модель наша разработанная по прогнозу вероятности, насколько человек конкретный пройдёт испытательный срок на той или иной позиции.

Саркис Григорян:

Это исключительно по резюме?

Полина Полунина:

У нас два варианта в работе сейчас, в продакшн пока не одного из них нет, всё в тестах. Первое, это чисто по резюме. Признаться вам честно, скор там пока не очень, есть куда улучшать, и мы, в принципе, пока не понимаем, можем ли мы это для всех департаментов, как для розницы, так и для офиса сделать с хорошей метрикой или всё-таки нужны какие-то дополнительные данные. И вторая модель у нас как раз с использованием дополнительных данных. То есть человек у нас, допустим, мы его уже взяли, он у нас проработал месяц, в этот момент мы хотим показывать руководителю вероятность того, что человек остаётся ещё два месяца, пройдёт этот испытательный срок. Тут, получается, у нас добавляются данные система контроля учёта пропусков, насколько человек вовремя приходит на работу, мы смотрим на это в динамике. То же самое с тем, что он делает просто на своём компьютере.

Саркис Григорян:

Коммуникации его.

Полина Полунина:

Да, конечно. И в динамике бывает видно, что, вот конкретный пример, когда человек приходит, первые дни он обычно приходит всегда вовремя. Потом он немножко видимо успокаиваться, его начинают там колбасить плюс-минус полчаса, в зависимости от отдела. Потом, если человек, не нравится ему его работа, он, в принципе, задумывается о том, что он наверное сделал неверный выбор, видно, как он начинает приходить сильно позже, уходить сильно раньше, логины в свою учётную запись происходят, как ни странно, чаще, потому что он залогинился, на что-то отвлёкся, из системы произошёл разлогин, он опомнился, опять залогинился. Или, например, вообще ушёл с рабочего места часа на 3, такие тоже видны случаи. При этом мы понимаем, что человек был не на встречах, не на рабочих встречах. Вот эти данные, они, конечно, очень сильно обогащают, и в другой модели прогноз вероятности того, что человек хочет уволиться по собственному желанию, у нас есть и такая модель, там эти данные по логам логинов учётной записи, это основная такая киллер фича. Поэтому она и в случае прогноза на испытательном сроке добавляет очень сильно.

Саркис Григорян:

Скажи, пожалуйста, с точки зрения, если вывернуть так и злоупотребить, здесь я не про то, что вы так делаете, но вопрос встаёт. А если я буду знать с такой-то долей вероятности, что этот человек в течение пару месяцев, допустим, захочет уволиться. Я как руководитель, во-первых, я могу уже к нему поменять отношение и так смотреть на него, как на предателя. Будем будет как в фильме Minority Report, он ещё ничего не сделал, а тебя уже весь отдел ненавидит, ходит, на тебя так криво посматривает, потому что считают, что ты меньше работаешь, они за тебя делают. Я понимаю, что, наверное, пока в продакшене этого нет, это там будет.

Полина Полунина:

В то же время, естественно, у нас есть видение, как это будет реализовано. И как же. Модель будет встроена в личный кабинет руководителя на нашем внутреннем сайте. Что дальше. У руководителя, допустим, он видит, что вероятность 90 % уволиться. У него есть три варианта, что с этим делать. Первый вариант - ничего не делать, второй вариант - поговорить с сотрудником, сейчас мы тоже этот вариант разберём, и третий вариант - просто пойти в HR и передать дальнейшую работу специалистам этого отдела. Просто не всем руководителям, у которых есть подчинённые, нравится people менеджмент и они умеют этим заниматься. Поэтому такая опция тоже есть. Но HR отдел, он будет делать всё то же самое. Либо ничего не делать, либо разговаривать с сотрудником. По поводу разговора с сотрудником, тут две веточки. Первое, нужно понять, в чём же причина ухода. И дальше они могут быть материальные, могут быть нематериальные, может быть, просто не нравится конкретный руководитель, конкретные задачи. И будут предложены варианты в зависимости от исходов этого разговора. Либо перейти в соседний отдел, либо сменить задачи, либо повышение заработной платы. Почему-то сотрудники не очень часто просят себе повышение к окладу. Но не все руководители как-то мониторят, что если человек у них три года уже работает, а повышения какого-то не было в зарплате, то наверное, как-то пора.

Саркис Григорян:

Денег не просит и пусть работает, хорошо.

Полина Полунина:

А твоя стоимость на рынке обычно растёт, пока ты работаешь. И растёт она, например, для IT специалистов сильнее, чем, к сожалению, руководитель может предложить в моменте. Такая проблема есть, мы работаем с ней как можно.

Саркис Григорян:

А сложно бороться за кадры с такими компаниями, Сбербанк, Яндекс, Mail.ru.

Полина Полунина:

Сейчас расскажу. На самом деле, с Яндексом, с технологическими компаниями бороться проще, чем, например, со Сбербанком. Сейчас поясню, почему. Представим себе, что мы живём в идеальном мире плюс-минус, и на рынке есть чётко определённые вилки для Junior, для Middle, Senior и так далее. Можно заметить, что технологические компании типа Яндекса, они предлагают ниже рынка. Почему. Просто потому, что они могут себе это позволить и недостатка в кадрах они не испытывают и не будут испытывать. У них самые интересные задачи, которые, в принципе, можно найти в России сейчас.

Саркис Григорян:

Компания Яндекс.

Полина Полунина:

Конечно. Самые интересные задачи. Самые, пожалуй, близкие к науке. Есть ещё конечно всякие лаборатории, типа Samsung AI и тому подобное, где работают Лемпицкий, Ветров, там тоже потрясающие задачи и зарплаты повыше, чем в Яндекс. Но у них не так много рабочих мест свободных, как в том же Яндексе. Допустим, ты компания М.Видео, у которой появился Data Science. Дата Science нужно делать, нужны качественные хорошие кадры. Где их взять, когда ты продаёшь пылесосы? Решением этой проблемы как раз занимаюсь я.

Саркис Григорян:

Удачно, судя по всему.

Полина Полунина:

Вы знаете, да, с моим приходом скорость найма дата сциентиста увеличилась на 66 %, и качество самих кадров тоже повысилось, хотя и до этого ребята, которые были, они совершенно замечательные.

Саркис Григорян:

То есть рекомендации тем, кто ищет дата саентистов, нанимайте руководителей девушек дата саентистов. На них и дата саентисты пойдут.

Полина Полунина:

Если бы всё было так просто. А вообще, спасибо, это прямо такой супер комплимент. Получается, что люди готовы, предположим, терпеть, делать менее интересную работу, чтобы чисто на меня смотреть, это приятно. На самом деле, дело не в этом. Как мы с этим работаем. Первое, где у нас самые хорошие специалисты? Data Science само по себе направление такое, не очень старое, даже какие-то Senio и Lead, это люди либо за 35, но с бэкграундом совершенно не дата саенсовым. Либо это молодые ребята лет 27-28, которые работали непосредственно дата саентистами и просто очень быстро выросли. Это та среда, в которой мы живём. Кого можно нанимать? Можно нанимать ребят замечательных и потрясающих, которые непосредственно учились Data Science в университетах, но у них чуть меньше опыта. Или можно нанимать бывших аналитиков и так далее, людей с опытом, но не в Data Science, которые прошли какие-то программы профессиональной переподготовки. Мне больше нравятся ребята первые, которые свежие, только после универа. Их нужно как-то замотивировать. Как? Первое, что мы делаем, мы ходим по вузам, в вышки, в сколтехи и т.д. и рассказываем, что у нас появился Data Science, у нас здесь настоящий Data Science, не будет таких проблем, что вы потом придёте и будете рисовать графики, например, полгода. У нас действительно есть та самая предиктивная аналитика. Второе, что важно, это руководитель и команда. Мы показываем, что у нас как я, так и другие наши лиды, у них образование у кого в ВМК МГУ, у кого физфак, у кого двойное образование, вышка и МИФИ. То есть это люди неглупые, с большим опытом. Если посмотреть на команду, у нас всё то же самое: мехмат, Сколтех, вышка и так далее. 90 % ребят именно таких. Мы показываем, что, смотрите, у нас работают люди такие же как вы, классные, замечательные, у нас не бюрократизированное руководство, по крайней мере, в нашей дирекции, таких проблем вы тоже иметь не будете. Кроме этого, мы вам предлагаем зарплату выше рынка, потому что мы очень вас хотим, просто приходите, пожалуйста, у нас в свободный плюс-минус рабочий график, у нас есть какие-то плюшки в виде поездок на конференции, спонсирование доп. обучения и так далее, тому подобное. В общем, мы предлагаем наиболее комфортные условия для того, чтобы человек смог сделать выбор в пользу нас.

Саркис Григорян:

А со Сбербанком?

Полина Полунина:

В Сбербанке проблема в том, что зарплаты тоже довольно высокие. И получается, что мы начинаем играть в игру между нами, X5 Retail Group, Сбербанком и ещё парой игроков. Игра называется, кто сильнее повысит зарплату. Буквально есть ОДС сообщество, там есть канал jobs, и там основное условие, что публиковать вакансии можно только с зарплатой, только с вилкой. И прямо довольно легко можно отследить, что как только кто-то. Ещё такой момент, основная движущая сила - это мидлы любой команды. И вот эта вилка на мидлов, она просто какая-то мега резиновая. Там от и до уже, наверное, тысяч 120 просто, и вот эта верхняя граница всё двигается и двигается.

Саркис Григорян:

Потому что они рабочие руки.

Полина Полунина:

Да. Это те самые ребята, которые вышли на рынок, только что отучились, получили самое передовое образование. В Data Science полгода прошло, и статья, которую ты читал, она вышла полгода назад, она уже устаревшая. И с образованием то же самое. Например, потрясающий Евгений Соколов в вышке занимается тем, чтобы программы постоянно адаптировать под нужды рынка и под современные тенденции в науке. Получается, что мидлы - это ребята, которые вышли, поработали полгода, год, обычно к этому моменту у них уже куча стажировок была, очень классных замечательных, какие-то поездки в Сириус и так далее, в хорошие образовательные центры. Такой человек, выпускник вышки с годом опыта работы, бакалавр просто плюс год опыта работы, это очень сильный мидл, гораздо более хороший специалист, чем, например, условный бывший аналитик, который где-то проходил на Coursera какие-то курсы.

Саркис Григорян:

Это связано то, что молодых удобнее брать, чем которые постарше, это связано с тем, что сейчас все инструменты разработки настолько стали относительно высокоуровневые и более понятные. Потому что я вижу сейчас много курсов, которые по Data Science, в гуманитарных вузах, где людей, которые раньше совершенно не были связаны с математикой, в той или иной степени, начинают обучать программированию, работы с данными. При этом, как оказалось бы, что это абсолютные гуманитарии. Я, например, вижу, что инструментарий стал достаточно лёгким. Условно говоря, то, что три года назад тебе нужна была реально команда сильная, ребята, мощности и т.д., сейчас, условно, можно просто попробовать сделать, поковырять модель, буквально один программист и очень быстро. Это с этим связано?

Полина Полунина:

На самом деле, нет, не с этим. Я думаю, не только мне, вообще всем нравятся более умные люди. И корреляция определённая есть, согласитесь. Между, назовём это IQ и уровнем вуза и программы, где человек учился. Поэтому в моём случае можно сказать, что я дискриминирую по уровню образования.

Саркис Григорян:

Отлично. К черту работу, расскажи про вулканы, про интересное. Что там с ними, как? Я первый раз услышал тебя на конференции, ты была в панели про HR, предоставлялась, я впечатлился твоими регалиями в начале. Но когда ты сказала, что ещё занимаешься исследованием вулканической деятельности, я понял, все, мне точно этот человек нужен на передачу. Невероятно интересно, как вообще, каким образом, ты с детства увлекалась вулканами или что, как можно начать это делать? Не то, что начать, откуда это?

Полина Полунина:

На самом деле, всё довольно логично получилось. Дело было так. Училась я в магистратуре у Евгения Владимировича Бурнаева, и нужно было делать диплом. Выбор темы диплома начинается в Сколтехе ещё летом первого курса, а возможно, сейчас, кстати, насколько я знаю, даже раньше. Практически через два месяца после поступления ребята начинают стимулировать, определяться со своей будущей областью разработок. Так получилось, что как раз летом я участвовала в конкурсе одном международном от испанской компании в Data Science, я его выиграла. Меня позвали на стажировку. Пока я была у них на стажировке, мне предложили делать совместный диплом. Я сказала об этом Евгению Владимировичу, он согласился и мы начали что-то вместе делать.

Саркис Григорян:

То есть какой-то испанский учёный.

Полина Полунина:

Да, там там был свой куратор в этой компании, у которого степень PHD, была я и был мой научный руководитель здесь. И мы на троих хотели сделать кластеризацию данных с ветряных электростанций. Но как это у меня часто бывают в жизни происходит что-то неожиданное, и оно произошло. В общем компания, оттуда ушёл CEO, а за ним через 2 месяца ушёл и мой куратор. Время конец января, февраль, до диплома остаётся до защиты пару месяцев. Чтобы вы понимали, в Сколтехе февраль, это обычно когда всё уже сделано у всех, просто такое требование, если не сделано, то ты просто не защищаешься и идёшь гулять. А у меня, получается, ничего нет. Что-то есть, но защищаться определённо не с чем. И мне Евгений Владимирович говорит: ну, Полина, я вас предупреждал, смотрите, какие у меня темы остались. Естественно, что все самые интересные с картинками, с какими-то данными, они уже были разобраны на этот момент, появились вулканы. Я думаю, капец, вулканы, я в них ничего не понимаю от слова совсем, то есть вообще никак. Интересно ли мне это? Нет. Из того, что оставалось, это была плюс-минус более-менее интересная тема. Мы встретились с соруководителем по диплому, я посмотрела, что там за данные, оказалось, что вполне себе интересная такая задача. Я за неё взялась, и чем больше я начала об этом читать, тем больше мне стало нравиться. А потом я поняла, о чем вообще речь идёт. Есть определённый тип внутривулканических землетрясений, который был открыт в 70-е годы. А в 90-м году первый раз накопилась достаточная статистическая база, чтобы скомпоновать это в одну хорошую статью. Человек, первооткрыватель этого типа землетрясений в Nature опубликовался в девяностых. Что происходит. Есть под вулканами магматический резервуар, естественно, я тогда этого не знала, это сейчас я уже в курсе. Есть магматический резервуар. Перед тем как вулкан просыпается, или он может быть уже проснувшимся, просто ещё не было каких-то извержений, магма начинает двигаться к поверхности, всё выше и выше. Она двигается по таким узеньким проходам. И дальше в каждом проходе есть какое-то более узкое место. И дальше магма или пары воды, или просто горячая вода, она начинает двигаться наверх, в этом узком месте накапливаются потенциалы и происходит землетрясение. И получается, что раз это в одном и том же месте, на самом деле, таких источников много, то сигнал похож даже визуально. И когда ты смотришь глазами в эти данные, можно увидеть очень много похожих друг на друга сигналов разных типов. Сколько типов, столько и источников, если в моменте смотреть. Если в динамике, может быть ещё деформация источников, эти сигналы меняются. И получается, что как только количество вот этих землетрясений увеличивается, можно ожидать, что в скором времени будет извержение. Но мы не можем сказать, когда конкретно, может быть, это будет через 4 часа, а может быть, это будет через неделю. Мы не можем сказать, с какой силой произойдёт это извержение. Это как раз такая область для исследований сейчас. Будет ли извержение, если определённый тип землетрясений появился? Да, точно будет, но когда непонятно и с какой силой. Решаем мы задачу в целом глобальную, это оповестить население вовремя. Ну и получается, что если мы оповещением население. К чему это я, это я к тому, что здесь стоимость ошибок первого и второго рода, она не одинаковая. Разная по смыслу и по стоимости тоже, и это нужно учитывать при разработках. Какие тут есть ещё моменты. В моей предыдущей работе я показывала постер на самой, наверное, большой конференции по геофизике, она в США проходит раз в год, что мы там по данным поняли. На самом деле, когда количество вот этих землетрясений увеличивается, это, на самом деле, ещё не говорит о близости извержения. Конечно говорит, но косвенно. На самом деле, это говорит о том, что у вулкана поменялся режим, то есть он перешёл в такую активную стадию подготовки. А потом, дальше перед самим извержением количество этих землетрясений падает, но увеличивается количество типов этих землетрясений, то есть количество источников. Магма движется всё выше, и там ближе к поверхности вот этих узких мест получается гораздо больше. И когда количество землетрясений падает, а количество источников увеличивается, тогда можно ожидать, что действительно в скором времени произойдёт извержение. Какие тут дальнейшие шаги. Нужно проанализировать как можно больше данных с одного вулкана, нужно проанализировать данные с разных вулканов и собрать это всё в одну картину и систематизировать, чтобы увидеть какие-то чёткие правила. Вот мы смотрим сейчас на один вулкан за весь период глубины данных, что у нас есть. В одном вулкане мы что-то уже можем сказать плюс-минус. Можем ли мы это обобщить на другие вулканы, пока непонятно. С доступностью данных тоже есть проблемы, потому что, по сути, владельцы этих данных, это такие главы лабораторий у себя на местах. Просто так у них получить данные не получится. То есть приходится ездить по конференциям, знакомиться, рассказывать, чем ты занимаешься, и тогда в коллаборации уже что-то делать.

Саркис Григорян:

Какого вида там данные, что именно замеряют?

Полина Полунина:

Я поняла. Есть вулкан, вокруг него ставятся датчики, акселерометры, которые меряют скорость движения земной поверхности. Записывается три компонента, одна вертикальная, две горизонтальные.

Саркис Григорян:

То есть всего лишь вот так, никаких там.

Полина Полунина:

Да, и землетрясения, о которых идёт речь, они настолько мелкие, что ты, стоя рядом на вулкане, ты их не почувствуешь ни за что. Датчики, они их фиксируют. И конечно, там есть проблема, отделить сигналы от уровня шума. Но это в целом довольно хорошо получается.

Саркис Григорян:

У нас ещё кто-то такие работы ведутся? Я правильно понимаю, что в основном такие работы ведутся там, где важно учитывать сейсмическую активность, например, Япония.

Полина Полунина:

Давайте так, важно везде, потому что мы не знаем, когда тот или иной вулкан проснётся. Когда он просыпается, каких-то внешних сигналов может и не быть. Там внутри что-то происходит, в том числе, вот эти землетрясения, которое никто не чувствует, без наблюдения ты никак не заметишь. Может проснуться вулкан, который спал 100 лет, 200 может больше. Вдруг происходит огромное извержение с жертвами и всё. Даже если чисто визуально наблюдать за вулканом, а это до сих пор один из передовых считается методов, просто визуальное наблюдение, что происходит.

Саркис Григорян:

Со спутника или просто?

Полина Полунина:

Не смейтесь, и так, и так.

Саркис Григорян:

Сходи, посмотри, что там с вулканом.

Полина Полунина:

Примерно так. В бинокль. И отчёты выглядят следующим образом. Вулкан такой-то, день такой-то, с такого-то часа по такой-то вулкан закрыт облаками. Происходит что-то или нет, хз, но мы записали это в отчет. Это без шуток, такие отчёты действительно есть. Возвращаясь к тому, о чем мы говорили. О чем мы кстати говорили?

Саркис Григорян:

Про вулканы мы продолжаем.

Полина Полунина:

Это я помню. Был какой-то конкретный вопрос.

Саркис Григорян:

Я спросил про данные.

Полина Полунина:

Про данные я ответила.

Саркис Григорян:

Мы выяснили, какие данные и где. Я говорил где в основном центры.

Полина Полунина:

Где изучаются. Вообще по всему миру есть. В районе скопления вулканов или где один вулкан, есть свой университет или на базе какого-то университета, есть лаборатория, которая занимается мониторингом сейсмической активности вот этого вулкана. Это происходит на постоянной основе. Другой вопрос, какие технологии они используют. У нас, во Франции и в США, просто про Азию я практически ничего не знаю, знаю про эти три страны, технологии активно развиваются. Мы на базе Института физики Земли РАН внедряем систему мониторинга на базе машинного обучения, алгоритм, который я разработала. Есть алгоритм уже внедрённый во Франции, во французской лаборатории. Как раз мой научный руководитель сейчас в аспирантуре, это бывший глава всей сейсмологии вообще Франции. Он русский, он заканчивал физтех в своё время, потом он уехал и иногда возвращался, скажем так. У него есть коллаборация с нашим институтом физики Земли, с Камчатским университетом, и его можно считать, наверное, основным учёным, который занимается сейсмологией.

Саркис Григорян:

Но мы до сих пор не понимаю, почему вулканы просыпаются, в какой момент это происходит.

Полина Полунина:

Этого не понимаем, но научились что-то подмечать и где-то понимать, как это работает. Например, с этими мелкими землетрясениями, там, по сути, происходит такой эффект чайника что ли. Вот у вас чайник, представьте, самый обычный, с такой свистелкой, вода там начинает закипать, и в какой-то момент уже срывает свистелку, срывает крышку, всё закипело. Вот эти землетрясения, длиннопериодные называются, они по такому же принципу работают. Есть ещё другие типы, но с ними, в принципе, все понятно. Когда у тебя уже магма течёт по стенкам вулкана, происходит какой-то камнепад, сама магма, она вызывает внутри ещё дополнительные колебания. В общем, у нас осталось полторы минуты, поэтому я обо всём этом не расскажу. Но в общем и целом изучением именно вот этой внутривулканической активности занимается не так много людей, их буквально не больше, наверное, 15 по всей Европе, плюс США, плюс Россия, если не брать Азию.

Саркис Григорян:

То есть вы друг друга знаете все, грубо говоря.

Полина Полунина:

Да. И все сейчас смотрят именно в сторону автоматизации и методов машинного обучения. Потому что просматривать глазами или с помощью какого-то другого ПО, все вот эти сигналы, их, простите, чтобы вы просто понимали, за один день может быть легко 5000 таких землетрясений. И это всё обрабатывать руками практически нереально. То есть сейчас самые, если брать эту область, передовые разработки, это автоматизация, кластеризация землетрясений и какие-то сетки, которые будут тебе предсказывать определённый тип. А дальше это нужно будет всё систематизировать и как-то обобщить.

Саркис Григорян:

И бежать в случае чего от вулкана подальше. Прекрасно. Спасибо большое за интереснейший эфир, было очень интересно, надеюсь, увидимся в эфире.

Полина Полунина:

Вам спасибо большое.

Саркис Григорян:

Спасибо.