, 4 мин. на чтение

Почему вы должны меня знать: дата-саентистка в «Яндекс.Погоде» Евгения Елистратова

Много лет назад я и представить не могла, что свяжу жизнь с машинным обучением, да и такой профессии, как дата-саентист, не существовало.

Сейчас я работаю в «Яндекс.Погоде» и занимаюсь предсказанием движения дождя на карте осадков, а началось все с математики. После школы я поступила на мехмат МГУ на кафедру высшей алгебры, а на старших курсах параллельно обучалась в Школе анализа данных «Яндекса», где училась применять машинное обучение на практике.

Я не родилась математиком, можно сказать, что это вышло случайно. Я была отличницей, мне легко давалась учеба и нравилось, что называется, выбивать очки. Но каких-то особых предпочтений не было. Моя мама работала в банковской сфере, я подумала, что здорово быть финансовым аналитиком, и решила изучать математику. Выбрала мехмат как самый фундаментальный факультет, но была одна проблема — с десяти лет я жила на Кипре и училась в обычной общеобразовательной школе. Я боялась, что опоздала на этот праздник жизни, и почувствовала классический синдром самозванца, ведь на математический факультет поступают в основном дети из специализированных школ. Родители нашли мне репетитора, я начала усиленно готовиться и в процессе влюбилась в математику — оказалось, что она безмерно красива! С физикой помогал папа — он ученый и сейчас работает над квантовым суперкомпьютером. В итоге, несмотря на все опасения, я поступила.

Мехмат встретил большим количеством фундаментальной математики — красивой, но слишком абстрактной. Меня же тянуло к чему-то более прикладному: я искала баланс между абстрактной наукой и математикой, которую можно «пощупать». Поэтому выбрала кафедру высшей алгебры; там я могла заниматься как теоретическими задачами, так и вычислительной алгеброй, например базисами Гребнера. К тому же исторически на кафедре много преподавателей из «Яндекса», и я рассчитывала получить больше знаний о том, как применять математику в индустрии.

У нас был курс по машинному обучению, его вела Елена Бунина, профессор кафедры высшей алгебры и директор Школы анализа данных «Яндекса» (ШАД). Машинное обучение меня по-настоящему зацепило — я увидела в нем возможность приложить абстрактную науку к бизнес-задачам. Меня завораживало, сколько всего можно сделать с помощью математики и кода, и хотела этому научиться. Навыков программирования, полученных в университете, не хватало, и я пошла за ними в ШАД.

Учеба шла сложно, но интересно. ШАД дает серьезное погружение в машинное обучение и computer science в целом: мы изучали алгоритмы и структуры данных (один из моих самых любимых курсов!), нейронные сети и их применение в компьютерном зрении и обработке естественного языка (NLP). В то же время мы очень много программировали — постоянно что-то писали, пробовали и экспериментировали. Однажды обучали драться каратиста в игре на Atari: сначала он ничего не умеет, но ты пишешь код, применяешь разные модели и методы ML, и вот он уже мастерски дерется. Это приводило меня в восторг! В разработке на Python я тоже сильно продвинулась: язык только кажется простым, но помимо базы нужно уметь грамотно использовать библиотеки, чтобы написанный код работал корректно и быстро. Мне кажется, что в этом и есть смысл обучения в ШАД: ты пробуешь, ошибаешься и переписываешь, постоянно консультируешься с одногруппниками и менторами и в итоге круто прокачиваешься. За два года в Школе анализа данных я практически с нуля научилась писать код и выросла до уровня middle-разработчика.

В МГУ меня научили не бояться страшных математических формул, а в Школе анализа данных я поняла, как и куда применять абстрактную научную базу. Пазл сложился: когда я писала диплом, мне пригодились знания, полученные как на мехмате, так и в ШАД. Я работала над модификацией метода векторного представления слов Word2Vec, и по мотивам моего диплома мы с научным руководителем подали статью на ACL — одну из ведущих международных конференций в области обработки естественного языка. Это, конечно, для любого исследователя большой шаг, а для выпускника вуза — колоссальный.

После учебы я успела поработать и в крупной компании, и в стартапе — занималась задачей прогнозирования временных рядов и обучала бота понимать голосовые запросы. Но мечтала я о «Яндексе». Меня манило разнообразие задач и сервисов, возможности применения машинного обучения на огромных мощностях и массивах данных и, конечно, люди — многие, с кем я сблизилась во время учебы на мехмате и в ШАД, сейчас работают в «Яндексе».

Так я и оказалась в «Яндекс.Погоде» и чувствую здесь себя как дома. Я занимаюсь предсказанием движения и поведения осадков методами машинного обучения.

Для «Яндекс.Погоды» мы разработали собственную технологию Meteum 2.0, которая строит прогнозы на основе данных с радаров и спутников, метеорологических моделей и сообщений пользователей. Мы берем данные из пяти разных метеомоделей, включая нашу собственную, и обрабатываем их с помощью машинного обучения. Алгоритмы находят закономерности, выявляют ошибки в исходных моделях и строят предсказания. Чтобы получить более точный прогноз, мы добавляем в обучение дополнительные параметры: например, геопозицию пользователя, высоту солнца над горизонтом и удаленность от водоема. Но самое крутое в Meteum то, что мы используем в предсказаниях сообщения пользователей об осадках. Это уникальная история, у которой нет аналогов в мире.

Все, чему я училась в ШАД, в итоге пригодилось в работе — я обращалась чуть ли не к каждому пройденному курсу. Это для меня показатель того, насколько обучение отражает реальность. Я в каком-то смысле тоже внесла свой вклад в программу школы, поучаствовав в написании шести глав для учебника по машинному обучению. Но я продолжаю учиться и сегодня. Работа дата-саентиста во многом исследовательская — нужно экспериментировать и пробовать новые методы. К тому же в этой области все очень быстро меняется: в 2016 году было одно качество машинного перевода и генерации текста, а сейчас — совсем другое. Поэтому важно следить за тем, что делают коллеги, калибровать свою работу, взаимодействовать с научными группами и выступать в качестве ментора для других. Хотя все это, конечно, актуально для любого специалиста, который хочет развиваться, а не только для дата-саентиста.

Фото: пресс-служба компании «Яндекс.Погода»