0 просмотров
Рейтинг статьи
1 звезда2 звезды3 звезды4 звезды5 звезд
Загрузка...

Новые профессии: Data Science

Содержание

Новые профессии: Data Science

25 августа 2019

Get rich or die

На рынке трудоустройства сегодня сложилась довольно неоднозначная ситуация: с одной стороны, появились десятки новых профессий, с другой – обычному человеку невероятно сложно разобраться во всем этом многообразии. При этом на протяжении нескольких лет продолжает сохраняться одна тенденция – во всем мире (и в России в частности) экспоненциальными темпами растет спрос на IT-специалистов – и в последующие годы этот спрос будет только расти. Такая востребованность вызвана глобализацией современного мира и низким процентом квалифицированных сотрудников, обладающих необходимыми знаниями.

В то же время, работодатели понимают, что в ближайшем будущем людей, выполняющих монотонную работу, не требующую каких-либо специальных навыков (таксисты, грузчики, операторы call-центров и пр.), заменят роботы и нейросети, а опытные сотрудники все также останутся в цене. Стоит также отметить, что бум популярности гуманитарных профессий, наблюдавшийся 10-15 лет назад породил огромное количество юристов, экономистов, лингвистов и психологов, которые сейчас остаются без работы ввиду переизбытка подобных соискателей. Тем временем, все вышеописанные проблемы ни в коей мере не касаются программистов, веб-дизайнеров, ИИ-девелоперов и прочих IT-специалистов.

Небольшое предисловие

Сегодня мы расскажем вам о Data Science, вернее о том, как начать работать в данной области, где приобрести первые знания и какие перспективы сулят тем, кто выберет этот путь. Прежде всего, стоит определиться с самим понятием Data Science – это наука о данных, если точнее, это раздел информатики занимающийся анализом, обработкой и представлением в цифровой форме больших объемов данных. Кстати, о Больших Данных: при изучении Data Science вы непременно познакомитесь с big data – если вкратце, то чаще всего это понятие подразумевает данные о действиях, совершаемых пользователями на тех или иных сайтах. Например, каждый из вас, впервые попав на незнакомый сайт сталкивался с уведомлением о сборе cookie, хранящих историю вашей активности на конкретном ресурсе (какие страницы посещали, какие кнопки нажимали, где задерживались дольше всего и т.д.). А представьте, сколько таких данных остается после десятков/сотен тысяч или даже миллионов пользователей. И всю эту информацию необходимо систематизировать, визуализировать и вычленить самое интересное.

Для этого существует профессия Data Scientist – эксперт по аналитическим данным, обладающий техническими навыками для решения сложных задач, а также энтузиазмом, позволяющим такие задачи ставить. От Data Scientist требуется знание и понимание принципов работы нейросетей, методов статистического анализа данных, умение построения математических моделей и способность быстро находить закономерности.

Как стать Data Scientist?

Здесь есть два варианта: медленный, но относительно легкий либо быстрый, но более сложный для восприятия. Первый кейс больше подойдет юным абитуриентам, заканчивающим школу: здесь вам придется потратить несколько лет своей жизни получение соответствующего высшего образования в Университете Иннополиса, МГУ им. Ломоносова (Факультет вычислительной математики и кибернетики), МФТИ (Кафедра анализа данных) или НИУ ВШЭ (Факультет бизнес-информатики); если же говорить о зарубежных ВУЗах, то среди них лучшими по подготовке Data Science-специалистов считаются Оклендский университет, университет Южной Калифорнии, Вашингтонский университет, Бизнес-школа имперского колледжа Лондона и университет Данди.

Во втором случае, проще будет зрелым людям, решившим изменить направление своей карьеры в максимально сжатые сроки. Речь об онлайн-курсах, дающих возможность за 5-7 месяцев получить неплохие знания по Data Science, достаточные для того, чтобы практически сразу по завершении курса найти первую работу по новой специальности.

В мире онлайн-образования также существуют два пути: можно пытаться самостоятельно искать необходимые учебные материалы в Сети безо всякой программы и возможности посоветоваться с кем-то уже работающим Data Scientist, либо не тратить время на поиск релевантной информации и воспользоваться услугами платных образовательных ресурсов, которые за разумные деньги предоставят вам комплексные упорядоченные знания, обязательные для каждого хорошего специалиста по работе с Big Data. Помимо того, вы вольетесь в закрытое комьюнити единомышленников, готовых поделиться опытом и подсказать что делать при возникновении каких-либо сложностей.

На большинстве платных курсов набор преподаваемых технологий мало чем отличается друг от друга, благодаря чему любой потенциальный студент гарантированно освоит:

  • Сведение и чистку данных
  • Создание аналитических и эконометрических моделей
  • Работу в Google Colab
  • Deep Learning и построение нейросетей
  • Программирование на Python и знание основных библиотек этого языка
  • Трудоустройство: с чего начать и куда идти

Впрочем, некоторые образовательные учреждения выгодно отличаются на фоне конкурентов за счет более высокого уровня преподаваемых знаний и отличной практической составляющей. И даже среди них не каждое может дать полное профильное образование по специальности Data Scientist, пожалуй, исключением является онлайн-школа SkillFactory с направление «Специализация Data Scientist», где среди основных направлений можно выбрать специализацию, идеально подходящую именно вам. В SkillFactory регулярно запускают новые учебные программы, и студенты могут выбрать среди таких направлений обучения как:

  • Data Science. Здесь вам в понятной форме объяснят все вещи, о которых мы говорили выше, а именно — Python, классическое машинное обучение, нейросети и Deep Learning, основы Big Data и Data Engineering, причем основной упор будет сделан именно на реальные практические навыки, а также позволит к концу обучения собрать внушительный Git-репозиторий, который будет не стыдно продемонстрировать будущему работодателю.
  • Machine Learning. Курс ведут опытные преподаватели, не один год проработавшие в крупных корпорациях. Одним из главных преимуществ направления Machine Learning от SkillFactory является тщательно оптимизированная программа, включающая только необходимые знания, которые можно освоить за 11 недель.
  • Big Data MBA. Интересный факт – в 2019 году 92% компаний из списка Fortune 1000 значительно увеличат инвестиции в Big Data и AI, поскольку умение использовать эти технологии в бизнес-целях все больше влияет на успех любого крупного предприятия. На курсе Big Data MBA студенты научатся понимать алгоритмы работы машинного обучения, получат объем знаний, достаточный для того, чтобы самостоятельно от начала и до конца сформировать Big Data-стратегию, а также пройдут 85-бизнес кейсов и лично выполнят 3 проекта.
  • Аналитик данных. Человек, умеющий извлекать пользу из большого количества хаотично упорядоченных данных, сегодня востребован в буквально любой сфере бизнеса. Начинающий аналитик должен быть готов в сжатые сроки освоить SQL, статистику, Python, Google Таблицы и прочие musthave-инструменты этой специальности. В онлайн-школе SkillFactory за 6 месяцев дадут новичкам все знания, необходимые для успешного старта карьеры аналитика, а уже работающим профессионалам помогут до совершенства отточить имеющиеся навыки.
  • Нейронные сети. Если вас интересуют нейросети, и вы хотели бы более глубоко внедриться в эту тему, то на курсе, посвященном нейронным сетям можно узнать как работает Deep Learning, овладеть основными библиотеками для Deep Learning (Tensor Flow, Kevas и пр.), создать свою первую нейросеть для распознавания рукописных цифр, и даже поработать над реальными проектами, среди которых будут разработка чат-бота, создание модели для распознавания лиц и генерации несуществующих лиц.

Как бы не были хороши платные курсы, сперва лучше попробовать свои силы на бесплатных ресурсах – а уж если почувствуете, что тема Data Science вас действительно заинтересовала и хочется чего-то большего, можно вкладываться в дальнейшее обучение. Из бесплатных курсов можем порекомендовать следующие:

  • A crash course in Data Science от Coursera познакомит с базовыми принципами работы с Большими данными, расскажет о базовых понятиях и роли Data Science в бизнесе, не углубляясь в дебри терминологии.
  • StepiK Contest. Data Science примечателен своим умением адаптироваться под знания каждого отдельного студента.
  • Data Science Essentials может похвастаться большим количеством информации, полезной не столько новичкам, сколько тем, кто уже находится в процессе освоения новой профессии. К примеру, на этом курсе учат как собирать данные, подготавливать массивы к обработке, извлекать из них самое важное и визуализировать результаты.
  • Data Scientist’s Toolbox также создан авторами Coursera и является не теоретическим, а практическом курсом, который поможет новичку разобраться с типами данных и методологиями обработки информации, а также объяснит, как пользоваться самыми популярными инструментами: Git, R и Rstudio.
  • Building a Data Science team расскажет, как собрать команду для аналитики больших данных, где и по каким критериям искать хороших специалистов и как правильно распределить роли в команде для максимально продуктивной работы.

Работа на должности Data Scientist привлекательна и тем, что технологии обработки Больших Данных широко применяются не только в IT-индустрии, но и в финансовых структурах, телекомпаниях, крупных торговых сетях, избирательных кампаниях. Россия является одним из мировых лидеров по количеству свободных вакансий для “цифровых” профессионалов. Так, с 2012 спрос на Data Scientist вырос в 20(!) раз, а об острой нехватке таких людей открыто заявляют крупнейшие отечественные и западные корпорации, среди которых Альфа-Банк, Wargaming, Сбербанк, Mail.ru Group, Home credit Bank, Nvidia, e-legion, Beeline, Мегафон и многие другие.

Оплата

Как мы уже говорили ранее, Data Scientist – одна из самых востребованных профессий в IT. Соответственно, и уровень оплаты труда у подобных специалистов на голову выше, чем у их коллег из смежных областей. Если говорить о Москве, то столичный уровень зарплат Data Scientist составляет 70 000 – 80 000 рублей в месяц для начинающих специалистов и до 300 тысяч у опытных профессионалов, имеющих за плечами 5+ лет работы с Big Data. В регионах, как правило, зарплаты на 20-25% ниже, но спрос на квалифицированные кадры столь же высок, поэтому грамотный Data Scientist не останется без работы, где бы он не находился. Если говорить о зарубежных IT-компаниях, то средняя зарплата американского Data Scientist равна 91$ тысяче в год.

Читать еще:  Программа для обучения tesseract. Tesseract-Ocr в Visual Studio - распознаем страницу текста. Что нам нужно

Вывод

Data Science – относительно молодая профессия (сам термин возник в 2008) и хороших специалистов в ней очень немного. При этом, в ближайшие годы каждый Data Scientist будет цениться на вес золота. Почему? Все просто: во-первых, растет сам объем Интернета, количество активных пользователей и генерируемых ими данных – сейчас из 7.5 млрд человек доступ в Интернет имеют менее половины, представьте, что начнется, когда с распространением 5G и спутникового Интернета доступ к Сети получат жители Африки, Индии, Азии и прочих развивающихся стран. Во-вторых, тот, кто начнет учиться сегодня, через пару лет будет обладать существенным багажом знаний, способных затмить любого зеленого новичка. Поэтому вывод может быть только один – начинайте учиться Data Science прямо сейчас, чтобы не “остаться за бортом” в будущем. Если мы до сих пор вас не убедили, то не поленитесь и прочитайте статью о том, как даже 70-летние пенсионеры несмотря на свой возраст успешно учатся программированию.

Кто такой Data Scientist и чем занимается

Кто такой Data Scientist? Это специалист, работающий в новой развивающейся области Data Science, который занимается анализом данных, постройкой на их основе моделей, помогающие принятию решений в различных отраслях (бизнес, наука, повседневная жизнь).

Ему подвластны неструктурированные массивы информации в различных сферах деятельности: от анализа элементарных частиц в экспериментальных исследованиях до оценки финансовой ситуации в определенный период.

Результатом работы Data Scientist служат информационные модели, которые выдают пользователю погоду на определенный период времени в месте его жительства, показывают места загруженности дорог, насколько популярен товар и есть ли на него спрос, анализируют запрос по кредиту, рекомендуют книги, которые могут понравиться, фильмы, музыкальные треки.

Data Science – применяет научные методы при обработке информационных данных для нахождения нужного решения. Это своего рода научное исследование, которое проводит ученый, проводя сначала эксперименты, затем анализируя полученные данные и делая на их основе выводы.

Также действует и Датасаентист который обрабатывает полученную информацию, применяя современные программы для анализа, математические расчеты, инструменты для визуализации для получения результата.

Измерить, подстроить мир для удобства пользователей с применением научных данных для расшифровки огромного объема информации, реструктуризации их, применения для решения определенных задач – основная задача специалиста Data Scientist.

Что делает Data Scientist

Основные задачи:

  • Собирает, реструктурирует большой (в некоторых случаях, огромный!) объем информации;
  • Решает различные бизнес задачи с использованием данных;
  • Работает со статистическими данными, проводит их анализ;
  • Работает с машинным обучением, проводит текстовую аналитику, визуализацию информации.
  • Решает много других разнообразных задач, приводя, объединяя хаотичные данные, упорядочивая их.

Для выполнения большинства задач, стоящих перед Data Scientist, необходим навык программирования с использованием языка запросов SQL. Несмотря на то что NoSQL и Hadoop также являются важной частью Data Science, SQL -базы по-прежнему остается основным способом хранения данных. Data Scientist должен уметь производить сложные запросы в SQL.

Data Scientist также занимаются подготовкой данных к анализу. Часто данные в бизнес-проектах не структурированы (видео, изображения, твиты) и не готовы для анализа. Крайне важно понимать и знать, как подготовить базу данных для получения желаемых результатов без потери информации. На этапе разведочного анализа данных (EDA) становится ясным, какие проблемы с данными необходимо решить и как нужно преобразовать базу данных для построения аналитических моделей.

  • Data Science Methodology. Data Preparation (англ.)
  • Exploratory Data Analysis (англ.)

Источник

Data Scientist — профессия мечты для продвинутого энтузиаста

Многие из нас уже имеют профессию, либо же получают образование в «околоэкономической» сфере, но считают текущий профессиональный выбор ошибочным и не совсем подходящим под собственные предпочтения и актуальные тренды, так как увлекаются информационными технологиями и трезво смотрят в будущее, видя повышенный спрос на специалистов в сфере IT. Согласитесь, что любой из нас хотел бы добавить в свою имеющуюся профессию чуть больше новаторства, чуть больше актуальности в будущем и востребованности на рынке труда. Ну и, естественно, заработная плата в 2000 долларов США и перспектива работать заграницей были бы неплохим дополнением к так называемой «профессии мечты».

реклама

Но действительно ли это «профессия мечты» или вполне реальная специальность, освоить которую по силам практически любому человеку, который что-то помнит из школьной программы базовой алгебры и имеет представление о математической статистике? На самом деле, стать «Data Scientist’ом», а если говорить по-русски, то «исследователем данных», может любой человек, имеющий математический склад ума и/или желание изучать программирование, информатику, математическую статистику и вообще работать в области информационных технологий.

Итак, многие, не прочитав данную статью до конца, уже начнут «гуглить», что же такое «Data Science» и что из себя представляет профессия Data Scientist и придут к ложному выводу о том, что Data Scientist – это тот же аналитик, следовательно, «менять шило на мыло, переобучаться на такого же офисного планктона не имеет смысла». Но давайте же разберемся, в чем отличие профессионала в области Data Science от простого аналитика «старой школы», навыки которого уже изрядно устарели, чтобы оставаться эффективным профессионалом в век информации.

реклама

реклама

Сравнительный анализ, представленный в таблице, наглядно демонстрирует, что между простым аналитиком с базовым багажом знаний и Data Scientist’ом такая же разница, как между клерком-исполнителем, работающим на начальника, и прогрессивным создателем-энтузиастом, которому никто не указывает следовать заезженным и скучным стандартам.

Однако, если вы не относите себя к энтузиастам и прогрессивным пользователям ПК и хотели бы подтянуть свои знания в области традиционной аналитики данных, чтобы соответствовать профессиональным трендам и сохранить свою актуальность на рынке труда на долгие годы вперед, профессиональные преподаватели онлайн-школы «SkillFactory» помогут вам развить аналитическое мышление, освоить новые компетенции и овладеть передовыми методиками, необходимыми для того, чтобы стать ценным сотрудником для любого работодателя.

реклама

Все же, если вас переполняет интерес к профессии «исследователя данных», и вы считаете, что она отлично подходит вам, то обратите внимание на схему, отображающую типичный рабочий день Data Scientist’а:

А теперь вспомните, какие функциональные обязанности возложены на вас в офисе, или поинтересуйтесь у знакомого аналитика, чем занимается он в течение рабочего дня.

В 2020 году Data Scientist чувствует себя лучше всех не только на российском рынке труда, но и на мировом. Действительно, это одна из самых востребованных профессий в век информации и высоких технологий. И, скорее всего, за ближайшие 5-10 лет профессионал Data Scientist полностью вытеснит аналитика «старой школы», навыки которого больше не могут соответствовать актуальным трендам, оставив его навсегда в прошлом, в след за тем, как российское и мировое общество наконец перейдет с индустриального этапа на постиндустриальный или же информационный этап развития.

Как мы можем наблюдать, уже сейчас самые передовые отечественные компании открывают вакансии Data Scientist и предлагают просто отличные деньги за приличную и интеллектуальную работу, позволяющую по-настоящему получать удовольствие от жизни и той деятельности, которой вы занимаетесь.

Но, если вы до сих пор заинтересованы в профессии Data Scientist, раз дочитали до данного абзаца, и готовы изменить свою жизнь к лучшему, то сейчас вы получите ответ на самый главный вопрос – где же обучиться данной профессии и, самое главное, получить достойное образование качественно и эффективно? Ответ прост – зарекомендовавшая себя онлайн-школа по работе с данными «SkillFactory», которая начинает обучение молодых и продвинутых профессионалов по программе Data Science и, если вы успеете забронировать для себя курс до 30 июня, то вам он обойдется на 50% дешевле. Инвестиции в образование являются одним из самых разумных путей вложения денег и, начав свой путь профессионала прямо сейчас, вы сможете немного сэкономить и уже в следующем году обрести профессию мечты и выйти на местный рынок труда как продвинутый специалист в Data Science.

Что же из себя представляет процесс обучения по специальности Data Scientist в онлайн-школе «SkillFactory»? «SkillFactory» отличаются тем, что следуют принципам гуманизма в обучении и находят индивидуальный подход к своим студентам, ведь на курсе имеется персональный наставник, способный проконсультировать обучающегося по любому вопросу. Для того, чтобы освоить профессию Data Scientist на уровне Junior, вам потребуется пройти курс, длительность которого составляет всего два семестра (1 год обучения). В течение первого курса вы уже научитесь работать с базами данных, откроете для себя мир операционной системы Linux, освоите математическую статистику, язык программирования Python, классику моделей машинного обучения и многое другое.

По окончании программы обучения вас ждет ценный сертификат от «SkillFactory», и, что самое важное, вы овладеете всеми необходимыми Data Scientist’у компетенциями и освоите множество инструментов, необходимых в профессиональной деятельности.

Измените свою жизнь здесь и сейчас, освоив профессию мечты уже сегодня!

Бесшовная смена профессии

Получение новой специальности — сложная и энергозатратная задача. В онлайн-школе Skillfactory с этим согласны, поэтому максимально поддерживают учеников во время обучения. Курс включает выполнение практических заданий и получение обратной связи от экспертов. Преподаватели — практикующие специалисты. Среди них есть старший разработчик «Яндекс.Дзена», инженер по направлению Deep Learning из NVIDIA и глава отдела R&D компании EORA.

По любым рабочим вопросам доступно общение 24/7 в групповом чате. Наконец, группу сопровождает не только учителя, но и тьютор, а также целый карьерный центр, готовый помочь оформить резюме, подобрать вакансии для отклика и подготовиться к собеседованиям. По промокоду 4PDA школа предлагает забронировать место со скидкой 50%, сделать это можно до 10 августа.

Читать еще:  Скачать программу для прошивания андроида. Как работает программа для прошивки андроида через пк. Что делать, если телефон не запускается после прошивки

Обучение на Data Scientist-а (Образование)

Профессию Data Scientist в России можно получить и совершенствовать по специальным программам дополнительного образования, организуемым компаниями, которые занимаются исследованиями в этой сфере.

Курсы

Как и в любой профессии здесь важно самообразование, несомненную пользу которому принесут такие ресурсы, как:

  • онлайн-курсы ведущих университетов мира COURSERA;
  • канал машинного обучения MASHIN LEARNING;
  • подборка курсов edX;
  • курсы Udacity;
  • курсы Dataquest, на которых можно стать настоящим профи в Data Science;
  • 6-шаговые курсы Datacamp;
  • обучающие видео O’Reilly;
  • скринкасты для начинающих и продвинутых Data Origami;
  • ежеквартальная конференция специалистов Moskow Data Scients Meetup;
  • соревнования по анализу данных Kaggle.сom

Хочу стать дата-сайентистом. Что нужно делать? Эксперт отвечает на 13 главных вопросов

Data Sci­ence — одна из са­мых пер­спек­тив­ных и по­пу­ляр­ных сфер для сме­ны про­фес­сии и до­пол­ни­тель­но­го об­ра­зо­ва­ния. По дан­ным Cours­era Global Skills In­dex Рос­сия за­ня­ла пер­вое ме­сто в мире по ком­пе­тен­ци­ям в этой об­ла­сти. Если вы тоже хо­ти­те при­об­щить­ся к миру дан­ных, но не зна­е­те, с чего на­чать, «Цех» сов­мест­но с экс­пер­том он­лайн-шко­лы Skill­fac­tory Ана­ста­си­ей Мак­си­мов­ской со­ста­вил по­дроб­ный Data Sci­ence-гид.

Что та­кое Data Sci­ence

Data Sci­ence — это на­у­ка о том, как ра­бо­тать с боль­ши­ми дан­ны­ми, ана­ли­зи­ро­вать их и на­хо­дить по­лез­ные вза­и­мо­свя­зи, ко­то­рые по­том мож­но ис­поль­зо­вать для са­мых раз­ных за­дач.

Се­го­дня Data Sci­ence ис­поль­зу­ют прак­ти­че­ски вез­де. Са­мый про­стой при­мер — он­лайн-мар­ке­ты вро­де «Беру» или Ozon: ма­га­зи­ны со­ве­ту­ет нам, что ку­пить, ана­ли­зи­руя наши преды­ду­щие по­куп­ки или про­смот­ры. Так же ра­бо­та­ют плей­ли­сты на Spo­tify или «Ян­декс. Му­зы­ке». Еще один ва­ри­ант — по­иск по кар­тин­ке: если де­вуш­ка уви­де­ла где-то класс­ные туфли, она мо­жет сфо­то­гра­фи­ро­вать их и за­гру­зить сни­мок в по­ис­ко­вик. Ком­пью­тер­ное зре­ние рас­по­зна­ет объ­ект и пред­ло­жит по­хо­жие ва­ри­ан­ты.

Недав­но я вы­зва­ла так­си с ра­бо­ты, и мне пред­ло­жи­ли ма­ши­ну с ожи­да­ни­ем 7 ми­нут. При этом на сто­ян­ке воз­ле офи­са было мно­го сво­бод­ных во­ди­те­лей. Поз­же я вы­яс­ни­ла, что в аг­ре­га­то­ре есть спе­ци­аль­ная про­грам­ма, ко­то­рая от­сле­жи­ва­ет, сколь­ко за­ка­зов при­нял так­сист. У мо­е­го во­ди­те­ля вы­зо­вов было мало, а я могу по­до­ждать 7 ми­нут — это вид­но из ис­то­рии за­ка­зов, по­это­му аг­ре­га­тор нас со­еди­нил. Все это было бы невоз­мож­но без Data Sci­ence-тех­но­ло­гий. Кста­ти, смеш­ные ви­део, где Оба­ма чи­та­ет рэп или ней­ро­сеть пи­шет му­зы­ку — тоже ра­бо­та дата-сай­ен­ти­стов.

Где мож­но ра­бо­тать

В Data Sci­ence, как и в дру­гих сфе­рах, есть раз­ные на­прав­ле­ния и спе­ци­аль­но­сти. Кто-то за­ни­ма­ет­ся ре­ко­мен­да­тель­ны­ми си­сте­ма­ми для Net­flix, кто-то — ком­пью­тер­ным зре­ни­ем для Google, а кто-то — ра­бо­той с тек­стом для он­лайн-пе­ре­вод­чи­ков. Ав­то­ма­ти­зи­ро­вать про­цес­сы мож­но по­чти вез­де, по­это­му дата-сай­ен­тист мо­жет ра­бо­тать в са­мых раз­ных ком­па­ни­ях.

Что кон­крет­но нуж­но уметь

Есть об­щий на­бор на­вы­ков, ко­то­ры­ми дол­жен об­ла­дать каж­дый дата-сай­ен­тист — шесть скил­лов и три про­грам­мы. Уже овла­дев ими, мож­но вы­брать ка­кое-то на­прав­ле­ние или спе­ци­а­ли­за­цию.

На­вы­ки:
1. Ра­бо­та с дан­ны­ми
2. Ви­зу­а­ли­за­ция дан­ных
3. Про­грам­ми­ро­ва­ние на Python
4. Тео­рия ве­ро­ят­но­стей и ма­те­ма­ти­че­ская ста­ти­сти­ка
5. Ма­шин­ное обу­че­ние
6. Глу­бо­кое обу­че­ние

Про­грам­мы:
1. Apache Spark
2. Hadoop
3. SQL

Обя­за­тель­но ли учить Python

Да, од­на­ко бо­ять­ся не сто­ит. Python — неслож­ный язык, в биб­лио­те­ках кода есть мно­го при­ме­ров для раз­ных за­дач. Его очень удоб­но ис­поль­зо­вать. К нам ча­сто при­хо­дят сту­ден­ты, ко­то­рые счи­та­ют себя гу­ма­ни­та­ри­я­ми, неспо­соб­ны­ми к про­грам­ми­ро­ва­нию, но с Python справ­ля­ют­ся все, тем бо­лее на ба­зо­вом уровне.

Бу­дет ли ну­жен ан­глий­ский

В Рос­сии мож­но ра­бо­тать в Data Sci­ence, не зная ан­глий­ский. С пе­ре­вод­чи­ком мож­но горы по­ко­рить. Од­на­ко на ан­глий­ском язы­ке вы­хо­дят клю­че­вые ста­тьи о но­вых мо­де­лях и ме­то­дах, по­это­му для об­нов­ле­ния зна­ний он ино­гда бу­дет ну­жен. Что ка­са­ет­ся про­грамм для ра­бо­ты, их ин­тер­фейс не слож­нее при­выч­но­го Mi­crosoft Word — даже на ан­глий­ском про­бле­мы вряд ли воз­ник­нут.

Сколь­ко мож­но за­ра­ба­ты­вать

Data Sci­ence — об­ласть вы­со­ких зар­плат­ных ожи­да­ний. На са­мом деле труд дата-сай­ен­ти­стов дей­стви­тель­но хо­ро­шо опла­чи­ва­ет­ся. На эта­пе ста­жи­ров­ки мож­но по­лу­чать 40-50 ты­сяч руб­лей, на по­зи­ции джу­ни­о­ра — от 60 до 120 ты­сяч, мид­лы мо­гут за­ра­ба­ты­вать до 180 ты­сяч руб­лей, а даль­ше циф­ры очень от­ли­ча­ют­ся в за­ви­си­мо­сти от го­ро­да или ком­па­нии.

Где и как мож­но учить­ся

Мно­гие люди хо­тят са­мо­сто­я­тель­но вой­ти в Data Sci­ence без бэк­гра­ун­да в ма­те­ма­ти­ке и про­грам­ми­ро­ва­нии. Это воз­мож­но, по­чти все ма­те­ри­а­лы мож­но са­мо­му най­ти в ин­тер­не­те. Од­на­ко без опы­та в этой сфе­ре очень тя­же­ло по­стро­ить про­грам­му обу­че­ния, ко­то­рая охва­тит все важ­ные эта­пы. Вы­сок риск, что ка­кие-то темы бу­дут упу­ще­ны, и это от­ра­зит­ся на по­ис­ке ра­бо­ты.

Если пой­ти по клас­си­че­ско­му пути, стать дата-сай­ен­ти­стом мож­но, окон­чив уни­вер­си­тет. Од­на­ко для взрос­лых лю­дей этот путь не под­хо­дит, по­то­му что сов­ме­щать уче­бу и пол­ный ра­бо­чий день по­лу­ча­ет­ся крайне ред­ко. Дру­гой ва­ри­ант — оч­ные и он­лайн-кур­сы, к вы­бо­ру ко­то­рых нуж­но от­но­сить­ся очень вни­ма­тель­но.

Пре­иму­ще­ство кур­са от Skill­fac­tory — прак­ти­ко­ори­ен­ти­ро­ван­ность. Мы ста­ра­ем­ся сде­лать про­грам­му мак­си­маль­но при­клад­ной, что­бы че­рез 12 ме­ся­цев за­ня­тий че­ло­век мог сра­зу вый­ти на стар­то­вую по­зи­цию дата-сай­ен­ти­ста. Сна­ча­ла мы учим Python, по­том ма­те­ма­ти­ку, ма­шин­ное обу­че­ние, глу­бо­кое обу­че­ние и ин­стру­мен­ты ра­бо­ты с боль­ши­ми дан­ны­ми.

Во вре­мя обу­че­ния наши сту­ден­ты вы­пол­ня­ют про­ек­ты, ко­то­рые при устрой­стве на ра­бо­ту смо­гут по­ка­зать как порт­фо­лио. К тому же у нас все­гда есть под­держ­ка мен­то­ров, ко­то­рые объ­яс­нят труд­ные мо­мен­ты и по­со­ве­ту­ют до­пол­ни­тель­ные ма­те­ри­а­лы по за­па­да­ю­щим те­мам. Ко­неч­но, от­вет на лю­бой во­прос мож­но най­ти в ин­тер­не­те, но ино­гда гуг­лить нуж­но по несколь­ку ча­сов, и мен­тор здо­ро­во эко­но­мит вре­мя.

Сколь­ко сто­ит обу­че­ние

Цены на уни­вер­си­тет­ские про­грам­мы по ра­бо­те с дан­ны­ми мо­гут до­хо­дить до по­лу­мил­ли­о­на руб­лей. Ко­неч­но, мож­но по­сту­пить на бюд­жет­ное ме­сто или осва­и­вать Data Sci­ence са­мо­сто­я­тель­но, с по­мо­щью бес­плат­ных кур­сов на Cours­era и дру­гих до­ступ­ных ма­те­ри­а­лов. Но во вто­ром ва­ри­ан­те нет че­ло­ве­че­ско­го кон­тро­ля и фид­бе­ка пре­по­да­ва­те­ля. Он­лайн-курс — от­лич­ная аль­тер­на­ти­ва: спра­вед­ли­вая цена и все необ­хо­ди­мые для ра­бо­ты зна­ния.

Где еще мож­но по­тре­ни­ро­вать­ся

Что­бы по­лу­чить еще боль­ше прак­ти­ки, мож­но зай­ти на Kag­gle — это плат­фор­ма, где про­хо­дят со­рев­но­ва­ния по ма­шин­но­му обу­че­нию. Ком­па­ния ста­вит дата-сай­ен­ти­стам за­да­чи, и тот, кто быст­рее и луч­ше ре­шит, — по­лу­ча­ет де­неж­ное воз­на­граж­де­ние и, воз­мож­но, ра­бо­ту. Плюс, Kag­gle очень хо­ро­шо от­ра­жа­ет по­треб­но­сти рын­ка и по­ка­зы­ва­ет, за что ком­па­нии го­то­вы пла­тить. Мы в Skill­fac­tory тоже про­во­дим та­кие со­рев­но­ва­ния, что­бы сту­ден­ты при­вы­ка­ли к ра­бо­че­му рит­му.

Что спро­сят при устрой­стве на ра­бо­ту

На эта­пе ре­зю­ме по­про­сят по­ка­зать порт­фо­лио: его мож­но сде­лать на про­грам­мист­ском пор­та­ле Github — он так­же под­хо­дит для дата-сай­ен­ти­стов. На са­мом со­бе­се­до­ва­нии будь­те го­то­вы к сле­ду­ю­щим во­про­сам:

  • SQL, или как пи­сать за­про­сы к боль­шим дан­ным: на­при­мер, я хочу вы­брать из таб­ли­цы толь­ко лю­дей стар­ше 1998 года рож­де­ния. Как это сде­лать?
  • Несколь­ко во­про­сов о ма­шин­ном и глу­бо­ком обу­че­нии: ка­кие есть мо­де­ли и мет­ри­ки, и как они ра­бо­та­ют?
  • Бэк­гра­унд: по­про­сят рас­ска­зать о про­шлых про­ек­тах.

Бо­ну­сом мо­гут до­ба­вить ма­те­ма­ти­че­скую за­дач­ку и во­про­сы по спе­ци­фи­ке ра­бо­ты. Мы в Skill­Fac­tory со­зда­ли свой ка­рьер­ный центр, спе­ци­а­ли­сты ко­то­ро­го по­мо­га­ют сту­ден­там под­го­то­вить ре­зю­ме, по­до­брать ва­кан­сии (от круп­ных ком­па­ний-парт­не­ров) и под­го­то­вить­ся к со­бе­се­до­ва­нию. А успеш­ным вы­пуск­ни­кам мы га­ран­ти­ру­ем тру­до­устрой­ство.

Что я буду де­лать каж­дый день

В ос­нов­ном ра­бо­тать за ком­пью­те­ром и хо­дить на ко­манд­ные пе­ре­го­во­ры. Data Sci­ence-за­да­чи вы­пол­ня­ют­ся при­мер­но по од­но­му сце­на­рию: ком­па­ния рас­ска­зы­ва­ет, что ей нуж­но по­лу­чить, от за­про­са биз­не­са нуж­но пе­рей­ти к ре­аль­ной по­ста­нов­ке за­да­чи на уровне ма­те­ма­ти­ки и ана­ли­за дан­ных. За­тем нуж­но со­брать и про­ана­ли­зи­ро­вать дан­ные, об­ра­бо­тать их и по­стро­ить мо­дель — ма­те­ма­ти­че­ский ал­го­ритм, ко­то­рый смо­жет ре­шить за­да­чу. Сле­ду­ю­щий этап — обу­че­ние мо­де­ли и оцен­ка ка­че­ства: нуж­но про­ве­рить, что все ста­биль­но ра­бо­та­ет на про­тя­же­нии дол­го­го вре­ме­ни. Толь­ко по­сле это­го мы внед­ря­ем мо­дель и за­кры­ва­ем про­ект. Над од­ной за­да­чей мож­но ра­бо­тать по­чти год — это до­воль­но дол­гий про­цесс.

Кому та­кая ра­бо­та по­дой­дет боль­ше все­го

К нам при­хо­дят люди из са­мых раз­ных сфер: ин­же­не­ры, по­ли­то­ло­ги, хи­ми­ки — и для всех на­хо­дят­ся ин­те­рес­ные за­да­чи, ко­то­рые как-то пе­ре­пле­та­ют­ся с их бэк­гра­ун­дом. Нель­зя за­ни­мать­ся Data Sci­ence в фи­нан­сах, если у тебя нет зна­ний в этой сфе­ре: ошиб­ка из-за незна­ния спе­ци­фи­ки мо­жет очень до­ро­го сто­ить. По­это­му всем сту­ден­там я даю одну ре­ко­мен­да­цию — бу­дет здо­ро­во, если они най­дут ра­бо­ту, ко­то­рая пе­ре­кли­ка­ет­ся с их преды­ду­щим опы­том.

Пер­спек­ти­вы про­фес­сии

Счи­та­ет­ся, что каж­дая но­вая тех­но­ло­гия про­хо­дит пять ос­нов­ных ста­дий: триг­гер-ин­но­ва­ция, пик раз­ду­тых ожи­да­ний, есте­ствен­ное па­де­ние, но­вое раз­ви­тие и пла­то. Data Sci­ence же сра­зу ста­ла ре­аль­но ра­бо­тать на биз­нес. Эта сфе­ра ак­тив­но раз­ви­ва­ет­ся и не со­би­ра­ет­ся сда­вать по­зи­ции. По­рог вхо­да в про­фес­сию по­сто­ян­но по­вы­ша­ет­ся, а за­дач ста­но­вит­ся все боль­ше.

Data Sci­ence мо­жет ре­шить мно­же­ство про­блем, сде­лать жизнь че­ло­ве­че­ства на­мно­го луч­ше и удоб­нее. Од­на­ко но­вич­кам нуж­но мо­раль­но под­го­то­вить­ся, что учить при­дет­ся до­воль­но мно­го. Зато по­том у вас бу­дет от­лич­ная про­фес­сия — с пер­спек­ти­ва­ми ро­ста и по­сто­ян­но­го раз­ви­тия.

Толь­ко по­лез­ные по­сты и сто­рис — в на­шем In­sta­gram

Новые профессии: Data Science

Умение работать с технологиями Big Data – редкий и ценный навык, открывающий перед вами перспективу стать супервостребованным и высокооплачиваемым специалистом.

О том, как приобщиться к этой профессии, рассказывает Александр Петров, CTO E-Contenta и руководитель математического курса GoTo Course.

«Самая привлекательная профессия»

Как написал несколько лет назад журнал Harvard Business Review: «Data Scientist — самая привлекательная профессия XXI века».

В статье рассказывалось о Джонатане Голдмане, физике из Стэнфорда, который устроившись на работу в социальную сеть LinkedIn, занялся чем-то странным и непонятным. Пока команда разработчиков ломает голову над тем, как модернизировать сайт и справиться с наплывом посетителей, Голдман строит прогностическую модель, которая подсказывает владельцу аккаунта LinkedIn, кто еще из пользователей сайта может оказаться его знакомым.

Убедив руководство LinkedIn опробовать его новую модель, Голдман приносит соцсети миллионы новых просмотров и значительно ускоряет ее рост.

С тех пор профессия Data Scientist не стала менее привлекательной, скорее наоборот. В 2016 году она возглавила рейтинг 25 лучших вакансий в США кадровой компании Glassdoor. Не будем подробно останавливаться на том, почему сегодня эта профессия считается одной из самых высокооплачиваемых, привлекательных и перспективных в мире. Отметим лишь, что число вакансий в этом направлении продолжает расти по экспоненте. Согласно прогнозам McKinsey Global Institute, к 2018 году в одних только США понадобится дополнительно порядка 140-190 тысяч специалистов по работе с данными.

Читать еще:  WinSxS: зачем папка нужна, и как уменьшить её размер?

В России потребность в специалистах по работе с данными тоже растет, хотя на рынке их по-прежнему немного.Неудивительно, что сегодня так много желающих освоить эту профессию. Давайте разберемся, кто же такой Data Scientist и какими навыками и знаниями он должен обладать.

Кто он, Data Scientist?

Вообще-то Data Scientist — профессия, окруженная разными мифами. В глазах одних Data Scientists — это подобие шаманов, способных из «больших данных добывать нефть», причем знаний в области бизнеса от них не требуется. Другие причисляют к этой профессии вообще почти любого программиста: умеешь программировать — умеешь работать с данными.

Мне ближе определение, которое дает специалист по биологической статистике Джеффри Лик из Университета Джонса Хопкинса. Data Scientist — это специалист, владеющий тремя группами навыков:

  1. IT-грамотность — программирование, придумывание и решение алгоритмических задач, владение софтом;
  2. Математические и статистические знания;
  3. Содержательный опыт в какой-то области — понимание бизнес-запросов своей организации или задач своей отрасли науки.

Причем вакансии, подразумевающие эту специализацию, могут называться по-разному. Среди самых популярных названий — аналитик Big Data, математик или математик-программист, менеджер по анализу систем, архитектор Big Data, бизнес-аналитик, BI-аналитик, информационный аналитик, специалист Data Mining, инженер по машинному обучению и многие другие.

Сколько стоит специалист по данным

На сегодняшний день только треть спроса на Data Science специалистов может быть удовлетворена. Недонасыщенный рынок не может предоставить компаниям квалифицированные кадры в области Data Mining или прогнозной аналитики, что ведёт к росту спроса и зарплат.

В США, согласно O’Reilly Media, уровень зарплат Data Scientists может доходить до $138 тысяч в год и выше — в зависимости от уровня квалификации. Для сравнения, средняя зарплата программиста, по их же оценкам, составляет $65-80 тысяч в год.

Согласно исследовательскому центру рекрутингового портала Superjob, зарплатные предложения для специалистов без соответствующего опыта работы в Москве начинаются от 70 тысяч рублей, в Санкт-Петербурге — от 57 тысяч рублей.

Для следующего зарплатного уровня от соискателей потребуется наличие глубоких знаний методов статистического анализа данных, навыков построения математических моделей (нейронные сети, кластеризация, регрессионный, факторный, дисперсионный и корреляционный анализы и т.п.), а также опыт работы с большими массивами данных и умение выявлять закономерности. Для таких специалистов зарплата может достигать 110 тысяч рублей в Москве и 90 тысяч рублей в Петербурге.

Специалисты с опытом построения коммерчески успешных сложных моделей поведения целевой аудитории с помощью инструментов глубокого исследования данных (Data Mining) могут рассчитывать на максимальный доход. Для них зарплатные предложения в Москве — до 220 тысяч рублей, в Петербурге — до 180 тысяч рублей.

Образование в области Data Science: ничего невозможного нет

Сегодня для тех, кто хочет развиваться в сфере анализа больших данных, существует очень много возможностей: различные образовательные курсы, специализации и программы по data science на любой вкус и кошелек, найти подходящий для себя вариант не составит труда. С моими рекомендациями по курсам можно ознакомиться здесь.

На мой взгляд, лучший багаж знаний и навыков для работы в этой области можно получить в высших учебных заведениях по направлениям: «Прикладная математика», «Информатика», «Математическая статистика».

Потому как Data Scientist — это человек, который знает математику. Анализ данных, технологии машинного обучения и Big Data – все эти технологии и области знаний используют базовую математику как свою основу.

Многие считают, что математические дисциплины не особо нужны на практике. Но на самом деле это не так.

Приведу пример из нашего опыта. Мы в E-Contenta занимаемся рекомендательными системами. Программист может знать, что для решения задачи рекомендаций видео можно применить матричные разложения, знать библиотеку для любимого языка программирования, где это матричное разложение реализовано, но совершенно не понимать, как это работает и какие есть ограничения. Это приводит к тому, что метод применяется не оптимальным образом или вообще в тех местах, где он не должен применяться, снижая общее качество работы системы.

Хорошее понимание математических основ этих методов и знание их связи с реальными конкретными алгоритмами позволило бы избежать таких проблем.

Кстати, для обучения на различных профессиональных курсах и программах по Big Data зачастую требуется хорошая математическая подготовка.

«А если я не изучал математику или изучал ее так давно, что уже ничего и не помню»? — спросите вы. «Это вовсе не повод ставить на карьере Data Scientist крест и опускать руки», — отвечу я.

Есть немало вводных курсов и инструментов для новичков, позволяющих освежить или подтянуть знания по одной из вышеперечисленных дисциплин. Например, специально для тех, кто хотел бы приобрести знания математики и алгоритмов или освежить их, мы с коллегами разработали специальный курс GoTo Course. Программа включает в себя базовый курс высшей математики, теории вероятностей, алгоритмов и структур данных — это лекции и семинары от опытных практиков. Особое внимание отведено разборам применения теории в практических задачах из реальной жизни. Курс поможет подготовиться к изучению анализа данных и машинного обучения на продвинутом уровне и решению задач на собеседованиях.

Ну а если вы еще не определились, хотите ли заниматься анализом данных и хотели бы для начала оценить свои перспективы в этой профессии, попробуйте почитать специальную литературу, блоги о науке данных или посмотреть лекции. Например, рекомендую почитать хабы по темам Data Mining и Big Data на Habrahabr. Для тех, кто уже хоть немного в теме, со своей стороны порекомендую книгу «Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных» Петера Флаха — это одна из немногих книг по машинному обучению на русском языке.

В любом случае помните, что эта специальность потребует от вас глубоких знаний в области математической статистики, машинного обучения и программирования.

Заниматься Data Science так же трудно, как заниматься наукой в целом. В этой профессии нужно уметь строить гипотезы, ставить вопросы и находить ответы на них. Само слово scientist подталкивает к выводу, что такой специалист должен, прежде всего, быть исследователем, человеком с аналитическим складом ума, способный делать обоснованные выводы из огромных массивов информации в достаточно сжатые строки. Скрупулезный, внимательный, точный — чаще всего он одновременно и программист, и математик.

Заключение

Профессия Data Scientist сама по себе является высоким достижением, для которой требуются серьезные теоретические знания и практический опыт нескольких профессий сразу. В любой компании такой специалист на вес золота. Чтобы достичь желаемых целей и постичь эту науку нужно упорно и целенаправленно работать и постоянно совершенствоваться во всех сферах, составляющих основу профессии.

А еще бытует мнение, что лет через 10–20 любому менеджеру в продвинутой компании будет просто необходимо владеть хотя бы базовыми навыками Data Science. Как однажды рекрутер Линда Берч сказала в своем интервью Mashable: «Если вы не помешаны на данных, то через десять лет вам просто не найдется места в рядах начальников». Что ж, как говорится, поживем – увидим!

Что делать и на кого равняться

Но на ведущих международных конференциях по машинному обучению Россия пока представлена не очень хорошо: у кого-то нет финансирования, необходимого для участия, не все понимают, что это нужно, достаточно мало пишется статей высокого уровня. Количество посетителей конференций из России растет, но их все равно не очень много. Для изменения этой ситуации нужно развивать культуру участия в такого рода мероприятиях. Эта системная проблема решается организационными усилиями, но это не вопрос одного года.

Ситуация с качеством специалистов по машинному обучению в индустрии в целом неплохая, в науке же пока явно не хватает организационной поддержки, в том числе от ее администраторов. Конечно, бизнес тоже мог бы еще активнее поддерживать фундаментальную науку: на западе многие компании вкладываются в совместные лаборатории при университетах и программы обучения, с одной стороны, заранее ориентируя образовательные организации на подготовку нужных специалистов, а с другой, помогая финансировать фундаментальные исследования, которые найдут свое прикладное применение лишь спустя какое-то время.

Например, во Франции даже есть вариант индустриальной аспирантуры. Идея ее в том, что в компании, которой в ее непосредственной работе требуются наукоемкие технологии, формулируются проекты, где присутствует значительная научная новизна, требуется развитие новых методов. Аспирант, поступивший на программу, по сути, работает научным сотрудником в компании и делает исследование с приложениями в интересах этой компании. При этом «наставляет» аспиранта профессор из университета. От такой схемы, как мне представляется, выигрывают все стороны: и аспирант, который решает важную для отрасли задачу, и компания, у которой в результате работы появляется научный задел, и профессор, который может получать от компании дополнительное финансирование для своей научной группы.

Кроме того, господдержка отрасли в рамках программ по развитию технологий искусственного интеллекта может сыграть довольно важную роль, если эта поддержка будет оперативной и доступной, и если она будет включать меры стимулирования к созданию новых научных групп и формированию коллективов. Ведь даже в машинном обучении важнее всего именно человеческие ресурсы и их потенциал.

Во-первых, необходима поддержка на конкурсной основе талантливых аспирантов с тем, чтобы они могли сосредоточиться на научных исследованиях. Речь идет как о стипендиях, так и обеспечении возможности посещать передовые научные конференции. Во-вторых, опять-таки, на конкурсной основе можно было бы выделять финансирование на формирование научных коллективов под руководством молодых научных сотрудников. Важна тут продолжительность такого финансирования — на построение устойчивой научной группы при университете обычно требуется минимум 4-5 лет.

И, конечно, требуется обеспечение вычислительными ресурсами: современное машинное обучение требует значительных вычислительных мощностей, современной инфраструктуры. Если же речь идет о, например, приложениях в области компьютерного зрения или робототехники, то необходимо еще и дорогостоящее оборудование — различного рода сенсоры для измерения визуальных данных, и другое аппаратное оборудование.

Ссылка на основную публикацию
Статьи c упоминанием слов:

Adblock
detector