Как не делать анализ данных ради анализа данных

Многие компании владеют большими наборами данных. Но аналитику этой информации научились делать совсем недавно. Однако до сих пор некоторые специалисты проводят аналитику ради аналитики без понимания ключевых проблем и потребностей компании. Мы узнали у представителей крупных компаний, зачем аналитику погружаться в предметную область для качественного анализа данных и какие инструменты они используют.

Перед тем, как приступить к анализу данных нужно понять, какие бизнес-задачи он поможет решить. Поэтому важно поставить правильные вопросы — четкие и измеримые. Для этого нужно погрузиться в анализируемую область и понять, что из себя представляют анализируемые данные.

Например, компания планирует организовать рекламную кампанию детского питания и для этого заказывает у аналитика исследование аудитории. И среди результатов исследования встречаются выводы: 80% покупателей бренда — клиенты «Сбербанка», 60% — не курят и 35% живут на съемной квартире. Но не ясно, как это поможет маркетологам в планировании кампании.

Ольга Трушкова, трафик-менеджер Mail.Ru Group

Я училась в НИТУ «МИСиС» на факультете информационных систем и технологий, специальность «Автоматизированные системы управления». Python начала учить недавно, но уже применяю в работе.

Объем информации, который нам необходим, а также разные источники предполагают то, что мы используем какой-то инструмент для того, чтобы получать информацию, обрабатывать и предоставлять ее в удобном для понимания виде. Python позволяет сделать абсолютно все эти этапы доступными быстрым и простым способом.

Для того, чтобы выбрать из всего массива полезные данные, нужно понимать, какая конечная цель, что мы хотим сказать тому, для кого будут эти данные, потому что собирать данные можно бесконечно. А использовать их нужно таким образом, чтобы они приносили какую-то пользу и информацию. Либо это какое-то решение сейчас, либо принесут какое-то новое решение впоследствии.

Я выполняю пул задач по анализу трафика на предмет мошенничества в рекламе. Например, я много работаю с данными рекламных площадок, внутренней статистикой Mail.Ru Group, инструментами трекинга.

Основной инструмент – библиотека Pandas для того, чтобы работать с данными в привычном табличном виде. NumPy для обработки – уже больше работы с числами. И я, например, использую очень много библиотек, связанных с облегчением работы с API систем, как Google, потому что часть информации я отправляю туда для построения dashboards. В том числе специфичные библиотеки для упрощения работы с API, которые преобразуют информацию в нужный вид для того, чтобы любая фишка API’шка могла принять эту информацию и обработать ее в правильном виде. Это основной набор.

Дмитрий Степанов, ведущий менеджер по персоналу Mail.Ru Group

Я занимаюсь поиском новых сотрудников в области аналитики для проекта «Рекламные технологии», а именно, в отдел анализа данных.

Команда отдела анализа данных решает задачи по сегментированию аудитории интернета с использованием технологий машинного обучения. Знания в сфере рекламы несомненно позволят быстрее влиться в рабочий ритм, так как. большинство показателей, которые мы анализируем, так или иначе завязаны на рекламных показателях.

Многие наши сотрудники ранее не работали с рекламными технологиями. Для нас намного важнее, чтобы наш будущий коллега действительно хорошо программировал, был классным аналитиком и разбирался в машинном обучении.

Проблема незнания решается системой наставничества и внутренним обучением, после чего каждый сотрудник имеет необходимый базис и знания для успешного выполнения рабочих задач.

Мы предлагаем новым коллегам участие в проекте, позволяющем строить интересные математические модели, которые описывают людей на основании их поведения в интернете. А также модели, отражающие различные мотивационные сферы жизни человека.

Python является самым простым и удобным языком для прототипирования и моделирования.У него отличная поддержка и достаточно большое сообщество.

Денис Деркач, старший научный сотрудник Лаборатории методов анализа больших данных НИУ ВШЭ

Я анализирую данные, набранные разными экспериментами в естественных науках. Основной интерес для меня сейчас представляет Большой адронный коллайдер и анализ данных в физике частиц.

Если мы говорим о прикладных разработках в развитых областях (к таким относится, например, фундаментальная физика, но также и индустриальные приложения), многие части создаваемой модели зависят от экспертных знаний, часто трудноформулируемых на первых этапах. Например, в случае физических моделей нам важна не только точность модели, но и как эта точность скажется на систематической погрешности впоследствии. Безусловно, экспертные знания можно получить из данных, например, используя большое их количество и/или большое количество ресурсов. Но эти данные или ресурсы можно использовать лучшим образом.

По моему опыту, оптимален смешанный состав группы, в котором присутствуют как дата-сайентисты, так и эксперты в какой-то области. При этом безусловно эксперты должны что-то понимать в подходах науки о данных, а аналитики не противиться мнению экспертов.

Обычно мы используем следующие библиотеки для построения моделей: CatBoost, XGBoost, LGBM, Keras, sci-kit. Развитие моделей проходит в Python. В дальнейшем, внедряем в С++.

Пресс-служба «Сбербанка»

Исторически Сбербанк занимает доминирующую позицию на российском финансовом рынке и обладает значительным массивом данных. Каждую секунду в банке происходит 166 снятий наличных и 2251 транзакция. Мы анализируем информацию о финансовом поведении потребителей на основе агрегированных данных  более чем 124 млн активных банковских карт, а также агрегированных данных дочерних компаний как из финансового сектора, так и цифрового бизнеса.

Для решения конкретных задач клиента мы также можем дополнять нашу информацию данными заказчика, при условии, что такое взаимодействие не противоречит политике компании в сфере работы с данными.

Прежде чем начинать работать с данными, нужно разобраться с технической стороной вопроса: понять, как устроены данные, как они формируются и обновляются. Здесь важно иметь структурированное хранилище с детальным описанием каждого атрибута, чтобы исключить риски неправильной интерпретации и некорректных выводов.

Не менее важна и «смысловая» составляющая в работе с данными. Разработать корректную методологию исследования и сформировать нужную выборку данных, сформулировать гипотезы и проверить их без понимания специфики бизнеса невозможно. Чтобы найти источник проблемы, определить значимые параметры, мы обращаемся к индивидуальной экспертизе заказчика и нашей отраслевой экспертизе. Практика показывает, что клиенты даже из одной отрасли приходят с разными проблемами, и универсального набора данных и алгоритмов для решения большинства из них не существует.

Поскольку мы обрабатываем огромные массивы данных, мы работаем в программном стеке Hadoop и в целом стараемся использовать opensource-решения. В работе используем data-science стек Python, R и так далее. А для отдельных задач – программные продукты Teradata, SAS, ArcGis Informatica,ESRI и тому подобные.

Как сделать анализ данных «со смыслом»?

  1. Определите цель исследования

Напишите, что вы хотите узнать благодаря анализу данных. Сформулируйте гипотезы, которые хотите подтвердить или опровергнуть. Установите цели и задачи анализа данных. Они должны быть четкими, измеримыми и помогать в  принятии бизнес-решения.

Если это исследование аудитории для рекламной кампании детского питания, то можно узнать, сколько раз в день и в каких порциях едят дети или какие у них вкусовые предпочтения.

  1. После сбора данных оцените их полезность и актуальность

Для этого и надо погрузиться в предметную область, чтобы понять, какие данные важны, а какие лучше оставить для других исследований. Всегда можно попросить коллег из других отделов или людей, которые лучше разбираются в предметной области о помощи. Главное — ответьте на вопрос: «Как эти данные помогут ответить на первоначальный вопрос». Если никак, то лучше их оставить.

  1. Убедитесь, что результаты отвечают на поставленные вопросы

Когда анализ данных, визуализация и интерпретация закончились, проверьте, на все ли вопросы нашли ответы. Соотнесите их с гипотезами, которые не всегда подтверждаются.

Как использовать в создании рекламы детского питания информацию о количестве некурящих родителей? Никак.

Загрузка ...
The Robot
Adblock
detector