четверг, 24 января 2019 г.

Аналитическая культура. Карл Андерсон


Ссылка на OZON

Толстый такой томик. Я всё откладывала ее чтение, боялась, что это будет нудно и долго. Оказалось — нет! Шрифт довольно крупный + много графиков и картинок, прочитала быстро. И даже довольно интересно, хотя и не всё.

Автор пишет о построении культуры принятия решений на основе данных. О том, какими навыками, знаниями и умениями должны обладать аналитики. А мы как раз данными на работе и занимаемся, так что любопытно было.

Некоторые выдержки из книги:


Аспекты качества данных

Автор говорит о том, какими характеристиками должны обладать собранные данные:

  • Доступность
  • Точность
  • Взаимосвязанность
  • Полнота
  • Непротиворечивость
  • Однозначность
  • Релевантность
  • Надежность
  • Своевременность
Ничего не напоминает? Wink ;)
Это же как тестирование документации!

Ошибки при вводе информации

Когда вы заполняете какую-то форму онлайн или оператор записывает данные с ваших слов, есть 4 основных типа ошибок:
  1. Запись — введенные слова не те, что были в оригинале
  2. Вставка — добавление лишнего символа. 83,456 → 832,456
  3. Удаление — один или несколько символов теряются. 98,543 → 98,53
  4. Перемена мест — два или более символа перепутали местами. 98,543 → 98,453
Особенно часто встречаются опечатки в написании дат. Ведь форматы везде разные. Где-то ДД.ММ.ГГГГ, а где-то ММ.ДД.ГГГГ. Если это явно не прописать, пользователь введет как привык, а у вас в программе что-то сломается. 

Как избегать подобных ошибок? Делать проверки на поля, например, ИНН ФЛ — 12 цифр. Это поможет хотя бы для ошибок «вставка» и «удаление». Конечно, всегда можно перепутать цифры местами, но хоть от чего-то защитимся.


Дублирование данных

Автор приводит такой пример: грузили данные, произошла ошибка в середине. Исправили, перегрузили. Но первая половина задублировалась, увы. 

Что делать, чтобы такого не происходило? Добавить в таблицу БД уникальный ключ, например.

Интересный пример, я по работе тоже часто сталкиваюсь с дублированием данных, но не из-за ошибок, а просто потому, что данные собираются из разных источников:
  • Клиент пришел в банк — занесли в одну систему
  • Заполнил анкету через интернет — другая система
  • Позвонил в call-center — третья
Как их всех состыковать и составить единую карточку с актуальной информацией? Как раз этим мы и занимаемся =))

Так что подтверждаю проблему дублирования. В принципе, видела дублирование и в рамках одной системы — если не заморачиваются и каждое обращение записывают новой записью. Непонятно, правда, зачем — ведь так оператор не видит историю общения с клиентом. Но бывает...


Значения по умолчанию

Если они есть в системе, их надо исключать из выборки. А то будет куча лиц с датой рождения 01.01.1900, а никто и внимания не обратит...

Также автор указывает на проблему записи «0» как умолчательного значения. Что, еслиь 0 может быть актуальным значением? Как определить, это ноль в данных или "неизвестно"? Подумайте, не лучше ли оставить значение NULL.


Покупка данных

На что обращать внимание, если вы хотите купить данные? Довольна актуальная тема, если вы покупаете какие-то справочники. Вот, например, ФИАС есть в открытом доступе налоговой, а ЕГРЮЛ только сейчас появился. Раньше нужно было выбирать из тех, кто его продает.

Как выбрать контрагента для покупки данных? Обращайте внимание на  следующее:
  • Цена — стоит взвесить, лучше "халява, но хреновенько" или "дорого, но хорошо"
  • Качество — насколько надежны данные?
  • Эксклюзивность — подготовлены данные чисто под вас или всем поставляют? Будет ли у вас преимущество перед конкурентами при покупке?
  • Выборка — можно ли получить тестовую выборку, чтобы оценить качество данных?
  • Обновления — насколько часто данные меняются? Как будут поставляться обновления?
  • Надежность — при работе через API какое время работоспособности системы? Какие ограничения по работе через API?
  • Безопасность — есть ли шифровка данных, если она нужна?
  • Условия использования — есть ли ограничения лицензии, которые не позволят использовать данные в полной мере?
  • Формат — удобен ли формат, в котором поставляются данные?
  • Документация — лучше отдавать предпочтение источникам, способным предоставить документацию
  • Объем — сможете ли сохранить большой объем данных?
  • Степень детализации — подходит ли он под ваши нужды?

Остальное

Еще много всякого интересного, типа того, какие скиллы нужны аналитикам, как подбирать сотрудников, выстраивать корпоративную культуру, проводить презентацию своей идеи и прочее, прочее. Так что полезное можно найти!

Плюс там и про тестирование было. Про то, как проводить А/В тестирование от и до. Как составлять план проведения, подбирать людей, делать выборку, анализировать ее... Тестировщику тоже будет интересно!

Вывод — читать можно, но полезно будет аналитикам или тем, кто участвует в А/В тестах

3 комментария:

  1. К списку типичных ошибок ввода давно пора добавить "соседние клавиши". Эта проблема типична для начинающих наборщиков текста - палец плохо размят и поэтому соскальзывает на соседнюю клавишу. Случается, что вместо "1" вбита "4" или вместо пробела набрана буква "ь":
    Что, еслиь 0 может быть актуальным значением?

    ОтветитьУдалить
    Ответы
    1. Тогда надо оставлять поле пустым, чтобы понимать дефолтное значение

      Удалить