Ссылка на OZON
Толстый такой томик. Я всё откладывала ее чтение, боялась, что это будет нудно и долго. Оказалось — нет! Шрифт довольно крупный + много графиков и картинок, прочитала быстро. И даже довольно интересно, хотя и не всё.
Автор пишет о построении культуры принятия решений на основе данных. О том, какими навыками, знаниями и умениями должны обладать аналитики. А мы как раз данными на работе и занимаемся, так что любопытно было.
Некоторые выдержки из книги:
Аспекты качества данных
Автор говорит о том, какими характеристиками должны обладать собранные данные:
- Доступность
- Точность
- Взаимосвязанность
- Полнота
- Непротиворечивость
- Однозначность
- Релевантность
- Надежность
- Своевременность
Ничего не напоминает?
Это же как тестирование документации!
Ошибки при вводе информации
Когда вы заполняете какую-то форму онлайн или оператор записывает данные с ваших слов, есть 4 основных типа ошибок:
- Запись — введенные слова не те, что были в оригинале
- Вставка — добавление лишнего символа. 83,456 → 832,456
- Удаление — один или несколько символов теряются. 98,543 → 98,53
- Перемена мест — два или более символа перепутали местами. 98,543 → 98,453
Особенно часто встречаются опечатки в написании дат. Ведь форматы везде разные. Где-то ДД.ММ.ГГГГ, а где-то ММ.ДД.ГГГГ. Если это явно не прописать, пользователь введет как привык, а у вас в программе что-то сломается.
Как избегать подобных ошибок? Делать проверки на поля, например, ИНН ФЛ — 12 цифр. Это поможет хотя бы для ошибок «вставка» и «удаление». Конечно, всегда можно перепутать цифры местами, но хоть от чего-то защитимся.
Дублирование данных
Автор приводит такой пример: грузили данные, произошла ошибка в середине. Исправили, перегрузили. Но первая половина задублировалась, увы.
Что делать, чтобы такого не происходило? Добавить в таблицу БД уникальный ключ, например.
Интересный пример, я по работе тоже часто сталкиваюсь с дублированием данных, но не из-за ошибок, а просто потому, что данные собираются из разных источников:
- Клиент пришел в банк — занесли в одну систему
- Заполнил анкету через интернет — другая система
- Позвонил в call-center — третья
Как их всех состыковать и составить единую карточку с актуальной информацией? Как раз этим мы и занимаемся =))
Так что подтверждаю проблему дублирования. В принципе, видела дублирование и в рамках одной системы — если не заморачиваются и каждое обращение записывают новой записью. Непонятно, правда, зачем — ведь так оператор не видит историю общения с клиентом. Но бывает...
Значения по умолчанию
Если они есть в системе, их надо исключать из выборки. А то будет куча лиц с датой рождения 01.01.1900, а никто и внимания не обратит...
Также автор указывает на проблему записи «0» как умолчательного значения. Что, еслиь 0 может быть актуальным значением? Как определить, это ноль в данных или "неизвестно"? Подумайте, не лучше ли оставить значение NULL.
Покупка данных
На что обращать внимание, если вы хотите купить данные? Довольна актуальная тема, если вы покупаете какие-то справочники. Вот, например, ФИАС есть в открытом доступе налоговой, а ЕГРЮЛ только сейчас появился. Раньше нужно было выбирать из тех, кто его продает.
Как выбрать контрагента для покупки данных? Обращайте внимание на следующее:
- Цена — стоит взвесить, лучше "халява, но хреновенько" или "дорого, но хорошо"
- Качество — насколько надежны данные?
- Эксклюзивность — подготовлены данные чисто под вас или всем поставляют? Будет ли у вас преимущество перед конкурентами при покупке?
- Выборка — можно ли получить тестовую выборку, чтобы оценить качество данных?
- Обновления — насколько часто данные меняются? Как будут поставляться обновления?
- Надежность — при работе через API какое время работоспособности системы? Какие ограничения по работе через API?
- Безопасность — есть ли шифровка данных, если она нужна?
- Условия использования — есть ли ограничения лицензии, которые не позволят использовать данные в полной мере?
- Формат — удобен ли формат, в котором поставляются данные?
- Документация — лучше отдавать предпочтение источникам, способным предоставить документацию
- Объем — сможете ли сохранить большой объем данных?
- Степень детализации — подходит ли он под ваши нужды?
Остальное
Еще много всякого интересного, типа того, какие скиллы нужны аналитикам, как подбирать сотрудников, выстраивать корпоративную культуру, проводить презентацию своей идеи и прочее, прочее. Так что полезное можно найти!
Плюс там и про тестирование было. Про то, как проводить А/В тестирование от и до. Как составлять план проведения, подбирать людей, делать выборку, анализировать ее... Тестировщику тоже будет интересно!
Вывод — читать можно, но полезно будет аналитикам или тем, кто участвует в А/В тестах
PS - Добавила книгу в общий список прочитанных мною книг.
К списку типичных ошибок ввода давно пора добавить "соседние клавиши". Эта проблема типична для начинающих наборщиков текста - палец плохо размят и поэтому соскальзывает на соседнюю клавишу. Случается, что вместо "1" вбита "4" или вместо пробела набрана буква "ь":
ОтветитьУдалитьЧто, еслиь 0 может быть актуальным значением?
Тогда надо оставлять поле пустым, чтобы понимать дефолтное значение
Удалить