Продолжение. Предыдущие статьи цикла: "Качество данных - с чего начать?","Общее понимание вопросов качества данных", "Правила и внутренние стандарты, регламентирующие процесс нормализации и дальнейшее управление данными", "Онтологический словарь (шаблоны описаний)", "Генерация описаний"
Когда есть ясность в отношении методологии и онтологии – время переходить к обсуждению работ по нормализации данных. Этот этап проекта обычно наиболее длительный и определяет общую продолжительность работ. Насколько нам известно – на рынке по состоянию на сегодняшний день не представлено ни одной эффективной системы, осуществляющей нормализацию данных автоматически, хотя работы в направлении применения искусственного интеллекта к работам по каталогизации и ведутся. Вместе с ведущими университетами, исследующими вопросы мастер-данных, PiLog участвует в программах изучения и разработки решений для эффективного применения возможностей AI в процессах нормализации данных и уже достиг некоторых стабильных результатов. Однако по состоянию на сегодняшний день качественная нормализация данных требует комбинации специализированных программных инструментов (Excel не предоставляет достаточных возможностей) и опытных профессионалов.
Поэтому та компания, которая берется за нормализацию ваших данных, должна располагать в первую очередь квалифицированной командой для выполнения таких работ. Часто на этом этапе в будущую команду по обработке данных включаются и представители компании заказчика. Четкое понимание консультантом того, как должен быть организован процесс, какие роли и как будут распределены между участниками, в каких точках и как будет осуществляться контроль качества данных, даст вам определенные надежды в отношении того, что заявленные сроки выполнения работ будут выполнены с соблюдением качества результата.
Учитывая, что процесс обработки данных очень технологичен и требует четкого выполнения конкретных действий в определенной последовательности на каждом этапе, а также стандартизации и унификации процессов и данных – мировым стандартом является использование специального программного обеспечения, предназначенного специально для такой обработки больших массивов данных. Если консультанты располагают возможностями использования такого программного продукта – это является очень существенной поддержкой проекта и может предоставить вам данные мониторинга процесса обработки и его статистики на любом этапе проекта, что позволяет эффективно контролировать процесс и вовремя идентифицировать риски.
В зависимости от того, как компания представляет процесс управления данными по окончании проекта нормализации данных, может рассматриваться возможность поддержки этого процесса через внедрение предназначенных для этого программных решений. Необходимость такого продукта очевидна в ситуации, когда объем ежедневно создаваемых и изменяемых мастер-данных в компании довольно значителен. Нам довелось видеть компанию, где непрерывность и систематичность применения принципов, на которых строится качество данных, обеспечивалась организационным решением – весь поток запросов обрабатывался одним специалистом выдающихся способностей, памяти, работоспособности и добросовестности. Очевидно, что не всем повезло иметь в своей команде такого специалиста – а уж какие риски такая схема несет в части отсутствия такого человека на рабочем месте по любым причинам, говорить не приходится. Поэтому специальный продукт, поддерживающий утвержденные стандарты данных – разумное решение и с точки зрения производительности, и с точки зрения снижения рисков проблем, связанных с человеческим фактором.
Специальные программные продукты для управления качеством мастер-данных предоставляют на сегодняшний день несколько поставщиков, но “коробочных” решений среди них немного – как правило, они касаются областей данных, структура которых проста и однотипна (например, справочники контрагентов). В большинстве случаев в сложных для описания областях данных такие продукты требуют значительных доработок для приведения их в соответствие с разработанными стандартами и правилами, и учитывая это, нужно обсуждать необходимость и порядок внедрения таких программных продуктов вместе с основным проектом. В идеале внедрение и настройка такого программного продукта осуществляется параллельно с работами по нормализации данных, и проект в целом завершается загрузкой очищенных и структурированных данных в протестированный софт, связанный через систему интерфейсов с рабочими системами компании. Конечно же, показателем качества такого продукта является мнение реальных пользователей, хорошо организованная система поддержки, понимание условий лицензирования. При необходимости на рынке можно найти и облачные версии продуктов.
Обычно программные решения для первичной обработки больших массивов данных существуют параллельно с полномасштабными специализированными программными решениями для управления качеством мастер-данных. Часто применяемые в процессе обработки данных продукты дают достаточно ясное представление и о функциональности своих «старших» собратьев, поэтому возможность получить собственный опыт использования программных продуктов может являться ключевым фактором в принятии решения о внедрении в компании других систем данного производителя. Учитывая, что внедрение систем занимает обычно меньше времени, чем обработка больших массивов данных – риски проекта можно снизить, запланировав внедрение систем на вторую половину проекта при условии положительного опыта использования разработок в ходе проекта.
PiLog предлагает собственные разнообразные программные продукты как для проведения первичной нормализации данных, так и для дальнейшего поддержания высокого качества данных (управления мастер-данными), успешно работающие в компаниях разного масштаба из разных индустрий по всему миру. В зависимости от потребностей вашей компании мы можем продемонстрировать вам преимущества как небольших продуктов для генерации структурированных описаний, так и полнофункциональной системы MDRM V10 или ее аналога – сертифицированного add-on модуля для SAP PiLog’s Material Master Taxonomy 1.0. Если нужна более подробная консультация по программным продуктам для управления качеством мастер-данных – позвоните нам +7(495)127-09-24 или напишите запрос на адрес info@pilogrus.com