Структура данных
Ткань данных — это новая система управления данными, обеспечивающая расширенную интеграцию и обмен данными между разнородными источниками. Ткани данных становятся все более популярным выбором для упрощения инфраструктуры интеграции данных в организации и создания масштабируемой архитектуры данных.
При широком внедрении "ткани данных" могут значительно сократить количество задач по интеграции данных, выполняемых вручную, и дополнить (а в некоторых случаях и полностью автоматизировать) разработку и реализацию интеграции данных. Однако "ткани данных" пока ещё являются только формирующейся концепцией. В настоящее время ни один поставщик не поставляет в интегрированном виде все зрелые компоненты, необходимые для создания структуры данных. В конечном итоге организации должны принять решение о разработке собственной структуры данных с использованием модернизированных возможностей, охватывающих перечисленные выше технологии и другие, такие как активное управление метаданными.
Структура данных также состоит из сочетания зрелых и менее зрелых технологических компонентов, поэтому организации должны тщательно сочетать и подбирать композитные технологические компоненты по мере развития своих сценариев использования.
D&A в облаке
Перед традиционными платформами D&A ставятся задачи по обработке все более сложных аналитических данных. Эта сложность в сочетании с увеличением ресурсов, необходимых для поддержки среды, приводит к росту совокупной стоимости владения локальными решениями.
Напротив, облачные решения для обработки данных и аналитики предлагают больше преимуществ и возможностей за счёт новых сервисов, простоты и гибкости при модернизации данных. Они также могут удовлетворить спрос на новые виды аналитики, такие как потоковая аналитика, специализированные хранилища данных и более удобные инструменты самообслуживания для поддержки комплексного развёртывания.
При развёртывании облачных систем - гибридных, мультиоблачных или межоблачных - необходимо учитывать множество компонентов D&A, включая ввод данных, интеграцию данных, моделирование данных, оптимизацию данных, безопасность данных, качество данных, программу управления данными, управленческую отчётность, науку о данных и ML.
Что такое расширенная аналитика?
В расширенной аналитике используются сложные количественные методы, позволяющие получить сведения, которые вряд ли можно обнаружить с помощью традиционных подходов к бизнес-анализу (BI). Она охватывает прогнозные, предписывающие методы и методы искусственного интеллекта, такие как ML. Вкратце:
Аналитика и BI представляют собой основополагающие или традиционные способы разработки аналитических материалов, отчётов и информационных панелей.
Продвинутая аналитика представляет собой использование технологий науки о данных и машинного обучения для поддержки предиктивных и предписывающих моделей.
Несмотря на то, что оба эти направления ценны для каждой организации по разным причинам, рынок в целом меняется. Вместо того чтобы фокусироваться на традиционной и отдельно взятой продвинутой аналитике, технологии становятся составными и организуются по ролям и персоналиям - от бизнес-специалистов, которым нужны возможности самообслуживания, до специалистов по продвинутой аналитике, которым требуется программирование и проектирование.
Расширенная аналитика — это не то же самое, что дополненная аналитика, под которой понимается использование методов ML/AI для преобразования способов разработки, использования и обмена аналитическими данными. Дополненная аналитика включает в себя обработку естественного языка и разговорные интерфейсы, которые позволяют пользователям, не обладающим развитыми навыками, взаимодействовать с данными и аналитикой.
Передовая аналитика позволяет руководителям высшего звена своевременно и инновационно задавать и отвечать на более сложные и ответственные вопросы. Это создаёт основу для принятия более эффективных решений за счёт использования сложных и интеллектуальных механизмов интерпретации событий, поддержки и автоматизации решений, а также принятия мер.
Расширенная аналитика может использовать различные типы и источники входных данных по сравнению с традиционной аналитикой. В некоторых случаях она позволяет организациям создавать совершенно новые данные, что требует строгой стратегии управления данными и плана создания необходимой инфраструктуры и технологий. Например, озера данных могут использоваться для управления неструктурированными данными в их необработанном виде. (См. также статью "Каково будущее технологий обработки данных и аналитики?")
Расширенная аналитика предоставляет руководителям компаний, занимающихся аналитикой данных, все больше возможностей для ускорения развития и использования данных и аналитики для принятия более разумных бизнес-решений и улучшения результатов деятельности организаций. Определение текущего и желаемого будущего состояния стратегии и операционных моделей в области управления данными и аналитикой имеет решающее значение для использования этих возможностей.
Что такое основные методы обработки данных и аналитики?
Данные широко используются в каждой организации. И хотя не все данные используются для аналитики, аналитика невозможна без данных. Технологии, необходимые для работы с данными, всех вариантов их использования и анализа, существуют в широком диапазоне, что объясняет различное использование термина "данные и аналитика" (или "аналитика данных") как организациями, так и поставщиками.
Упоминание "данных" подразумевает или должно подразумевать оперативное использование этих данных, скажем, в бизнес-приложениях и системах, таких как банковское ядро, планирование ресурсов предприятия и обслуживание клиентов. Под "аналитикой" (или, как её ещё называют, "аналитикой данных") понимается аналитическое использование данных, которое часто происходит уже после совершения операции.
Аналитика, согласно описанию, включает в себя четыре метода:
Описательная аналитика
При этом используются средства бизнес-анализа (BI), визуализация данных и информационные панели для ответа на два вопроса: "Что произошло?" или "Что происходит?". Например, отдел закупок может ответить на такие вопросы, как: Сколько мы потратили на товар X в последнем квартале? и Кто наши крупнейшие поставщики товара Y?
Диагностическая аналитика
Здесь требуется более глубокое изучение и поиск данных, чтобы ответить на вопрос: почему произошло событие X? Например, руководители отделов продаж могут использовать диагностику для выявления поведения продавцов, которые находятся на пути к выполнению своих квот.
Предиктивная аналитика
Предиктивная аналитика обычно имеет дело с вероятностями и может использоваться для предсказания ряда результатов во времени (т.е. прогнозирования) или для выявления неопределённостей, связанных с несколькими возможными результатами (т.е. моделирования). Она позволяет определить, чего следует ожидать, отвечая на вопрос: что может произойти? Однако она не отвечает на другие вопросы, например, что следует предпринять, в связи с этим?
Предиктивная аналитика опирается на такие методы, как прогнозное моделирование, регрессионный анализ, прогнозирование, многомерная статистика, сопоставление образцов и машинное обучение (ML).
Прескриптивная аналитика
Рецептивная аналитика призвана рассчитать наилучший способ достижения результата или влияния на него - она направлена на стимулирование действий. В сочетании с предиктивной аналитикой прескриптивная аналитика естественным образом опирается на предиктивные выводы и расширяет их, отвечая на вопросы: что нужно сделать? или что мы можем сделать, чтобы добиться заданного результата?
Предписывающая аналитика включает в себя как подходы, основанные на правилах (структурированное использование известных знаний), так и методы оптимизации (традиционно используемые в группах исследования операций), которые ищут оптимальные результаты в рамках ограничений для создания исполняемых планов действий. Предписывающая аналитика опирается на такие методы, как анализ графов, моделирование, обработка сложных событий и рекомендательные системы.
Сочетание возможностей предиктивной и предписывающей аналитики часто является ключевым первым шагом в решении бизнес-задач и принятии более разумных решений. Понимание возможных вариантов использования различных типов аналитики очень важно для определения ролей и компетенций, инфраструктуры и технологий, которые потребуются вашей организации для того, чтобы стать по-настоящему управляемой данными, особенно по мере сближения четырёх основных типов аналитики с искусственным интеллектом (ИИ).
Что такое "большие данные"?
Термин "большие данные" уже несколько десятилетий используется для обозначения данных, характеризующихся большим объёмом, высокой скоростью и разнообразием, а также другими экстремальными условиями. Однако для бизнеса эпоха больших данных характеризуется как возможностями, так и рисками. Если говорить о возможностях, то взрывной рост объёма данных, вызванный использованием Интернета и вычислительных мощностей, даёт богатый источник информации для принятия более эффективных решений. С другой стороны, такой же взрыв данных создаёт проблемы для организаций, связанные с хранением, управлением и анализом больших данных.
Большинство организаций нашли способы получать бизнес-аналитику из больших данных, однако многие из них испытывают трудности с управлением и анализом разнообразного и широкого набора контента (включая аудио-, видео- и графические ресурсы) в масштабе. Эта проблема нарастает по мере того, как расширяется и изменяется вселенная источников данных, а потребность в аналитических данных все больше удовлетворяется с помощью передовой аналитики.
Прогрессивные организации уже не делают различий между усилиями по управлению, контролю и извлечению информации из не больших и больших данных. Сегодня все это просто данные. Вместо этого они активно стремятся использовать новые виды данных и анализа, а также находить взаимосвязи в комбинациях разнообразных данных для улучшения бизнес-решений, процессов и результатов.
Синтетические данные, например, используются путём создания методики выборки из реальных данных или путём создания имитационных сценариев, в которых модели и процессы взаимодействуют для создания совершенно новых данных, не взятых непосредственно из реального мира. Это наиболее полезно для ML, построенных на наборах данных, не включающих исключительные условия, о которых бизнес-пользователи знают, что они возможны, пусть даже отдалённо. Такие данные по-прежнему необходимы для обучения моделей ML.
Глобальная пандемия и другие сбои в работе бизнеса также ускорили необходимость использования большего количества типов данных в широком спектре случаев (особенно в связи с тем, что исторические большие данные оказались менее актуальными в качестве основы для будущих решений). Озабоченность по поводу источников данных, их качества, необъективности и защиты конфиденциальности также повлияла на сбор больших данных, в результате чего появились новые подходы, известные как "малые данные" и "широкие данные".
Подход, основанный на широких данных, позволяет анализировать и объединять различные источники малых и больших данных - как высокоорганизованные количественные (структурированные) данные, так и качественные (неструктурированные). При подходе на основе малых данных используется целый ряд аналитических методов для получения полезных выводов, но при этом используется меньший объем данных.
Можно использовать термин X-analytics для общего описания малых, больших и широких данных - фактически всех видов данных. По некоторым данным ожидается, что к 2025 году 70% организаций будут вынуждены сместить акцент с больших данных на малые и широкие данные, чтобы более эффективно использовать имеющиеся данные либо за счёт сокращения их объёма, либо за счёт извлечения большей ценности из неструктурированных разнообразных источников данных.
Этот и другие прогнозы развития аналитики данных позволяют сделать важные предположения в области стратегического планирования для улучшения видения и реализации D&A.