Архитектура данных: понятие, принципы и ключевые компоненты

Дата публикации: 30 апреля 2025
Среднее время чтения: 4 минут(ы) 21

Архитектура данных это — системная дисциплина, которая соединяет стратегию компании, требования регуляторов и возможности ИТ-инфраструктуры. В эпоху электронной отчётности и мгновенных клиентских сервисов объёмы информации растут на 25–40 % в год; без четкой схемы «что, где, как и зачем хранится» цифровая трансформация превращается в набор несвязанных инициатив. Ниже — развернутый разбор, что такое архитектура данных, каковы ее уровни, элементы и практические примеры, актуальные для российского рынка.

Что такое архитектура данных

Архитектура данных — это формализованный каркас, описывающий происхождение, структуру, хранение, движение и потребление корпоративных данных в привязке к бизнес-процессам. В отличие от «чистой» модели БД, она охватывает:

  • Бизнес-домен (что такое Клиент, Товар, Транзакция именно в данной компании).

  • Правила трансформации (какие атрибуты агрегируются, где возникают производные показатели).

  • Соглашения об именовании (единые словари, каталоги, стандарты ISO/GOST).

  • Точки интеграции (шины, API, микросервисы).

  • Политику доступа (RBAC, MAC, маркировка ПДн, уровень гостайны).

Тем самым архитектура данных связывает уровни Enterprise Architecture (TOGAF, Zachman) с реальной эксплуатацией СУБД, очередей сообщений и BI-витрин. При работе по ГОСТ 34 и ФСТЭК архитектура данных входит в обязательный комплект технической документации, подтверждающей соответствие критической информационной инфраструктуры (КИИ).

Цели и задачи архитектуры данных

Категория Конкретные цели Типовые метрики
Качество Устранить дублирование, гарантировать «единый источник истины» % уникальных ключей, среднее время исправления ошибки
Соблюдение норм 152-ФЗ, 187-ФЗ, PCI DSS, отраслевые методики ЦБ РФ Время реакции на запрос Роскомнадзора, уровень соответствия аудиту
Доступность Сократить время на доставку данных аналитикам и сервисам SLA потока (P99 latency), MTTR витрины
Интеграция Снизить стоимость подключения новой системы Среднее время on-boarding источника, число повторно используемых коннекторов
Экономика Оптимизировать затраты на хранение и передачу Стоимость 1 ТБ данных в год, CPU-утил на хранилище
Управление рисками Контроль дрейфа схем, снижение несанкционированного доступа Количество инцидентов класса «schema breaking», число нарушений доступа

Формулируя цели, архитектор фиксирует не только высокоуровневые лозунги, но и измеримые KPI, привязанные к бизнес-ценности. Например, сокращение цикла закрытия месяца в бухгалтерии с 5 до 2 дней — прямая экономия ФОТ и штрафных санкций.

Уровни архитектуры данных

Концептуальный

  • Описывает бизнес-объекты и их взаимосвязи языком владельцев процессов.

  • Использует нотации ArchiMate или BPMN.

  • Итог — «карта домена», над которой ведётся Data Stewardship.

Логический

  • Трансформирует концепты в сущности и атрибуты без привязки к конкретной СУБД.

  • Определяет семантику атрибутов, первичные/внешние ключи, кардинальность.

  • Здесь же фиксируются правила расчетных полей — например, как считать ARPU или коэффициент оборачиваемости.

Физический

  • Конкретные таблицы ClickHouse, хранилище S3-совместимого Object Storage, партиционирование по dds_y2025_m04.

  • Описываются пайплайны Airflow, конфиги Debezium, топики Kafka, политики Retention.

  • Включает схемы резервного копирования и план переключения DR-сайта.

Разделив ответственность, компания избегает типовой ошибки, когда разработчики «цементируют» бизнес-логику в DDL-скриптах, а бизнес-команда теряет гибкость.

Ключевые компоненты архитектуры данных

  1. Хранилище слоев «RAW → DDS → DM».

    • RAW — неизмененные события в формате Avro/Parquet в MinIO.

    • DDS — нормализованные таблицы в Greenplum by Arenadata.

    • DM — витрины под отчёты в ClickHouse с агрегацией до минуты.

  2. Потоки (Streaming).

    • Kafka + ksqlDB для real-time расчета показателей.

    • Flink для сложной CEP-логики (фрауд в банке).

  3. Интеграционные контуры.

    • gRPC-шлюзы к микросервисам Go, REST-API для мобильных клиентских приложений.

    • Шина Enterprise Service Bus на базе Apache Camel.

  4. Каталог и линейдж.

    • Apache Atlas с пользовательскими ML-плагинами.

    • Визуализация lineage в DataHub.

  5. Оркестрация и DevOps.

    • GitLab CI, Helm, ArgoCD, сервисные неймспейсы в Kubernetes.

    • Observability — Grafana, VictoriaMetrics, Jaeger.

Тесная связка компонентов позволяет за 30 секунд проследить путь любого атрибута от источника до дашборда и оценить его свежесть (Data Freshness).

Типы архитектуры данных

Дополнительно к трем классическим подходам российский рынок всё чаще использует Data Mesh (сетевую) модель, ориентированную на продуктовые команды-доменовладельцы.

Критерий Централизованная Децентрализованная Микросервисная Data Mesh
Управление Единый комитет Совет доменов В каждом сервисе Доменные владельцы + платформенная команда
Масштабируемость Средняя Высокая Очень высокая Горизонтальная (по доменам)
Возможность self-service Низкая Средняя Средняя Высокая
Типовые инструменты ETL, DWH Data Lake, NoSQL Event Streaming Federated Query, Data Contracts

Архитектура данных пример: крупная организация (ритейлер) с 15 млн клиентов принял решение от централизованного DWH к Data Mesh, оставив центральной команде лишь базовые сервисы (Kafka, Kubernetes, Atlas). Владельцы товаров, маркетинга и логистики получили право самим выпускать витрины и публиковать «продукты данных» по контракту OpenAPI.

Этапы построения архитектуры данных

  1. Strategic Alignment. Проводятся интервью с C-level, согласуется перечень приоритетных бизнес-кейс-ценностей (от снижения товарного остатка до прогнозирования оттока).
  2. Data Discovery. Автоматическим сканером (OpenMetadata) инвентаризируются 1С, SAP, SCADA, облачные сервисы «Контур», web-логи NGINX.
  3. Gap-анализ. Сравнивается текущее состояние (As-Is) и целевая модель (To-Be). Формируется backlog эпиков архитектуры.
  4. Blueprint. Архитектор готовит Reference Architecture со схемами потоков, SLA, оценкой TCO. Документ проходит утверждение Архкомитета.
  5. Пилот. Выбирается узкий сегмент, например возвраты товаров, строится end-to-end пайплайн. По результатам пилота корректируются стандарты.
  6. Industrial-scale Rollout. Параллельно разворачиваются доменные команды, формируются процессы Data Governance, внедряется DataOps-культура.
  7. Hypercare & Evolution. В течение 90 дней после запуска действует повышенный режим поддержки; далее — регулярные квартальные ретроспективы и roadmap.

Кто занимается архитектурой данных

Роли

Роль Основные задачи Инструменты
Архитектор данных Стратегия, reference-модель, выбор технологий ArchiMate, Enterprise Architect, GitLab
Инженер данных Реализация ETL/ELT, оптимизация запросов Airflow, dbt-ru, ClickHouse
Data Steward Семантика, глоссарий, качество наборов Atlas, Great Expectations
Data Product Owner Приоритизация фич, экономическое обоснование Jira, Confluence, Canvas
Data Security Officer Политики доступа, шифрование, DLP CryptoPro CSP, MaxPatrol SIEM

Компетенции архитектора

  • Понимание DOMA-DMBOK и российского ГОСТ 34.

  • Опыт внедрения импортозамещенных СУБД класса «Реестр Минцифры».

  • Знание паттернов CQRS, SCD2, Data Vault 2.0 и гибридного облака.

  • Навыки бюджетирования (CapEx/OpEx) и расчета TCO.

  • M-shaped soft-skills: фасилитация, переговоры, Data Literacy для стейкхолдеров.

Безопасность и Data Governance

Архитектура данных — это еще и о рисках. Ключевые практики:

  • Классификация. Деление сущностей на УЗ-1/УЗ-2 (162-ФЗ) или «обработку ПДн категорий 1–4».
  • Masking & Tokenization. Реализация dynamic-masking в ClickHouse (пользователь видит только свой филиал).
  • Immutable Audit Trail. Хеш-цепочки в Tarantool для неотказуемости операций.
  • Data Contract Testing. Автотесты на совместимость схем (Protobuf, Avro) в GitLab CI, блокирующие мерж нарушающих изменений.
  • Catalog-first Access. Выдача прав не на таблицу, а на опубликованный «продукт данных», что повышает наблюдаемость (облако МСТ).

Метрики и KPI архитектуры данных

Группа Показатель Целевое значение (пример)
Доступность Mean Time Between Failures DWH ≥ 90 дней
Качество Доля наборов с доверительным уровнем A ≥ 95 %
Скорость Средняя задержка потока «Заказ» ≤ 5 сек
Интеграция Время подключения нового источника ≤ 10 дней
Экономика Стоимость хранения 1 ГБ в RAW ≤ 12 руб./год

Эти KPI фиксируются в Service Level Objective и визуализируются в Grafana, что позволяет бизнесу оценивать эффективность архитектуры данных в цифрах, а не в абстрактных «оптимизациях».

Расширенный пример: промышленный IoT

Что такое архитектура данных в машиностроительном холдинге с 50 тыс. датчиков?

  1. Сбор: брокер NATS получает 20 млн событий/час от контроллеров ОС «КТС-исполнитель».

  2. Преобразование: Apache Flink рассчитывает скользящие средние по температуре подшипников.

  3. Хранение: долгосрочный архив хранится в Greenplum, горячие данные — в TimeScaleDB.

  4. Предиктивная аналитика: модель CatBoost обучается на DM-слое, прогнозируя отказ за 4 часа.

  5. Интерфейс: цеховой планшет в «Aurora OS» отображает статус линии; если риск > 0,8, формируется задача SAP PM.

Экономический эффект: снижение простоя оборудования на 12 %, рост OEE до 87 %.

Типовые ошибки и антипаттерны

Антипаттерн Описание Альтернатива
Data Swamp Несанкционированные выгрузки в S3 без схем. Catalog-first ingest, schema registry.
ETL-монолит Большой Java-процесс, сложно версионировать. Модульный ELT (dbt-ru) + Airflow DAG.
«Excel over HDFS» Витрины обходят хранилище, растет теневой IT. Self-service BI (DataLens) с RBAC.
Over-centralization Все запросы через один DWH-администратор. Доменная ответственность + Data Contracts.

Тренды 2025+

  • Новые ГОСТы по цифровому профилю и дрейфу персональных данных.

  • Искусственный интеллект в Data Quality. Модель YaLM 2.0 классифицирует аномалии в логах.

  • Edge-архитектура. Предобработка данных на микрокластерах «Салют» компании «Росэлектроника».

  • Quantum-safe шифрование (Кузнечик-2) для междата-центрового трафика.

  • Green IT. Балансировщик потоков выбирает дата-центр с минимальным PUE, снижают CO2-footprint.

Грамотная архитектура данных превращает информационные активы в управляемый капитал, снижая операционные риски и ускоряя вывод продуктов на рынок. Продуманная многоуровневая модель, адаптированная под российские реалии, даёт:

  • прозрачность владения данными;

  • предсказуемость затрат;

  • комплаенс с регуляторами;

  • доверие между ИТ-подразделением и бизнесом.

В 2025 году предприятия, которые построили масштабируемую архитектуру данных, уже сокращают время вывода новой аналитической функции с месяцев до недель и готовы к законодательным изменениям без авральных миграций. Архитектура данных — это не просто технический артефакт; это стратегический актив, делающий цифровую трансформацию измеримой, безопасной и устойчивой.

Остались вопросы?

Оставьте контактные данные и мы свяжемся с вами в ближайшее время

    Всегда на связи
    Офисы
    Москва
    г. Москва, ул. Петровка, 27, вход 2
    Смотреть на карте
    Калининград
    Ленинский проспект, 30,
    БЦ Калининград Плаза
    Смотреть на карте