Аннотация:
В статье рассматриваются вопросы эффективного хранения многомерных моделей данных в контексте современных аналитических систем. Особое внимание уделяется архитектуре многомерных кубов, которые предполагают хранение агрегированных фактов на пересечении множества измерений. Проведен обзор современных форматов хранения данных – Parquet, ORC, Iceberg, Delta Lake, Hudi – с позиции их применимости к задачам многомерной аналитики. Показано, что существующие решения ориентированы преимущественно на табличные структуры и не обеспечивают полноценной поддержки многомерных взаимосвязей, иерархий и агрегаций. Анализируются сложности интеграции между различными форматами хранения и отсутствие унифицированного подхода к описанию метаданных. На основе выявленных ограничений сформулированы проектные задачи, стоящие перед форматом хранения многомерных кубов. Предложена концептуальная модель хранения, сочетающая принципы реляционной и многомерной организации данных. Многомерная модель представляет собой таблицы фактов, измерений, а также уровень метаданных и API-интерфейс.
Ключевые слова:
многомерные кубы, OLAP-системы, модель хранения данных, метаданные, интеграция, куб данных.