Aктивный архив на базе HDP + TDV

Клиент: Крупный банк

Проект: Расширение корпоративного хранилища данных Teradata. Построение системы активного архива на базе Hortonworks HDP / Hive + TDV

Описание ситуации:Постоянный рост объема собираемых данных, высокие требования к длительности и безопасности хранения архивов на законодательном уровне (постановление НБУ №95) приводит к тому, что в датацентрах финансовых структур накапливаются петабайты исторических данных. В то же время, ограничения на хранение и использование персональных данных, разнородность и не всегда достаточное качество и полнота получаемых данных приводит к тому, что использовать собранную информацию для построения аналитических моделей, прогнозов и получать конкурентные преимущества за счет развития новых сервисов и продуктов, повышения лояльности клиентов, оказывается затруднительно.

У заказчика в качестве хранилища данных было внедрено решение от Teradata, дальнейшее расширение хранилища требовало значительных инвестиций. Приходилось делать выбор между глубиной хранения и экономической эффективностью, перенос архивных данных на ленточные хранилища делал невозможным их использование для расширенной аналитики.

Цель проекта: Экономически эффективное решение задач расширения ресурсов хранения и обеспечения эффективной обработки больших объёмов структурированных и неструктурированных корпоративных данных с использованием возможностей и потенциала новых подходов к хранению и аналитической обработке данных (Big Data, Data Virtualization).

Задачи:

  1. Построение экономически эффективного хранилища с целью выполнения требований НБУ к длительности хранения с возможностью анализа исторических данных любой глубины.
  2. Обеспечение параллельной многопоточной обработки данных.
  3. Унификация доступа к различным источникам данных со стороны BI систем и аналитических групп.
  4. Оптимизация работы аналитических подразделений за счет сокращения времени построения отчетов.
  5. Снижение пиковых нагрузок, которые возникают во время построения отчетности.

Реализация проекта:

Хранение и анализ исторических данных

Решения для работы с данными на основе Hadoop служат идеальной платформой для построения активного архива накопленных исторических данных в Teradata.

  • Снижение стоимости расширения ёмкости хранения корпоративного хранилища данных (DWH).
  • Снижение стоимости наращивания вычислительной производительности аналитической платформы.
  • Снижение операционных затрат на корпоративное хранилище данных из расчёта на 1TB хранимых и анализируемых данных.
  • Обеспечение возможности анализа исторических данных с практически любой глубиной хранения.

Целостное представление данных хранящихся в разных источниках

Data Virtualization – ПО гибкой мультиканальной интеграции данных. Обеспечивает быстрый доступ, независимо от того, где данные находятся, без необходимости предварительного выполнения ETL процессов.

  • Создание целостной структуры путем слияния и проработки архивных и оперативных данных
  • Обращение ко всем корпоративным данным в сети, как будто они находятся в одной области хранения.
  • Построение перекрёстной аналитики данных размещённых в различных источниках на основе композитных витрин.
  • Обеспечение единого унифицированного уровня представления корпоративных данных путём публикации витрин через ODBC, JDBC, SOAP или REST.

Результат: