Экосистема продуктов EasyData

С 2013 года компания EasyData развивает линейку российских программных продуктов для автоматизации процессов работы с файловыми системами, РСУБД, хранилищами данными и Big Data платформами. EasyPortal успешно работает в ряде крупных проектов российских компаний в качестве ETL/ELT/Cron платформы и управляет потоками данных десяток терабайт в сутки на хранилищах данных в сотни терабайт. Все продукты зарегистрированы в Российском Реестре Программного Обеспечения.
Платформа EasyPortal покрывает большую часть задач проектов хранилищ данных и сразу предоставляет готовое решение для разработки проектов хранилищ данных и управлением выполнением задач на технической инфраструктуре промышленной среды.
Преимущества EasyPortal

Возможности EasyPortal
EasyPortal помогает эффективно решать задачи:
-
Ускорить пилотные проекты хранилищ данных:
- Получить структуру источников;
- Сгенерировать структуру таблиц для хранилища данных;
- Скопировать первичные данные из источников в хранилище;
- Наладить инкрементальный захват изменения данных в источниках и доставку в хранилище;
- Разработать алгоритмы очистки и консолидации данных;
- Создать аналитические витрины данных.
-
Снизить сложность разработки проектов хранилищ данных:
- Развернуть стенды разработки, тестирования и промышленной эксплуатации для источников и хранилища данных;
- Организовать командную работу в центральном репозитории метаданных аналитиков, ETL разработчиков, специалистов тестирования и DevOps инженеров с помощью визуального интерфейса;
- Уменьшить объем кода проекта посредством шаблонизации типовых процессов;
- Обеспечить запуск и контроль выполнения задач проекта по расписанию и правилам на серверах промышленной среды.
-
Автоматизировать работу с файловыми источниками и веб сервисов:
- Осуществлять захват и многопоточное копирование файлов с различных файловых систем;
- Производить парсинг разнообразных файловых форматов с буферизацией для пакетной загрузки в базы данных;
-
Совершенствовать собственное программное обеспечение на Java совместимых платформах:
- Получить полноценный функционал управления объектами данных и процессами с визуальным интерфейсом;
- Интегрировать в приложение специализированный ETL язык управления данными с доступом ко всем объектам и процессам, разработанных в репозитории EasyPortal;
- Обеспечить запуск и контроль выполнения процессов своего приложения по расписанию с помощью центра управления задачами;
- Получить готовое рабочее место для запуска у пользователей своих приложений с веб интерфейсом.
Командная работа в EasyPortal
Для обеспечения командной работы в EasyPortal все метаданные хранятся в централизованном файловом репозитории.
Для работы сотрудников с порталом можно развернуть серверную инсталляцию или установить локальную инсталляцию на машины сотрудников. Репликация изменений репозитория производиться с помощью системы контроля версий Git. Интерфейс EasyPortal реализован в парадигме тонкого клиента и поддерживает работу на базе любого браузера.
Для удобства пользователей EasyPortal дополнительно предоставляет приложение в виде рабочего места, с помощью которого можно работать с локальным и удаленным репозиторием без необходимости использовать браузер. Рабочее место поддерживается для ОС Windows, Linux X-Server и Mac OS.
Возможности EasyPortal позволяют команде вместе решать множество ряда задач:
- Аналитикам – подключаться к источникам, исследовать их структуры данных, конвертировать описание данных в структуры таблиц баз данных и разрабатывать модели маппинга и трансформации данных;
- ETL специалистам – проектировать процессы захвата, очистки и консолидации данных, разрабатывать процедуры расчета аналитических витрин;
- Специалистам тестирования – генерировать эталонные данные для тестирования, разрабатывать юнит тесты проверки работы процессов, проводить нагрузочное и функциональное тестирование на выделенных стендах;
- DevOps инженерам – выпускать патчи изменений и документацию репозитория проекта, контролировать запуск задач по заданному расписанию и правилам на серверах промышленной среды.
Работа с источниками данных
С помощью EasyPortal можно автоматизировать работу с различными источниками данных:
- РСУБД: PostgreSql, MySql, MS SQLServer, Oracle, IBM Db2, H2 database, FireBird
- ХД: Vertica, Green Plum, Netezza
- Hadoop: Hive, Impala
- Файловые: CSV, Excel, DBF, JSON, YAML, XML
- Другие: Kafka, Web services, HDFS
Для файловых источников поддерживается работа со следующими файловыми системами:
- Локальные
- FTP
- SFTP
- HDFS
Для обеспечения работы процессов на серверах стендов разработки, тестирования и промышленной эксплуатации в EasyPortal обеспечивается раздельное хранение параметров подключения к источникам для объявленных в репозитории стендов. В зависимости от той среды, в которой запущен процесс, будут автоматически использоваться подключения источников к серверам востребованного стенда.
Моделирование описаний правил работы процессов задач

EasyPortal позволяет абстрагировать связь между структурами источников данных и процессов с помощью моделей и шаблонов типовых процессов:

Такой подход позволяет:
- Подключать к репозиторию описание структур данных из источников без привязки к процессам и правилам обработки данных;
- Разрабатывать шаблоны типовых процессов для обработки данных по заданным правилам в моделях репозитория, без привязки к конкретным источникам и структурам данных;
- Создавать для проверки работы типовых шаблонов юнит тесты с использованием эталонных данных;
- Отслеживать взаимосвязи между источниками и задачами, которые их используют.
Поддерживаемые модели:
- Модели маппинга данных – позволяют описать правила преобразования значений полей копируемых записей между источником и приёмником;
- Модели трансформации данных – позволяют описать правила трансформации данных для источника;
- Модели мониторинга – позволяют описать правила контроля наполнения данных в БД и рассылки уведомлений о возникающих задержках в наполнении данных;
- Модели эталонных файлов – позволяют описать списки файлов, которые требуется автоматически доставить и развернуть на нужный стенд для тестирования процессов;
- Модели эталонных данных – позволяют описать наборы данных из таблиц, которыми требуется автоматически заполнить таблицы на нужном стенде для тестирования процессов;
- Модели процессов задачи – позволяют пошагово описать порядок выполнения процессов в рамках единой задачи.
Разработка типовых шаблонов процессов

Для реализации собственных шаблонов с требуемой логикой работы можно использовать среду разработки JetBrains IntelliJ Idea или Eclipse совместно с open source фреймворком Getl, ориентированным на разработку ETL-процессов с помощью языка Groovy. Getl обеспечивает подключение проекта к репозиторию и дает возможность при разработке юнит тестов шаблонов сразу разрабатывать и запускать сценарии для тестирования их работы.
Готовый проект достаточно скомпилировать в Jar и подключить как библиотеку шаблонов к репозиторию без необходимости трудоемкого написания интеграции с помощью специализированного API.
Управление выполнением задач на серверах промышленного контура
Для организации запуска задач по расписанию и контролем за их выполнением EasyPortal включает в себя центр управления задачами EasyScheduler. Продукт позволяет подключить все эксплуатирующиеся сервера в единый интерфейс:

На центральном сервере устанавливается веб сервер EasyScheduler и на каждом удаленном сервере, на котором требуется запуск и контроль задач устанавливается его Runtime агент:

Продукт позволяет вызывать на удаленных серверах установленные программы и доставлять пакеты с собственным ПО до новых на сервера:

Поддерживаются вызовы задач по расписанию или заданным правилам для следующих типов:
- Исполняемые файлы Windows и Linux;
- Пакетные файлы командных интерпретаторов Windows и Linux;
- Задачи репозиториев EasyPortal;
- Сгенерированные Talend Jobs.
В EasyScheduler реализована ролевая модель работы, где пользователям назначаются роли на проекты, которые дают им возможность управлять объектами проекта:
- Писатель проекта – получает полное управление над пакетами и задачами;
- Оператор проекта – получает возможность запускать задачи проекта и просматривать их историю выполнения;
- Читатель проекта – получает возможность просматривать историю выполнения задач проекта.
Скриншоты
Рисунок 1 Рабочее место в EasyPortal

Рисунок 2 Соединения источников в EasyPortal

Рисунок 3 Датасеты источников в EasyPortal

Рисунок 4 Поля датасетов источников в EasyPortal

Рисунок 5 Счетчики источников в EasyPortal

Рисунок 6 Инкрементальные точки захвата в EasyPortal

Рисунок 7 Файловые источники в EasyPortal

Рисунок 8 Модель трансформации данных в EasyPortal

Рисунок 9 Редактор модели маппинга в EasyPortal

Рисунок 10 Модель мониторинга данных в EasyPortal

Рисунок 11 Модель эталонных файлов в EasyPortal

Рисунок 12 Модель эталонных данных в EasyPortal

Рисунок 13 Модель задачи в EasyPortal

Рисунок 14 Выбор шаблона в модели задачи из библиотеки в EasyPortal

Рисунок 15 Управление файлами репозитория в EasyPortal

Рисунок 16 Сервера в EasyScheduler

Рисунок 17 Проекты в EasyScheduler

Рисунок 18 Пакеты в EasyScheduler

Рисунок 19 Управление задачами в EasyScheduler

Рисунок 20 Назначение триггеров для задачах в EasyScheduler

Рисунок 21 История запуска задач в EasyScheduler

Рисунок 22 Просмотр истории задачи в EasyScheduler

Рисунок 23 Установление параметров контента Talend jobs в EasyPortal

Рисунок 24 Мониторинг выполнения задач в EasyScheduler

Рисунок 25 Календарь выполнения задач в EasyScheduler

Рисунок 26 Мониторинг ресурсов серверов в EasyScheduler
