Запись данных
===============

Запись данных в **ADTM** обеспечивает консистентное обновление (вставка, обновление, удаление) объектов в Системе.

К записи данных предъявляются следующие ограничения и допущения:

+	Дельты загружаются строго последовательно;
+	Данные из сообщений одной дельты загружаются параллельно;
+	Дельты со стороны ETL ИС Поставщика выгружаются строго последовательно.

Запись данных имеет следующий процесс:

+	Горячие записи загружаются в таблицу данных;
+	Старые записи из таблицы данных перемещаются в таблицу истории.


Массивно-параллельная загрузка дельты
---------------------------------------

Массивно-параллельная загрузка дельты в **ADTM** обеспечивает массивно-параллельное консистентное обновление (вставка, обновление, удаление) объектов в Системе.

Массивно-параллельная загрузка дельты выполняет следующие назначения:

+	Создание внешних UPLOAD таблиц загрузки;
+	Определение начала и окончания загрузки дельты;
+	Загрузка данных дельты через внешние UPLOAD таблицы загрузки в физические таблицы хранилища данных, включая перенос старых записей из таблицы данных в таблицу истории.

К массивно-параллельной загрузке дельты предъявляются следующие ограничения и допущения:

+	Не предполагается нумерация входящих сообщений Kafka;
+	Входящие сообщения Kafka для каждого удаленного объекта содержат признак ``sys_op(int)=1``;
+	Гарантируется, что данные из прочитанных (коммит чтения) сообщений Kafka загружены в Систему;
+	Окончание потока сообщений Kafka определяется по заданному в конфигурации таймауту ожидания сообщений kafka (максимально допустимый интервал времени ожидания сообщений kafka в рамках потока).

Входные данные:

+	JDBC подключение к Системе;
+	Топик Kafka, содержащий загружаемые данные.

Выходные данные *SUCCESS*:

+	Загружены данные в физические таблицы хранилища данных, включая перенос старых записей из таблицы данных в таблицу истории;
+	Выполнен коммит чтения для входящих сообщений Kafka;
+	Увеличен номер последней загруженной дельты в Системе.

Выходные данные *FAIL*:

+	Частично загружены данные в физические таблицы хранилища данных, включая перенос старых записей из таблицы данных в таблицу истории;
+	Выполнен коммит чтения для части входящих сообщения Kafka, которые были загружены в СУБД хранилища данных;
+	Не изменен номер последней загруженной дельты в Системе;
+	Сформировано сообщение об ошибке в ответ на входящий JDBC запрос;
+	Зафиксирована ошибка загрузки дельты.


Загрузка данных в ADB
----------------------

Загрузка данных в **ADB** в ПО **ADTM** обеспечивает массивно-параллельную загрузку данных из **Kafka** в физические таблицы **ADB**.

Загрузка данных в **ADB** выполняет следующие назначения:

+	Загрузка горячих записей из топика Kafka в таблицу данных;
+	Перенос старых записей из таблицы данных в таблицу истории в рамках транзакции.

Входные данные:

+	Номер последней успешно загруженной дельты ``DELTA_OK``;
+	Номер загружаемой дельты ``DELTA_HOT``;
+	Kafka topicY, содержащий данные для загрузки;
+	JDBC подключение к ADB;
+	readable external table (tblExt), читающая данные из Kafka topicY;
+	Таблица staging (*tbl_staging*);
+	Таблица данных (*tbl_actual*);
+	Таблица истории (*tbl_history*).

Выходные данные:

+	Таблица данных содержит только актуальные данные (для момента времени ``DELTA_HOT``);
+	Таблица истории содержит старые записи (для момента времени ``DELTA_HOT``);
+	Таблица staging пуста.

К загрузке данных в **ADB** предъявляются следующие ограничения и допущения:

+ В таблице staging могут оказаться дублированные записи;
+	Данные в Kafka topicY содержат признак ``SysOp=1`` для каждого удаленного объекта;
+	Перенос данных (удаление/вставка) выполняется в рамках каждого сегмента (не происходит перемещения данных между сегментами);
+	Старая запись может иметь только два состояния:

  + полностью перенесена (отсутствует в таблице данных, присутствует в таблице истории с требуемыми значениями системных полей);
  + не перенесена (присутствует в таблице данных, отсутствует в таблице истории).


Загрузка данных в ADQM
-----------------------

Загрузка данных в **ADQM** в ПО **ADTM** обеспечивает массивно-параллельную загрузку данных из **Kafka** в физические таблицы **ADQM**.

Загрузка данных в **ADQM** выполняет следующие назначения:

+	Загрузка горячих записей из заданного топика Kafka в таблицу данных;
+	Обновление состояния старых записей в таблице данных;
+	Обеспечение консистентной выборки в любой момент времени;
+	Перенос старых записей в отдельное физическое хранилище (диск, том).

К загрузке данных в **ADQM** предъявляются следующие ограничения и допущения:

+	Отсутствует таблица истории. Перенос старых записей в специальное хранилище осуществляется функционалом СУБД TTL;
+	Момент определения записей подлежащих переносу можно настраивать;
+	В момент загрузки дельты выборка может выполняться дольше (используется ключевое слово *FINAL*);  
+	Запросы, начатые до момента начала загрузки дельты, не затрагивают записи, созданные в процессе загрузки дельты, в том числе  записи сторно;
+	Повторные записи (полное совпадение полей) дедуплицируются при завершении загрузки дельты;
+	В таблице данных отсутствует признак удаления ``sys_op``;
+	Предусмотрена работа в кластере.

Входные данные:

+	Номер актуальной дельты -- ``@delta_ok``;
+	Номер загружаемой дельты -- ``@delta_hot``;
+	Имя топика -- ``topicY``;
+	Константа ``@ttl_wait_sec`` -- количество секунд после фактического устаревания записи (вставка записи) до готовности к переносу старых записей на другое хранилище;
+	Формат данных (AVRO);
+	ADQM: 

  +	таблица данных с указанием выражения TTL – tbl_actual (CollapsingMergeTree):
    
    + ``[ columns ]``;
    + ``sys_from`` (Int64);
    + ``sys_to`` (Int64);
    + ``close_date`` (DateTime64) -- дата, с момента которой отсчитывается готовность к переносу на другое хранилище;
    + ``sign`` (Int8) -- признак отмены записи (сторно).


Загрузка данных в ADG
----------------------

К загрузке данных в **ADG** предъявляются следующие ограничения и допущения:

+ Движок таблиц memtx;
+	Требуется точное совпадение состава, типа и порядка полей во входящих сообщениях и структуре таблиц staging;
+	Допустим перенос данных в историческую таблицу и таблицу данных в процессе пополнения таблицы staging;
+	Перенос данных из таблицы staging в таблицу данных и перенос старых записей в таблицу истории должен происходить в рамках одной транзакции.

Входные данные:

+	``@delta_hot`` -- номер загружаемой дельты;
+	Входящие сообщения в топике Kafka topicY;
+	Кластер ADG:
  
  +	таблица staging ``tbl1_staging``:
    
    +	(поля логической таблицы);
    +	``sys_op`` (int);
    +	``bucket_id`` (unsigned);
    
  +	таблица данных ``tbl1_actual``:

    + (поля логической таблицы);
    +	``sys_from`` (int) -- последнее поле PK;
    +	``sys_to`` (int);
    +	``sys_op`` (int);
    +	``bucket_id`` (unsigned);
    
  +	таблица истории ``tbl1_history``:
  
    +	(поля логической таблицы);
    +	``sys_from`` (int) -- последнее поле PK;
    +	``sys_to`` (int);
    +	``sys_op`` (int);
    +	``bucket_id`` (unsigned).

Выходные данные:

+	Таблица данных содержит только актуальные данные (для момента времени ``@delta_hot``);
+	Таблица истории содержит старые записи (для момента времени ``@delta_hot``);
+	Таблица staging пуста.


Запись дельты (репликации)
---------------------------

Запись данных (репликация) в **ADTM** обеспечивает репликацию в части массивно-параллельной загрузки данных в реплику.

Запись данных (репликация) выполняет следующие назначения:

+	Принимает от Агента ПОДД (Подсистема обеспечения доступа к данным) входящий поток сообщений ``delta.in``, содержащий дельту и системные данные дельты (``ẟ`` -- номер дельты, ``ẟ-time`` -- дата-время дельты);
+	Определяет состав и целостность полученной дельты;
+	Выполняет массивно-параллельную загрузку данных;
+	Устанавливает номер и дату-время загруженной дельты, равные номеру и дате-времени дельты оригинала;
+	Формирует ответ ``delta.in.rs`` для Агента ПОДД.

К записи данных (репликации) предъявляются следующие ограничения и допущения:

+	Загрузка дельт происходит строго последовательно -- новая дельта после подтверждения загрузки предыдущей (``delta.in.rs``);
+	Загрузка дельты происходит в потоковом режиме -- загрузка дельты в реплику начинается после получения первого сообщения ``delta.in`` и заканчивается в момент, когда загружены данные из всех сообщений дельты;
+	``delta.in`` может содержать дубликаты сообщений;
+	Дата-время одинакового номера дельты оригинала и реплики совпадают;
+	Логическая схема данных реплики должна соответствовать загружаемым данным (мета-данные загружаемых данных определяются по логической схеме данных реплики);
+	ПОДД поддерживает протокол обмена в формате ``delta.rq``, ``delta.rs``, ``delta.in``;
+	ПОДД является драйвером репликации.

Входные данные:

+	DM.JDBC подключение;
+	Поток сообщений ``delta.in``, каждое из которых содержит:
  
  +	``ẟ`` -- номер дельты;
  +	``ẟ-time`` -- дата-время дельты;
  +	sql-запрос подписки;
  +	порядковый номер таблицы (номер потока);
  +	общее количество таблиц (количество потоков);
  +	порядковый номер сообщения в рамках таблицы (в рамках потока);
  +	признак последнего сообщения в рамках таблицы (в рамках потока);
  +	[ подмножество данных таблицы ].

Выходные данные:

+ Загруженная в реплику дельта (``ẟ``, ``ẟ-time``);
+	Исходящее сообщение ``delta.in.rs``.