Життєвий цикл даних
Поняття життєвий цикл даних має широке та вузьке значення. У широкому розумінні йдеться про період від моменту створення інформації та до моменту її повного зникнення в оригінальному вигляді. Подібне легше за все уявити з документами, що існують в єдиному екземплярі, однак можливі й сценарії коли дані необхідно знищити на чисельних носіях інформації.
У вузькому значенні йдеться про період з моменту потрапляння даних у конкретну систему і до моменту їх повного видалення. При цьому можливі варіанти, коли самі данні не є унікальними та дублюються в інших незалежних системах чи надійшли від вторинного джерела. В контексті кібербезпеки використовується вузьке значення.
Чітке розуміння вимог до циклу та оптимізація кожного етапу є одними з критеріїв, що відрізняють успішні ІТ компанії. Формування життєвого циклу має відбивати ключові дії з даними, їх рух, джерела надходження та призначення. На початкових етапах процес розробки полягає у пошуку правильного балансу між різними точками зору та інтересами.
Наприклад:
- Законодавець видає норми націлені обмежити використання особистих даних.
Компанії мають на меті зібрати максимум особистої інформації для можливого використання у майбутніх проєктах.
Які межі собору особистих даних?
Які механізми дозволяють отримати максимум даних?
- Юристи намагаються постійно адаптувати внутрішні процеси для успішного захисту компанії на випадок судових спорів.
Для ІТ менеджерів будь-яка зміна внутрішніх процесів може негативно вплинути на ефективність розробки продукту.
У чому полягають основні потенційні приводи спорів?
Як запобігли?
На скільки це вплине не розробку?
Які зміни не є критичними?
- ІТ розробники націлені створити якісне та корисне програмне забезпечення ціною часу та додаткових ресурсів.
Інвесторам цікаво отримати максимум доходу з інвестицій у найкоротші строки.
Яке обладнання необхідно для працездатності продукту?
Які аспекти продукту є критичними?
Допрацювання яких елементів можливо після випуску продукту?
- Спеціалісти з кібербезпеки намагаються максимально обмежити доступ до даних компанії та розмежовувати рівні доступу.
Аутсорс спеціалісти та внутрішні працівники теоретично зможуть краще виконувати покладені завдання та прискорити розвиток продукту маючи повний доступом до внутрішньої інформації.
Які дані потрібні спеціалістам для максимальної продуктивності?
Розголошення яких даних становить загрозу компанії та її користувачам?
Яким категоріям працівників потрібен високий рівень доступу?
На скільки відсутність доступу знизить ефективність роботи?
В результаті подібного балансування буде визначений попередній алгоритм руху даних та навіть кількість етапів у життєвому циклі.
Життєвий цикл даних може мати такі етапи:
- Збір
- Обробка
- Зберігання
- Розкриття
- Знищення
Додатково виділяють два етапи, що не належать до самого процесу обробки даних, але є важливими для визначення подальшого руху даних у системі:
- Сповіщення
- Запит
Збір – є першим етапом життєвого циклу та передбачає декілька підходів. Інформація може бути зібрана безпосередньо від джерела (прямий) або від третьої особи (не прямий).
З прямим все просто, користувач надає свої дані безпосередньо через ресурс компанії. Коли ми говоримо про не прямий збір, то інформація надходить від третіх осіб. Вони можуть самостійно збирати дані, отримувати їх від іншої особи або дозволяють розміщувати на своєму ресурсі різноманітні трекери.
Сповіщення та запит є обов’язковими для збору даних. Схематично ці етапи передують збору даних, проте з практичної точки зору не все так однозначно. Користувач має бути проінформований про збір його особистих даних. Перший варіант передбачає сповіщення, де зазначено, що продовження використання цього ресурсу автоматично означатиме згоду на збір даних (пасивний збір). Під другим варіантом мається на увазі отримання дозволу на збір інформації через запит та відповідну опцію у ньому (активний збір). З технічної точки зору з моменту запуску додатку чи переходу на вебресурс невелика частка особистої інформації вже бути передана на сервер (дані про конфігурацію пристрою, розмір екрану, ІР адресу тощо), тому необхідно враховувати яким чином поводитись з вже отриманими даними у разі відмови.
Обробка – процес, який є основною метою збору даних. Зазвичай етап обробки є унікальним для кожної компанії та може як включати взаємодію з працівниками компанії, так і бути повністю автоматичними. Досить часто в процесі обробки відкриваються можливості для використання даних не за прямим призначенням. Використання даних не первинним призначенням має бути кожного разу погоджено з користувачем. В іншому випадку подібні діє можуть суперечити місцевому законодавству чи міжнародним регламентам.
Зберігання даних – є ключовою точкою для життєвого циклу. В залежності від особливостей циклу та типу даних наступним етапом може стати розкриття, повторна обробка чи знищення. По своїй суті зберігання – це проміжковий етап, де дані можуть знаходитись поки від них є користь.
Видалення – це повне знищення даних. В залежності від типу даних існують різні методи видалення. Найбільш поширеним є типове видалення, як ми робимо у мобільних телефонах чи ноутбуках. Система перестає бачити файли, однак нулі та одиниці, що його формували все ще залишаються на носії. З часом дані будуть перезаписані новим файлом, однак до того моменту видалені дані ще можливо відновити. Коли важливо впевнитись у неможливості відновлення данні використовують методики, що передбачають повний перезапис носія раптовими чи однаковими символами. У крайньому разі йдеться про фізичне знищення носія.
Розкриття даних – факультативний етап життєвого циклу. У ньому їдеться про розкриття та передачу інформації третім особам. Цей етап також можливо вважати джерелом інформації для іншого життєвого циклу даних.
Кожна категорія даних потребує власний життєвий цикл. Наприклад платіжна інформація має бути видалена одразу після виконання платежу, статистичні дані можуть накопичуватись для майбутнього аналізу, маркетингові дані передаються третім особам і так далі.
Система обробки даних має підтримувати різні варіанти життєвого циклу. Кожний тип даних може мати не одне використання, тому має бути чітке розмежовування розділення потоку даних. Коли ми говоримо теоретично і використовуємо схеми, то все виглядає досить не складно. Однак на практиці схема може охоплювати сотні пристроїв, десятки учасників та безліч різних даних. Наприклад одночасно необхідно обробити статистичні, платіжні та маркетингові дані, при тому відділити непотрібні та заборонені для використання.