Detekce citlivého obsahu ve chráněných datech

Safetica 9.1 přináší novou flexibilnější detekci citlivého obsahu, která přináší přesnější výsledky a nižší chybovost při jejich vyhledávání.

S novým nastavením detekce obsahu můžete:

  • vytvářet pravidla s podmínkami A/NEBO
  • nastavovat různé prahy detekce pro jednotlivá pravidla
  • vložit vlastní slovníky klíčových slov

Pravidla detekce

Pravidlo detekce je soubor podmínek při jejichž splnění jsou zvolená data označena jako citlivá.

Příklad detekce

image2019-6-13_12-21-25

Tento příklad nastavení je možné použít pro vyhledávání finančních dokumentů.

Pravidlo detekce č. 1 je splněno když se v dokumentu nachází číslo kreditní karty A slovo "karta", přičemž tyto výskyty jsou od sebe vzdáleny maximálně 1800 znaků. Pravidlo detekce č. 2 je splněno pokud je v dokumentu nalezeno slovo "faktura". A pravidlo detekce č. 3 je splněno, pokud je v dokumentu slovo "objednávka" alespoň pětkrát.

Pokud je splněno pravidlo detekce č. 1 NEBO pravidlo detekce č. 2 NEBO pravidlo detekce č. 3 kdekoliv v rámci dokumentu, tak bude takovýto dokument klasifikován jako citlivý.

A/NEBO podmínky

Pokud je v jednom pravidle obsaženo více podmínek, tak musí být splněny všechny. Jinými slovy vztah mezi jednotlivými podmínkami v rámci jednoho pravidla je typu A. Když se podíváme na výše zmíněný příklad, tak pravidlo detekce č. 1 je splněno v případě, kdy je v dokumentu nalezeno číslo kreditní karty A slovo "karta".

image2019-6-13_12-22-59

Pokud vytvoříte více pravidel detekce v rámci jedné kategorie dat, tak alespoň jedno musí být splněno. Vztah mezi jednotlivými pravidly detekce je typu NEBO. V našem příkladu tedy stačí, aby bylo splněno alespoň jedno pravidlo detekce, aby byl soubor vyhodnocen jako citlivý.

image2019-6-13_12-23-38

Rozsah detekce

Rozsah detekce je zaveden pro zvýšení přesnosti výsledků a eliminaci chyb.

Rozsah detekce znamená, že podmínka A musí být splněna v rozsahu 1800 znaků - jedná se o přibližný rozsah textu na jedné stránce A4. Tento rozsah je ovšem aplikován na prostý text souborů a nijak nezohledňuje rozložení na konkrétní stránky.

Práh detekce

Práh detekce určuje kolikrát musí být pravidlo detekce splněno v rámci jednoho souboru, aby byla data vyhodnocena jako citlivá.

Pokud nastavíte práh detekce na "1", tak budou za citlivá data označeny všechny případy, kdy dojde ke splnění pravidla detekce alespoň jednou - toto nastavení je vhodné pro případy, kdy chceme označit veškeré soubory obsahující zvolenou citlivou informaci. Při nastavení prahu detekce na "100" budou označena pouze data, kde je detekční pravidlo splněno alespoň 100x v jednom souboru. Tyto nastavení umožňují volit flexibilní přístup k vyhledávání citlivých dat - práh detekce "1" sice může vyústit v množství nesprávných označení, nicméně snižuje pravděpodobnost úniku dat. Práh detekce "100" na druhou stranu eliminuje chybná označení, ale detekuje pouze soubory s velkým množstvím citlivých dat.

Výchozí práh detekce je stanoven na "5" za účelem snížení množství chybných označení.

Zpětná kompatibilita

Po aktualizaci na verzi 9.1 bude předchozí nastavení citlivého obsahu převedeno na nový systém. Dříve byla citlivá data detekována pouze pomocí podmínky NEBO. Pro zachování funkčnosti budou tato nastavení převedena do nové verze do několika pravidel detekce.

 

Verze
Nastavení citlivého obsahu
Safetica 9.0 a starší čísla kreditních karet NEBO "karta" OR "faktura" OR "objednávka"
Safetica 9.1+ Pravidlo detekce č. 1: čísla kreditních karet
Pravidlo detekce č. 2: "karta"
Pravidlo detekce č. 3: "faktura"

 

 

Nová pravidla detekce jsou do jisté míry zpětně kompatibilní se staršími verzemi klientů podle následujících pravidel:

  • starší klienti na koncových stanicích přijmou pouze pravidla s jedinou podmínkou
  • starší klienti na koncových stanicích uplatní nejvyšší práh detekce v případě, kdy mají jednotlivá pravidla detekce nastavené různé prahy detekce

Například:

 

Podmínky
Práh detekce
Pravidlo detekce č. 1 čísla kreditních karet AND "karta" 1
Pravidlo detekce č. 2 "faktura" 1
Pravidlo detekce č. 3 "objednávka" 5

 

Na starších klientech bude pravidlo detekce č. 1 ignorováno, protože obsahuje několik podmínek. Pravidlo detekce č. 2 a č. 3 bude aplikováno s detekčním prahem 5, protože se jedná o nejvyšší nastavenou hodnotu prahu detekce. Následně budou aplikována tato pravidla:

Podmínka
Práh detekce
"faktura" NEBO "objednávka" 5

 

Vlastní slovníky

Safetica 9.3 a vyšší podporuje vložení vlastních slovníků klíčových slov. Ty mohou obsahovat seznam jsme nebo identifikátorů, názvy projektů, technické termíny nebo jiná klíčová slova, která často označují citlivý obsah (běžná slova a fráze ze smluv, osobní životopisy, atd.)

Z důvodu optimalizace výkonu jsou vlastní slovníky omezeny následnými pravidly:

  • vlastní slovníky mohou být importovány pouze jako .TXT soubory kódovány v UTF-8 s BOM
  • importované slovníky mohou obsahovat dohromady až 500 000 klíčových slov
  • lze importovat až 50 samostatných slovníků
  • slovníky podporují pouze prostá klíčová slova, regulární výrazy lze definovat v samostatné sekci v Safetica
  • klíčová slova jsou ohraničena zalomením řádku tzn. 1 řádek = 1 klíčové slovo