Detekční pravidla pro vyhledávání citlivého obsahu v Safetica ONE

Zjistěte, jak vytvářet pravidla detekce, nastavovat práh detekce a specifikovat vlastní slovníky

Více se o detekci citlivého obsahu dozvíde zde a zde.

Pravidlo detekce je soubor podmínek, při jejichž splnění se příslušná data vyhodnotí jako citlivá.

V tomto článku se dozvíte:

 

Jaké předdefinované algoritmy a slovníky nabízí Safetica ONE pro vyhledávání citlivého obsahu

Můžete vybírat z mnoha předdefinovaných algoritmů a slovníků pro vyhledání citlivého obsahu:

  • Čísla kreditních karet. Příklad: 4716-7750-2748-6285
  • IBAN – mezinárodní formát čísla bankovního účtu
  • Brazilská čísla identifikačních karet
  • Brazilská čísla právnických osob
  • Brazilská čísla fyzických osob
  • Brazilská čísla sociálního pojištění
  • Kanadská čísla sociálního pojištění
  • Česká/slovenská rodná čísla – rodná čísla obyvatel České nebo Slovenské republiky ve standardním formátu. Příklad: 925327/9508
  • Dánská rodná čísla
  • Ekvádorská čísla identifikačních karet
  • Německá daňová identifikační čísla
  • Norská rodná čísla
  • Polská čísla ID – číslo polského národního průkazu totožnosti.
  • Polská čísla cestovních pasů
  • Polská osobní čísla (PESEL) – polské národní identifikační číslo.
  • Singapurská čísla identifikačních karet
  • Jihoafrická čísla ID
  • Španělská daňová identifikační čísla
  • Švédská rodná čísla
  • Turecká čísla ID – číslo tureckého národního průkazu totožnosti.
  • UK čísla národního pojištění – čísla národního pojištění obyvatel Velké Británie. Příklad: AA 12 24 56 C
  • US čísla sociálního pojištění – čísla sociálního zabezpečení obyvatel USA. Podmnožinou jsou čísla ITIN (Individual Taxpayer Identification Number). Příklad: 123 - 45 - 6789
  • US čísla sociálního pojištění & HIPAA – vyhledává se kombinace čísel sociálního zabezpečení obyvatel USA a dat ze slovníků vytvořených na základě HIPAA. Slovníky jsou průběžně aktualizované v rámci aktualizace definic a obsahují seznamy firem, nemocí a léků.

HIPAA (Health Insurance Portability and Accountability Act) je zákon, který upravuje zacházení s osobními informacemi o zdravotním stavu pacientů ve zdravotnických zařízeních v USA

 

Příklad pravidla detekce

image2019-6-13_12-21-25

Tento příklad nastavení je možné použít pro vyhledávání finančních dokumentů.

Pravidlo detekce č. 1 je splněno když se v dokumentu nachází číslo kreditní karty A slovo "karta", přičemž tyto výskyty jsou od sebe vzdáleny maximálně 1800 znaků. Pravidlo detekce č. 2 je splněno pokud je v dokumentu nalezeno slovo "faktura". A pravidlo detekce č. 3 je splněno, pokud je v dokumentu slovo "objednávka" alespoň pětkrát.

Pokud je splněno pravidlo detekce č. 1 NEBO pravidlo detekce č. 2 NEBO pravidlo detekce č. 3 kdekoliv v rámci dokumentu, tak bude takovýto dokument klasifikován jako citlivý.

 

Kdy se používají A/NEBO podmínky

Pokud je v jednom pravidle obsaženo více podmínek, tak musí být splněny všechny. Jinými slovy vztah mezi jednotlivými podmínkami v rámci jednoho pravidla je typu A. Když se podíváme na výše zmíněný příklad, tak pravidlo detekce č. 1 je splněno v případě, kdy je v dokumentu nalezeno číslo kreditní karty A slovo "karta".

Každé pravidlo bude platit, pouze pokud jsou splněny všechny podmínky v pravidle.

image2019-6-13_12-22-59

Pokud vytvoříte více pravidel detekce v rámci jedné kategorie dat, tak alespoň jedno musí být splněno. Vztah mezi jednotlivými pravidly detekce je typu NEBO. V našem příkladu tedy stačí, aby bylo splněno alespoň jedno pravidlo detekce, aby byl soubor vyhodnocen jako citlivý.

Citlivá data budou detekována, pokud platí alespoň jedno pravidlo detekce v seznamu pravidel.

image2019-6-13_12-23-38

 

Rozsah detekce

Rozsah detekce je zaveden pro zvýšení přesnosti výsledků a eliminaci chyb.

Rozsah detekce znamená, že podmínka A musí být splněna v rozsahu 1800 znaků - jedná se o přibližný rozsah textu na jedné stránce A4. Tento rozsah je ovšem aplikován na prostý text souborů a nijak nezohledňuje rozložení na konkrétní stránky.

 

Práh detekce

Práh detekce určuje, kolikrát musí být pravidlo detekce splněno v rámci jednoho souboru, aby byla data vyhodnocena jako citlivá. Pokud bude v souboru nalezeno méně výskytů citlivých dat, než je uvedený práh, nebude takový soubor klasifikován jako citlivý.

Pokud nastavíte práh detekce na "1", tak budou jako citlivá data klasifikovány všechny případy, kdy dojde ke splnění pravidla detekce alespoň jednou - toto nastavení je vhodné pro případy, kdy chceme klasifikovat veškeré soubory obsahující zvolenou citlivou informaci. Při nastavení prahu detekce na "100" budou klasifikovány pouze soubory, kde je detekční pravidlo splněno alespoň 100x.

Tyto nastavení umožňují volit flexibilní přístup k vyhledávání citlivých dat - práh detekce "1" sice může vyústit v množství nesprávných označení, nicméně snižuje pravděpodobnost úniku dat. Práh detekce "100" na druhou stranu eliminuje chybná označení, ale detekuje pouze soubory s velkým množstvím citlivých dat.

Výchozí práh detekce je stanoven na "5" za účelem snížení množství chybných označení.

 

Vlastní výrazy

V této části můžete zadat vlastní klíčová slova a regulární výrazy, podle kterých se bude v obsahu souboru vyhledávat citlivý obsah.

U klíčových slov se nerozlišují malá a velká písmena.

Regulární výrazy se vyhodnocují na základě syntaxe je v jazyce ECMAScript.

 

Vlastní slovníky

Zde můžete vybrat slovníky, ve kterých jsou uvedena slova, která se mají detekovat jako citlivá data. Mohou obsahovat seznam jmen nebo identifikátorů zákazníků, názvy projektů, technické termíny nebo jiná klíčová slova, která často označují citlivý obsah (běžná slova a fráze ze smluv, osobní životopisy, atd.).

Pokud chcete importovat vlastní slovník, vytvořte textový soubor, do kterého zadejte slova, která chcete detekovat jako citlivá data. Každé slovo vždy umístěte samostatně na nový řádek.

Pokud chcete importovat, aktualizovat nebo odebrat slovník, klikněte na Spravovat slovníky.

Z důvodu optimalizace výkonu jsou vlastní slovníky omezeny následnými pravidly:

  • vlastní slovníky mohou být importovány pouze jako .TXT soubory kódovány v UTF-8 s BOM
  • importované slovníky mohou obsahovat dohromady až 500 000 klíčových slov
  • lze importovat až 50 samostatných slovníků
  • slovníky podporují pouze prostá klíčová slova, regulární výrazy lze definovat v samostatné konfigurační sekci v Safetica Management Console
  • klíčová slova jsou ohraničena zalomením řádku tzn. 1 řádek = 1 klíčové slovo

 

Zpětná kompatibilita

Po aktualizaci na verzi 9.1 bude předchozí nastavení citlivého obsahu převedeno na nový systém. Dříve byla citlivá data detekována pouze pomocí podmínky NEBO. Pro zachování funkčnosti budou tato nastavení převedena do nové verze do několika pravidel detekce.

Verze
Nastavení citlivého obsahu
Safetica 9.0 a starší čísla kreditních karet NEBO "karta" OR "faktura" OR "objednávka"
Safetica 9.1+ Pravidlo detekce č. 1: čísla kreditních karet
Pravidlo detekce č. 2: "karta"
Pravidlo detekce č. 3: "faktura"

Nová pravidla detekce jsou do jisté míry zpětně kompatibilní se staršími verzemi klientů podle následujících pravidel:

  • starší klienti na koncových stanicích přijmou pouze pravidla s jedinou podmínkou
  • starší klienti na koncových stanicích uplatní nejvyšší práh detekce v případě, kdy mají jednotlivá pravidla detekce nastavené různé prahy detekce

Například:

Podmínky
Práh detekce
Pravidlo detekce č. 1 čísla kreditních karet AND "karta" 1
Pravidlo detekce č. 2 "faktura" 1
Pravidlo detekce č. 3 "objednávka" 5

Na starších klientech bude pravidlo detekce č. 1 ignorováno, protože obsahuje několik podmínek. Pravidlo detekce č. 2 a č. 3 bude aplikováno s detekčním prahem 5, protože se jedná o nejvyšší nastavenou hodnotu prahu detekce. Následně budou aplikována tato pravidla:

Podmínka
Práh detekce
"faktura" NEBO "objednávka" 5