Jak označit soubory na základě obsahu

Následující článek popisuje, jak označit soubory na základě obsahu.

Berte prosím na vědomí že článek je zastaralý. V Safetica 8.3 a novější není nutné používat označování souborů na základě obsahu pro DLP konfiguraci. Pro více se prosím podívejte na článek Datové kategorie. Úlohu pro hledání citlivého obsahu souborů doporučujeme spouštět z nového formuláře Datové kategorie namísto použití tohoto staršího průvodce.  


Pro vytvoření označovací úlohy proveďte kroky:

  1. Přejděte do Protection -> Označování souborů, a klikněte na tlačítko “Spravovat datové kategorie”.

  2. Vytvořte vlastní datovou kategorii (Příklad - Obsah).

  3. Na vytvořené kategorii vytvořte pravidlo na základě obsahu souboru. Přejděte níže a rozbalte položku PRAVIDLA HLEDÁNÍ OBSAHU SOUBORU a stiskněte tlačítko Přidat.

 

Vyplňte název a vyberte objekt (Další). Přidejte cestu a přípony souborů.

Tip: Pokud chcete označovat více obsahových kategorii (SSN, NIN, HIPPA,…), doporučujeme vytvořit pro každou kategorie vlastní pravidlo pro označení. Budete mít lepší přehled, které z pravidel soubor označilo. Dále doporučujeme použít testovací režim pravidla a projít výsledky označení před reálným použitím, tedy přepnutím režimu pravidla na Označování.

 

Nastavení obsahu

Můžete zvolit jednu z následujících kategorií:

-          Čísla sociálního pojištění (SSN - USA), příklad: 123 - 45 - 6789

-          Rodná čísla (CZE), příklad: 925327/9508

-          Čísla národního pojištění (UK), příklad: AA 12 24 56 C

-          Čísla kreditních karet, příklad: 4716-7750-2748-6285

-          Čísla sociálního pojištění (USA) + HIPPA. HIPPA includes: HIPAA.companies, HIPAA.diseases, HIPAA.diseases-icd10, HIPAA.drugs

 

Další možností jak označit citlivá data na základě obsahu je použití regulární výrazů. Regulární výraz je posloupnost znaků, které definuje vyhledávaný vzor, který je porovnáván se slovy. Slova mohou být definována speciálními znaky (space, -, , , /, {}, [], () )

Znak, které tvoří regulární výrazy jsou:

-          písmena [a-z],[A-Z]

-          čísla [0-9]

-          znaky  £&_–@,

-          meta znaky .*+[](){}

 

Každý z meta znaků má speciální význam.

.           -           Tečka reprezentuje jeden konkrétní znak

*          -           Hvězdička reprezentuje žádný nebo více znaků

+          -          Plus reprezentuje jeden nebo více z znaků

[ ]        -           Třídy znaků. Příklad, [abc] symbolizuje: jeden konkrétní znak v tomto případě a,b nebo c.

{}         -          Opakování. (a){3} symbolizuje “aaa”.

  

Příklady

Pokud chcete označit veškeré dokumenty, který obsahují slovo “Invoice4343” můžete jednoduše vytvořit regulární výraz ( Invoice4343 ). Pokud chcete označit všechny dokumenty se slovním spojením "Invoice" a různé čtyři číslice. Pak můžete použít regulární výraz

(Invoice[0-9]{4})
Tento regulární výraz označí všechny soubory obsahující (Invoice0000 - Invoice9999).

Můžete ignorovat i velká a malá písmena.

Slovo “INVOICE4343” a “invoice4343” může být popsáno regulárním výrazem: [Ii][Nn][Vv][Oo][Ii][Cc][Ee][0-9]{4}

 

Slovo

Regulární výraz

Invoice4343

Invoice4343

Invoice0000 - Invoice_9999

Invoice[0-9]{4}

invoice0000 - INVOICE9999

[Ii][Nn][Vv][Oo][Ii][Cc][Ee][0-9]{4}

 

Specific words

Word

Forms

Regular expression

Payroll

Payroll, payrolls, …

.*[Pp]ayroll.*

Invoice

invoice, Invoices, …

.*[Ii]nvoice.*

pin

PIN, pin, pIN

[Pp][Ii][Nn]

 

Fráze

Pomocí regulárních výrazů můžete také vyhledávat víceslovní spojení.

Příklady:

Fráze

Příklad

Regulární výraz

European Central Bank

European - Central - Bank

European_Central_Bank

European  -     Central- Bank

...

^European$ ^Central$ ^Bank$

Daniel Brown

daniel.brown

<name> Daniel Brown </name>

Daniel – Brown

^[Dd]aniel$ ^[Bb]rown$