Datenmaskierung nicht nur in Hadoop: Datenschutz von und in un/semi/strukturierten Dark Data Quellen - lokal und in der Cloud ❗
Parquet-Dateiformat: Sensible Informationen suchen und schützen!
Apache Parquet ist ein spaltenförmiges, komprimiertes Dateiformat, das auf Leistung optimiert ist. Parquet-Dateien sind häufig bei Cloud-Speicheranbietern zu finden, da die Optimierungen des Dateiformats die Kosten in Cloud-Umgebungen im Vergleich zu CSV-Dateien senken.
Parquet ist ein komplexes Binärformat, das zwar für schnelle analytische Abfragen und geringen Speicherplatzbedarf ausgelegt ist, aber nicht leicht lesbar ist, was den Schutz sensibler Daten erschweren kann.
Die DarkShield Files API bietet jedoch die Möglichkeit, Parquet-Dateien nach sensiblen Daten zu durchsuchen und zu maskieren. Das Parquet-Dateiformat lässt viele Datentypen und verschachtelte Datenstrukturen zu; die DarkShield Files API ist in der Lage, gängige primitive Typen wie Strings, Integer, Bytes usw. sowie mehrere Verschachtelungsebenen zu durchsuchen und zu maskieren.
Die Implementierung der Unterstützung des Parquet-Dateiformats in der DarkShield Files API wurde mit Blick auf die Massenverwendung entwickelt. Viele Parkettdateien sind recht groß, aber wenn die Größe jeder Zeilengruppe auf eine vernünftige Größe begrenzt ist (empfohlen werden typischerweise nicht mehr als 128 MB), entspricht der maximal verwendete Speicherplatz eher der Größe der Zeilengruppe als der Größe der gesamten Datei.
Diese Demo finden Sie im Ordner „parquet demo“ hier.
Die Demo enthält zwei Parkettdateien, von denen eine eine „flat“ Parkettdatei ist, die ein einzelnes Feld für jede Spalte hat, während die andere Datei verschachtelte Felder in einer Spalte enthält.
Wenn Sie sich eine der Parkettdateien in einem Texteditor ansehen, können Sie das Format erkennen – einige Zeichenketten sind sichtbar, aber es gibt auch eine Menge binärer Kodierung.
Weltweite Referenzen: Seit über 40 Jahren nutzen unsere Kunden wie die NASA, American Airlines, Walt Disney, Comcast, Universal Music, Reuters, das Kraftfahrtbundesamt, das Bundeskriminalamt, die Bundesagentur für Arbeit, Rolex, Commerzbank, Lufthansa, Mercedes Benz, Osram,.. aktiv unsere Software für Big Data Wrangling und Schutz! Sie finden viele unserer weltweiten Referenzen hier und eine Auswahl deutscher Referenzen hier.
Partnerschaft mit IRI: Seit 1993 besteht unsere Kooperation mit IRI (Innovative Routines International Inc.) aus Florida, USA. Damit haben wir unser Portfolio um die Produkte CoSort, Voracity, DarkShield, FieldShield, RowGen, NextForm, FACT und CellShield erweitert. Nur die JET-Software GmbH besitzt die deutschen Vertriebsrechte für diese Produkte. Weitere Details zu unserem Partner IRI Inc. hier.
Firmenkontakt und Herausgeber der Meldung:
JET-Software GmbH
Edmund-Lang-Straße 16
64832 Babenhausen
Telefon: +49 (6073) 711-403
Telefax: +49 (6073) 711-405
https://www.jet-software.com
Ansprechpartner:
Amadeus Thomas
+49 (6073) 711403
Dateianlagen:
Weiterführende Links
- Originalmeldung von JET-Software GmbH
- Alle Meldungen von JET-Software GmbH
- PII, PHI, PAN und PCI in semi/un/strukturierten Quellen - lokal oder in der Cloud - finden und maskieren! Sensible Daten GDPR-konform schützen!
- DarkShield findet und maskiert sensible Informationen in mehreren unstrukturierten DB- und Dateiformaten in mehreren Silos gleichzeitig!