Mit Open-Source-Lösungen grosse Datenmengen intelligent nutzen

Holger Hammel 23.03.2023

Unternehmen stehen vor der wachsenden Herausforderung, mit immer grösser werdenden Datenmengen umzugehen. Um diese Datenmengen effizient nutzen zu können, bieten sich zeitgemässe Open-Source-Lösungen und, falls noch nicht geschehen, der Umstieg in die Public Cloud an. Der Beitrag zeigt, worauf Unternehmen dabei achten sollten.

PDF Kaufen

Von 2018 bis 2025, so der Informationsdienst des Instituts der deutschen Wirtschaft (IWD), werden sich die weltweiten Datenmengen verfünffachen. Angesichts dessen stehen immer mehr Unternehmen vor der Herausforderung, zunehmend mehr Daten zu speichern, zu verwalten und zu analysieren, um datenbasiert ihr Geschäftsmodell weiterzuentwickeln oder neue aufzubauen. Gerade um grosse Datenmengen intelligent und effizient zugleich zu nutzen und zu analysieren, bieten sich verschiedene Open-Source-Lösungen an. Doch der Weg dahin birgt einige Stolpersteine.

Die Vorteile eines Open-Source-Ökosystems, in dem mehrere verknüpfte Open-Source-Lösungen permanent Events streamen, sprechen für sich: Der Bedarf an Fachleuten innerhalb des Unternehmens verringert sich. Unternehmen können sich nun auf geschulte Fachleute, einschliesslich Datenanalysten, verlassen, die ihnen helfen, wichtige Erkenntnisse aus einem grossen Datenpool zu gewinnen. Open-Source-Lösungen lassen sich zudem von Fall zu Fall flexibel anpassen, Organisationen vermeiden darüber hinaus Lock-in-Situationen, wie sie bei proprietärer Software drohen, und vor allem lassen sich einzelne Lösungen miteinander kombinieren. Es entsteht ein intelligentes Datenökosystem, das, läuft es erst einmal, Mitarbeitenden die Chance gibt, abteilungsübergreifend agil und in Echtzeit Daten zu nutzen und Ergebnisse auf einfachem Wege zu visualisieren.

Schritte zur Open-Source-Lösung

Damit am Ende wirklich ein Rädchen ins andere greift, sollte der Umstieg auf Open-Source-Lösungen, die grossen Datenmengen gewachsen sind, möglichst reibungslos laufen. Auf diese Punkte müssen Organisationen achten:

Verschiedene Systeme testen
Zunächst einmal gibt es nicht die eine Standardlösung für alle Unternehmen. Vielmehr stellen sich Organisationen abhängig von ihren jeweiligen Zielen individuell passende IT-Lösungen zusammen. Dafür müssen sie im Vorfeld genau definieren, welche Ziele sie durch das neue System erreichen wollen. Oft gelingt dies nur in Zusammenarbeit mit einem externen Dienstleister. Um das Risiko einer Fehlentscheidung zu minimieren, ist es ratsam, dafür einen Dienstleister auszuwählen, der möglichst breit aufgestellt ist, nicht nur spezifische Expertise für eine Lösung mitbringt.

Zudem bieten sich Testphasen mit verschiedenen Lösungen an, um Vor- und Nachteile gegeneinander abwägen zu können. Auf diesem Wege können IT-Entscheider auch abwägen, welche Funktionen von dem derzeitigen System weiterhin übernommen werden können und welche Funktionen durch Ergänzungen optimiert werden sollten. Ganz grundsätzlich sollten Unternehmen nicht in eine beliebige Lösung investieren, sondern herausfinden, welches System ihnen tatsächlich langfristig weiterhilft, um das Maximum aus wachsenden Datenmengen herauszuholen.

Flexibilität und Skalierbarkeit
Eine sinnvolle Storage-Infrastruktur sollte für wachsende Daten stets flexibel und skalierbar sein. Wenn die Menge an Daten zunimmt, werden Ergebnisse im Idealfall dadurch valider, die darauf basierenden Erkenntnisse fundierter. Das zentrale Event-Streaming-Framework «Apache Kafka», das den Echtzeit-Datentransport für jedes Unternehmen ermöglicht, verwaltet beispielsweise Datenströme zuverlässig an einem Ort. «Flink» hingegen kann SQL-Abfragen über kontinuierliche Datenströme wie «Apache Kafka» verarbeiten. SQL als vertraute Methode kann die Handhabung komplexer Datenströme stark vereinfachen.

«PostgreSQL» oder «Clickhouse» sorgen wiederum dafür, dass die gesamten Daten in einer spezialisierten und skalierbaren Datenbank gespeichert werden. Setzen Organisationen auf neue Open-Source-Lösungen, sollten sie perspektivisch denken und gleich solche Systeme einführen, die auch zukünftig noch grösseren Datenströmen gewachsen sind. Ansonsten laufen sie Gefahr, in absehbarer Zeit erneut an Limits zu stossen.

Sicherheit sensibler Daten
Nehmen die Datenmengen zu, kann dies auch die Sicherheit tangieren. Beispielsweise können manuelle Prozesse den Sicherheitsanforderungen nicht mehr gewachsen sein. Die gute Nachricht: Datenschutzverletzungen sind in Public Clouds weniger verbreitet als in privaten Clouds. Zumal Public Clouds in der Regel von spezialisierten Unternehmen mit einem Expertenteam betrieben werden, das über das nötige Know-how verfügt, um die Datensicherheit zu gewährleisten.

Daher bietet sich gerade bei wachsenden Datenmengen nicht nur die Einführung zeitgemässer Open-Source-Lösungen, sondern auch der Umstieg in die Public Cloud an (falls noch nicht geschehen). Ein weiterer Pluspunkt: Vor allem aber lassen sich die Ressourcen bei professionellen Public-Cloud-Anbietern flexibel erweitern.

Arbeiten Organisationen dabei mit Dienstleistern zusammen, sollten sie überprüfen, dass dieser die Unternehmensdaten sicher und gesetzeskonform speichert und verarbeitet und über die relevanten Zertifikate und Gütesiegel verfügt.

Compliance
Mit zunehmender Komplexität der Daten steigen auch die Anforderungen an die Einhaltung gesetzlicher Vorschriften und regulatorischer Standards. Wenn sich ein Unternehmen für eine Open-Source-Software entscheidet, ist sicherzustellen, dass alle Datenflüsse mit den rechtlichen Anforderungen und Richtlinien der jeweiligen Organisation übereinstimmen.

Eine Faustregel lautet: Je mehr die Open-Source-Lösungen automatisieren, desto geringer die Gefahr, dass durch eine manuelle Bearbeitung Compliance-Probleme durch fehlerhafte Zugriffsrechte entstehen.

Zugriff auf Daten
Um auch weiterhin die Kontrolle über die eigenen Daten zu behalten, ist sicherzustellen, dass Daten jederzeit exportiert und zu einem anderen Service Provider transferiert werden können. Am besten gelingt dies durch den Einsatz von Open-Source-Software und die Zusammenarbeit mit Anbietern, deren Systeme mit diesen Lösungen in einer Multi-Cloud-Umgebung kompatibel sind. Wenn Daten in eine Multi-Cloud-Umgebung eingespeist werden, sind sie leichter zu sichern und das Risiko von Datenverlusten wird verringert.

Bestimmte Daten können zum Beispiel in verschiedenen Rechenzentren im eigenen Land oder in anderen Regionen gespeichert werden. Gerade in proprietären Systemen drohen hingegen Lock-in-Situationen – das Unternehmen verliert den Zugriff auf die Daten, sobald es das System wechseln will. Gerade bei grossen Datenmengen kann eine solche Lock-in-Situation zu hohen Verlusten an Wissen und Erkenntnissen beim Systemwechsel führen.

Fazit

Wachsen die Datenmengen, sollten Organisationen nicht zu lange zögern, ein System zu implementieren, um diese Daten zugleich intelligent wie effizient zu nutzen. Wer im Vorfeld die hier skizzierten Stolpersteine beachtet, dem sollte der Umstieg auf eine zeitgemässe Open-Source-Lösung gelingen, die grosse Datenmengen in Echtzeit analysiert und visualisiert – und dadurch auch Fachkräften ohne spezifische IT-Kenntnisse auf schnellem Wege datenbasierte Erkenntnisse ermöglicht.

Porträt

Holger Hammel (Autor)

Vice President Engineering, Aiven

Holger Hammel ist Vice President Engineering bei Aiven, einem Managed-Cloud-Service-Unternehmen, das weltweit Open-Source-Datentechnologien anbietet. Mit Hauptsitz in Helsinki und Niederlassungen in Berlin, Boston, Paris, Toronto, Sydney und Singapur bietet Aiven verwaltete Open-Source-Datentechnologien wie «PostgreSQL», «Apache Kafka» und «OpenSearch» in allen wichtigen Clouds an.

Kontakt

holger.hammel(at)aiven.io www.aiven.io

Mit Open-Source-Lösungen grosse ­Datenmengen intelligent nutzen

Schritte zur Open-Source-Lösung

Fazit

Holger Hammel (Autor)

Kontakt

Social Media

Partner

Mit Open-Source-Lösungen grosse Datenmengen intelligent nutzen