Blogs Blogs

Terug

Big Data is niet Hadoop - of toch?

Het Big Data Forum in Almere op 17 april 2012 was een van de eerste gericht op het bedrijfsleven. Big Data gaat over grote data verzamelingen, groter dan de gigabytes of terabytes op uw computer hard disk, dus over Petabytes of Exabytes. Gegevens die onder andere komen uit nieuwe grote sensor netwerken, uit medische machines, telescopen, of "gewoon" het Internet. Big Data is de nieuwe ICT hype, het nieuwe wilde westen waar alles mogelijk lijkt, of, om het netter uit te drukken, Big Data bevindt zich op de top van de hype cycle. Wat helpt is dat iedereen een beeld heeft bij "Big Data", maar dat er geen simpele definitie is. De meest heldere definitie werd in Almere door SARA directeur Anway Ossyran gegeven - SARA heeft een grote Big Data activiteit en een Hadoop gedreven High Performance Computing (#HPC) cluster - "Ik weet niet precies wat het is, maar ik weet dat het Big Data is als ik het zie".

Andere sprekers benadrukten dat Big Data niet hetzelfde is als Hadoop, maar dat Hadoop wel een nuttig tool is bij het verwerken van Big Data. Maar dat was ook alles wat er over techniek werd gezegd tijdens het Big Data Forum. De focus lag op het delen van de - eerste - ervaringen met Big Data, en de plannen op dat gebied.

Paul Veldhoen van de Rabobank vertelde over de eerste ervaringen bij deze bank met Big Data en Cloud computing technieken. Deze maken veel snellere en diepgaandere analyses van de beschikbare gegevens mogelijk, zoals het voorspellen van betalingsgedrag en trends. Omdat dit soort analyses veel, heel veel gegevens nodig hebben, zijn eigenlijk alleen de productie data groot genoeg om zinvol mee te kunnen werken. Deze data uit de productieomgeving in een testomgeving krijgen, is bij een bank echter onmogelijk. Daarom had Veldhoen zijn Big Data test maar binnen de prodcutieomgeving gebracht.

De politie in Amsterdam, gebruikt analyses van Big Data - alle bronnen waar ze de hand op kunnen leggen - bijvoorbeeld om voorspellingen te doen over criminaliteit in wijken/plaatsen in de stad en op welke tijdstippen. Simulaties laten zien waar en wanneer pieken in de criminaliteit zijn te verwachten. Handig om efficient politiemensen in te kunnen zetten.

Anwar Osseyran liet een door de Universiteit van Amsterdam ontwikkelde simulatie zien van mogelijke overstromingen in het Science Park in de Watergraafsmeer - het Internet en supercomputer knooppunt van Nederland. De simulatie laat ook zien hoe mensen zouden proberen aan het wassende water te ontsnappen, en waar en waarom een aantal van hen zouden verdrinken. Leuk om te zien als simulatie, minder leuk om mee te maken. Grote hoeveelheden data, slimme simulaties, veel rekenwerk en geavanceerde visualisaties gecombineerd, zijn nodig om zinvolle voorspellingen te doen.

Waarom een Big Data Forum in Almere? Uiteraard omdat de stad lekker centraal ligt in Nederland, maar waarschijnlijk nog meer omdat de stad zich probeert te profileren als Big Data Capital van Nederland, of zelfs Europa. In haar openingstoespraak refereerde de Almeerse burgemeester Jorritsma hieraan. Het is een poging om rond het Big Data concept een industrie met zo'n 2500 banen te ontwikkelen.

Oscar Wijsman is project manager van Almere Data Capital, het programma waarmee Almere haar ambities probeert waar te maken. Het belangrijkste project in dat programma is de Dutch Health Hub. Een sector of community Cloud ecosystem rondom Big Data in de Nederlandse medische wereld, met name de academische ziekenhuizen, die enorme hoeveelheden data genereren, bijvoorbeeld via medische scanners.

In de Dutch Health Hub werken veel partijen samen. AlmereGrid probeert met de Cloud test facility haar steentje bij te dragen. Ook kunnen via AlmereGrid mensen zelf directer betrokken worden bij medisch onderzoek.

Nuttige links:

http://www.iir.nl/ict/it-management/event/big-data-forum-2012/

http://dutchhealthhub.nl

http://sara.nl/services/cloud-computing

http://cloudtestfacility.com

Vorige