Big data. Cum, cine şi cu ce gestionează 2,7 zettabytes de date?
Când Edgar F. Codd şi-a enunţat, la începutul anilor ‘80, cele „douăsprezece porunci" (de fapt, treisprezece reguli, incluzând şi o regulă zero) pentru clasificarea unui sistem de gestiune de baze de date (SGBD) drept „relaţional", războaiele comerciale în jurul acestui canon instaurat tot de Codd cu câţiva ani înainte erau deja în toi.
BOGDAN CIOC ESTE CONSULTING MANAGER, NEAR SHORE CENTER ROMANIA, SAP CONSULTING IN CADRUL SAP ROMANIA
IBM, ANGAJATORUL LUI CODD, construise - pe baza cercetărilor acestuia din anii '70 - prima versiune a unui aşa-numit System R, primul prototip al unui SGBD "relaţional". Din cauza luptelor politice interne, o fatalitate inerentă organizaţiilor mari, se pare, şi a temerilor legate de canibalizarea propriilor produse similare (nu relaţionale, ci ierarhice) pe care deja le comercializa, IBM a ignorat potenţialul noii tehnologii.
O companie tânără, mult mai agilă şi mai înfometată de succes decât IBM, a intuit corect acest potenţial. A preluat ideile lui Codd şi bazele System R (fapt ce apare documentat, de pildă, în cartea "Diferenţa dintre Dumnezeu şi Larry Ellison", scrisă de Mike Wilson) şi a făcut istorie. Această companie se numea Relational Software Inc., devenită mai apoi Oracle.
Modelul lui Codd era revoluţionar pentru că definea o metodă de organizare şi stocare a datelor perfect riguroasă (folosind noţiuni precum bază de date, tabelă, relaţie, cheie primară, cheie externă, restricţii de integritate ş.a.m.d.) şi introducea SQL, un limbaj standardizat şi simplu de interogare a datelor astfel organizate, care oferea aplicaţiilor care foloseau datele independenţa faţă de modul în care erau ele organizate. Limbajul SQL (Structured Query Language) a devenit, de la apariţia sa, un element nelipsit din arsenalul oricărui dezvoltator de software.
Codd a enunţat, la începutul deceniului opt, cele treisprezece reguli familiare oricărui student în tehnologia informaţiei pentru că modelul definit de el devenise atât de popular şi de lucrativ încât, din dorinţa de a prinde o bucată din piaţă, toţi producătorii de sisteme de organizare a datelor îşi etichetau produsele drept "relaţionale", când, în fapt, nu făceau decât să vândă vechi produse re-împachetate. Cu alte cuvinte, piaţa era în acel moment la începutul unui ciclu hype - de proaspăt avânt al bazelor de date relaţionale.
Termenul de "ciclu hype" a fost folosit pentru prima dată de Gartner în 1995 pentru a descrie traseul pe care îl parcurg tehnologiile noi, de la momentul apariţiei până la maturizare şi adoptarea lor pe scară largă. Ca metodologie de analiză şi suport în decizie, "ciclurile hype" au şi bune şi rele. Metodologia nu este extrem de ştiinţifică şi poate induce aşteptări eronate la cei ce pot decide adoptarea unei anumite tehnologii la un moment dat. Însă oferă un comentariu viabil asupra evoluţiei istorice a tehnologiei respective.
SĂ REVENIM ÎNSĂ CU POVESTEA LA ZILELE NOASTRE. Au trecut mai bine de treizeci de ani de la revoluţia lui Codd. Iar tehnologia inventată de el a trecut prin toate fazele ciclului Gartner. Bazele de date relaţionale au fost şi sunt folosite, de la apariţia lor, ca suport pentru larga majoritate a aplicaţiilor de business scrise de atunci. Iar beneficiarii pe termen lung ai rezultatelor acestui ciclu hype (să-l numim aşa) sunt, astăzi, în principal Oracle, Microsoft (cu SQL Server) şi IBM (prin DB2, urmaşul tardiv al System R, odată ce luptele politice s-au încheiat). Tăria sonoră a acestor nume şi succesul lor de 30 de ani şi mai bine arată clar cât de important este să te plasezi printre vizionari, cât mai aproape de momentul iniţial - şi cât de esenţial este să rezişti acolo după pragul deziluziei. Însă modelul lui Codd a fost definit înaintea internetului, a dispozitivelor mobile şi a reţelelor sociale. Şi, din acest motiv, astăzi îşi arată limitele. În zilele noastre cantitatea de date ce se cere stocată şi explorată este cu multe ordine de mărime mai mare decât la începutul anilor '80. Mai important însă, datele de azi sunt deseori nestructurate, aşa cum vom vedea în continuare.
Haideţi mai întâi să ne delectăm cu câteva cifre, preluate din studiul "Big data: The next frontier for innovation, competition, and productivity" al McKinsey Global Institute din mai 2011 şi din alte surse, grupate pe wikibon.org/blog/big-data-statistics/):
- Se estimează că există 2,7 zettabytes (1021) de date în universul informaţional din jurul nostru (2012).
- Erau 5 miliarde de telefoane mobile în uz în lume în 2010. Revoluţia smartphone-urilor amplifică exponenţial atât cantitatea, cât şi calitatea datelor (voce, SMS, trafic de internet) tranzitate şi colectate de aceste dispozitive.
- Facebook publică în fiecare lună 30 de miliarde de elemente noi de conţinut (aprecieri, comentarii, fotografii, linkuri) şi analizează în bazele sale de date peste 30 de petabytes (1015) de date liber împărtăşite de utilizatorii săi. Aproximativ 35.000 de like-uri pentru diverse brand-uri sau firme sunt postate de utilizatorii Facebook în fiecare zi.
- Google procesa în 2008 cu motorul său de căutare 20 de petabytes de date pe zi.
- Utilizatorii YouTube încarcă în fiecare minut 48 de ore de conţinut video nou.
- La începutul lui 2012 Twitter procesa zilnic aproximativ 175 de milioane de twitt-uri, care au conţinut potenţial relevant din punct de vedere comercial / statistic.
- Wal-Mart gestionează peste un milion de tranzacţii cu clienţii săi zilnic şi stochează datele rezultate în baze de date estimate la 2,5 petabytes (1015).
- 571 de website-uri noi sunt create în fiecare minut.
Aceste cifre sunt desigur foarte greu de probat, fiind extrem de dinamice. Sunt însă plauzibile, iar ritmul în care datele se multiplică, mai ales, după cum am spus deja, de la apariţia dispozitivelor mobile inteligente, este exponenţial. Internetul este plin de astfel de statistici ale unui fenomen global care este încă în faza de clarificare şi care a ajuns să fie cunoscut sub denumirea generică (şi intenţionat ambiguă) de Big Data. Big Data este numele dat de specialişti provocării aduse de stocarea şi analiza cantităţilor mari de date ale zilelor noastre, activităţi care nu mai sunt posibile cu instrumentele tradiţionale folosite până acum.
Urmărește Business Magazin
Citeşte pe zf.ro
Citeşte pe mediafax.ro
Citeşte pe Alephnews
Citeşte pe smartradio.ro
Citeşte pe comedymall.ro
Citeşte pe prosport.ro
Citeşte pe Gandul.ro
Citeşte pe MediaFLUX.ro
Citeşte pe MonitorulApararii.ro
Citeşte pe MonitorulJustitiei.ro
Citeşte pe zf.ro