Data punct gov punct ro
Deja ştie mai toată lumea că statisticile pot minţi frumos şi cu damf de veridicitate. Jurnalismul „de date" ne învaţă să le verificăm şi să le combinăm cu alte date ca să aflăm mai multe. Problema e că datele primare de interes public nu sunt publice pe toate meridianele.
Aproape de fiecare dată când mă duc la paginile web ale ziarului The Guardian arunc o privire şi la secţiunea numită DataStore (care are şi un motto: "Facts are sacred"). E de-a dreptul periculos să poposeşti aici, mai ales dacă se apropie un termen de predare, pentru că rişti să petreci câteva ore minunându-te unde a ajuns ceea ce se cheamă "data journalism". O mulţime de seturi de date, o mulţime de instrumente de vizualizare şi o mulţime de comentarii pe marginea acestor date. Iar ceea ce este şi mai atrăgător, toate aceste seturi de date pot fi descărcate fără nici o restricţie, în diverse formate. Mai mult chiar, editorii chiar încurajează publicul să le descarce, să le analizeze cu propriile lor instrumente, să le combine cu alte seturi, să colaboreze cu alţii şi, astfel, să ajungă la o înţelegere mai bună a faptelor pe care aceste date (de cele mai multe ori în stare brută - "raw data") le relevă. Ideea este că astăzi fiecare dintre noi poate fi, într-o oarecare măsură, jurnalist de date.
Totul este minunat, până când constaţi că o bună parte dintre datele cu care lucrează sunt furnizate de administraţie sau organisme publice şi sunt accesibile pe web la "data.gov.uk". Am vrut să mă conving singur că e aşa de simplu, aşa că am intrat şi am căutat "census" (recensământ). În mai puţin de un minut am putut să descarc orice fel de date (în format XLS sau CSV). Pe varianta americană, pe lângă aceleaşi facilităţi de descărcare, am beneficiat şi de nişte instrumente de vizualizare, aşa că în 30 de secunde am generat o frumoasă hartă pe baza anumitor valori din datele brute. Am prins puţin curaj şi am introdus în bara browserului "data.gov.ro", dar mi s-a răspuns cu un mesaj de eroare. Am găsit în schimb "data.gov.md"! Moldovenii au încă destul de puţine date, care pot fi descărcate doar în format Excel, dar lucrează cu platforma Zoho, care permite exporturi într-o mulţime de formate.
Totuşi, vreau date de recensământ din România! Am răscolit paginile INS, dar până la urmă tot cu Google am găsit RecensamantRomania.ro, cu rezultate. Dar toate în format PDF ("cimitirul datelor"), care nu-mi folosesc la nimic. Nu le pot analiza, nu le pot folosi în aplicaţii, nu pot să le compar cu date mai vechi. M-am întors la INS ca să văd ce s-a mai întâmplat cu nomenclatoarele de care toată lumea are nevoie (SIRUTA, CAEN etc.). În fine, le-am găsit şi am constatat că au şi pagină de descărcare. Fişierele erau furnizate ca arhivă ZIP, aşa că am descărcat la nimereală CAEN, am deschis arhiva şi am găsit un fişier în format Word. Am încercat SIRUTA, iar aici am găsit în arhivă tot felul de documente Word, DBF şi mdb (adică FoxPro şi Access). De fapt n-am fost surprins, pentru că în urmă cu un an chiar am avut nevoie de aceste nomenclatoare şi am muncit o săptămână ca să le extrag şi să le convertesc în XML şi CSV. Apoi le-am oferit public, aşa că INS le putea obţine pe gratis. Şi tot pe gratis administraţia românească ar putea obţine o variantă open source a portalului american Data.gov, dar se pare că nu există niciun interes. Nici măcar pentru preţul zero, din care nu se pot socoti procente.
În aceste condiţii, "data journalism" este o meserie grea. Spre deosebire de 2010, când am publicat aici articolul "Jurnalism cu cifre", acum există o pleiadă de instrumente uluitoare care să faciliteze colectarea, agregarea, vizualizarea şi diseminarea datelor primare. Google Fusion Table are posibilităţi extraordinare, dar este poate prea complex, însă Tableau, OutWit şi încă vreo câteva sunt unelte ideale pentru oameni obişnuiţi, care nu vor să exploreze interfeţe de programare şi să scrie cod. M-am întors în cele din urmă la The Guardian, unde am urmărit cu oarecare interes grafice descriind evoluţia cheltuielilor membrilor Parlamentului (datele primare sunt şi ele disponibile), am explorat o hartă a zonelor defavorizate din Anglia realizată prin combinarea cu Google Fusion a mai multor seturi de date guvernamentale, apoi m-am oprit la analiza statistică a datelor de la Jocurile Olimpice.
Jurnaliştii s-au gândit că numărul medaliilor nu reprezintă situaţia sportului într-o ţară, aşa că au combinat datele cu populaţia, cu PIB-ul, cu numărul sportivilor participanţi şi au ponderat datele. S-a vădit că americanii nu sunt o mare naţiune sportivă, iar România stă mai bine la rezultatul efectiv decât la mediile ponderate. Am descărcat datele şi le voi combina cu rezultatele testelor PISA, ca să aflu care este influenţa educaţiei în rezultatele sportive. În cele administrative ştiu deja, fără date primare.
Urmărește Business Magazin
Citeşte pe zf.ro
Citeşte pe mediafax.ro
Citeşte pe Alephnews
Citeşte pe smartradio.ro
Citeşte pe comedymall.ro
Citeşte pe prosport.ro
Citeşte pe Gandul.ro
Citeşte pe MediaFLUX.ro
Citeşte pe MonitorulApararii.ro
Citeşte pe MonitorulJustitiei.ro
Citeşte pe zf.ro