Šie ir labākie bezmaksas atvērto datu avoti, kurus ikviens var izmantot

Kas ir atvērtie dati?

Vienkārši sakot, atklātie dati ir tāda veida dati, kas ir atvērti ikvienam un visiem piekļuvei, modifikācijai, atkārtotai izmantošanai un koplietošanai.

Atklātie dati ir iegūti no dažādām “atvērtajām kustībām”, piemēram, atvērtā koda, atvērtās aparatūras, atklātās valdības, atklātās zinātnes utt.

Valdības, neatkarīgas organizācijas un aģentūras ir nākušas klajā, lai atvērtu datu vārtus, lai radītu arvien vairāk atvērtu datu bezmaksas un ērtai piekļuvei.

Kāpēc atvērtie dati ir svarīgi?

Atklātie dati ir svarīgi, jo pasaule ir arvien vairāk virzījusies uz datiem. Bet, ja ir ierobežojumi piekļuvei un datu izmantošanai, uz datiem balstīta uzņēmējdarbība un pārvaldība netiks realizēta.

Tāpēc atvērtajiem datiem ir sava unikālā vieta. Tas var ļaut pilnīgāk izprast globālās problēmas un universālos jautājumus. Tas var dot lielu stimulu uzņēmumiem. Tas var būt liels impulss mašīnmācībai. Tas var palīdzēt cīnīties ar tādām globālām problēmām kā slimības, noziedzība vai bads. Atklātie dati var dot pilsoņiem iespēju stiprināt demokrātiju. Tas var pilnveidot procesus un sistēmas, ko sabiedrība un valdības ir izveidojušas. Tas var palīdzēt pārveidot veidu, kā mēs saprotam un iesaistāmies pasaulē.

Tātad, šeit ir mans saraksts ar 15 lieliskiem atvērto datu avotiem:

1. Pasaules bankas atvērtie dati

Pasaules bankas atvērtie dati ir pasaules visaptverošāko datu krātuve par to, kas notiek dažādās pasaules valstīs, un tas ir būtisks atvērto datu avots. Tas nodrošina arī piekļuvi citām datu kopām, kas ir minētas datu katalogā.

Pasaules bankas atklātie dati ir milzīgi, jo tajā ir 3000 datu kopu un 14000 rādītāju, kas ietver mikrodatus, laika rindu statistiku un ģeotelpiskos datus.

Piekļuve vēlamajiem datiem un to atrašana arī ir diezgan vienkārša. Viss, kas jums jādara, ir norādīt indikatoru nosaukumus, valstis vai tēmas, un tas jums atvērs atvērto datu dārgumu namu. Tas arī ļauj lejupielādēt datus dažādos formātos, piemēram, CSV, Excel un XML.

Ja esat žurnālists vai akadēmiķis, jūs apburs jums pieejamo rīku klāsts. Jūs varat piekļūt analīzes un vizualizācijas rīkiem, kas var uzlabot jūsu pētījumu. Tas var ļaut dziļāk un labāk izprast globālās problēmas.

Jūs varat piekļūt API, kas var palīdzēt jums izveidot nepieciešamos datu vizualizācijas, tiešraides kombinācijas ar citiem datu avotiem un daudzas citas šādas funkcijas.

Tāpēc nav pārsteigums, ka Pasaules bankas atvērtie dati ir visu atvērto datu avotu sarakstā.

2. PVO (Pasaules Veselības organizācija) - atvērto datu krātuve

PVO atvērto datu repozitorijs ir veids, kā PVO seko līdzi 194 dalībvalstu veselības statistikai.

Repozitorijā dati tiek sistemātiski sakārtoti. Tam var piekļūt atbilstoši dažādām vajadzībām. Piemēram, neatkarīgi no tā, vai tā ir mirstība vai slimību nasta, var piekļūt datiem, kas klasificēti 100 vai vairāk kategorijās, piemēram, Tūkstošgades attīstības mērķi (bērnu uzturs, bērnu veselība, mātes un reproduktīvā veselība, imunizācija, HIV / AIDS, tuberkuloze, malārija novārtā atstātās slimības, ūdens un sanitārija), neinfekcijas slimības un riska faktori, epidēmijas izraisītas slimības, veselības sistēmas, vides veselība, vardarbība un traumas, taisnīgums utt.

Jūsu īpašajām vajadzībām varat apskatīt datu kopas atbilstoši tēmām, kategorijai, rādītājam un valstij.

Laba lieta ir tā, ka Excel formātā ir iespējams lejupielādēt visus nepieciešamos datus. Varat arī uzraudzīt un analizēt datus, izmantojot tā datu portālu.

Pieejama arī API Pasaules Veselības organizācijas datu un statistikas saturam.

3. Google publisko datu pārlūks

2010. gadā uzsāktais Google publisko datu pārlūks var palīdzēt izpētīt milzīgu daudzumu sabiedrībai nozīmīgu datu kopu. Jūs varat vizualizēt un paziņot datus attiecīgajiem lietojumiem.

Tas padara pieejamus dažādu aģentūru un avotu datus. Piemēram, varat piekļūt datiem no Pasaules Bankas, ASV Darba statistikas biroja un ASV biroja, ESAO, SVF un citiem.

Dažādas ieinteresētās personas piekļūst šiem datiem dažādiem mērķiem. Neatkarīgi no tā, vai esat students vai žurnālists, neatkarīgi no tā, vai esat politikas veidotājs vai akadēmiķis, varat izmantot šo rīku, lai izveidotu publisko datu vizualizācijas.

Izmantojot Data Explorer, varat izvietot dažādus datu attēlojuma veidus, piemēram, līniju diagrammas, joslu diagrammas, kartes un burbuļu diagrammas.

Labākais ir tas, ka šīs vizualizācijas jums šķiet diezgan dinamiskas. Tas nozīmē, ka jūs redzēsiet, kā tie laika gaitā mainās. Jūs varat mainīt tēmas, koncentrēties uz dažādiem ierakstiem un modificēt mērogu.

Arī tas ir viegli koplietojams. Tiklīdz diagramma ir gatava, varat to iegult savā vietnē vai emuārā vai vienkārši kopīgot saiti ar draugiem.

4. AWS atvērto datu reģistrs (RODA)

Šī ir repozitorija, kas satur publiskas datu kopas. Tie ir dati, kas ir pieejami no AWS resursiem.

Kas attiecas uz RODA, jūs varat atklāt un kopīgot datus, kas ir publiski pieejami.

Programmā RODA varat izmantot atslēgvārdus un tagus parastajiem datu veidiem, piemēram, genomiskajiem, satelītattēliem un transportēšanai, lai meklētu visus meklētos datus. Tas viss ir iespējams, izmantojot vienkāršu tīmekļa saskarni.

Katrai datu kopai jūs atradīsit detalizētu lapu, lietošanas piemērus, informāciju par licenci un apmācības vai lietojumprogrammas, kas izmanto šos datus.

Izmantojot plašu skaitļošanas un datu analīzes produktu klāstu, varat analizēt atvērtos datus un izveidot visus nepieciešamos pakalpojumus.

Kaut arī dati, kuriem piekļūstat, ir pieejami, izmantojot AWS resursus, jums jāpatur prātā, ka tos nenodrošina AWS. Šie dati pieder dažādām aģentūrām, valdības organizācijām, pētniekiem, uzņēmumiem un privātpersonām.

5. Eiropas Savienības atvērto datu portāls

Jūs varat piekļūt visiem atvērtajiem datiem, ko ES iestādes, aģentūras un citas organizācijas publicē vienā platformā, proti, Eiropas Savienības atvērto datu portālā.

ES atvērto datu portālā atrodas vitāli svarīgi dati, kas attiecas uz ES politikas jomām. Šīs politikas jomas ir ekonomika, nodarbinātība, zinātne, vide un izglītība.

Apmēram 70 ES iestādes, organizācijas vai departamenti, piemēram, Eurostat, Eiropas Vides aģentūra, Kopīgais pētniecības centrs un citi Eiropas Komisijas ģenerāldirektorāti un ES aģentūras ir publiskojušas savas datu kopas un atļāvušas piekļuvi tām. Šīs datu kopas ir pārsniegušas 11700 skaitu līdz datumam.

Portāls ļauj ērti piekļūt. Izmantojot kopēju metadatu katalogu, jūs varat viegli meklēt, izpētīt, saistīt, lejupielādēt un atkārtoti izmantot datus. Jūs to varat izdarīt konkrētiem mērķiem. Tas varētu būt komerciāls vai nekomerciāls mērķis.

Metadatu katalogā varat meklēt, izmantojot interaktīvu meklētājprogrammu (cilne Dati) un SPARQL vaicājumus (cilne Saistītie dati).

Izmantojot šo katalogu, jūs varat piekļūt datiem, kas tiek glabāti dažādās ES iestāžu, aģentūru un organizāciju vietnēs.

6. Pieci trīsdesmit astoņi

Tā ir lieliska vietne žurnālistikai, kuras pamatā ir dati, un stāstīšanai.

Tas nodrošina dažādus datu avotus dažādām nozarēm, piemēram, politikai, sportam, zinātnei, ekonomikai utt. Varat arī lejupielādēt datus.

Piekļūstot datiem, jūs atradīsit īsu paskaidrojumu par katru datu kopu attiecībā uz tā avotu. Jūs arī uzzināsiet, ko tas nozīmē un kā to izmantot.

Lai padarītu šos datus lietotājam draudzīgus, tas nodrošina datu kopas pēc iespējas vienkāršākos un nepatentētos formātos, piemēram, CSV failos. Lieki piebilst, ka cilvēkiem, kā arī mašīnām šiem formātiem var viegli piekļūt un tos apstrādāt.

Ar šo datu kopu palīdzību jūs varat izveidot stāstus un vizualizācijas atbilstoši savām prasībām un vēlmēm.

7. ASV Tautas skaitīšanas birojs

ASV Tautas skaitīšanas birojs ir lielākā federālās valdības statistikas aģentūra. Tas glabā un sniedz ticamus faktus un datus par Amerikas iedzīvotājiem, vietām un ekonomiku.

Tautas skaitīšanas birojs uzskata savu cēlo misiju paplašināt savus pakalpojumus kā visuzticamāko kvalitatīvu datu sniedzēju.

Neatkarīgi no tā, vai tā ir federāla, pavalsts, vietēja vai cilts valdība, visas tās izmanto skaitīšanas datus dažādiem mērķiem. Šīs valdības izmanto šos datus, lai noteiktu jaunu mājokļu un sabiedrisko objektu atrašanās vietu. Viņi to arī izmanto, pārbaudot kopienu, štatu un ASV demogrāfiskās īpašības.

Šie dati tiek izmantoti arī transporta sistēmu un ceļu plānošanā. Kad jāizlemj par kvotām un jāizveido policijas un ugunsdzēsības iecirkņi, šie dati ir noderīgi. Kad valdības izveido lokalizētas vēlēšanu zonas, skolas, komunālos pakalpojumus utt., Tās ​​izmanto šos datus. Tā ir prakse apkopot informāciju par iedzīvotājiem reizi desmit gados, un šie dati ir diezgan noderīgi, lai to pašu sasniegtu.

Ir dažādi rīki, piemēram, American Fact Finder, Census Data Explorer un Quick Facts, kas ir noderīgi, ja vēlaties meklēt, pielāgot un vizualizēt datus.

Piemēram, Ātrie fakti vien satur statistiku par visām štatiem, novadiem, pilsētām un pat pilsētām, kurās ir 5000 vai vairāk iedzīvotāju.

Tāpat American Fact Finder var palīdzēt atklāt populārus faktus, piemēram, iedzīvotāju skaitu, ienākumus utt. Tas sniedz informāciju, kas tiek bieži pieprasīta.

Laba lieta ir tā, ka, izmantojot Census Data Explorer, jūs varat meklēt, mijiedarboties ar datiem, uzzināt par populāro statistiku un skatīt saistītās diagrammas. Turklāt jūs varat arī izmantot vizuālo rīku, lai pielāgotu datus interaktīvajā karšu pieredzē.

8. Data.gov

Data.gov ir ASV valdības atvērto datu dārgumu nams. Tikai nesen tika pieņemts lēmums visus valdības datus padarīt pieejamus bez maksas.

Kad tas tika palaists, bija tikai 47. Tagad ir 180 000 datu kopu.

Kāpēc Data.gov ir lielisks resurss, ir tāpēc, ka jūs varat atrast datus, rīkus un resursus, kurus varat izvietot dažādiem mērķiem. Jūs varat veikt savu pētījumu, izstrādāt savas tīmekļa un mobilās lietojumprogrammas un pat noformēt datu vizualizācijas.

Viss, kas jums jādara, ir meklēšanas lodziņā ievadīt atslēgvārdus un pārlūkot veidus, tagus, formātus, grupas, organizācijas veidus, organizācijas un kategorijas. Tas atvieglos ērtu piekļuvi jums nepieciešamajiem datiem vai datu kopām.

Data.gov seko projekta atvērto datu shēmai - nepieciešamo lauku kopai (nosaukums, apraksts, tagi, pēdējais atjauninājums, izdevējs, kontaktpersonas vārds utt.) Katrai datu kopai, kas tiek parādīta vietnē Data.gov.

9. DBpedia

Kā jūs zināt, Wikipedia ir lielisks informācijas avots. DBpedia mērķis ir iegūt strukturētu saturu no vērtīgās informācijas, ko izveidojusi Vikipēdija.

Izmantojot DBpedia, jūs varat semantiski meklēt un izpētīt Wikipedia resursa attiecības un īpašības. Tas ietver saites arī uz citām saistītajām datu kopām.

DBpedia datu kopā ir aptuveni 4,58 miljoni entītiju. 4,22 miljoni ir klasificēti ontoloģijā, tostarp 1 445 000 cilvēku, 735 000 vietas, 123 000 mūzikas albumi, 87 000 filmas, 19 000 video spēles, 241 000 organizācijas, 251 000 sugas un 6000 slimības.

Šīm vienībām ir etiķetes un kopsavilkumi aptuveni 125 valodās. Ir 25,2 miljoni saišu uz attēliem. Ir 29,8 miljoni saišu uz ārējām tīmekļa lapām.

Viss, kas jums jādara, lai izmantotu DBpedia, ir rakstīt SPARQL vaicājumus pret galapunktu vai lejupielādēt to izgāztuves.

DBpedia ir guvusi labumu vairākiem uzņēmumiem, piemēram, Apple (izmantojot Siri), Google (izmantojot Freebase un Google Knowledge Graph) un IBM (caur Watson), un jo īpaši to attiecīgajiem prestižajiem projektiem, kas saistīti ar mākslīgo intelektu.

10. freeCodeCamp atvērtie dati

Tā ir atvērtā koda kopiena. Kāpēc tas ir svarīgi, jo tas ļauj jums kodēt, veidot pro bono projektus pēc bezpeļņas organizācijām un paķert darbu kā izstrādātājam.

Lai tas notiktu, freeCodeCamp.org kopiena katru mēnesi dara pieejamu milzīgu datu apjomu. Viņi to ir pārvērtuši par atvērtiem datiem.

Šajā krātuvē atradīsit dažādas lietas. Jūs varat atrast datu kopas, to pašu un pat demo projektu analīzi, pamatojoties uz freeCodeCamp datiem. Varat arī atrast saites uz ārējiem projektiem, kas ietver freeCodeCamp datus.

Tas var jums palīdzēt ar dažādu projektu un uzdevumu daudzveidību, kas jums varētu būt padomā. Neatkarīgi no tā, vai tā ir tīmekļa analīze, sociālo mediju analīze, sociālo tīklu analīze, izglītības analīze, datu vizualizācija, uz datiem balstīta tīmekļa izstrāde vai roboti, šīs kopienas piedāvātie dati var būt ļoti noderīgi un efektīvi.

11. Yelp atvērtās datu kopas

Yelp datu kopa būtībā ir tikai mūsu pašu uzņēmumu, pārskatu un lietotāju datu apakškopa, kas paredzēta personīgai, izglītojošai un akadēmiskai darbībai.

Yelp Open Datasets ir iekļautas 5 996 996 atsauksmes, 188 593 uzņēmumi, 280 991 attēli un 10 lielpilsētu rajoni.

Tos var izmantot dažādiem mērķiem. Tā kā tie ir pieejami kā JSON faili, varat tos izmantot, lai mācītu studentus par datu bāzēm. Varat tos izmantot, lai apgūtu NLP vai sagatavotu datu paraugus, kamēr saprotat, kā izstrādāt mobilās lietotnes.

Šajā datu kopā jūs atradīsit katru failu, kas sastāv no viena objekta veida, katrā rindā pa vienam JSON objektam.

12. UNICEF datu kopa

Tā kā UNICEF rūpējas par visdažādākajiem kritiskiem jautājumiem, tā ir apkopojusi attiecīgus datus par izglītību, bērnu darbu, bērnu invaliditāti, bērnu mirstību, māšu mirstību, ūdeni un sanitāriju, zemu dzimšanas svaru, pirmsdzemdību aprūpi, pneimoniju, malāriju, joda deficītu traucējumi, sieviešu dzimumorgānu sakropļošana / griešana un pusaudži.

UNICEF atvērtās datu kopas, kas publicētas IATI reģistrā: //www.iatiregistry.org/publisher/unicef, ir iegūtas tieši no UNICEF operētājsistēmas (VISION) un citām datu sistēmām, un tās atspoguļo atsevišķu UNICEF biroju ievadītos datus.

Laba lieta ir tā, ka tiek regulāri atjaunināts, kad runa ir par šīm datu kopām. Katru mēnesi dati tiek atjaunināti, lai tie būtu visaptverošāki, uzticamāki un precīzāki.

Šiem datiem varat brīvi un ērti piekļūt. Lai to izdarītu, varat lejupielādēt šos datus CSV formātā. Pirms datu lejupielādes varat arī priekšskatīt datu paraugus.

Kaut arī ikviens var izpētīt un vizualizēt UNICEF datu kopas, ir trīs galvenie izdevēji:

UNICEF ATBALSTA PĀRREDZAMĪBAS PORTĀLS: daudz vienkāršāk varat piekļūt datu kopām, ja izmantojat šo portālu. Tajā ir iekļauta arī informācija par katru valsti, kurā darbojas UNICEF.

Izdevēja d-portāls: pašlaik tas ir BETA. Izmantojot šo portālu, varat izpētīt IATI datus.

Jūs varat meklēt informāciju, kas saistīta ar attīstības aktivitātēm, budžetiem utt. Jūs varat izpētīt šo informāciju valstiski.

Izdevēja datu platforma: šajā platformā varat viegli piekļūt statistikai, diagrammām un metrikai par datiem, kuriem piekļūst, izmantojot IATI reģistru. Noklikšķinot uz galvenēm, varat arī kārtot daudzas platformā redzamās tabulas. Platformās atradīsit arī daudzas datu kopas mašīnlasāmā JSON formātā.

13. Kaggle

Kaggle ir lielisks, jo tas veicina dažādu datu kopu publikāciju formātu izmantošanu. Tomēr labākā daļa ir tā, ka tas stingri iesaka datu kopu izdevējiem koplietot savus datus pieejamā, nepatentētā formātā.

Platforma atbalsta atvērtus un pieejamus datu formātus. Tas ir svarīgi ne tikai piekļuvei, bet arī jebkuram, ko vēlaties darīt ar šiem datiem. Tāpēc Kaggle datu kopa skaidri nosaka failu formātus, kas ir ieteicami, koplietojot datus.

Kaggle datu kopu unikālā lieta ir tā, ka tā nav tikai datu krātuve. Katra datu kopa nozīmē kopienu, kas ļauj jums apspriest datus, uzzināt publiskos kodus un paņēmienus un konceptualizēt savus projektus kodolos.

CSV, JSON, SQLite, Archive, Big Query utt. Ir failu tipi, kurus atbalsta Kaggle. Lai sāktu darbu pie atvērto datu projekta, varat atrast dažādus resursus.

Labākais ir tas, ka Kaggle ļauj jums publicēt un koplietot datu kopas privāti vai publiski.

14. LODUM

Tā ir Minsteres universitātes atvērto datu iniciatīva. Saskaņā ar šo iniciatīvu ikvienam ir iespējams piekļūt jebkurai publiskai informācijai par universitāti mašīnlasāmos formātos. Jūs varat viegli piekļūt un atkārtoti izmantot to atbilstoši savām vajadzībām.

Atklāti dati par zinātniskiem artefaktiem un kodēti kā saistītie dati ir pieejami šajā projektā.

Ar saistīto datu palīdzību ir iespējams koplietot un izmantot datus, ontoloģijas un dažādus metadatu standartus. Faktiski ir paredzēts, ka tas būs pieņemtais standarts metadatu un pašu datu sniegšanai tīmeklī.

LODUM komanda ir viena no iniciatīvām LinkedUniversities.org un LinkedScience.org.

Lai analizētu datus, varat izmantot SPARQL redaktoru vai SPARQL pakotni R.

SPARQL pakotne ļauj izveidot savienojumu ar SPARQL galapunktu, izmantojot HTTP, uzdot SELECT vaicājumu vai atjaunināšanas vaicājumu (LOAD, INSERT, DELETE).

15. UCI mašīnmācīšanās krātuve

Tas kalpo kā visaptveroša datu bāzu, domēnu teoriju un datu ģeneratoru krātuve, ko mašīnmācīšanās kopiena izmanto mašīnmācīšanās algoritmu empīriskai analīzei.

Šajā repozitorijā pašlaik ir 463 datu kopas, kas kalpo mašīnmācīšanās kopienai.

Mašīnmācīšanās un inteliģento sistēmu centrs Kalifornijas universitātē, Irvine, to uztur un uztur. Sākotnēji Deivids Aha to bija izveidojis kā UC Irvine aspirants.

Kopš tā laika studenti, pedagogi un pētnieki visā pasaulē to izmanto kā drošu mašīnmācīšanās datu kopu avotu.

Tas darbojas tā, ka katrai datu kopai ir atsevišķa vietne, kurā tiek apkopota visa zināmā informācija, ieskaitot visas attiecīgās publikācijas, kas to izmeklē. Šīs datu kopas varat lejupielādēt kā ASCII failus, bieži vien noderīgu CSV formātu.

Datu kopu detaļas ir apkopotas pēc tādiem aspektiem kā atribūtu veidi, gadījumu skaits, atribūtu skaits un publicētais gads, kurus var kārtot un meklēt.

Atvērto datu portāli un meklētājprogrammas:

Lai gan daudzu aģentūru katru gadu publicē daudz datu kopu, ļoti maz datu kopu kļūst atzītas un izveidotas.

Iemesls, kāpēc ļoti maz šādu datu kopu uztur noderīgu resursu, ir tas, ka ir grūti izstrādāt, pārvaldīt un sniegt datus tādā veidā, lai cilvēkiem un organizācijām būtu noderīgi un ērti tos izmantot.

Tomēr, lūdzu, zemāk atrodiet sarakstu ar dažiem citiem svarīgiem atvērto datu portāliem un platformām, kas ļauj lietotājiem diezgan viegli piekļūt atklātajiem datiem, izpētīt ietekmi un iegūt vērtīgu ieskatu.

  1. Google datu kopas meklēšana
  2. Dataverse
  3. Atvērtais datu komplekts
  4. Ckan
  5. Atvērtais datu monitors
  6. Plenārs.io
  7. Atvērto datu ietekmes karte

Secinājums

Atklātie dati ir dienas secība. Pasaule ir pakāpeniski sākusi virzīties uz atvērtajām sistēmām, un atvērtie dati ir pareizi sinhronizēti ar to.

Uzņēmējdarbība un organizācijas, kas izmanto atvērtos datus, iegūs konkurences priekšrocības un varēs dominēt nākotnē.