We love open data!

Zelfs het beste algoritme is compleet nutteloos als je geen goede data hebt om het de voeden. Gelukkig zijn er allerhande gratis databronnen beschikbaar voor organisaties die de middelen niet hebben om zelf data te verzamelen en te labellen. We hebben er 25 voor je op een rij gezet om je op weg te helpen bij de zoektocht naar de juiste dataset voor jou.

  1. Opendata.overheid
    Anno 2018 heeft de Nederlandse overheid best een hoeveelheid data openbaar beschikbaar gemaakt. Het gros hiervan is te vinden via de OpenData portal die de overheid beschikbaar heeft gesteld. Mocht je hier iets niet kunnen vinden kan je het altijd bij ministeries, provincies en gemeenten of andere instellingen als bijvoorbeeld het kadaster proberen. De portal wordt beheerd door het Ministerie van Binnenlandse Zaken en Koninkrijksrelaties.
  2. Opendatanederland.org
    Open Data Nederland heeft een catalogus van beschikbare open datasets in Nederland. Wist je bijvoorbeeld dat het energiegebruik per postcodegebied en de ritpunctualiteit van bussen gewoon openbaar zijn op te roepen uit openbare datasets?
  3. Het Europees Data Portaal
    Naast de bovenstaande Nederlandse bronnen is er natuurlijk ook over de grens een enorme hoeveelheid aan data te krijgen. Veel hiervan is bij het Europees data portaal verzameld.
  4. MS MARCO
    De Microsoft Machine Reading Comprehension is een openbare dataset die gebruikt kan worden om algoritmen te trainen op begrijpend lezen en het beantwoorden van vragen.
  5. Microsoft Azure Data Markets Free Datasets
    Microsoft stelt datasets over een heleboel onderwerpen gratis beschikbaar. Hier kan je onder andere data vinden over het weer en landbouw.
  6. mldata.org
    De Machine Learning Data Repository is een website waar onderzoekers datasets met elkaar kunnen delen. Je kan je eigen datasets uploaden en datasets vinden van andere onderzoekers om machine learning algoritmen mee te testen.
  7. CBS
    De nummer 1 dataverzamelende organisatie in Nederland is natuurlijk nog altijd het CBS. Op hun website is er allerhande data beschikbaar gesteld die kunnen worden gebruikt.
  8. CERN
    Bij het CERN worden veel natuurkundige expirementen uitgevoerd. Wist je dat ze meer dan een petabyte aan data openbaar beschikbaar hebben gesteld?
  9. NASA
    NASA stelt veel van haar raw en gepubliceerde data online beschikbaar. Dit gaat niet alleen over de ruimte, maar ook over onze eigen planeet. Wil je bijvoorbeeld weten hoe het met het klimaat gaat? Dan moet je de dataset van NASA hebben.
  10. NASA Exoplanet Archive
    De data bronnen in deze lijst beperken zich niet tot deze zonnestelsel! In het NASA Exoplanet Archive kan je dat vinden over de exoplaneten die tot noch toe zijn ontdekt.
  11. IMF
    Het IMF stelt een heleboel data beschikbaar over international finance, valutareserves, schulden, grondstofprijzen en grensoverschrijdende investeringen.
  12. Wereld Bank
    De Wereldbank heeft veel demografische, economische en ontwikkelingsdatasets uit landen van over de hele wereld.
  13. UN Comtrade Database
    De Verenigde Naties houden statistieken bij over internationale handel. Deze kan je in de Comtrade Database raadplegen en gebruiken. In het Comtrade Lab kan je analytics en tools vinden om de data om te zetten in kennis.
  14. OpenCorporates
    Gelukkig zijn het niet alleen overheden die data openbaar beschikbaar stellen. Ook corporates delen een deel van hun data openbaar zodat deze kunnen worden gebruikt voor onderzoek of het trainen en testen van algoritmen.
  15. Glassdoor API
    Banensite Glassdoor heeft een schatkist aan data over vacatures, sollicitanten, salarissen en personeelstevredenheid. Prachtige datasets om HR algoritmen op te trainen.
  16. eBay Market Data Insights
    eBay houdt data bij van de vele miljoenen aan verkopen die op deze veilingsite plaatsvinden. Een groot deel van deze data wordt gratis beschikbaar gesteld voor iedereen die het wil gebruiken.
  17. Complete Public Reddit Comments Corpus
    Reddit comments kunnen een goudmijn zijn voor iedereen die een language algoritme wil testen. Deze dataset bevat meer dan een miljard comments die tussen 2007 en 2015 zijn gepost op hun site.
  18. Twitter
    Natuurlijk moeten we de Social Media platformen niet vergeten in deze lijst. Doordat de meeste tweets die verzonden worden openbaar zijn, is er een enorme hoeveelheid aan data vrij beschikbaar via de API.
  19. Instagram
    Net als bij Twitter, zijn ook bij Instagram posts gewoon beschikbaar via de API. Likes, mentions en business details zijn eenvoudig te analyseren.
  20. Google Trends
    Bij Google trends kan je informatie vinden over de populairiteit van verschillende zoektermen. Een geweldige bron om te ontdekken waar de wereld aan denkt.
  21. Google Scholar
    Google heeft als onderdeel van haar missie een enorme hoeveelheid aan academische papers, boeken en jurisprudentie verzameld. Deze zijn voor een groot deel gratis te gebruiken.
  22. Financial Times Market Data
    Als je op zoek bent naar aandelen, grondstof en valutaprijzen dan kan je bij de Financial Times terecht. Mocht je bepaalde data hier niet kunnen vinden kan je ook Yahoo als alternatief proberen.
  23. Qlick Data Market
    De Qlik Data Market heeft naast haar betaalde diensten ook een gratis pakket dat toegang biedt tot datasets over de wereldpopulatie, valuta, ontwikkelingsindicatoren en weer-data.
  24. Labeled Faces in the Wild
    Ben je op zoek naar een dataset om je facial recognition algoritme te testen? Look no further. Deze dataset bevat 13000 gelabelde foto’s van gezichten die je kunt gebruiken.
  25. Five Thirty Eight
    Bekende opiniepeiler Nate Silver, zeg maar de Maurice de Hond van Amerika, heeft met zijn website alle brondata van de peilingen beschikbaar gesteld. Deze kan je op de Github pagina vinden.

 

Posted on | Tags: > | Nieuws