Big Data Dicas

11 bases de dados gratuitas para mineração, estudos e testes

bancos de dados
7
*Este artigo foi originalmente publicado em 02/05/16 e seu conteúdo foi atualizado e estendido em 25/05/2017

Se dados são o novo petróleo da humanidade, como dizem as máximas sobre Big Data, nada mais justo que irmos em busca de novas “fontes de perfuração” (ou seja, novas bases de dados).

O trabalho de Big Data é interessante, sobretudo, por sua versatilidade. Se já podemos tirar grandes insights fazendo estudos e análises de databases internas de qualquer empresa, imagine os insights possíveis quando cruzamos essas informações com diferentes fontes de dados externos.

Em alguns casos, o cruzamento dessa variedade de dados é o maior diferencial para um trabalho poderoso de mineração.

As empresas que decidiram dar um passo rumo ao futuro e investir em Big Data Analytics já costumam ter em mente as fontes de informação que querem trabalhar de forma mais esclarecida, mas nem sempre esse é o cenário. E mesmo que a decisão da empresa seja trabalhar com dados internos, é sempre um exercício positivo olharmos o “lado de fora” e buscar novas bases.

Mas, afinal de contas, onde podemos encontrar dados externos de fontes confiáveis?

Selecionamos algumas bases de dados públicos que poderão te inspirar a trabalhar, estudar e testar técnicas de Big Data ou que simplesmente serão úteis no seu dia a dia. Confira:

1 – European Soccer Database (Kaggle)

Kaggle é um dos principais sites de Data Science do mundo. Dentre os vários recursos que você encontra nele, um dos melhores é a seção específica para bases de dados, com milhares de opções disponibilizadas aos usuários.

Uma das bases mais legais do Kaggle é esta, de dados do futebol europeu. Se você gosta de explorar e visualizar dados do esporte bretão, ela é um prato cheio.

A base reúne milhares de dados das temporadas europeias de 2008 a 2016, incluindo aí mais de 25 mil partidas (e todas as estatísticas desses jogos, como posse de bola, número de faltas, de escanteios e por aí vai), 10 mil jogadores – como Zlatan Ibrahimovic, que ilustra este artigo – e escalações das equipes.

2 – Portais de transparência

Graças à recente Lei de Acesso à Informação, todas as entidades públicas têm a obrigação de divulgarem todos os detalhes de suas gestões. Isso tem sido feito através dos chamados Portais de Transparência.

Você pode pesquisar o da sua cidade, do seu estado ou visitar alguns dos exemplos a seguir:

banner_dados_abertos

3 – Capes

A Capes, fundação do Ministério da Educação (MEC), tem uma das maiores bases de dados científicos do mundo. Você consegue acessá-la no Portal de Periódicos da fundação.

A Capes tem, como missão, expandir e consolidar a pós-graduação stricto sensu (mestrado e doutorado) em todo o território nacional, assim como auxiliar na formação de professores da educação básica, ampliando o alcance de suas ações no desenvolvimento de pessoal qualificado no Brasil e no exterior.

4 – Gapminder

Essa é uma compilação de dados de fontes variadas. No Gapminder você pode encontrar conteúdo da Organização Mundial de Saúde, do Banco Mundial, dentre outras referências de relevância global.

mini-banner blog

5 – IMDB 5000 Movie Dataset (Kaggle)

Você se considera uma mistura entre o Rubens Ewald Filho e um cientista de dados? Então dê uma olhada neste projeto, também do Kaggle.

O criador dessa base coletou dados de mais de 5 mil filmes do site do IMDb, a fim de dar sustentação às respostas de duas perguntas:

1) Há uma maneira mais efetiva e precisa de descobrir o quão bom (ou ruim) um filme é, sem depender da crítica especializada ou dos próprios instintos, e antes mesmo de ele chegar aos cinemas?

2) A quantidade de rostos humanos no pôster de um filme se relaciona com a sua avaliação?


Leia também: 10 filmes sobre Inteligência Artificial e Big Data


6 – Google Public Data

Essa é uma iniciativa do Google que pouca gente conhece. Trata-se de uma plataforma que tem muitos dados acessíveis para quem quiser. Lá estão informações públicas sobre demografia, educação, economia e várias outras categorias.

Baixe_aqui_seu_Ebook (8)

7 –  UCI Machine Learning Repository

UCI Machine Learning Repository é um projeto mais técnico, voltado para a comunidade de machine learning.

Trata-se de uma coleção de bancos de dados, teorias de domínio e geradores de dados, usada por estudantes, professores e pesquisadores de todo o mundo para análises empíricas de machine learning.

8 – DataViva

Esse projeto foi idealizado pelo M.I.T e pelo Governo Estadual de Minas Gerais, em 2013.

Além de oferecer mais de 100 milhões de visualizações de dados interativas, o site disponibiliza dados sobre todo o setor formal da economia brasileira. É uma ferramenta poderosa para tomadores de decisão.

9 – Freebase

Aqui está um compilado bem alternativo. Lugares, pessoas e coisas são temas de várias bases de dados agrupados no Freebase. São mais de 45 milhões de registros no portal.

10 – Google Finance

Sim, outra ferramenta do Google que não é super popular. Aqui, você encontra detalhes dos últimos 40 anos sobre o mercado de ações. Ah, o mais legal é que o Google promete atualizar tudo em tempo real!

Baixe_aqui_seu_Ebook (11)

11 – Data.gov

Banco de dados abertos do governo norte-americano. Nele, é possível realizar pesquisas e projetar visualizações com dados dos mais diversos tópicos, como agricultura, saúde, clima, educação, segurança pública, finanças e energia.

Você conhece outras boas bases de dados? Compartilhe conosco por meio dos comentários do blog!

Banner Simplicidata