Explorações visuais do tamanho da amostra
Tirar conclusões com base em pequenas amostras é obviamente problemático. Ao mesmo tempo, também me pergunto se o aumento da proeminência do "Big Data" pode levar as organizações a coletar cegamente o máximo de dados possível, em vez de pensar logicamente sobre quantos dados são realmente necessários para realizar quaisquer tarefas de análise necessárias.
Tirar conclusões com base em pequenas amostras é obviamente problemático. Ao mesmo tempo, também me pergunto se o aumento da proeminência do "Big Data" pode levar as organizações a coletar cegamente o máximo de dados possível, em vez de pensar logicamente sobre quantos dados são realmente necessários para realizar quaisquer tarefas de análise necessárias.
Prefiro ter um pouco mais de dados do que o necessário do que não o suficiente, mas isso não significa que devemos coletar tudo só porque podemos. Podemos usar estatísticas para nos orientar sobre a quantidade de dados de que realmente precisamos, mas recentemente comecei a pensar em como podemos mostrar visualmente o efeito que o aumento do tamanho da amostra tem.
Para manter as coisas simples, examinarei apenas o efeito de aumentar o tamanho da amostra com variáveis aleatórias de uma instância específica (mas bastante arbitrária) da distribuição normal. Vou deixar os parâmetros - a verdadeira média e o verdadeiro desvio padrão - para mais tarde.
O gif animado abaixo mostra histogramas de densidade de probabilidade feitos a partir da amostragem da distribuição normal mencionada acima. De quadro para quadro, o tamanho da amostra aumenta por um fator de dez e os dados usados para desenhar cada histograma são um superconjunto dos dados do quadro anterior. A curva vermelha é a distribuição normal com a mesma média e desvio padrão dos dados da amostra.

Claramente, com um tamanho de amostra de apenas dez, a distribuição empírica não se parece em nada com a distribuição normal com a mesma média e desvio padrão. Tudo o que podemos realmente dizer disso é que a verdadeira média provavelmente está em algum lugar perto de 4 ou 5. Mas aumente a amostra para 100 pontos e já podemos ver uma curva de sino áspera. Quando chegamos a 100.000 pontos, temos uma correspondência visual muito boa entre o histograma e a curva. Adicionar mais pontos não altera a aparência da distribuição ou a média impressa e o desvio padrão.
O histograma animado é bom para fornecer uma visão geral ampla de como as coisas mudam à medida que adicionamos mais pontos, mas com apenas um quadro para cada fator de 10, não vemos uma imagem muito detalhada. Sem imprimir mais dígitos nos parâmetros do título na parte superior, não está claro com que precisão sabemos a média e o desvio padrão para qualquer tamanho de amostra específico. Para uma ideia melhor disso, podemos escolher um parâmetro e plotá-lo em função do tamanho da amostra, de 2 pontos (quando ambos os parâmetros da amostra são finitos) até dez milhões. Veremos a média primeiro.

Como as coisas mudam muito mais rapidamente quando há apenas uma pequena quantidade de dados, o gráfico acima é bastante inútil. Tomar o logaritmo (base 10) do número de pontos na amostra torna as coisas muito mais claras.

Com apenas alguns pontos, a média da amostra está bem acima de 4. Mas isso cai rapidamente e se estabiliza quando chegamos a dois dígitos. Além de alguns milhares de pontos, há pouca variação discernível na média da amostra, mas podemos ampliar o lado direito e ver a "oscilação" mais fina.

Veja como o desvio padrão muda à medida que alteramos o tamanho da amostra (nota: este é o desvio padrão da amostra, não o erro padrão da média!):

A média verdadeira utilizada para gerar a amostra foi de 3,9172 e o desvio padrão foi de 0,7200. Podemos ver nos gráficos que chegamos bem perto desses números com dez milhões de pontos de dados sem fazer nenhuma análise estatística rigorosa. Mas também não estávamos tão longe, com dez mil pontos de dados. Mais dados significam mais precisão, mas se tudo o que você precisasse saber fosse se a média era maior ou menor que 4, ~ 1.000 pontos teriam sido suficientes.
Para reforçar o ponto, vamos examinar apenas os primeiros 100.000 pontos de dados e dividi-los em dez amostras de 10.000. Com cada subamostra, podemos usar a mesma técnica gráfica de antes. As linhas coloridas nos gráficos abaixo mostram os resultados para os primeiros 10.000 pontos de dados, as linhas cinzas as outras subamostras.


Para ser claro, o objetivo dos gráficos não é realmente ver as faixas individuais feitas por uma subamostra. É para mostrar que as médias e desvios padrão das subamostras estão amplamente espalhados quando cada um tem apenas alguns pontos de dados, mas, pelo menos em uma escala logarítmica, convergem rapidamente à medida que adicionamos mais pontos.
É claro que todos os conjuntos de dados são diferentes e muitos não surgem por meio de uma simples amostragem aleatória. Você também não pode presumir que seu conjunto de dados do mundo real será tão bem comportado quanto uma grande coleção de variáveis aleatórias geradas por computador de uma única instância da distribuição normal. Além disso, as ideias de gráficos acima não pretendem substituir diretamente o trabalho estatístico rigoroso. Mas, em certos casos, eles podem complementá-lo, por exemplo, fornecendo uma verificação de sanidade de uma avaliação estatística ou como uma alternativa visual para um público com menos conhecimento técnico.
Procurando uma ferramenta de prototipagem abrangente e rápida, que permita ver exatamente como sua construção ficará e funcionará antes mesmo de escrever um único código de linha? Não procure mais.Baixe nossa avaliação gratuita do Indigo Studioagora e veja o que ele pode fazer por você!
