quinta-feira, 30 de setembro de 2010

Pesquisa por quota e margem de erro

Durante algumas postagens afirmei que não uso a margem de erro nas minhas análises porque não existe base científica para fazê-lo. Algumas pessoas pediram que escrevesse mais sobre o assunto.
Os estatísticos do século passado fizeram uma descoberta genial. Desde que respeitadas certas regras, seria possível retirar uma amostra de uma dada população e dizer, com certo grau de certeza, o quão próxima aquela amostra estaria da população. A amostra não nos permite acertar um resultado "na mosca", mas dizer que ele provavelmente estará em um faixa de certeza.
Graças a pesquisa por amostra, posso dar um mergulho na Praia de Ipanema, mas não na Praia do Flamengo (considerada poluída nas amostras). A premissa amostral sugere que eu não coma tomate (60% contaminados por agrotóxico além do razoável), mas me esbalde com brócolis (com um grau razoável de contaminação).
Uma das formas de avaliar o grau de incerteza de uma pesquisa amostral é a margem de erro. Ela nos permite dizer, por exemplo, que em uma pesquisa com 2500 eleitores, Dilma estaria entre 46% e 50% dos votos. Não que está exatamente com 48%.
A fundamentação da pesquisa por amostra é a aleatoriedade. Para utilizarmos o instrumento precisamos garantir que, em todas as fases da pesquisa, as chances de um individuo de uma dada população ser sorteado sejam idênticas, e que esta seleção não seja "contaminada" por uma escolha particular do pesquisador. Ou seja, as 2000 pessoas entrevistadas serão selecionadas, sem que o instituto saiba se são homens, mulheres, de escolaridade alta ou baixa.
Todas as pesquisas dos grandes institutos dos Estados Unidos são feitas assim. A pesquisa por quota não é utilizada no meio acadêmico e por grandes empresas de pesquisa nos Estados Unidos desde os anos 1950.
O problema é que as pesquisas no Brasil não seguem a premissa da aleatoriedade total, pois são baseadas em quotas.
Na pesquisa por quota, a amostra procura reproduzir algumas características sociais da população. Quase sempre escolaridade, sexo e idade. Se existem 51% de mulheres na população, a pesquisa por quota entrevistará 51% de mulheres. Se a população brasileira é composta por 13% de pessoas com com terceiro grau a pesquisa entrevistará o mesmo patamar de pessoas com terceiro grau.
O Datafolha preenche a quota em pontos de fluxo nas ruas. O IBOPE e o Vox sorteia até o setor censitário e, neste nível, preenche as quotas, quase sempre em visitas domiciliares. Sei que o IBOPE usa os pontos de fluxo na Zona Sul da cidade do Rio de Janeiro.
Meu ponto aqui não é que as pesquisas por quota sejam ruins ou boas; se acertam ou se erram; se são feitas no domicílio ou em pontos de fluxo. A questão é que até hoje não ouvi uma justificativa científica para elas usarem a margem de erro.
Para quem quer mais detalhes sobre o tema, recomendo enfaticamente o excelente texto escrito pelos estatísticos José Ferreira de Carvalho e Cristiano Ferraz: A falsidade da margem de erro nas pesquisas eleitorais baseadas em quotas
De qualquer modo, continuo procurando: quem conhecer um bom texto que apresente a justificativa científica para o uso de margem de erro em pesquisas por quota, favor enviar.
O tema realmente merece uma discussão mais cuidadosa. Vou tentar escrever um texto mais detalhado sobre o assunto depois das eleições.

9 comentários:

  1. Prof. Jairo, muito obrigado pelos esclarecimentos tão necessários quando falamos de pesquisa de opinião; de fato, acredito que haja uma "margem de erro" nas pesquisas por quotas, mas ainda não vi nenhum artigo ou livro que especifique detalhadamente o assunto.

    ResponderExcluir
  2. Eu achava que as pesquisas usavam não quotas, mas estratificação (que é o equivalente de quotas, mas probabilisticamente), ou então usavam pós-estratificação.

    Assim fica a qustão: até que ponto essas pesquisas são válidas? Quando elas concordam entre si, qual o significado? E quando discordam?

    obrigado pelo esclarecimento também,
    Manoel Galdino
    ps.: Vou ao seminário do DCP-USP hoje, e lá pergunto sobre o tema.

    ResponderExcluir
  3. Oi Professor, fiz a pergunta e grato pela resposta. Mas ela me deixou ainda uma dúvida.

    Você deu a entender que não é pra desprezar elas, porém, dada nossa impossibilidade de quantificar a incerteza, são elas mais válidas que as pesquisas qualitativas, que você inclusive comentou?

    abraços
    Manoel

    ResponderExcluir
  4. oi Jairo,
    parabéns pelo blog -- está excelente, informativo e muito bem escrito, como tudo que vc produz.
    abçs, K

    ResponderExcluir
  5. Olá Professor,

    Também estive no debate do DCP-USP. Assim com o Manuel, fiquei curioso sobre suas afirmações sobre as pesquisas qualitativas, principalmente com a sua afirmação, se é que a entendi bem, de que "cada vez mais você ve que as pesquisas qualitativas servem mais para as campanhas eleitorais e cada vez menos para o método científico".

    O senhor poderia desenvolver mais sobre o tema?
    Fiquei curioso se essa afirmação seria sobre as pesquisas qualitativas eleitorais ou as da ciência como um todo?

    Abraços!

    Alexandre.

    ResponderExcluir
  6. Alexandre,
    Falei especificamente sobre os grupos focais. Muito utilizados para campanhas e produtos. Já ouvi que eles são usados também em algumas áreas de avaliação de políticas públicas.
    Mas não conheço um artigo acadêmico sério baseado em informações produzidas em grupos focais.
    Não vejo como gerar inferências seguras sobre a população a partir deles. E eles nem pretendem.
    Geram insights, captam tendências e ondas eleitorais. Ponto.
    Quanto aos tradicionais métodos qualitativos das ciências sociais, existe um enorme literatura que sustenta o uso.
    Não creio que seja o caso dos grupos focais.

    ResponderExcluir
  7. Muito instrutivos a resposta e o artigo de base.

    ResponderExcluir
  8. Jairo, como estudamos nas matérias ligadas a dados em ciências sociais, pesquisas de amostras aleatórias como deveriam ser essas de intenção de votos também tem como principal informação o grau de certeza, ou seja, o nosso famigerado Z que diz geralmente que tal média deve cair entre X com erro de Y para mais ou para menos em 95% dos casos, ou em 99% dos casos. Qdo estudamos estatistica esse é sempre importante, mas nas pesquisas nunca é revelado. Vc sabe qual que eles usam? E pq esse dado nunca é apresentado nos telejornais e em outros meios?

    ResponderExcluir