Metodologia
Versão 1.0 — Abril/2026
§1Introdução
Esta é a nota técnica dos índices publicados pelo Instituto DS de Pesquisas (IDSP). Documenta as decisões de cálculo aplicadas ao IDS-PP (Índice DS de Preços Promocionais) e ao IDS-PM (Índice DS de Presença de Marcas).
A metodologia é pública, versionada e mantida pelo próprio instituto. Mudanças significativas geram nova versão e ficam registradas.
§2Princípios
- Transparência — toda metodologia é pública e referenciável.
- Declaração de viés — limitações da amostra são sempre declaradas, antes mesmo que sejam questionadas.
- Rigor — métodos estatísticos com suporte na literatura, justificados quando se afastam do padrão.
- Honestidade — só publicamos cortes em que temos confiança estatística.
§3Fonte dos dados
Os dados são de captura própria contínua, atualizados diariamente. A amostra cobre principalmente o pequeno e médio varejo brasileiro nas categorias de supermercado, farmácia, petshop e material de construção. Cada registro corresponde a um produto promovido por uma empresa em uma data, com preço original e preço promocional declarados.
§4Universo amostral
Critérios atuais:
- Inclusão: empresas varejistas brasileiras com atividade promocional registrada, atualmente em operação.
- Exclusão: contas de teste, duplicatas técnicas, integrações automatizadas e empresas internas da plataforma de coleta.
- Distribuidores: registros de redes distribuidoras (que publicam encartes em nome de múltiplos varejistas) são identificados e classificados separadamente para evitar dupla contagem.
Tamanho atual da amostra ativa: 2.000+ empresas em 26 estados brasileiros.
§5Tratamento dos dados
5.1 Normalização de produtos (SKU canônico)
Os produtos são publicados em encartes com nomes livres, frequentemente com variações ("Coxão Mole", "Coxão Mole Bovino", "Coxão Mole 1kg Resfriado"). Para o cálculo dos índices, aplicamos um mapeamento determinístico de SKU canônico que agrupa essas variações em um único item de referência.
5.2 Normalização de marcas
Marcas também sofrem variações de grafia ("Ype", "YPÊ", "Ypê"). Aplicamos um mapeamento canônico, padronizando para o nome oficial da empresa fabricante. Esse processamento é fundamental para o IDS-PM, que mede presença de marcas por marca.
5.3 Filtros de qualidade
São descartados antes do cálculo:
- Registros com nome de produto inválido (vazio ou com menos de 3 caracteres)
- Registros com preço promocional ausente, zero ou negativo (para o IDS-PP)
- Registros sem unidade de medida identificável (impossibilitam comparação por unidade)
- Registros associados a contas excluídas (ver Seção 4)
IDS-PP — Índice DS de Preços Promocionais
Seções 6 a 11 — metodologia específica do IDS-PP
§6Estrutura do IDS-PP
O IDS-PP é uma cesta de 27 produtos representativos do consumo doméstico brasileiro, organizados em seis grupos: mercearia (8), hortifruti (7), proteína (5), laticínios (2), bebidas (1) e higiene e limpeza (4).
A escolha de 27 itens busca equilíbrio entre representatividade do consumo e robustez estatística por item. A lista é estendida com produtos de alto giro no varejo promocional moderno.
O IDS-PP trabalha com preços promocionais publicados em encartes — não com preços de gôndola coletados presencialmente. Isso significa que o IDS-PP captura a oferta promocional do mercado, não o preço médio efetivamente pago.
§7Deduplicação
Uma mesma empresa pode publicar o mesmo preço em múltiplos veículos no mesmo dia (encarte digital, material para WhatsApp, post de rede social). Para evitar superestimar o peso de cada anunciante, aplicamos deduplicação por (empresa, preço, data): o mesmo preço da mesma empresa no mesmo dia conta como uma única observação.
Esse tratamento é aplicado no momento do cálculo — os dados brutos preservam todos os registros originais.
§8Tratamento de outliers (IQR)
Para cada combinação de (produto, estado, período), aplicamos o método do Intervalo Interquartil (IQR):
- Calcula-se Q1 (percentil 25) e Q3 (percentil 75) dos preços
- IQR = Q3 − Q1
- Limite inferior = max(0, Q1 − 1,5 × IQR)
- Limite superior = Q3 + 1,5 × IQR
- Preços fora dos limites são descartados
Optamos por IQR em vez de desvio padrão porque distribuições de preços promocionais não são normais — apresentam cauda longa à direita e contêm erros pontuais (digitação, OCR). O IQR é robusto a esses casos.
§9Métrica principal: mediana
Adotamos a mediana como métrica central do IDS-PP, em vez da média aritmética ou geométrica. Justificativas:
- A mediana é robusta a outliers residuais que sobreviveram ao filtro IQR.
- Em distribuições assimétricas (típicas de preços de varejo), a mediana é mais representativa do "preço típico".
- A média aritmética seria sensível a marcas premium (ex: Heineken puxa para cima a média de cerveja).
Publicamos como métricas secundárias: faixa Q1–Q3, N (tamanho da amostra) e número de empresas distintas que contribuíram para cada corte.
§10Cálculo do valor da cesta
- Para cada item da cesta, em cada estado, em cada mês: calcula-se a mediana do preço promocional após filtros.
- O valor da cesta estadual é a soma das medianas dos 27 itens naquele estado naquele mês.
- O valor da cesta nacional é calculado da mesma forma, considerando todas as observações nacionais no mês.
Itens que não atinjam o tamanho mínimo de amostra em um corte são marcados como "não publicado". A cesta agregada apenas é publicada quando todos os 27 itens têm dados válidos no corte considerado.
§11Tamanho mínimo de amostra
Cortes com menos de 30 observações deduplicadas não são publicados. A escolha de N ≥ 30 segue a aproximação clássica do Teorema Central do Limite para inferência sobre tendência central em amostras finitas.
O tamanho da amostra (N) é sempre publicado junto da estatística. Cortes com 30 ≤ N < 100 são marcados como "cobertura limitada".
IDS-PM — Índice DS de Presença de Marcas
Seções 12 a 16 — metodologia específica do IDS-PM
§12Estrutura do IDS-PM
O IDS-PM é um score mensal 0-100 que mede a intensidade de presença de marcas em encartes do varejo brasileiro. Ranqueia uma cesta fixa de 50 marcas nacionais a partir de 4 dimensões complementares.
É um índice comparativo (marcas entre si) e composto (agrega 4 dimensões num score único). Mede presença em encarte — não agressividade de preço, preferência do consumidor ou venda real.
§13Cesta do IDS-PM
50 marcas selecionadas por volume acumulado de anúncios, filtradas por critério de presença nacional:
- Cobertura ≥ 20 UFs no mês de referência
- Concentração no top UF ≤ 40% no mês de referência
O filtro exclui marcas cuja comparabilidade nacional seria distorcida por concentração regional forte (ex.: laticínios regionais do Sul/Sudeste, carnes de um único estado). Marcas que não atendem ao critério ficam fora da cesta nacional — mas continuam tracked e podem entrar em rankings regionais no futuro.
A cesta é fixa dentro de cada edição. Mudanças na composição geram nova versão da metodologia.
§14As 4 dimensões do score
Cada dimensão é calculada em valor bruto por marca-mês e convertida em percentile rank dentro da cesta de 50 marcas no mês.
14.1 Share of Shelf (25%)
Fração das linhas do encarte nacional ocupadas pela marca no mês. Calculado como linhas da marca ÷ total de linhas do mês. Denominador considera apenas linhas com marca identificada.
14.2 Cobertura (25%)
Número de varejistas distintos que anunciaram a marca no mês. Mede capilaridade no canal — anunciar em muitos varejistas vale mais que anunciar muito em um único varejista.
14.3 Consistência (25%)
Regularidade temporal dos anúncios ao longo do mês, calculada como 1 − Gini(volume diário). O índice de Gini mede concentração; ao invertê-lo, marcas com anúncios distribuídos ao longo do mês pontuam mais alto. Marcas que concentram anúncios em poucos dias (blitz pontual) pontuam mais baixo.
O Gini é preferido ao Coeficiente de Variação porque é bounded [0,1], robusto a outliers diários e não explode em marcas de baixa média.
14.4 Breadth (25%)
Número de SKUs canônicos distintos da marca anunciados no mês. Mede amplitude do portfolio ativo em promoção.
§15Cálculo do score
- Para cada marca-mês, calcula-se o valor bruto das 4 dimensões.
- Cada valor bruto é convertido em percentile rank (0-100) dentro da cesta de 50 marcas no mês.
- O score final é a média simples dos 4 percentile ranks. Pesos iguais (25% cada).
Marcas precisam ter pelo menos 5 dias ativos no mês para receber score. Caso contrário, aparecem como NA no ranking mensal.
§16Flag "atividade concentrada"
Marcas cuja dimensão Consistência fica abaixo de (média da cesta − 1 desvio-padrão) no mês recebem flag atividade concentrada no output.
Contexto interpretativo, não penalidade adicional no score. Sinaliza ao leitor que a marca fez presença concentrada em poucos dias — tipicamente blitz sazonal ou calendarização estratégica (Páscoa, Carnaval, Natal). Exemplos observáveis: chocolates em março, cervejas em dezembro, bebidas no Carnaval.
§17Intervalo de confiança
Cada score mensal é acompanhado de IC 95% via bootstrap cluster por varejista (N=200 iterações, reamostragem de varejistas com reposição). Reflete a incerteza do score caso a composição de varejistas ativos fosse ligeiramente diferente no mês.
Largura típica do IC no topo da cesta: 10-15 pontos. Valores refletem incerteza genuína em índices compostos com estrutura hierárquica.
Notas comuns aos dois índices
Seções 18 a 22
§18Cobertura geográfica
Cada registro tem sua localização determinada por uma cascata de critérios: (1) localização declarada pela empresa, (2) localização da loja associada, (3) inferência por DDD do telefone de contato.
Atualmente cobrimos 26 estados brasileiros. A granularidade municipal é limitada — para a maioria dos registros temos UF mas não cidade. Por isso os índices são publicados em recorte estadual e nacional.
§19Frequência e janela de publicação
Ambos os índices são publicados mensalmente, considerando o mês calendário fechado anterior. Edições aparecem entre o 5º e o 10º dia útil do mês seguinte ao período de referência.
§20Declaração de viés da amostra
A amostra do IDSP não é probabilística — não foi desenhada estatisticamente para representar a totalidade do varejo brasileiro. Trata-se de uma amostra de conveniência composta predominantemente por pequeno e médio varejo brasileiro, em todas as regiões do país.
Especificamente:
- Grandes redes nacionais (como Carrefour, GPA, Assaí) não fazem parte da amostra principal.
- A cobertura geográfica é desigual: Sudeste, Centro-Oeste e Sul apresentam mais empresas ativas que Norte e parte do Nordeste.
- Os resultados refletem o comportamento promocional do varejo independente e regional, não do varejo nacional consolidado.
Essa declaração deve acompanhar qualquer citação dos números em mídia ou pesquisa.
§21Versionamento
A metodologia é versionada (atualmente v1.0). Mudanças significativas geram nova versão. Séries históricas anteriores são preservadas — não recalculamos retroativamente sem aviso.
§22Limitações conhecidas
IDS-PP
- Preço promocional ≠ preço médio pago: o IDS-PP mede o que é anunciado em encarte, não o que é efetivamente vendido.
- Granularidade municipal limitada: a maioria dos registros não tem cidade identificada com precisão; o índice é primariamente estadual e nacional.
- Sazonalidade não é dessazonalizada: publicamos os valores nominais do mês.
IDS-PM
- Identificação de marca: nem todas as linhas da base têm marca identificada. O Share of Shelf é calculado sobre o universo de linhas identificadas.
- Cesta fixa: marcas com cobertura regional ficam fora da cesta nacional, mesmo com volume alto. Decisão deliberada para garantir comparabilidade.
- Encarte ≠ venda: o índice mede presença no material promocional, não sell-in, sell-out ou participação real de mercado.
Dúvidas técnicas ou propostas de colaboração: fale com a equipe.