2  Probabilidade

A probabilidade é um ramo da matemática que estuda a incerteza e a aleatoriedade. Ela fornece ferramentas para quantificar a chance de ocorrência de eventos em situações onde o resultado não é previsível com certeza. Desde previsões do tempo até decisões financeiras, a probabilidade está presente em diversos aspectos da vida cotidiana e é fundamental em áreas como estatística, ciência de dados, física, engenharia, economia e jogos.

Neste capítulo, construiremos gradualmente a teoria da probabilidade: partiremos de conceitos básicos como experimentos aleatórios e espaços amostrais, passaremos pela definição formal de probabilidade e suas propriedades, até chegarmos a variáveis aleatórias e distribuições de probabilidade — ferramentas que serão essenciais para a inferência estatística no @cap-inferencia.

2.1 Conceitos Básicos

Antes de definir formalmente a probabilidade, precisamos estabelecer a linguagem e os conceitos que serão utilizados ao longo de todo o capítulo.

2.1.1 Experimento Aleatório

NoteDefinição

Um experimento aleatório é qualquer processo que pode ser repetido sob as mesmas condições, mas cujo resultado não pode ser previsto com certeza antes de sua realização.

Exemplos de experimentos aleatórios:

  • Lançar uma moeda e observar a face voltada para cima;
  • Jogar um dado e anotar o número obtido;
  • Sortear uma carta de um baralho;
  • Contar o número de peças defeituosas em um lote de produção;
  • Registrar a quantidade de chamadas telefônicas em uma hora em um call center;
  • Medir o tempo de espera de um cliente em uma fila.

Note que, embora não possamos prever o resultado individual, quando repetimos o experimento muitas vezes, padrões regulares emergem — e é exatamente isso que a teoria da probabilidade busca descrever.

2.1.2 Espaço Amostral

NoteDefinição

O espaço amostral (\(\Omega\)) de um experimento aleatório é o conjunto de todos os resultados possíveis desse experimento.

Exemplos:

  • Lançamento de uma moeda: \(\Omega = \{\text{Cara}, \text{Coroa}\}\)
  • Lançamento de um dado: \(\Omega = \{1, 2, 3, 4, 5, 6\}\)
  • Número de chamadas em uma central: \(\Omega = \{0, 1, 2, 3, \ldots\}\)
  • Lançamento de duas moedas: \(\Omega = \{(C,C), (C,K), (K,C), (K,K)\}\), onde \(C\) = cara e \(K\) = coroa

Observe que no caso de duas moedas, o espaço amostral possui \(2 \times 2 = 4\) elementos. Essa ideia de multiplicar as possibilidades será formalizada na Section 2.2.

2.1.3 Eventos

NoteDefinição

Um evento é qualquer subconjunto do espaço amostral. Dizemos que o evento ocorre quando o resultado do experimento pertence a esse subconjunto.

Exemplos para o lançamento de um dado (\(\Omega = \{1,2,3,4,5,6\}\)):

  • Evento \(A\): “sair número par” \(\Rightarrow A = \{2, 4, 6\}\)
  • Evento \(B\): “sair número maior que 4” \(\Rightarrow B = \{5, 6\}\)
  • Evento \(C\): “sair número 7” \(\Rightarrow C = \emptyset\) (evento impossível)
  • Evento \(D\): “sair número entre 1 e 6” \(\Rightarrow D = \Omega\) (evento certo)

Operações com eventos:

Operação Notação Significado
União \(A \cup B\) Ocorre \(A\) ou \(B\) (ou ambos)
Interseção \(A \cap B\) Ocorre \(A\) e \(B\) simultaneamente
Complementar \(A^c\) \(A\) não ocorre
Diferença \(A - B\) Ocorre \(A\) mas não \(B\)

No exemplo acima: \(A \cup B = \{2, 4, 5, 6\}\) e \(A \cap B = \{6\}\).

TipExercício de Fixação

Exercício 2.1

No lançamento de dois dados, determine:

  1. O espaço amostral \(\Omega\) e seu tamanho \(|\Omega|\).
  2. O evento \(A\): “a soma dos dados é igual a 7”.
  3. O evento \(B\): “ambos os dados mostram o mesmo número”.
  4. \(A \cap B\) e interprete o resultado.
TipExercício de Fixação

Exercício 2.2 ⭐⭐

Uma urna contém 3 bolas vermelhas numeradas de 1 a 3 e 2 bolas azuis numeradas de 1 a 2. Uma bola é retirada ao acaso.

  1. Defina o espaço amostral \(\Omega\).
  2. Defina o evento \(A\): “a bola é vermelha” e o evento \(B\): “o número é ímpar”.
  3. Determine \(A \cup B\), \(A \cap B\) e \(A^c\).

2.2 Análise Combinatória

A análise combinatória nos fornece técnicas para contar o número de elementos em espaços amostrais e eventos. Embora uma discussão exaustiva esteja fora do escopo desta disciplina, uma compreensão intuitiva dos principais conceitos é essencial para resolver problemas de probabilidade.

2.2.1 Princípio Fundamental da Contagem

NoteDefinição

Se um experimento consiste em \(k\) etapas, onde a etapa 1 pode ser realizada de \(n_1\) maneiras, a etapa 2 de \(n_2\) maneiras, …, e a etapa \(k\) de \(n_k\) maneiras, então o número total de maneiras de realizar o experimento é:

\[ n_1 \times n_2 \times \cdots \times n_k \]

Exemplo: Uma lanchonete oferece 3 tipos de pão, 4 tipos de recheio e 2 tipos de bebida. Quantos lanches diferentes (pão + recheio + bebida) podem ser montados?

\[ 3 \times 4 \times 2 = 24 \text{ lanches diferentes} \]

2.2.2 Arranjo

O arranjo de \(n\) elementos tomados \(p\) a \(p\) conta o número de formas de escolher \(p\) elementos de um conjunto de \(n\), importando a ordem.

\[ A_{n,p} = \frac{n!}{(n-p)!} \]

Exemplo: De quantas maneiras podemos escolher o 1º, 2º e 3º lugar em uma corrida com 10 competidores?

\[ A_{10,3} = \frac{10!}{7!} = 10 \times 9 \times 8 = 720 \]

2.2.3 Permutação

A permutação é um caso particular do arranjo em que \(p = n\), ou seja, ordenamos todos os \(n\) elementos.

\[ P_n = n! \]

Exemplo: De quantas maneiras 5 pessoas podem se sentar em 5 cadeiras numeradas?

\[ P_5 = 5! = 120 \]

2.2.4 Combinação

A combinação de \(n\) elementos tomados \(p\) a \(p\) conta o número de formas de escolher \(p\) elementos de um conjunto de \(n\), sem importar a ordem.

\[ \binom{n}{p} = C_{n,p} = \frac{n!}{p!(n-p)!} \]

Exemplo: De quantas formas podemos formar uma comissão de 3 alunos a partir de um grupo de 8?

\[ \binom{8}{3} = \frac{8!}{3! \cdot 5!} = \frac{8 \times 7 \times 6}{3 \times 2 \times 1} = 56 \]

Podemos calcular isso em R:

# Combinações: choose(n, p)
choose(8, 3)

# Fatorial
factorial(5)

# Arranjo: calculado manualmente
factorial(10) / factorial(10 - 3)
TipExercício de Fixação

Exercício 2.3

Uma sala tem 20 alunos. De quantas formas podemos:

  1. Escolher 1 representante e 1 vice-representante?
  2. Formar um grupo de estudo com 4 alunos?
TipExercício de Fixação

Exercício 2.4 ⭐⭐

Um baralho padrão tem 52 cartas. Qual a probabilidade de, ao sortear 5 cartas ao acaso, obter exatamente 3 cartas de copas?

Dica: use combinações para contar os casos favoráveis e o total.

2.3 Definição de Probabilidade

2.3.1 Definição Clássica (Laplace)

NoteDefinição

Quando o espaço amostral é finito e todos os resultados são igualmente prováveis, a probabilidade de um evento \(A\) é:

\[ P(A) = \frac{n(A)}{n(\Omega)} \]

Onde:

  • \(n(A)\): número de resultados favoráveis ao evento \(A\)
  • \(n(\Omega)\): número total de resultados no espaço amostral

Exemplo: Qual a probabilidade de obter um número par no lançamento de um dado?

  • \(A = \{2, 4, 6\}\), logo \(n(A) = 3\)
  • \(\Omega = \{1,2,3,4,5,6\}\), logo \(n(\Omega) = 6\)

\[ P(A) = \frac{3}{6} = \frac{1}{2} = 0{,}5 \]

2.3.2 Definição Frequentista

A probabilidade pode ser interpretada como o limite da frequência relativa quando o número de repetições do experimento tende ao infinito:

\[ P(A) = \lim_{n \to \infty} \frac{n_A}{n} \]

onde \(n_A\) é o número de vezes que o evento \(A\) ocorreu em \(n\) repetições do experimento.

Podemos visualizar isso com uma simulação da Lei dos Grandes Números:

# Simulação: Lei dos Grandes Números para lançamento de moeda
set.seed(42)
n <- 5000
lancamentos <- sample(c(0, 1), size = n, replace = TRUE)  # 1 = cara

# Proporção acumulada de caras
proporcao <- cumsum(lancamentos) / (1:n)

plot(1:n, proporcao, type = "l", col = "#448EE3", lwd = 1.5,
     xlab = "Número de lançamentos", ylab = "Proporção de caras",
     main = "Lei dos Grandes Números — Lançamento de Moeda",
     ylim = c(0.3, 0.7))
abline(h = 0.5, col = "#2D4188", lty = 2, lwd = 2)
legend("topright", legend = c("Proporção observada", "P(Cara) = 0.5"),
       col = c("#448EE3", "#2D4188"), lty = c(1, 2), lwd = c(1.5, 2))

A simulação mostra que, à medida que o número de lançamentos cresce, a proporção de caras se estabiliza em torno de 0,5 — exatamente a probabilidade teórica.

TipExercício de Fixação

Exercício 2.5

Calcule a probabilidade dos seguintes eventos no lançamento de dois dados:

  1. A soma ser igual a 7.
  2. Pelo menos um dos dados mostrar o número 6.
  3. A soma ser maior ou igual a 10.
TipExercício de Fixação

Exercício 2.6 ⭐⭐

Modifique o código da Lei dos Grandes Números para simular o lançamento de um dado e estimar a probabilidade de sair o número 6. Use n = 10000 lançamentos e compare o resultado com a probabilidade teórica \(P(6) = 1/6\).

2.4 Axiomas de Kolmogorov

A definição clássica de probabilidade, embora intuitiva, não é suficiente para todos os casos (por exemplo, espaços amostrais infinitos ou resultados não equiprováveis). Em 1933, Andrey Kolmogorov propôs uma definição axiomática que fundamenta toda a teoria moderna de probabilidade.

NoteDefinição — Axiomas de Kolmogorov

Uma função \(P\) que atribui a cada evento \(A\) um número real \(P(A)\) é uma probabilidade se satisfaz os três axiomas:

Axioma 1 (Não-negatividade): \[ P(A) \geq 0, \quad \text{para todo evento } A \]

Axioma 2 (Normalização): \[ P(\Omega) = 1 \]

Axioma 3 (Aditividade): Se \(A_1, A_2, A_3, \ldots\) são eventos mutuamente exclusivos (isto é, \(A_i \cap A_j = \emptyset\) para \(i \neq j\)), então:

\[ P\left(\bigcup_{i=1}^{\infty} A_i\right) = \sum_{i=1}^{\infty} P(A_i) \]

Esses três axiomas, aparentemente simples, são suficientes para deduzir todas as propriedades da probabilidade que utilizaremos.

Consequência imediata: Para dois eventos mutuamente exclusivos \(A\) e \(B\) (\(A \cap B = \emptyset\)):

\[ P(A \cup B) = P(A) + P(B) \]

Exemplo: No lançamento de um dado justo, os eventos \(A = \{1\}\) e \(B = \{2\}\) são mutuamente exclusivos. Portanto:

\[ P(A \cup B) = P(\{1\}) + P(\{2\}) = \frac{1}{6} + \frac{1}{6} = \frac{2}{6} = \frac{1}{3} \]

TipExercício de Fixação

Exercício 2.7

Usando apenas os axiomas de Kolmogorov, mostre que \(P(\emptyset) = 0\).

Dica: considere que \(\Omega = \Omega \cup \emptyset\) e que \(\Omega \cap \emptyset = \emptyset\).

TipExercício de Fixação

Exercício 2.8 ⭐⭐

Usando os axiomas, mostre que para qualquer evento \(A\): \(0 \leq P(A) \leq 1\).

Dica: note que \(\Omega = A \cup A^c\) e que \(A \cap A^c = \emptyset\).

2.5 Propriedades da Probabilidade

A partir dos axiomas de Kolmogorov, derivamos propriedades fundamentais que facilitam o cálculo de probabilidades em diversas situações.

2.5.1 Probabilidade do Complementar

NoteDefinição

Para qualquer evento \(A\):

\[ P(A^c) = 1 - P(A) \]

Demonstração: Como \(A\) e \(A^c\) são mutuamente exclusivos e \(A \cup A^c = \Omega\), pelo Axioma 3:

\[ P(\Omega) = P(A) + P(A^c) \implies 1 = P(A) + P(A^c) \implies P(A^c) = 1 - P(A) \]

Essa propriedade é extremamente útil: muitas vezes é mais fácil calcular a probabilidade de o evento não ocorrer.

Exemplo: Qual a probabilidade de obter pelo menos uma cara em 3 lançamentos de moeda?

Calcular diretamente exigiria listar vários casos. Pelo complementar:

\[ P(\text{pelo menos 1 cara}) = 1 - P(\text{nenhuma cara}) = 1 - P(\text{3 coroas}) = 1 - \left(\frac{1}{2}\right)^3 = 1 - \frac{1}{8} = \frac{7}{8} \]

2.5.2 Regra da Adição (Inclusão-Exclusão)

NoteDefinição

Para quaisquer dois eventos \(A\) e \(B\):

\[ P(A \cup B) = P(A) + P(B) - P(A \cap B) \]

O termo \(-P(A \cap B)\) corrige a dupla contagem dos resultados que pertencem a ambos os eventos.

Exemplo: Em uma turma de 30 alunos, 18 gostam de matemática (\(M\)) e 15 gostam de português (\(P\)). Sabendo que 8 gostam de ambas, qual a probabilidade de um aluno escolhido ao acaso gostar de matemática ou português?

\[ P(M \cup P) = P(M) + P(P) - P(M \cap P) = \frac{18}{30} + \frac{15}{30} - \frac{8}{30} = \frac{25}{30} = \frac{5}{6} \approx 0{,}833 \]

Para três eventos \(A\), \(B\) e \(C\):

\[ P(A \cup B \cup C) = P(A) + P(B) + P(C) - P(A \cap B) - P(A \cap C) - P(B \cap C) + P(A \cap B \cap C) \]

TipExercício de Fixação

Exercício 2.9

Em um baralho de 52 cartas, sorteia-se uma carta ao acaso. Calcule a probabilidade de a carta ser de copas ou ser uma figura (valete, dama ou rei).

TipExercício de Fixação

Exercício 2.10 ⭐⭐

Uma pesquisa revelou que, entre 200 pessoas, 120 leem o jornal A, 90 leem o jornal B e 50 leem ambos. Determine:

  1. A probabilidade de uma pessoa escolhida ao acaso ler pelo menos um dos jornais.
  2. A probabilidade de não ler nenhum dos dois.
  3. A probabilidade de ler exatamente um dos jornais.

2.6 Probabilidade Condicional e Teorema de Bayes

2.6.1 Probabilidade Condicional

Em muitas situações, a informação de que um evento já ocorreu altera a probabilidade de outro evento. A probabilidade condicional formaliza essa ideia.

NoteDefinição

A probabilidade condicional de \(A\) dado que \(B\) ocorreu é:

\[ P(A \mid B) = \frac{P(A \cap B)}{P(B)}, \quad \text{com } P(B) > 0 \]

Intuitivamente, quando sabemos que \(B\) ocorreu, o espaço amostral se “reduz” a \(B\), e queremos saber qual a fração de \(B\) que também pertence a \(A\).

Exemplo: No lançamento de um dado justo, qual a probabilidade de o resultado ser 6 dado que o número é par?

  • \(A = \{6\}\) e \(B = \{2, 4, 6\}\)
  • \(A \cap B = \{6\}\)
  • \(P(A \mid B) = \dfrac{P(\{6\})}{P(\{2,4,6\})} = \dfrac{1/6}{3/6} = \dfrac{1}{3}\)

2.6.2 Regra do Produto

Da definição de probabilidade condicional, obtemos a regra do produto (ou regra da multiplicação):

\[ P(A \cap B) = P(A \mid B) \cdot P(B) = P(B \mid A) \cdot P(A) \]

Exemplo: Uma urna contém 5 bolas vermelhas e 3 azuis. Retiramos 2 bolas sem reposição. Qual a probabilidade de ambas serem vermelhas?

  • \(P(V_1) = 5/8\)
  • \(P(V_2 \mid V_1) = 4/7\) (após retirar uma vermelha, restam 4 vermelhas em 7 bolas)

\[ P(V_1 \cap V_2) = P(V_1) \cdot P(V_2 \mid V_1) = \frac{5}{8} \times \frac{4}{7} = \frac{20}{56} = \frac{5}{14} \approx 0{,}357 \]

2.6.3 Teorema da Probabilidade Total

NoteDefinição

Se \(B_1, B_2, \ldots, B_k\) formam uma partição do espaço amostral (são mutuamente exclusivos e \(B_1 \cup \cdots \cup B_k = \Omega\)), então para qualquer evento \(A\):

\[ P(A) = \sum_{i=1}^{k} P(A \mid B_i) \cdot P(B_i) \]

Exemplo: Uma fábrica tem 3 máquinas. A máquina I produz 40% das peças, a máquina II produz 35% e a máquina III produz 25%. As taxas de defeito são 2%, 3% e 5%, respectivamente. Qual a probabilidade de uma peça escolhida ao acaso ser defeituosa?

\[ P(D) = P(D \mid M_I) P(M_I) + P(D \mid M_{II}) P(M_{II}) + P(D \mid M_{III}) P(M_{III}) \] \[ P(D) = 0{,}02 \times 0{,}40 + 0{,}03 \times 0{,}35 + 0{,}05 \times 0{,}25 = 0{,}008 + 0{,}0105 + 0{,}0125 = 0{,}031 \]

Portanto, 3,1% das peças produzidas são defeituosas.

2.6.4 Teorema de Bayes

O Teorema de Bayes permite “inverter” probabilidades condicionais: conhecendo \(P(B \mid A)\), podemos calcular \(P(A \mid B)\).

NoteDefinição — Teorema de Bayes

Se \(B_1, B_2, \ldots, B_k\) formam uma partição de \(\Omega\), então:

\[ P(B_j \mid A) = \frac{P(A \mid B_j) \cdot P(B_j)}{\sum_{i=1}^{k} P(A \mid B_i) \cdot P(B_i)} \]

Exemplo clássico — Teste diagnóstico:

Um teste para uma doença tem sensibilidade de 95% (detecta corretamente 95% dos doentes) e especificidade de 90% (identifica corretamente 90% dos saudáveis). A prevalência da doença na população é de 1%. Se uma pessoa testa positivo, qual a probabilidade de realmente ter a doença?

Definindo: \(D\) = ter a doença, \(T^+\) = teste positivo.

  • \(P(D) = 0{,}01\), \(P(D^c) = 0{,}99\)
  • \(P(T^+ \mid D) = 0{,}95\) (sensibilidade)
  • \(P(T^+ \mid D^c) = 0{,}10\) (1 \(-\) especificidade)

Pelo Teorema de Bayes:

\[ P(D \mid T^+) = \frac{P(T^+ \mid D) \cdot P(D)}{P(T^+ \mid D) \cdot P(D) + P(T^+ \mid D^c) \cdot P(D^c)} \] \[ P(D \mid T^+) = \frac{0{,}95 \times 0{,}01}{0{,}95 \times 0{,}01 + 0{,}10 \times 0{,}99} = \frac{0{,}0095}{0{,}0095 + 0{,}099} = \frac{0{,}0095}{0{,}1085} \approx 0{,}0876 \]

Resultado surpreendente: mesmo com um teste positivo, a probabilidade de a pessoa estar doente é de apenas 8,76%. Isso ocorre porque a doença é rara (prevalência de 1%) e os falsos positivos são mais numerosos que os verdadeiros positivos em termos absolutos.

# Teorema de Bayes — Teste diagnóstico
sensibilidade <- 0.95
especificidade <- 0.90
prevalencia <- 0.01

# P(T+ | D) * P(D)
numerador <- sensibilidade * prevalencia

# P(T+)
denominador <- sensibilidade * prevalencia + (1 - especificidade) * (1 - prevalencia)

# P(D | T+)
p_doente_dado_positivo <- numerador / denominador
cat("P(Doente | Teste Positivo) =", round(p_doente_dado_positivo, 4), "\n")

# Variando a prevalência
prevalencias <- seq(0.001, 0.5, by = 0.001)
p_posterior <- (sensibilidade * prevalencias) /
  (sensibilidade * prevalencias + (1 - especificidade) * (1 - prevalencias))

plot(prevalencias, p_posterior, type = "l", col = "#448EE3", lwd = 2,
     xlab = "Prevalência da doença", ylab = "P(Doente | Teste Positivo)",
     main = "Teorema de Bayes: Efeito da Prevalência")
abline(h = 0.5, col = "gray", lty = 2)
abline(v = prevalencias[which.min(abs(p_posterior - 0.5))],
       col = "#2D4188", lty = 3)
TipExercício de Fixação

Exercício 2.11 ⭐⭐

Em uma urna há 4 bolas vermelhas e 6 azuis. Retira-se uma bola, anota-se a cor (sem reposição) e retira-se outra. Calcule:

  1. A probabilidade de a segunda bola ser vermelha dado que a primeira foi azul.
  2. A probabilidade de ambas serem azuis.
  3. A probabilidade de as cores serem diferentes.
TipExercício de Fixação

Exercício 2.12 ⭐⭐⭐

Um filtro de e-mail classifica mensagens como spam ou não-spam. Sabe-se que:

  • 30% dos e-mails recebidos são spam.
  • O filtro identifica corretamente 98% dos spams.
  • O filtro classifica incorretamente 5% dos e-mails legítimos como spam.

Se um e-mail foi classificado como spam pelo filtro, qual a probabilidade de ele realmente ser spam?

2.7 Independência de Eventos

2.7.1 Definição Formal

NoteDefinição

Dois eventos \(A\) e \(B\) são independentes se e somente se:

\[ P(A \cap B) = P(A) \cdot P(B) \]

Equivalentemente, \(A\) e \(B\) são independentes se:

\[ P(A \mid B) = P(A) \quad \text{e} \quad P(B \mid A) = P(B) \]

Quando dois eventos são independentes, a ocorrência de um não altera a probabilidade do outro. Caso contrário, os eventos são dependentes.

2.7.2 Exemplos

Exemplo 1 — Eventos independentes:

No lançamento de uma moeda e um dado simultaneamente, seja \(A\) = “moeda dá cara” e \(B\) = “dado mostra 6”.

  • \(P(A) = 1/2\) e \(P(B) = 1/6\)
  • \(P(A \cap B) = P(\text{cara e 6}) = 1/12\)
  • Como \(P(A) \cdot P(B) = 1/2 \times 1/6 = 1/12 = P(A \cap B)\), os eventos são independentes.

Exemplo 2 — Eventos dependentes:

Em uma urna com 3 bolas vermelhas e 2 azuis, retiramos 2 bolas sem reposição. Seja \(A\) = “primeira bola vermelha” e \(B\) = “segunda bola vermelha”.

  • \(P(A) = 3/5\)
  • \(P(B \mid A) = 2/4 = 1/2 \neq P(B)\)

Os eventos são dependentes porque a retirada sem reposição altera as proporções na urna.

Exemplo 3 — Extensão para \(n\) eventos:

Três eventos \(A\), \(B\) e \(C\) são mutuamente independentes se:

\[ P(A \cap B) = P(A)P(B), \quad P(A \cap C) = P(A)P(C), \quad P(B \cap C) = P(B)P(C) \] \[ \text{e} \quad P(A \cap B \cap C) = P(A)P(B)P(C) \]

TipExercício de Fixação

Exercício 2.13

Uma moeda justa é lançada 4 vezes. Qual a probabilidade de obter 4 caras consecutivas? Justifique usando independência.

TipExercício de Fixação

Exercício 2.14 ⭐⭐

Um sistema de segurança possui 3 sensores independentes. Cada sensor tem probabilidade 0,9 de detectar uma intrusão. Qual a probabilidade de:

  1. Todos os sensores detectarem a intrusão?
  2. Nenhum sensor detectar?
  3. Pelo menos um sensor detectar?

2.8 Variáveis Aleatórias

Até agora, trabalhamos com eventos como subconjuntos do espaço amostral. As variáveis aleatórias nos permitem associar valores numéricos aos resultados do experimento, facilitando enormemente a análise.

2.8.1 Definição

NoteDefinição

Uma variável aleatória \(X\) é uma função que associa a cada resultado do espaço amostral \(\Omega\) um número real:

\[ X: \Omega \to \mathbb{R} \]

Exemplo: No lançamento de duas moedas (\(\Omega = \{CC, CK, KC, KK\}\)), podemos definir \(X\) = “número de caras”. Então:

Resultado \(X\)
\(KK\) 0
\(CK\) 1
\(KC\) 1
\(CC\) 2

2.8.2 Variáveis Aleatórias Discretas

Uma variável aleatória é discreta quando assume um número finito ou infinito contável de valores.

2.8.2.1 Função de Probabilidade (PMF)

NoteDefinição

A função de probabilidade (ou função massa de probabilidade, PMF) de uma variável aleatória discreta \(X\) é:

\[ p(x) = P(X = x) \]

com as propriedades:

  1. \(p(x) \geq 0\) para todo \(x\)
  2. \(\sum_x p(x) = 1\)

Exemplo (continuação): Para \(X\) = número de caras em 2 lançamentos:

\[ P(X = 0) = 1/4, \quad P(X = 1) = 2/4 = 1/2, \quad P(X = 2) = 1/4 \]

2.8.2.2 Função de Distribuição Acumulada (CDF)

NoteDefinição

A função de distribuição acumulada (CDF) de \(X\) é:

\[ F(x) = P(X \leq x) = \sum_{x_i \leq x} p(x_i) \]

2.8.2.3 Esperança (Valor Esperado)

NoteDefinição

A esperança (ou valor esperado) de uma variável aleatória discreta \(X\) é:

\[ E(X) = \mu = \sum_x x \cdot p(x) \]

A esperança pode ser interpretada como a “média ponderada” dos valores de \(X\), onde os pesos são as probabilidades.

Exemplo: Para \(X\) = número de caras em 2 lançamentos:

\[ E(X) = 0 \times \frac{1}{4} + 1 \times \frac{1}{2} + 2 \times \frac{1}{4} = 0 + 0{,}5 + 0{,}5 = 1 \]

Propriedades da esperança:

  • \(E(aX + b) = aE(X) + b\), para constantes \(a\) e \(b\)
  • \(E(X + Y) = E(X) + E(Y)\) (vale sempre, mesmo para variáveis dependentes)

2.8.2.4 Variância

NoteDefinição

A variância de \(X\) mede a dispersão em torno da esperança:

\[ \text{Var}(X) = \sigma^2 = E[(X - \mu)^2] = \sum_x (x - \mu)^2 \cdot p(x) \]

Forma alternativa (computacionalmente mais prática):

\[ \text{Var}(X) = E(X^2) - [E(X)]^2 \]

O desvio padrão é \(\sigma = \sqrt{\text{Var}(X)}\).

Exemplo: Para \(X\) = número de caras em 2 lançamentos com \(E(X) = 1\):

\[ E(X^2) = 0^2 \times \frac{1}{4} + 1^2 \times \frac{1}{2} + 2^2 \times \frac{1}{4} = 0 + 0{,}5 + 1 = 1{,}5 \] \[ \text{Var}(X) = 1{,}5 - 1^2 = 0{,}5 \]

Propriedades da variância:

  • \(\text{Var}(aX + b) = a^2 \text{Var}(X)\)
  • Se \(X\) e \(Y\) são independentes: \(\text{Var}(X + Y) = \text{Var}(X) + \text{Var}(Y)\)

2.8.3 Variáveis Aleatórias Contínuas

Uma variável aleatória é contínua quando pode assumir qualquer valor em um intervalo da reta real.

2.8.3.1 Função Densidade de Probabilidade (PDF)

NoteDefinição

Uma variável aleatória contínua \(X\) é descrita por sua função densidade de probabilidade (PDF) \(f(x)\), tal que:

  1. \(f(x) \geq 0\) para todo \(x\)
  2. \(\int_{-\infty}^{\infty} f(x) \, dx = 1\)
  3. \(P(a \leq X \leq b) = \int_a^b f(x) \, dx\)

Importante: Para variáveis contínuas, \(P(X = x) = 0\) para qualquer valor específico \(x\). A probabilidade só faz sentido para intervalos.

2.8.3.2 Esperança e Variância (caso contínuo)

\[ E(X) = \int_{-\infty}^{\infty} x \cdot f(x) \, dx \] \[ \text{Var}(X) = \int_{-\infty}^{\infty} (x - \mu)^2 \cdot f(x) \, dx = E(X^2) - [E(X)]^2 \]

TipExercício de Fixação

Exercício 2.15

Um dado justo é lançado. Seja \(X\) o valor obtido. Calcule \(E(X)\) e \(\text{Var}(X)\).

TipExercício de Fixação

Exercício 2.16 ⭐⭐

Uma variável aleatória discreta \(X\) tem a seguinte distribuição:

\(x\) 1 2 3 4
\(P(X=x)\) 0,1 0,3 \(k\) 0,2
  1. Determine o valor de \(k\).
  2. Calcule \(E(X)\) e \(\text{Var}(X)\).
  3. Calcule \(P(X \geq 2)\).

2.9 Distribuições de Probabilidade

As distribuições de probabilidade são modelos matemáticos que descrevem o comportamento de variáveis aleatórias em diversas situações. Conhecer essas distribuições nos permite resolver problemas práticos sem precisar enumerar todo o espaço amostral.

2.9.1 Distribuições Discretas

2.9.1.1 Distribuição Binomial

A distribuição binomial modela o número de “sucessos” em uma sequência de \(n\) ensaios independentes, cada um com probabilidade de sucesso \(p\).

NoteDefinição

Se \(X \sim \text{Binomial}(n, p)\), então:

\[ P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}, \quad k = 0, 1, 2, \ldots, n \]

Parâmetros:

  • \(n\): número de ensaios
  • \(p\): probabilidade de sucesso em cada ensaio

Esperança e variância:

\[ E(X) = np \qquad \text{Var}(X) = np(1-p) \]

Exemplo: Um exame de múltipla escolha tem 10 questões com 5 alternativas cada. Se um aluno responde todas ao acaso, qual a probabilidade de acertar exatamente 3 questões?

  • \(n = 10\), \(p = 1/5 = 0{,}2\), \(k = 3\)

\[ P(X = 3) = \binom{10}{3} (0{,}2)^3 (0{,}8)^7 = 120 \times 0{,}008 \times 0{,}2097 \approx 0{,}2013 \]

# Distribuição Binomial em R
n <- 10
p <- 0.2

# P(X = 3)
dbinom(3, size = n, prob = p)

# P(X <= 3) — probabilidade acumulada
pbinom(3, size = n, prob = p)

# Gráfico da distribuição Binomial(10, 0.2)
x <- 0:n
prob <- dbinom(x, size = n, prob = p)

barplot(prob, names.arg = x, col = "#448EE3", border = "white",
        xlab = "Número de acertos (k)", ylab = "P(X = k)",
        main = paste0("Distribuição Binomial (n = ", n, ", p = ", p, ")"))

# Destacando P(X = 3)
cores <- ifelse(x == 3, "#2D4188", "#448EE3")
barplot(prob, names.arg = x, col = cores, border = "white",
        xlab = "Número de acertos (k)", ylab = "P(X = k)",
        main = paste0("Distribuição Binomial (n = ", n, ", p = ", p, ")"))
TipExercício de Fixação

Exercício 2.17

Uma moeda justa é lançada 8 vezes. Calcule:

  1. A probabilidade de obter exatamente 4 caras.
  2. A probabilidade de obter no máximo 2 caras.
  3. A esperança e o desvio padrão do número de caras.

2.9.1.2 Distribuição de Poisson

A distribuição de Poisson modela o número de ocorrências de um evento em um intervalo fixo de tempo ou espaço, quando as ocorrências são independentes e a taxa média é constante.

NoteDefinição

Se \(X \sim \text{Poisson}(\lambda)\), então:

\[ P(X = k) = \frac{e^{-\lambda} \lambda^k}{k!}, \quad k = 0, 1, 2, \ldots \]

Parâmetro:

  • \(\lambda > 0\): número médio de ocorrências no intervalo

Esperança e variância:

\[ E(X) = \lambda \qquad \text{Var}(X) = \lambda \]

Note que na distribuição de Poisson, a média e a variância são iguais — essa é uma propriedade característica.

Exemplo: Uma central de atendimento recebe, em média, 4 chamadas por hora. Qual a probabilidade de receber exatamente 6 chamadas em uma hora?

\[ P(X = 6) = \frac{e^{-4} \cdot 4^6}{6!} = \frac{0{,}0183 \times 4096}{720} \approx 0{,}1042 \]

# Distribuição de Poisson em R
lambda <- 4

# P(X = 6)
dpois(6, lambda = lambda)

# Gráfico da distribuição Poisson(4)
x <- 0:15
prob <- dpois(x, lambda = lambda)

barplot(prob, names.arg = x, col = "#448EE3", border = "white",
        xlab = "Número de chamadas (k)", ylab = "P(X = k)",
        main = paste0("Distribuição de Poisson (λ = ", lambda, ")"))
TipExercício de Fixação

Exercício 2.18 ⭐⭐

Uma loja recebe, em média, 3 reclamações por dia. Assumindo que o número de reclamações segue uma distribuição de Poisson, calcule:

  1. A probabilidade de não receber nenhuma reclamação em um dia.
  2. A probabilidade de receber mais de 5 reclamações.
  3. A probabilidade de receber no máximo 2 reclamações em um período de 2 dias.

Dica para o item c): em 2 dias, \(\lambda = 6\).

2.9.2 Distribuições Contínuas

2.9.2.1 Distribuição Exponencial

A distribuição exponencial modela o tempo entre ocorrências de um evento em um processo de Poisson.

NoteDefinição

Se \(X \sim \text{Exp}(\lambda)\), sua função densidade é:

\[ f(x) = \lambda e^{-\lambda x}, \quad x \geq 0 \]

Parâmetro:

  • \(\lambda > 0\): taxa de ocorrência

Esperança e variância:

\[ E(X) = \frac{1}{\lambda} \qquad \text{Var}(X) = \frac{1}{\lambda^2} \]

CDF:

\[ F(x) = P(X \leq x) = 1 - e^{-\lambda x}, \quad x \geq 0 \]

Uma propriedade importante da distribuição exponencial é a falta de memória: \(P(X > s + t \mid X > s) = P(X > t)\).

Exemplo: O tempo médio entre chamadas em uma central é de 15 minutos (\(\lambda = 1/15\) chamadas/minuto). Qual a probabilidade de esperar mais de 20 minutos pela próxima chamada?

\[ P(X > 20) = 1 - F(20) = e^{-20/15} = e^{-4/3} \approx 0{,}2636 \]

# Distribuição Exponencial em R
lambda <- 1/15

# P(X > 20)
1 - pexp(20, rate = lambda)
# ou equivalentemente:
pexp(20, rate = lambda, lower.tail = FALSE)

# Gráfico da PDF
x <- seq(0, 60, by = 0.1)
fx <- dexp(x, rate = lambda)

plot(x, fx, type = "l", col = "#448EE3", lwd = 2,
     xlab = "Tempo (minutos)", ylab = "f(x)",
     main = paste0("Distribuição Exponencial (λ = 1/15)"))

# Sombrear P(X > 20)
x_sombra <- seq(20, 60, by = 0.1)
y_sombra <- dexp(x_sombra, rate = lambda)
polygon(c(20, x_sombra, 60), c(0, y_sombra, 0),
        col = rgb(0.27, 0.56, 0.89, alpha = 0.3), border = NA)
text(35, 0.01, "P(X > 20) ≈ 0.264", col = "#2D4188", cex = 1.1)
TipExercício de Fixação

Exercício 2.19

O tempo de vida útil de um componente eletrônico segue uma distribuição exponencial com média de 500 horas. Calcule:

  1. A probabilidade de o componente durar mais de 600 horas.
  2. A probabilidade de o componente durar entre 400 e 700 horas.

2.9.2.2 Distribuição Normal

A distribuição normal (ou gaussiana) é a mais importante da estatística. Ela aparece naturalmente em diversos fenômenos e é central para a inferência estatística, conforme veremos no @cap-inferencia.

NoteDefinição

Se \(X \sim N(\mu, \sigma^2)\), sua função densidade é:

\[ f(x) = \frac{1}{\sigma\sqrt{2\pi}} \exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right), \quad -\infty < x < \infty \]

Parâmetros:

  • \(\mu\): média (centro da distribuição)
  • \(\sigma^2\): variância (controla a dispersão)

Esperança e variância:

\[ E(X) = \mu \qquad \text{Var}(X) = \sigma^2 \]

Propriedades da distribuição normal:

  • A curva é simétrica em torno de \(\mu\).
  • \(\mu = \text{mediana} = \text{moda}\)
  • A área total sob a curva é 1.
  • Regra empírica (68-95-99,7):
    • Aproximadamente 68% dos dados estão entre \(\mu \pm \sigma\)
    • Aproximadamente 95% entre \(\mu \pm 2\sigma\)
    • Aproximadamente 99,7% entre \(\mu \pm 3\sigma\)

2.9.2.3 Normal Padrão e Padronização

A normal padrão é a distribuição normal com \(\mu = 0\) e \(\sigma = 1\), denotada \(Z \sim N(0, 1)\).

Qualquer variável normal pode ser transformada (padronizada) em uma normal padrão:

\[ Z = \frac{X - \mu}{\sigma} \]

Isso permite usar tabelas ou funções computacionais da normal padrão para calcular probabilidades de qualquer distribuição normal.

Exemplo: As notas de um vestibular seguem uma distribuição normal com \(\mu = 60\) e \(\sigma = 10\). Qual a probabilidade de um candidato obter nota entre 55 e 75?

\[ P(55 \leq X \leq 75) = P\left(\frac{55 - 60}{10} \leq Z \leq \frac{75 - 60}{10}\right) = P(-0{,}5 \leq Z \leq 1{,}5) \] \[ = \Phi(1{,}5) - \Phi(-0{,}5) = 0{,}9332 - 0{,}3085 = 0{,}6247 \]

# Distribuição Normal em R
mu <- 60
sigma <- 10

# P(55 <= X <= 75)
pnorm(75, mean = mu, sd = sigma) - pnorm(55, mean = mu, sd = sigma)

# Funções úteis da Normal em R:
# dnorm(x, mean, sd) — densidade (PDF)
# pnorm(q, mean, sd) — probabilidade acumulada P(X <= q)
# qnorm(p, mean, sd) — quantil (inverso da CDF)
# rnorm(n, mean, sd) — gerar amostras aleatórias

# Exemplo: qual a nota mínima para estar entre os 10% melhores?
qnorm(0.90, mean = mu, sd = sigma)

# Gráfico da Normal com área sombreada
x <- seq(30, 90, by = 0.1)
fx <- dnorm(x, mean = mu, sd = sigma)

plot(x, fx, type = "l", col = "#2D4188", lwd = 2,
     xlab = "Nota", ylab = "f(x)",
     main = "Distribuição Normal (μ = 60, σ = 10)")

# Sombrear P(55 <= X <= 75)
x_sombra <- seq(55, 75, by = 0.1)
y_sombra <- dnorm(x_sombra, mean = mu, sd = sigma)
polygon(c(55, x_sombra, 75), c(0, y_sombra, 0),
        col = rgb(0.27, 0.56, 0.89, alpha = 0.3), border = NA)
text(65, 0.015, "P(55 ≤ X ≤ 75) ≈ 0.625", col = "#2D4188", cex = 1.1)

# Regra empírica: 68-95-99.7
cat("P(μ ± 1σ) =", pnorm(mu + sigma, mu, sigma) - pnorm(mu - sigma, mu, sigma), "\n")
cat("P(μ ± 2σ) =", pnorm(mu + 2*sigma, mu, sigma) - pnorm(mu - 2*sigma, mu, sigma), "\n")
cat("P(μ ± 3σ) =", pnorm(mu + 3*sigma, mu, sigma) - pnorm(mu - 3*sigma, mu, sigma), "\n")
# Comparação visual de distribuições normais com diferentes parâmetros
x <- seq(-10, 30, by = 0.1)

plot(x, dnorm(x, mean = 10, sd = 2), type = "l", col = "#448EE3", lwd = 2,
     xlab = "x", ylab = "f(x)",
     main = "Efeito dos parâmetros μ e σ na Normal",
     ylim = c(0, 0.25))
lines(x, dnorm(x, mean = 10, sd = 4), col = "#2D4188", lwd = 2, lty = 2)
lines(x, dnorm(x, mean = 15, sd = 2), col = "#E34444", lwd = 2, lty = 3)
legend("topright",
       legend = c("N(10, 4)", "N(10, 16)", "N(15, 4)"),
       col = c("#448EE3", "#2D4188", "#E34444"),
       lty = c(1, 2, 3), lwd = 2)
TipExercício de Fixação

Exercício 2.20 ⭐⭐

Os pesos de recém-nascidos em um hospital seguem distribuição normal com \(\mu = 3{,}2\) kg e \(\sigma = 0{,}5\) kg.

  1. Qual a probabilidade de um bebê pesar mais de 4 kg?
  2. Qual a probabilidade de um bebê pesar entre 2,5 kg e 3,8 kg?
  3. Abaixo de qual peso estão os 5% mais leves? (Use qnorm em R.)
TipExercício de Fixação

Exercício 2.21 ⭐⭐⭐

O tempo de conclusão de uma prova segue distribuição normal com \(\mu = 90\) minutos e \(\sigma = 15\) minutos. O professor estipula 120 minutos para a prova.

  1. Qual a probabilidade de um aluno não conseguir terminar no tempo?
  2. Se 40 alunos fazem a prova, quantos se espera que não terminem?
  3. Quanto tempo o professor deveria dar para que no máximo 1% dos alunos não terminasse?

Dica para c): use a função qnorm.

2.10 Resumo do Capítulo

Neste capítulo, percorremos os fundamentos da teoria da probabilidade:

Conceito Descrição
Experimento aleatório Processo com resultado incerto
Espaço amostral (\(\Omega\)) Conjunto de todos os resultados possíveis
Evento Subconjunto de \(\Omega\)
Probabilidade clássica \(P(A) = n(A)/n(\Omega)\)
Axiomas de Kolmogorov Base formal da probabilidade
Complementar \(P(A^c) = 1 - P(A)\)
Inclusão-exclusão \(P(A \cup B) = P(A) + P(B) - P(A \cap B)\)
Prob. condicional \(P(A \mid B) = P(A \cap B) / P(B)\)
Teorema de Bayes Inversão de probabilidades condicionais
Independência \(P(A \cap B) = P(A) \cdot P(B)\)
Variável aleatória Função de \(\Omega\) em \(\mathbb{R}\)
Esperança \(E(X)\) — média ponderada pelas probabilidades
Variância \(\text{Var}(X)\) — dispersão em torno da média
Binomial Número de sucessos em \(n\) ensaios: \(\text{Bin}(n, p)\)
Poisson Contagem de eventos em intervalo fixo: \(\text{Poi}(\lambda)\)
Exponencial Tempo entre eventos: \(\text{Exp}(\lambda)\)
Normal Distribuição simétrica em sino: \(N(\mu, \sigma^2)\)

No próximo capítulo, utilizaremos essas distribuições — em especial a normal — como base para a inferência estatística: a arte de tirar conclusões sobre populações a partir de amostras.

2.10.1 Referências do Capítulo

  • BUSSAB, W. O.; MORETTIN, P. A. Estatística Básica. 9ª ed. Caps. 5–9. São Paulo: Saraiva, 2017.
  • ROSS, S. Probabilidade: Um Curso Moderno com Aplicações. 8ª ed. Caps. 2–5. Porto Alegre: Bookman, 2010.
  • DANTAS, C. A. B. Probabilidade: Um Curso Introdutório. 3ª ed. São Paulo: Edusp, 2004.