Bac S 2014 Maths Asie Exercice 2

Enoncé

Le taux d’hématocrite est le pourcentage du volume de globules rouges par rapport au volume total du sang. On note X la variable aléatoire donnant le taux d’hématocrite d’un adulte choisi au hasard dans la population française. On admet que cette variable suit une loi normale de moyenne \mu = 45,5 et d’écart-type \sigma.

Partie A

On note Z la variable aléatoire Z = \dfrac{Z - \mu}{\sigma} = \dfrac{X - 45,5}{\sigma}.

Question 1

a. Quelle est la loi de la variable aléatoire Z ?

Allez, on commence en douceur avec une simple question de cours. L’énoncé cherche seulement à vérifier si vous savez ceci :

Si X est une variable aléatoire qui suit une loi normale \mathcal{N}(\mu ; \sigma^2) d’espérance \mu et d’écart-type \sigma, alors la variable aléatoire Z = \dfrac{X - \mu}{\sigma} suit une loi normale centrée \mathcal{N}(0 ; 1) d’espérance  0 et d’écart-type 1.

Il suffit donc d’écrire :

X est une variable aléatoire qui suit une loi normale \mathcal{N}(\mu ; \sigma^2) d’espérance \mu et d’écart-type \sigma, donc la variable aléatoire Z = \dfrac{X - \mu}{\sigma} suit une loi normale centrée \mathcal{N}(0 ; 1) d’espérance  0 et d’écart-type 1.

b. Déterminer P(X \leq \mu).

A nouveau il s’agit d’une simple question de cours :

Si X est une variable aléatoire qui suit une loi normale d’espérance \mu, alors P(X \leq \mu) = 0,5.

Ainsi il faut écrire :

X suit une loi normale d’espérance \mu, donc P(X \leq \mu) = 0,5.

Question 2

En prenant \sigma = 3,8, déterminer P(37,9 \leq X \leq 53,1). Arrondir le résultat au centième.

Là, la question que vous devez vous poser est : « Pourquoi 37,9 et 53,1 ? Pourquoi ces valeurs particulières ? »

En fait, il se trouve que 37,9 = 45,5 - 2 \times 3,8 = \mu - 2\sigma et que 53,1 = 45,5 + 2 \times 3,8 = \mu + 2\sigma.

Ouaahhh ! Comment penses-tu à ça ?

Je pense à ça parce que je connais le cours et qu’il me dit la chose suivante :

  • P(\mu - \sigma \leq X \leq \mu + \sigma) \simeq 0,68 à 10^{-2} près ;
  • P(\mu - 2\sigma \leq X \leq \mu + 2\sigma) \simeq 0,95 à 10^{-2} près ;
  • P(\mu - 3\sigma \leq X \leq \mu + 3\sigma) \simeq 0,997 à 10^{-3} près.

Connaître ces 3 probabilités me permet de penser à faire intervenir \mu - 2\sigma et \mu + 2\sigma. Donc ici, on peut directement écrire :

P(37,9 \leq X \leq 53,1) = P(\mu - 2\sigma \leq X \leq \mu + 2\sigma) \simeq 0,95 à 10^{-2} près.

Partie B

Une certaine maladie V est présente dans la population française avec la fréquence 1 %.
On sait d’autre part que 30 % de la population française a plus de 50 ans, et que 90 % des porteurs de la maladie V dans la population française ont plus de 50 ans.
On choisit au hasard un individu dans la population française.
On note \alpha l’unique réel tel que P(X \leq \alpha) = 0,995, où X est la variable aléatoire définie au début de l’exercice. On ne cherchera pas à calculer \alpha.

On définit les événements :

  • M « l’individu est porteur de la maladie V » ;
  • S « l’individu a plus de 50 ans » ;
  • H « l’individu a un taux d’hématocrite supérieur à \alpha.

Ainsi P(M) = 0,01, P_M(S) = 0,9 et P(H) = P(X ~\textgreater ~\alpha).
D’autre part, une étude statistique a révélé que 60 % des individus ayant un taux d’hématocrite supérieur à \alpha sont porteurs de la maladie V.

Question 1

a. Déterminer P(M \cap S).

Alors, P(M \cup S) = P(M) + P(S) - P(M \cap S) donc P(M \cap S) = P(M) + P(S) - P(M \cup S)

Non, non et non ! Même si elle est correcte, la formule « P(A \cup B) = P(A) + P(B) - P(A \cap B) » ne doit pas être votre premier réflexe pour calculer la probabilité d’une intersection !

Ah, c’est quoi le premier réflexe à avoir alors ?

Celui-ci :

P_A(B) = \dfrac{P(A \cap B)}{P(A)}

Et à partir de cette formule, vous devez déduire que P(A \cap B) = \dfrac{P_A(B)}{P(A)}.

La seule question que vous devez vous poser, c’est « Est-ce que je pars de P_M(S) ou de P_S(M) ? Ici, la réponse est simple : l’énoncé nous donne P_M(S) donc partons de là :

P_M(S) = \dfrac{P(M \cap S)}{P(M)} donc P(M \cap S) = P_M(S) \times P(M)

P(M) et P_M(S) étant tous deux fournis par l’énoncé, la réponse est immédiate :

... = 0,9 \times 0,01 = 0,009.

b. On choisit au hasard un individu ayant plus de 50 ans. Montrer que la probabilité qu’il soit porteur de la maladie V est égale à 0,03.

Quand vous lisez « On choisit au hasard un individu ayant plus de 50 ans », vous devez immédiatement comprendre « sachant qu’un individu a plus de 50 ans ». Il s’agit donc de calculer la probabilité P_S(M). Et qu’utilise-t-on comme formule pour calculer cela ?

P_S(M) = \dfrac{P(S \cap M)}{P(S)} !

Je vois que ça commence à rentrer !

Un individu ayant plus de 50 ans étant choisi au hasard, la probabilité qu’il soit porteur de la maladie V est égale à :
P_S(M) = \dfrac{P(S \cap M)}{P(S)}

On vient de calculer P(S \cap M). Quant à P(S), sa valeur se cache ici :

On sait d’autre part que 30 % de la population française a plus de 50 ans

Il s’agit d’une information qui porte sur l’événement S : dire que 30 % de la population française a plus de 50 ans, c’est dire que « sur 100 personnes de cette population (« nombre de cas possibles »), 30 personnes ont plus de 50 ans (« nombre de cas favorables ») ».

Or :

On considère un événement E. Un cas est dit favorable lorsque l’événement E est observé.

Par ailleurs, p(E) = \dfrac{nombre~de~cas~favorables}{nombre~de~cas~possibles}.

Ici, on en déduit donc que p(S) = \dfrac{nombre~de~cas~favorables}{nombre~de~cas~possibles} = \dfrac{30}{100} = 0,3.

On peut alors terminer notre calcul :

... = \dfrac{0,009}{0,3} = 0,03.

Question 2

a. Calculer la probabilité P(H).

Je rappelle que l’événement H est l’événement « L’individu a un taux d’hématocrite supérieur à \alpha ». Autrement dit, il s’agit de l’événement « X ~\textgreater ~\alpha », c’est-à-dire l’événement contraire de « X \leq \alpha » dont la probabilité est donnée par l’énoncé :

P(X \leq \alpha) = 0,995
« supérieur ou égal » ou « supérieur strict » ?

Cela n’a pas d’importance :

Lorsque l’on considère des variables aléatoires qui suivent des lois normales, les probabilités sont les mêmes, que les inégalités soient strictes ou larges.

Or :

On considère un événement E et \overline{E} son événement contraire.
P(\overline{E}) = 1 - P(E).

Ainsi, on peut écrire :

P(H) = P(X ~\textgreater ~\alpha) = 1 - P(X \leq \alpha) = 1 - 0,995 = 0,005.

b. L’individu choisi au hasard a un taux d’hématocrite inférieur ou égal à \alpha. Calculer la probabilité qu’il soit porteur de la maladie V. Arrondir au millième.

Comme à la question B. 1. b., en lisant « L’individu choisi au hasard a un taux d’hématocrite inférieur ou égal à \alpha. », on comprend immédiatement « sachant que l’individu a un taux d’hématocrite inférieur ou égal à \alpha« . Il s’agit donc de calculer P_{\overline{H}}(M).

Du coup, encore et toujours le même réflexe :

La probabilité que l’individu choisi soit porteur de la maladie V vaut :
P_{\overline{H}}(M) = \dfrac{P(\overline{H} \cap M)}{P(\overline{H})}

P(\overline{H}) est facile à trouver. En effet, \overline{H} est l’événement contraire de l’événement H, donc P(\overline{H}) = P(X \leq \alpha) ce qui, d’après l’énoncé, vaut 0,995.

Toute la difficulté de la question réside dans la détermination de P(\overline{H} \cap M).

Ici, on doit calculer la probabilité d’une intersection alors que l’on a déjà utilisé la formule « réflexe »… Il faut donc trouver autre chose. Cette « autre chose », c’est ce que l’on appelle la « formule des probabilités totales » :

Soient E_1, E_2, …, E_n n événements qui forment une partition de l’univers \Omega.
Pour tout événement A de \Omega, on a P(A) = P(A \cap E_1) + P(A \cap E_2) + ... + P(A \cap E_n).
C’est quoi une partition de l’univers ?

Une partition de l’univers \Omega, c’est un ensemble d’événements qui :

  • sont deux à deux disjoints ;
  • dont la réunion forme l’univers \Omega.

Pour bien visualiser les choses, il suffit de voir l’univers \Omega comme un puzzle. Dans ce cas, les pièces du puzzle « sont deux à deux disjointes » (elles ne sont pas les unes sur les autres) et ensemble, elles forment le puzzle entier.

Là où il faut être malin (ou bien entraîné ;-)), c’est quand il faut choisir judicieusement qui va jouer le rôle de A, et qui va jouer le rôle de E_1, E_2, …, E_n. Ici, on cherche à calculer P(\overline{H} \cap M). Ce qui peut vous mettre la puce à l’oreille, c’est le « \overline{H} ». En effet, il est très facile de constituer une partition avec un tel événement : il suffit de prendre son événement contraire, en l’occurence H ! D’où :

  • H et \overline{H} vont jouer respectivement les rôles de E_1 et E_2 ;
  • M va jouer le rôle de A.

Donc on peut écrire :

Les événements H et \overline{H} forment une partition de l’univers donc, d’après la formule des probabilités totales, on a :
P(M) = P(M \cap H) + P(M \cap \overline{H})

Ainsi, P(M) étant fourni par l’énoncé, si on arrive à déterminer P(M \cap H), on en déduira aisément P(M \cap \overline{H}). Or, comment détermine-t-on P(M \cap H) ? En utilisant P_H(M) = \dfrac{P(M \cap H)}{P(H)} bien sûr !

Oui mais comment sais-tu qu’il faut partir de P_H(M) et non pas de P_M(H)

C’est vrai que je me suis posé la question. Et pour me décider, j’ai lu l’énoncé. Or, l’énoncé dit que :

D’autre part, une étude statistique a révélé que 60 % des individus ayant un taux d’hématocrite supérieur à \alpha sont porteurs de la maladie V.

Autrement dit, P_H(M) = 0,6 donc, puisque je dispose de P_H(M), c’est à partir de cette donnée que je dois partir. La suite en découle naturellement :

P_H(M) = \dfrac{P(M \cap H)}{P(H)} d’où P(M \cap H) = P_H(M) \times P(H).
Or, l’énoncé indique que 60 % des individus ayant un taux d’hématocrite supérieur à \alpha sont porteurs de la maladie V donc P_H(M) = 0,6. De plus, P(H) = 0,005, d’où P(M \cap H) = 0,6 \times 0,005 = 0,003.

Maintenant que l’on a calculé P(M \cap H), on peut revenir au calcul de P(M \cap \overline{H}) :

D’où P(M \cap \overline{H}) = P(M) - P(M \cap H) = 0,01 - 0,003 = 0,007.

Il ne reste plus qu’à conclure :

Ainsi, P_{\overline{H}}(M) = \dfrac{P(\overline{H} \cap M)}{P(\overline{H})} = \dfrac{0,007}{0,995} = 0,007.

Partie C

Le but de cette partie est d’étudier l’influence d’un gène sur la maladie V.

Question 1

Déterminer l’intervalle de fluctuation asymptotique au seuil de 95 % de la fréquence de la maladie V dans les échantillons de taille 1 000, prélevés au hasard et avec remise dans l’ensemble de la population française. On arrondira les bornes de l’intervalle au millième.

En voilà, une belle question de cours ! Aucune réflexion à avoir, on veut juste vérifier que vous savez ce qu’est « l’intervalle de fluctuation asymptotique de la variable aléatoire F_n = \dfrac{X_n}{n} au seuil de 95% ». Eh bien apprenez par coeur qu’il s’agit de ceci :

Soient X_n une variable aléatoire qui suit une loi binomiale \mathcal{B}(n,p) et F_n = \dfrac{X_n}{n} la variable aléatoire qui représente la fréquence des succès. Si

  • n \ge 30
  • np \ge 5
  • n(1 - p) \ge 5

alors l’intervalle de fluctuation asymptotique de la variable aléatoire F_n au seuil de 95 % vaut I_n = \left[p-1.96\dfrac{\sqrt{p(1 - p)}}{\sqrt{n}};p+1.96\dfrac{\sqrt{p(1 - p)}}{\sqrt{n}}\right].

Et maintenant, la démarche pour répondre à ce genre de questions :

\textsuperscript{\textcircled{\tiny{1}}} Repérer une épreuve de Bernoulli dans la situation proposée et indiquer que l’événement dont on considère la fréquence constitue le « succès ». Introduire alors la variable aléatoire X pour représenter le nombre de succès.
« Prélever un individu au hasard » est une expérience aléatoire qui ne compte que deux issues possibles : « l’individu est porteur de la maladie V », de probabilité p = P(M) = 0,01 ou « l’individu n’est pas porteur de la maladie V », de probabilité 1 - p = 0,99. Il s’agit donc d’une épreuve de Bernoulli dont le succès est l’événement « l’individu est porteur de la maladie V ». On pose X la variable aléatoire qui représente le nombre de succès.
\textsuperscript{\textcircled{\tiny{2}}} Remarquer que cette épreuve de Bernoulli est répétée dans des conditions d’indépendance et en déduire que nous nous trouvons donc dans le cadre d’un schéma de Bernoulli.
Ici, on s’intéresse à la fréquence des individus porteurs de la maladie V « dans les échantillons de taille 1 000, prélevés au hasard et avec remise dans l’ensemble de la population française ». Donc cela peut être assimilé à 1 000 répétitions de l’épreuve de Bernoulli dans des conditions d’indépendance : il s’agit donc d’un schéma de Bernoulli.
\textsuperscript{\textcircled{\tiny{3}}} En déduire que X suit une loi binomiale dont les paramètres sont :

  • n, où n est le nombre de répétitions de l’épreuve de Bernoulli ;
  • p, où p est la probabilité de l’événement qui a été désigné comme « succès ».
Donc X suit une loi binômiale de paramètres n = 1000 et p = 0,01.
\textsuperscript{\textcircled{\tiny{4}}} Vérifier que les conditions requises à l’application de la formule de l’intervalle de fluctuation à 95 % sont remplies, à savoir :
  • n \ge 30
  • np \ge 5
  • n(1 - p) \ge 5

Aucune difficulté ici, une fois que l’on a déterminé les paramètres de la loi binomiale :

Or :
  • n = 1000 \ge 30
  • np = 1000 \times 0,01 = 10 \ge 5
  • n(1 - p) = 1000 \times (1 - 0,01) = 990 \ge 5
\textsuperscript{\textcircled{\tiny{5}}} Conclure sur l’intervalle de fluctuation.
Donc l’intervalle de fluctuation de la fréquence de la maladie V vaut I = \left[p-1,96\dfrac{\sqrt{p(1 - p)}}{\sqrt{n}};p+1,96\dfrac{\sqrt{p(1 - p)}}{\sqrt{n}}\right] = [0,004 ; 0,016].

Question 2

Dans un échantillon aléatoire de 1 000 personnes possédant le gène, on a trouvé 14 personnes porteuses de la maladie V.
Au regard de ce résultat, peut-on décider, au seuil de 95 %, que le gène a une influence sur la maladie ?

Pour répondre, il suffit de retenir la chose suivante :

Si, dans l’échantillon prélevé, la fréquence des succès appartient à l’intervalle de fluctuation, alors la probabilité annoncée pour les succès est considérée comme exacte. Sinon, elle est considérée comme inexacte.

Calculons donc la fréquence des succès dans l’échantillon prélevé :

Sur les 1000 personnes « prélevées » au hasard, 14 sont porteuses de la maladie. Donc, la fréquence des succès vaut \dfrac{14}{1000} = 0,014 \in I.

Arrivé là, il s’agit de bien comprendre ce que ce résultat veut dire :

Donc la probabilité P(M) = 0,01 annoncée pour les succès est exacte. Or, cette probabilité correspond à la probabilité d’être porteur de la maladie V dans l’ensemble de la population, indépendamment du gêne V.

Ainsi, si en « prélevant » un échantillon de personnes, cette probabilité « générale » demeure vraie, cela signifie que le gêne V n’a aucune influence sur la maladie.

Fin de l’épreuve du Bac S 2014 Maths Asie Exercice 2.

Exprimez vous!