Denna sammanfattning följer mer eller mindre “Sannolikhetsteori och statistikteori med tillämpningar”, Gunnar Blom m.fl., (2005). Denna bok täcker innehållet i kurserna “TAMS14 - Sannolikhetslära” samt “TAMS24 - Statistisk teori, grundkurs”.
Utfall \(\omega_i\): Resultatet av ett slumpmässigt försök. (Kan väljas godtyckligt med så mycket “finfördelning” som situationen kräver. Dessa är alltid parvis oförenliga, se nedan.)
Utfallsrum \(\Omega\): Mängden av (alla) möjliga utfall.
Händelse \(A\): Samling av utfall. (Godtyckligt, ett utfall kan ingå i flera händelser.)
\[\omega_i \in A \subseteq \Omega\]
“\(A\) inträffar” betyder att ett utfall \(\omega_i \in A\) inträffar.
Diskret utfallsrum: \(|\Omega|\) uppräkneligt (ändligt eller oändligt).
Kontinuerligt utfallsrum: \(|\Omega|\) icke uppräkneligt.
Komplement till \(A\): \(A^*\).
Den omöjliga händelsen: \(\emptyset\). (\(\Omega^* = \emptyset\).)
Minst en av händelserna \(A_i\) inträffar: \(\bigcup_i A_i\).
Alla händelserna \(A_i\) inträffar: \(\bigcap_i A_i\).
De Morgans lagar för komplement av uttryck
(Alltså: Byt ut \(\cap\) mot \(\cup\), \(\cup\) mot \(\cap\), \(A\) mot \(A^*\), och \(A^*\) mot \(A\); jämför med Boolesk algebra.)
Parvis oförenliga händelser: \(A_i \cap A_j = \emptyset,~ \forall i, j : i \neq j\). (Inga \(A_i\), \(A_j\) kan inträffa samtidigt.)
Sannolikheten att \(A\) inträffar: \(P(A)\).
Hur man tilldelar värden till \(P(A)\), alltså hur man definierar sannolikhet, är en subtil fråga. Ett intuitivt sätt är frekvenstolkningen: Vi upprepar det slumpmässiga försöket \(n\) gånger, räknar antalet gånger \(A\) inträffar, \(n_A\), och definierar \(P(A) = \lim_{n \to \infty} n_A / n\), den relativa frekvensen för \(A\). (Om \(A\) är en utsaga om ett fysikaliskt system kan man istället möjligen använda symmetrier i systemet för att tilldela värden till \(P(A)\) utan nödvändigheten att tänka sig/utföra en oändlig mängd försök.)
Kolmogorovs axiomsystem:
Komplementsatsen: \(P(A^*) = 1 - P(A)\).
Additionssatsen: \(P(A \cup B) = P(A) + P(B) - P(A \cap B)\).
Booles olikhet: \(P(\bigcup_i A_i) \le \sum_i P(A_i)\).
Likformigt sannolikhetsmått: \(P(\omega_i) = 1/m,~ i = 1, \dots, m\). Då detta föreligger gäller den klassiska sannolikhetsdefinitionen: \(P(A) = |A|/|\Omega|\). (Vid kombinatoriska beräkningar, se nedan, är det ofta fördelaktigt att definiera utfallen så att likformigt sannolikhetsmått föreligger.)
Multiplikationsprincipen: Om åtgärd \(i\) kan utföras på \(a_i\) antal sätt så finns det \(\prod_i a_i\) antal sätt att utföra samtliga åtgärder.
\(n\)-fakultet: \(n!\). (\(0! = 1\).)
\(n\) över \(k\): \({n \choose k} = \frac{n!}{(n - k)! k!}\). (\({n \choose n} = {n \choose 0} = 1\).)
Dragning med återläggning med hänsyn till ordning: \(n^k\).
Dragning utan återläggning med hänsyn till ordning: \(\frac{n!}{(n - k)!}\). (Antalet permutationer av \(k\) element bland \(n\).)
Permutationer av \(k\) element (bland \(k\)): \(k!\). (\(k\) element kan ordnas på \(k!\) antal sätt.)
Dragning utan återläggning utan hänsyn till ordning: \(\frac{n!}{(n - k)! k!} = {n \choose k}\). (Antalet kombinationer av \(k\) element bland \(n\).)
Binomialteoremet: \((x + y)^n = \sum_{k=0}^n {n \choose k} x^k y^{n - y}\).
Urnmodellen: \(n\) kulor dras ur en urna med \(v\) vita kulor och \(s\) svarta kulor. Hur stor är sannolikheten att \(k\) vita kulor dras?
Betingade sannolikheten för \(B\) givet \(A\):
\[ P(B|A) = \frac{P(B \cap A)}{P(A)} \]
Betingade sannolikheter uppfyller Kolmogorovs axiomsystem:
\begin{alignat}{1} P(B^* |A) &= 1 - P(B|A) \ P(B \cup C|A) &= P(B|A) + P(C|A) - P(B \cap C|A) \ \end{alignat}
Lagen om total sannolikhet: Om \(H_i\) är parvis oförenliga och \(\bigcup_i H_i = \Omega\) (alltså om \(H_i\) delar \(\Omega\) i disjunkta heltäckande skärvor) gäller för alla \(A\):
\[ P(A) = \sum_i P(H_i) P(A|H_i) \]
Bayes sats: Under samma antaganden om \(H_i\) som ovan gäller:
\begin{alignat}{1} P(H_i|A) &= \frac{P(H_i \cap A)}{P(A)} \iff \ P(A) P(H_i|A) &= P(H_i \cap A) = P(A \cap H_i) = P(H_i) P(A|H_i) \iff \ P(H_i|A) &= \frac{P(H_i) P(A|H_i)}{P(A)} = \frac{P(H_i) P(A|H_i)}{\sum_j P(H_j) P(A|H_j)} \ \end{alignat}
Två oberoende händelser \(A\), \(B\): \(P(B|A) = P(B)\). (Information om \(A\) ger ingen information om \(B\). Notera att \(P(B) = P(B|\Omega)\), vilket ger den grafiska Venndiagram-tolkningen att \(B\):s relativa storlek om man begränsar sig till \(A\) är samma som \(B\):s “relativa” storlek om man “begränsar sig” till hela utfallsrummet. Tankarna förs till ortogonalitet eller rätvinklighet; t.ex. dela upp \(\Omega\) i 7 kolumner, en per veckodag, och två rader, en “det regnar” och en “det regnar inte” och låt \(A\) vara “det är tisdag” och \(B\) vara “det regnar”.) Insättning i definitionen av betingad sannolikhet ger:
\[ P(A \cap B) = P(A) P(B) \]
(Notera att detta inte är samma som oförenliga händelser, där istället \(P(A \cap B) = 0\).)
(Jämför med multiplikationsprincipen ovan.)
Flera oberoende händelser \(A_i\): För alla delmängder av \(\{A_i\}\) ska snitten av elementen vara produkten av sannolikheterna (parvis oberoende räcker inte, inte heller att endast titta på snittet för alla händelser)
\[ P\left(\bigcap_{A_j \in S} A_j\right) = \prod_{A_j \in S} P(A_j),~ \forall S \subseteq \{A_i\} \]
Om \(A\), \(B\) oberoende så \(A^*\), \(B\) oberoende.
Om \(A_i\) oberoende så är sannolikheten att minst en av dem inträffar:
\[ 1 - \prod_i (1 - P(A_i)) \]
(Komplementet till att alla inte inträffar. Detta är ett någorlunda vanligt förfaringssätt; invertera situationen, utför den nu lättare operationen, invertera tillbaks. T.ex. beräkning av resistans hos parallellkopplade resistorer går via konduktans.)
Om alla \(P(A_i) = p\) kan detta förenklas till \(1 - (1 - p)^n\).
Formellt definierar vi en (endimensionell) stokastisk variabel som en funktion från ett utfallsrum till de reella talen: \(X: \Omega \to \mathbb{R}\). (Endast i undantagsfall skrivs \(X(\omega)\) istället för det vanligare och enklare \(X\). Ofta kan man sätta \(\Omega = \mathbb{R}\) och \(X\) till identitetsfunktionen.)
\(X\) antar ändligt eller uppräkneligt oändligt antal värden.
Sannolikhetsfunktion: \(p_X(x) = P(X = x)\)
\(P(X \in A) = \sum_{k \in A} p_X(k)\)
\(P(a \lt X \le b) = \sum_{k=a+1}^b p_X(k)\)
Enpunktsfördelning: \(p_X(a) = 1\)
Tvåpunktsfördelning: \(p_X(a) = p,~ p_X(b) = 1 - p\)
Bernoulli-fördelning: \(p_X(1) = p,~ p_X(0) = 1 - p\)
Likformig fördelning (över \({1, \dots, m}\)): \(p_X(k) = 1/m,~ k = 1, \dots, m\)
För-första-gången-fördelning \(ffg(p)\): \(p_X(k) = (1 - p)^{k-1} p,~ k = 1, \dots\)
Geometrisk fördelning \(Ge(p)\): \(p_X(k) = (1 - p)^k p,~ k = 0, \dots\)
Binomialfördelning \(Bin(n, p)\): \(p_X(k) = {n \choose k} p^k (1 - p)^{n-k},~ k = 0, \dots, n\)
Hypergeometrisk fördelning \(Hyp(N, n, p)\): \(p_X(k) = \frac{{Np \choose k}{N(1-p) \choose n-k}}{N \choose n},~ 0 \le k \le Np\)
Poisson-fördelning \(Po(\mu)\): \(p_X(k) = \frac{\mu^k}{k!} e^{-\mu},~ k = 0, \dots\)
En god minnesregel är att kontrollera att \(\sum_k p_X(k) = 1\) med hjälp av diverse standardsummor (t.ex. binomialteoremet för Binomialfördelningen, Maclaurin-serien för \(e^x\) för Poisson-fördelningen)
\(X\) antar överuppräkneligt många värden.
Täthetsfunktion \(f_X\): \(P(X \in A) = \int_A f_X(x) dx\)
\(P(a \lt X \le b) = \int_a^b f_X(x) dx\)
Fördelningsfunktion \(F_X\): \(F_X(x) = P(X \le x) = \int_{-\infty}^x f_X(x) dx\)
(Area, tolkas som sannolikhet (“sannolikhetsmassan”).)
Integralkalkylens huvudsats: \(F_X'(x) = f(x)\), i varje punkt \(x\) där \(f_X\) är kontinuerlig.
\(P(a \lt X \le b) = F(b) - F(a)\)
\(P(X = x) = 0\)
Likformig fördelning (på \((a, b)\)) \(U(a, b)\) (“uniform”): \[ f_X(x) = \begin{cases} 1/(b-a) & a \lt x \lt b \\ 0 & \text{annars} \\ \end{cases} \]
Exponentialfördelning \(Exp(\lambda)\): \[ f_X(x) = \begin{cases} \lambda e^{-\lambda x} & x \gt 0 \\ 0 & \text{annars} \\ \end{cases} \]
Normalfördelning \(N(\mu, \sigma)\): \[ f_X(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-(x-\mu)^2/2\sigma^2} \]
Weibull-fördelning \[ f_X(x) = \begin{cases} \lambda c (\lambda x)^{c-1} e^{-(\lambda x)^c} & x \gt 0 \\ 0 & \text{annars} \\ \end{cases} \]
Gammafördelning \[ f_X(x) = \begin{cases} \frac{\lambda^c}{\Gamma(c)} x^{c-1} e^{-\lambda x} & x \gt 0 \\ 0 & \text{annars} \\ \end{cases} \]
där gammafunktionen \(\Gamma\) är \[ \Gamma(c) = \int_0^{\infty} x^{c-1} e^{-x} dx \]
Fördelningsfunktion: \(F_X(x) = P(X \le x)\)
Diskret: \(F_X(x) = \int_{-\infty}^{\infty} f_X(x) dx\)
Kontinuerlig: \(F_X(x) = \sum_{j \le x} p_X(j)\)
\[ F_X(x) \to \begin{cases} 0 & \text{då} x \to -\infty \\ 1 & \text{då} x \to +\infty \\ \end{cases} \]
\(F_X(x)\) är icke-avtagande.
\(F_X(x)\) är kontinuerlig till höger.
Om \(a \lt b\) (notera striktheten i olikheterna): \[ P(a \lt X \le b) = F_X(b) - F_X(a) \]
\(\alpha\)-kvantilen \(x_\alpha\) för \(X\): \[ F_X(x_\alpha) = \int_{-\infty}^{x_\alpha} f_X(x) dx = 1 - \alpha \\ \iff \\ \int_{x_\alpha}^{\infty} f_X(x) dx = \alpha \]
Övre kvartilen, medianen, undre kvartilen: \(x_{0.25}\), \(x_{0.50}\), \(x_{0.75}\).
Inom t.ex. tillförlitlighetsteknik vill man veta hur stor sannolikheten är att en komponent överlever ett tidsintervall \(h\) givet att den överlevt fram till tiden \(x\). Man kan (ganska lätt) visa följande då \(h \to 0\):
\[ P(x \lt X \le x + h | X \gt x) \to \frac{f_X(x)}{1 - F_X(x)} h \]
där proportionalitetskonstanten kallas intensiteten \(\lambda_X(x)\): \[ \lambda_X(x) = \frac{f_X(x)}{1 - F_X(x)} \]
Tolkas som sannolikheten per tidsenhet att komponenten går sönder.
Det gäller att \[ F_X(x) = \begin{cases} 1 - e^{-\int_0^x \lambda_X(t) dt} & x \ge 0 \\ 0 & \text{annars} \\ \end{cases} \]
Om \(X \sim Exp(\lambda)\) så \(\lambda_X(x) = \lambda\) (konstant).
Mellanting, blandningar, av (diskreta och/eller stokastiska) variabler.
Om \(X\) och \(Y\) blandas (se boken) i proportionerna \(p\) och \(1 - p\) får blandningen \(Z\) fördelningsfunktionen \[ F_Z(z) = p F_X(z) + (1 - p) F_Y(z) \]
Funktion \(Y = g(X)\).
\(X\) diskret: \(p_Y(k) = \sum_{j: g(j)=k} p_X(j)\)
\(X\) kontinuerlig och \(g\) strängt växande:
\begin{alignat}{4} F_Y(& & & & & &y& &) = \ P( & &Y& & \le{} & &y& &) = \ P( &g(&X&)& \le{} & &y& &) = \ P( & &X& & \le{} &g^{-1}(&y&)&) = \ F_X(& & & & &g^{-1}(&y&)&) \ \end{alignat}
\begin{alignat}{1} f_Y(x) &= \frac{d}{dy} F_Y(y) \ &= \frac{d}{dy} F_X(g^{-1}(y)) \ \end{alignat}
Om \(g\) är strängt avtagande vänds olikheten och man måste då använda \(P(X \ge x) = 1 - P(X \lt x) = 1 - P(X \le x) = 1 - F_X(x)\). Om \(g\) är varken strängt växande eller strängt avtagande kan samma principiella förfaringssätt användas, men uttrycken blir ytterligare något mer komplicerade.
\((X, Y): \Omega \to \mathbb{R}^2\)
(Simultan) fördelningsfunktion: \(F_{X,Y}(x, y) = P(X \le x, Y \le y) \equiv P((X \le x) \cap (Y \le y))\)
\(X\) och \(Y\) antar ändligt eller uppräkneligt oändligt antal värden.
(Simultan) sannolikhetsfunktion: \(p_{X,Y}(j, k) = P(X = j, Y = k)\)
\[ P((X, Y) \in A) = \sum_{(j,k) \in A} p_{X,Y}(j, k) \]
Marginell sannolikhetsfunktion: \(p_X(j) = \sum_k p_{X,Y}(j, k)\)
Multinomialfördelning: Om \(X_i \in Bin(n, p_i)\) och \(\sum_i X_i = n\) så är \((X_1, \dots, X_r)\) multinomialfördelad med: \[ p_{X_1,\dots,X_r}(k_1, \dots, k_r) = \frac{n!}{k_1! \cdots k_r!} p_1^{k_1} \cdots p_r^{k_r} \]
\(X\) och \(Y\) antar ouppräkneligt oändligt antal värden.
Täthetsfunktion: \(f_{X,Y}(x, y)\)
\[ P((X, Y) \in A) = \iint_A f_{X,Y}(x, y) dx dy \]
Fördelningsfunktion: \(F_{X,Y}(x, y) = \int_{-\infty}^u \int_{-\infty}^v f_{X,Y}(u, v) du dv\)
\[ f_{X,Y}(x, y) = \frac{\partial^2 F_{X,Y}(x, y)}{\partial x \partial y} \]
Marginella täthetsfunktionen för \(X\) respektive \(Y\):
\[ f_X(x) = \int_{-\infty}^{\infty} f_{X,Y}(x, y) dy \\ f_Y(y) = \int_{-\infty}^{\infty} f_{X,Y}(x, y) dx \\ \]
Marginella fördelningsfunktionen för \(X\) respektive \(Y\):
\[ F_X(x) = \lim_{y \to \infty} F_{X,Y}(x, y) \\ F_Y(y) = \lim_{x \to \infty} F_{X,Y}(x, y) \\ \]
\(X\) och \(Y\) oberoende om händelserna \(X \in C\) och \(Y \in D\) är oberoende för alla \(C, D\): \[ P(X \in C, Y \in D) = P(X \in C) P(Y \in D),~ \forall C, D \]
\[ F_{X,Y}(x, y) = F_X(x) F_Y(y) \\ p_{X,Y}(j, k) = p_X(j) p_Y(k) \\ f_{X,Y}(x, y) = f_X(x) f_Y(y) \\ \]
TODO: Från och med här har inga exempel lästs; gör detta.
\(Z\) en funktion av de oberoende \(X\) och \(Y\):
\[ Z = \max(X, Y) \\ \iff \\ P_Z(z) = P(Z \le z) = \\ P(X \le z, Y \le z) = \\ P(X \le <) P(Y \le z) = \\ F_X(z) P_Y(z) \\ \]
\[ Z = \min(X, Y) \\ \iff \\ P_Z(z) = P(Z \le z) = \\ 1 - P(Z \gt z) = \\ 1 - P(X \gt z, Y \gt z) = \\ 1 - P(X \gt <) P(Y \gt z) = \\ 1 - (1 - F_X(z)) (1 - P_Y(z)) \\ \]
Detta generaliseras lätt till flera (oberoende!) variabler. Speciellt lätta blir formlerna om variablerna är likafördelade.
\(Z\) summan av \(X\) och \(Y\).
Faltningsformler för oberoende \(X\), \(Y\): \[ p_Z(k) = \sum_{i=0}^{k} p_X(i) p_Y(k - i) dx \\ f_Z(z) = \int_{-\infty}^{\infty} f_X(x) f_Y(z - x) dx \\ \]
För summan av flera stokastiska variabler kan man iterativt lägga till en åt gången.
Ur betingade händelser fås betingade sannolikhetsfunktionen/täthetsfunktionen för \(X\) givet \(Y = k\)/\(Y = y\): \[ p_{X|Y=k}(j) = \frac{p_{X,Y}(j, k)}{p_Y(k)} \\ f_{X|Y=y}(x) = \frac{f_{X,Y}(x, y)}{f_Y(y)} \\ \]
“Betingning med avseende på \(Y\)”: \[ p_{X,Y}(j, k) = f_Y(k) f_{X|Y=k}(j) \\ f_{X,Y}(x, y) = f_Y(y) f_{X|Y=y}(x) \\ p_X(x) = \sum_{k=0}^{\infty} p_Y(k) p_{X|Y=k}(j) \\ f_X(x) = \int_{-\infty}^{\infty} f_Y(y) f_{X|Y=y}(x) dy \\ \]
Väntevärde (“expectation”) för \(X\): \[ E(X) = \sum_k k p_X(k) \\ E(X) = \int_{-\infty}^{\infty} x f_X(x) dx \\ \]
Tolkning: tyngdpunkten för massfördelning.
Väntevärde för funktion \(Y = g(X)\): \[ E(Y) = \sum_k g(k) p_X(k) \\ E(Y) = \int_{-\infty}^{\infty} g(x) f_X(x) dx \\ \]
Om speciellt för linjärkombination \(Y = a X + b\): \(E(a X + b) = a E(X) + b\)
Detta kan generaliseras till funktion av flera variabler (här två): \(Z = g(X, Y)\): \[ E(Z) = \sum_{j,k} g(j, k) p_X(j, k) \\ E(Z) = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} g(x, y) f_X(x, y) dx dy \\ \]
Linjäritet (gäller även beroende \(X\), \(Y\)): \(E(a X + b Y + c) = a E(X) + b E(Y) + c\)
Om \(X_i\) oberoende: \(E(\prod_i X_i) = \prod_i E(X_i)\)
Lägesmått:
Väntevärdet och medianen sammanfaller för symmetriska fördelningar (där de är väldefinierade).
Om medianen används som lägesmått är interkvartilavståndet \(x_{0.25} - x_{0.75}\) ett naturligt spridningsmått.
Andra (vanligare) spridningsmått följer:
Varians: \(V(X) = E((X - \mu)^2)\) (eller \(\sigma_X^2\), \(\sigma^2\)). Alltså \(V(X) = E(Y)\) där \(Y = (X - \mu)^2\).
Tolkning: Tröghetsmomentet kring tyngdpunkten.
Standardavvikelse: \(D(X) = \sqrt{V(X)}\) (eller \(\sigma_X\), \(\sigma\)). Har samma dimension som \(X\).
Varianskoefficient: \(R(X) = D(X) / E(X)\). Används främst då \(X\) är positiv och yttrycks ofta i procent. Dimensionslös.
För variansen gäller \(V(X) = E(X^2) - E(X)^2\)
\(E(X^2) = V(X) + E(X)^2\)
Länjärtransformationer: \[ E(a X + b) = a E(X) + b \\ V(a X + b) = a^2 V(X) \\ D(a X + b) = |a| D(X) \\ \]
Standardisering: \(Y = (X - \mu) / \sigma\) kalls standardiserad och \(E(Y) = 0\), \(D(Y) = 1\).
Systematiskt fel (bias): Differensen mellan ett mätvärdes väntevärde och det korrekta värdet (ett tal, \(\delta\)). Litet om noggrannheten är god.
Slumpmässigt fel: Differensen mellan ett mätvärde och dess väntevärde (en stokastisk variabel med väntevärde \(0\) och standardavvikelse \(\sigma\)). Litet om precisionen är god.
Kovarians mellan \(X\) och \(Y\): \(C(X, Y) = E((X - \mu_X)(Y - \mu_Y))\).
\(C(X, X) = V(X)\)
\(C(X, Y) = E(X Y) - E(X) E(Y)\)
Korrelationskoefficient: \(\rho(X, Y) = \frac{C(X, Y)}{D(X) D(Y)}\). Dimensionslös.
Okorrelerade \(X\), \(Y\): \(C(X, Y) = 0\).
\(X, Y \text{oberoende} \implies X, Y \text{okorrelerade}\). Det omvända gäller generellt inte (t.ex. är \(X ~ U(-1, 1)\) och \(Y = X^2\) okorrelerade men uppenbart inte oberoende). Korrelationskoefficienten mäter endast graden av linjärt beroende.
\(-1 \le \rho(X, Y) \le 1\)
\(|\rho(X, Y)| = 1 \iff X, Y ~\text{linjärt beroende}\), alltså \(Y = a X + b\).
Kvantiler är definierade generellt på sidan 68, och specialfallet normalfördelning på sidan 145.
Notera att boken använder t.ex. \(\chi^2_\alpha\) för att mena det \(x\) som uppfyller \(\int_x^\infty f(x) dx = \alpha\), inte \(\int_{-\infty}^x f(x) dx = \alpha\).
\(s^2 = 1/N \sum_i (1 - n_i) s_i^2\)
Sannolikehetsfunktion/täthetsfunktion \(p_X\)/\(f_X\) för diskret/kontinuerlig stokastisk variabel \(X\):
\begin{alignat}{1} p_X(x) & \ge 0,~ \forall x \ f_X(x) & \ge 0,~ \forall x \ \end{alignat}
\begin{alignat}{3} & \sum_{k \in \Omega} {} && p_X(k) &= 1 \ & \int_{x \in \Omega} {} && f_X(x) dx &= 1 \ \end{alignat}
\begin{alignat}{2} & P(X \in A) = \sum_{k \in A} {} && p_X(k) \ & P(X \in A) = \int_{x \in A} {} && f_X(x) dx \ \end{alignat}
(Kumulativ) fördelningsfunktion \(F_X\) för diskret/kontinuerlig stokastisk variabel \(X\):
\begin{alignat}{2} & F_X(x) = P(X \le x) = \sum_{j \le x} && p_X(j) \ & F_X(x) = P(X \le x) = \int_{-\infty}^x && f_X(t) dt \ \end{alignat}
\begin{alignat}{} 0 \le F_X(x) \le 1,~ \forall x \end{alignat}
\begin{alignat}{1} \lim_{x \to -\infty} F_X(x) = 0 \ \lim_{x \to +\infty} F_X(x) = 1 \ \end{alignat}
\(F_X\) är icke-avtagande och kontinuerlig till höger för varje \(x\), varför sannolikheten för intervall är (notera striktheten i olikheterna, vilka är viktiga för diskreta fördelningar):
\begin{alignat}{} P(a \lt X \le b) = F_X(b) - F_X(a) \end{alignat}
Konfidensgrad: \(1- \alpha\).
\(\alpha\)-kvantil: Det \(x_\alpha\) som uppfyller \(\int_{x_\alpha}^\infty f(x) dx = \alpha\).
(Minnesregel: Det \(x_\alpha\) varefter \(f\) endast har den lilla sannolikhetsmassan \(\alpha\), och därför kan bortses från.)
Väntevärde \(\mu\), varians \(\sigma^2\), standardavvikelse \(\sigma\):
\begin{align} \mu &= E(X) \ \sigma^2 &= V(X) = E((X - \mu)^2) = E(X^2) - E(X)^2 \ \sigma &= D(X) = \sqrt{V(X)} \ \end{align}
(Sidan 114.)
Linjärtransformationer:
\begin{alignat}{3} &E(a X + b) = &a& &&E(X) + b \ &V(a X + b) = |&a&|^2 &&V(X) \ &D(a X + b) = |&a&| &&D(X) \ \end{alignat}
(Sidan 118.)
Normalfördelning:
\[X_i \sim N(\mu, \sigma)\]
Standardiserad normalfördelning:
\[(X_i - \mu) / \sigma \sim N(0, 1)\]
Medelvärde av likafördelade normalfördelningar:
\[\bar{X} = 1/n \sum_{i=1}^n X_i \sim N(\mu, \sigma/\sqrt{n})\]
(Minnesregel: \(V(\bar{X}) = V(X_i) / n\).)
Summan av kvadrater av standardiserade normalfördelningar:
\[\sum_{i=1}^n ((X_i - \mu) / \sigma)^2 \sim \chi^2(n)\]
(\(n\), antalet oberoende stokastiska variabler \(X_i\), kallas frihetsgrader.)
Om \(\mu\) är okänd kan skattningen \(\bar{X}\) användas istället:
\[\sum_{i=1}^n ((X_i - \bar{X}) / \sigma)^2 \sim \chi^2(n-1)\]
(Minnesregel: Eftersom \(\bar{X}\) introducerar ett beroende mellan de oberoende \(X_i\) sänks frihetsgraden med \(1\).)
Kan användas för testvariabel för \(\sigma^2\).
Kan användas för testvariabel för \(\mu\).
Konstruera en testvariabel \(T\) som uppfyller följande kriterier:
En god kandidat är summan av kvadrerade standardiserade normalfördelningar, som är \(\chi^2\)-fördelad:
\(\sum_i^N (X_i - \mu) / \sigma^2 \sim \chi^2(n - 1)\)
Det går att visa att detta gäller även när \(\mu\) inte är känd, alltså när vi byter ut \(\mu\) mot skattningen \(\bar{X}\).
Detta härleds för en fördelning \(N(\mu, \sigma)\) på sidan 297, men det går att generalisera till flera fördelningar \(N(\mu_i, \sigma)\). Se sida 266 för sammanslagning av flera stickprov för estimering av \(\sigma\). Notera att frihetsgraden för \(\chi^2\)-fördelningen förändras vid denna sammanslagning.
ind = lambda x: range(len(x))
n = [4, 6, 3, 2]
xbar = [0.4900, 0.2617, 0.2000, 0.1300]
s = [0.0898, 0.1665, 0.0800, 0.0424]
f = sum(n[i]-1 for i in ind(n))
s2 = 1/f * sum((n[i] - 1) * s[i]**2 for i in ind(n))
chi2 = [21.93, 3.81]
I = [f*s2 / chi2[i] for i in ind(chi2)]
Om \(X_i \sim N(\mu, \sigma)\), så \(\bar{X} \sim N(\mu, \sigma/\sqrt{n})\). \(\sigma/\sqrt{n}\) kallas ofta \(D\).
Sats 12.1 på sidan 293 ger:
xbar[0] = 0.4900
d = sqrt(s2 / n[0])
t = 2.20
I = [xbar[0] - t * d, xbar[0] + t * d]
t = 1.8
I = [xbar[0] - 1.2*xbar[1] - t * sqrt(s2) * sqrt(1/n[0] + 1.2**2/n[1]), inf]
\(n = 100, \lambda = 1/4, \mu = 1/\lambda = 4, \sigma = 1/\lambda = 4\)
\(X_i \sim Exp(\lambda)\)
Centrala gränsvärdessatsen ger:
\[ Y = \sum_{i=1}^n X_i \sim N(\mu n, \sigma \sqrt{n}) \]
\[ \frac{Y - \mu n}{\sigma \sqrt{n}} \sim N(0, 1) \]
\[ P((Y <= 8*60) \\ \iff \\ P((Y - 4*100) / (4*10) <= (8*60 - 4*100) / (4*10) = 2) = \Phi(2) = 0.9772 \]
\(X_1 \sim Exp(\lambda)\)
\[ P(X_1 > 15) = \\ \int_{15}^\infty \lambda e^{-\lambda x} dx = \\ 1/4 \int_{15}^\infty e^{-x/4} dx = \\ 1/4 [-4 e^{-x/4}]_{15}^\infty = \\ e^{-15/4} \approx \\ 0.0235 \]
\(Y \sim Po(\mu = 100 p \approx 2.35)\)
\[ P(Y >= 3) = \\ 1 - (P(Y = 0) + P(Y = 1)+ P(Y = 2)) = \\ 1 - \sum_{k=0}^2 \frac{\mu^k}{k!} e^{-\mu} = \\ 1 - e^{-\mu} \sum_{k=0}^2 \frac{\mu^k}{k!} \approx \\ 0.4172 \]
(ur definitionen; tabell ger liknande, men mindre precisa, värden)
Homogenitetstest på sidan 345 jämför flera mätserier. I denna uppgift har vi endast en serie (där de absoluta frekvenserna framgår). Därför antar vi \(p^*\) som de relativa frekvenserna för “serie 1”, och bildar testvariabeln endast med data från “serie 2”:
\(p_j^* = 0.28, 0.25, 0.18, 0.29\)
\[ Q_{obs} = \sum_{j=1}^4 \frac{(x_j - n_i p_j^*)^2}{n_i p_j^*} \sim \chi^2(4 - 1) = \\ (70 - 300 * 0.28)^2 / (300 * 0.28) + \\ (89 - 300 * 0.25)^2 / (300 * 0.25) + \\ (46 - 300 * 0.18)^2 / (300 * 0.18) + \\ (95 - 300 * 0.29)^2 / (300 * 0.29) \\ \approx 6.8675 \]
\(Q_{obs} > \chi^2_{0.1}(3) \iff 6.8675 > 6.25\), varför vi förkastar hypotesen att tv-tittarvanorna inte har förändrats (så med signifikansnivå 0.1 kan vi säga att tv-tittarvanorna har förändrats).
\(X_i \sim N(\mu, \sigma)\), \(\bar{X} = \frac{1}{n} \sum_{i=1}^n X_i \sim N(\mu, \sigma / \sqrt{n})\).
Vi vill göra intervallskattning av \(\mu\), då \(\sigma\) är okänt och måste estimeras med \(s\).
\(H_0: \mu = 18.8\)
Vi tar som testvariabel:
\[ T = \frac{\bar{X} - \mu}{s / \sqrt{n}} \sim t(n - 1),~ s^2 = \frac{1}{n - 1} \sum_ i (X_i - \bar{X})^2 \]
(Minnesregel: vi vill standardisera \(\bar{X}\).)
(Notera att om vi vill ha konfidensintervall för \(\mu\) ser vi den som okänd och löser ut den, men nu när vi vill hypotestesta ser vi den som given (och skulle kunna lösa ut \(\bar{X}\), men det är lättare att titta direkt på \(t\)-värdena).)
xs = [19.08, 18.91, 18.00, 17.69, 18.30]
xbar = sum(xs) / N
N = len(xs)
f = N - 1
s = sqrt(1/(N-1) * sum((x - xbar)**2 for x in xs))
d = s / sqrt(N)
mu = 18.8
t = 2.13
y = (xbar - mu)/d
[-t, t]
\[ T = \sum_{i=1}^n \left(\frac{X_i - \bar{X}}{\sigma}\right)^2 \sim \chi^2(n - 1) \]
f = N - 1
chisq1, chisq2 = 0.48, 11.15
[sqrt(s**2 * f / chisq2), sqrt(s**2 * f / chisq1)]
\[ \sin(\alpha)^2 \sigma^2 + \cos(\alpha)^2 \sigma^2 = \sigma^2 \]
\[ C(Z, X) = E(Z X) - E(Z) E(X) = E(Z X) = ... = \sin(\alpha) \sigma^2 \]
\[ \rho(Z, X) = C(Z, X) / (D(Z) D(X)) = C(Z, X) / \sigma^2 = \sin(\alpha) \]
xs = [49, 35, 32, 39, 45]
q = sum((x-40)**2/40 for x in xs)
chisq = 9.49 # \chi^2_{0.05}(4)
q > chisq
Vi förkastar inte hypotesen om homogenitet, vi kan alltså inte dra några slutsatser om de anställdas beteende.
xs = [12.013, 12.007, 12.006, 12.005, 12.002, 11.985, 11.995, 11.999, 12.008, 12.006]
ys = [12.032, 12.025, 12.007, 12.001, 12.008]
xbar = 12.002600
ybar = 12.014600
s1 = 0.007933
s2 = 0.013202
n1 = len(xs)
n2 = len(ys)
n = n1 + n2
mu = (xbar * n1 + ybar * n2) / n
f = n - 2
s = sqrt(((n1 - 1) * s1**2 + (n2 - 1) * s2**2) / (n1 + n2 - 2))
# Q = sum((x - mu)**2 for x in [*xs, *ys])
chisq_1 = 29.82 # chi^2{ \alpha/2}(n - 1)
chisq_2 = 3.56 # chi^2{1-\alpha/2}(n - 1)
I = [s*sqrt(f/chisq_1), s*sqrt(f/chisq_2)]
\begin{aligned} H_0: & \mu_1 = \mu_2 \iff \mu_1 - \mu_2 = 0 \ H_1: & \mu_1 \neq \mu_2 \end{aligned}
t = 2.16 # t_{\alpha/2}(n - 2) = t_{1-\alpha/2}(n - 2)
T = (xbar - ybar) / (s * sqrt(1/n1 + 1/n2))
Vi förkastar \(H_0\), alltså kan vi med signifikans (felrisk) 5% säga att \(\mu_1 \neq \mu_2\).