Chybička v úvahe o modifikovanom Boy-or-Girl-paradoxe

Autor: Slavomír Takáč | 9.2.2015 o 20:12 | (upravené 28.2.2015 o 6:08) Karma článku: 3,38 | Prečítané:  221x

Martin Mojžiš v knihe "Tri hlavy draka" opisuje modifikovanú verziu Boy-or-Girl-paradoxu. V úvahe ale urobil drobnú chybičku. Viete ju nájsť?

"Predstavme si, napríklad, že v budúcnosti sa až polovica zo všetkých slovenských chlapcov bude volať po otcovi-zakladateľovi samostatného Slovenska - Václavovi Klausovi. Ak bude v takom prípade jeden z dvoch súrodencov chlapec menom Václav, aká je pravdepodobnosť, že aj druhý bude chlapec?" (Martin Mojžiš, Tri hlavy draka, W PRESS 2014, str. 149).

Intuitívne by ľudia obyčajne mysleli, že odpoveď bude 1/2, čo však nie je pravda. No pravdou nie je ani Martinova odpoveď, že to budú 3/7, ktorú si vysvetľoval nasledovne (chybu má už v druhej vete nasledovnej úvahy - v kontexte s jej zvyškom, ktorému už inak netreba venovať prílišnú pozornosť - obzvlášť vzhľadom na jeho relatívnu krkolomnosť):

  "Pravdepodobnosť toho, že dieťa je chlapec menom Václav je v tomto prípade rovná jednej štvrtine, a rovnaká bude aj pravdepodobnosť toho, že dieťa je chlapec s iným menom. Pravdepodobnosť možnosti Neváclav-Václav bude 1/16 (štvrtina zo štvritny). Pravdepodobnosť možnosti Václav-Neváclav bude iná. Dôvod je ten, že súrodenci majú prakticky vždy iné mená, takže ak je prvý chlapec Václav, druhý už Václav byť nemôže... To znamená, že ak sa Václavovi narodí brat (čo sa stane s pravdepodobnosťou 1/2), potom to automaticky bude Neváclav. Takže pravdepodobnosť možnosti Václav-Neváclav bude 1/8 (polovica zo štvrtiny).
   V troch prípadoch zo šetnástich teda bude Václovavým súrodencom brat (1/16 je za možnosť Neváclav-Václav a 1/8 = 2/16 je za možnosť Václv-Neváclav).
   S možnosťami Václav-dievča a dievča-Václav je to celkom jednoduché, každá z nich má pravdepodobnosť 1/8 (polovica zo štvrtiny). Václavovým súrodencom teda bude sestra v štyroch prípadoch zo šetnástich (z toho 1/8 = 2/16 je za možnosť Václav-dievča a 1/8 = 2/16 je za možnosť dievča-Václav).
   Zvyšok pripadá na možnosti, v ktorých sa ani jeden zo súrodencov nevolá Václav. Pravdepodobnosti týchto možností nebudeme potrebovať, takže ich nemusíme ani počítať. Pre nás je dôležité len toto: Informácia, že jedno z detí je Václav, zmení pravdepodobnosti týchto možností na nulu. Pravdepodobnosti ostatných možností pritom vzrastú, tak aby celková pravdepodobnosť bola rovná 1. V prípade Václava s bratom vzrastie pravdepodobnosť z 3/16 na 3/7 a v prípade Václava so sestrou zo 4/16 na 4/7 (pretože 3/7 + 4/7 = 1; Toto je asi najzložitejšia časť celého argumentu a treba si ju poriadne premyslieť). A tým už sme sa otázku odpovedali: ak je jedno z detí chlapec menom Václav,  potom sa pravdepodobnosť toho, že druhé dieťa je chlapec, rovná 3/7.
   Na záver už len slová útechy pre tých, ktorí to celé nepochopili, alebo pochopili len s priveľkou námahou. Neznepokojujte sa tým, je to úplne v poriadku. Veď to celé malo vlastne jediný cieľ - ukázať, koľko námahy od nás vyžadujú aj celkom jednoduché pravdepodobnosté úlohy. Ak by ste to zvládli bez námahy, vyšla by autorova snaha nazmar." 
(ibid.  str. 149-150).

Myslím, že úvaha tohto autora je naozaj pekný príklad toho, o čom sám vraví pred tým, že "úlohy boli myslené len ako určitá provokácia, a zároveň ako ilustrácia našej slabej pravdepodobnostnej intuície" (ibid. str. 147). Nuž naozaj je tak. Jeho úvaha totiž obsahuje chybičku, ktorá je tiež vlastne príkladom "slabej pravdepodobnostnej intuície", o ktorej vraví. A tiež to netreba brať tragicky, keď aj majster tesár sa utne ;-).

Odporúčal by som, ako hádanku či matematické cvičenie, skúsiť najprv nájsť jeho chybu sami. Myslím totiž, že vzhľadom na to, že to nie je len nejaký obyčajný preklep, ale skôr chyba v intuícii, aká by sa mohla vyskytnúť aj iným, keby úlohu riešili, tak to stojí aj za takýto drobný blog.

Komu sa ale nechce veľmi rozmýšľať, alebo si chce skontroľovať výsledky, tak uvádzam svoju odpoveď (ale UPOZORŇUJEM, že moja analýza zachádza aj do podrobností, aké by mohli byť zaujímavé skôr už len pre fajnšmekrov, takže keď to ostatných bude už nudiť, tak nepokračujte a o nič vážne neprídete:)) :

   Martin v prvej vete svojej úvahy správne vraví, že pravdepodobnosť toho, že (náhodné) dieťa je chlapec menom Václav, je 1/4, keďže chlapcov je polovica a z nich polovica sú Václavovia, teda Václavov je  1/4 populácie. Chybou je ale tvrdiť, že je to pravdepodobnosť aj toho, že prvé dieťa je Václav. Ak by to tak bolo, tak potom by rovnaká pravdepodobnosť musela byť aj pri druhom dieťati, aby sedeli celkové počty. Lenže pri druhom dieťati už takú pravdepodobnosť neuznáva, lebo ak prvé dieťa bolo Václav, tak druhé už podľa Martina v zásade nedostáva meno Václav, a tým sa mu už štatistika pokazí a už to celé nesedí.

   Kto by chcel vidieť číselnú ilustráciu, môžem ilustrovať tento spor aj na konkrétnych číslach, ktoré Martin vo svojej úvahe počíta - ale myslím, že vzhľadom na ich nudnosť, možno tento odstavec kľudne preskočiť a ísť rovno ďalej, alebo možno už skončiť úplne : )... Číselne by totiž ukážka toho rozporu bola taká, že keď vraví, že každý druhý chlapec je Václav, tak vzhľadom na to, že dvoj-detná rodina má v priemere 1 chlapca, tak v priemere by potom mala mať 1/2 Václava. Keď však Martin počíta, že šanca toho, že "Václavom je prvé dieťa", je polovica z polovice (t.j. 1/4, čo je 4/16, prípadne ako súčet pravdepodobností údalostí Václav-dievča a Václav-Neváclav, ktoré vyčísluje ) a šanca, že ním je druhé dieťa, je 3/16 (ako súčet pravdepodobností prípadov dievča-Václav a Neváclav-Václav, ktoré uvádza ako 2/16+1/16=3/16, prípadne by sa to dalo počítať aj tak, že "druhé dieťa je Václav" znamená, že prvé dieťa nie je Václav, čo podľa Martinovej úvahy by malo mať šancu  1-1/4=3/4, zatiaľ čo druhé dieťa je Václav, ktorý má podľa neho šancu 1/4 a súčin 3/4 a 1/4 je teda 3/16 ) , potom by šanca, že v rodine je Václav, bola podľa takých čísiel šancou, že je ním prvé dieťa (4/16) alebo druhé (3/16), t.j.  4/16 + 3/16 = 7/16. A to už je menej než 1/2. Ak teda počet dvoj (a viac) detných rodín nie je len zanedbateľný oproti počtu jedno-detných, tak potom (za predpokladu, že v rodine nebýva viac Václavov) nemôžeme uvažovať takým spôsobom, že šanca, že prvé dieťa je Václav, je 1/4.

 

   Aká je teda šanca, že prvorodené dieťa je Václav, ak vychádzame zo zadania, že každý druhý chlapec je Václav a samozrejmého predpokladu, že v rodine nezvykne byť viac Václavov?

   Ak teda frekvencia výskytov Václava na Slovensku by bola (podľa zadania) V = 1/4 (štvrtina preto, lebo polovica detí sú chlapci a polovica chlapcov sú Václavovia, nuž a polovica z polovice je štvrtina), a pravdepodobnosť, že dieťa dostane meno Václav, ak ešte v rodine nebol Václav je (a 0 ak tam už bol Václav), resp. opačná pravdepodobnsť je 1 - P, tak potom pravdepodobnosť, že v N-detnej rodine nie je Václav (t.j. že každé z tých N detí je nie-Václav), je ( 1  - P)^N, zatiaľ čo pravdepodobnosť toho, že tam naopak je Václav, je zasa opačná, t.j. 1 - ( 1  - P)^N. Ak pravdepodobnosť toho, že rodina má práve N detí označíme ako p_N, potom priemerný počet Václavov na jednu rodinu (t.j. pravdepodobnosť, že v náhodne vybranej rodine sa nachádza Václav) je:

    Sum (1 - ( 1  - P)^n).p_n = (1-( 1 -P)).p_1 + (1-( 1- P)^2).p_2 + (1-( 1 -P)^3).p_3 + ...

Zatiaľ čo priemerný počet detí v jednej rodine je:

    Sum n.p_n = 1.p_1 + 2.p_2 + 3.p_3 + ...

A frekvencia výskytu Václavov v populácii (t.j. šanca, že náhodne vybrané dieťa je Václav) je pomer týchto dvoch súm, t.j.

     V = Sum (1 - ( 1  - P)^n).p_n / Sum n .p_n.

Toto si ale Martin neuvedomil, že V nie je rovné P, ako to on (zmýlený intuíciou?) mylne vzal. V skutočnosti teda úloha nemá riešenie bez znalostí hodnôt p_n pre n>0, alebo aspoň ich pomerov.

Ak by napr. platilo, že pravdepodobnosť, že náhodne vybratá rodina je práve N-detná, by bola N-krát menšia než pravdepodobnosť, že má práve N-1 detí, tak vtedy by sme dostali:
    p_n = p_1 / n!
Čo využitím vzorca Sum x^n/n! = e^x, a triviálnych úprav, implikuje:
   P = - ln(1 - V),

čo by už dalo nakoniec iný výsledok než keď Martin vo svojej úvahe počítal s P rovným V (kde V bolo 1/4), čo by mohlo platiť len v prípade limitných rozložení demografických pravdepodobností, kde počet N detných rodín by bol zanedbateľný oproti počtu N-1 detných rodín, čo však v bežnom živote pre N=2 neplatí. Skôr je bližšie realite uvedený príklad s "N-krát menšiou pravdepodobnosťou", ktorý som však uviedol len ako príklad, kedy sa to veľmi ľahko počíta, hoci pomerne ľahko by sa to dalo vypočítať aj v prípade "L-krát menšej pravdepodobnosti", kde L by sme už brali ako nejakú konštantu väčšiu než 1, alebo tiež "L.N-krát menšia" pre konštantu L>0.

Ak však už poznáme konštantu P (ktorá nemusí byť rovná V, ako sme ukázali), ukážme si trochu jednoduchší postup, ako odvodiť výsledok dokonca ešte všeobecnejšie než urobil Martin.

Nech    je pravdepodobnosť toho, že dieťa je chlapec (v našom prípade c = 1/2).  Aká je šanca, že v N detnej rodine sú len samí chlapci? No predsa c^N. A aká je šanca, že je medzi nimi Václav? Stačí od c^N (t.j. pravdepodobnosti, že všetci sú chlapci) odpočítať pravdepodobnosť, že medzi tými chlapcami nie je žiaden Václav, čo (keďže pravdepodobnosť chlapca Neváclava je c - P) je (c-P)^N.

Summa summarum pravdepodobnosť, že N-detná rodina má len chlapcov a medzi nimi Václava, je teda:
     c^N - (c-P)^N
A vyššie sme už ukázali, že šanca, že by rodina mala chlapca menom Václav, je 1-(1-P)^N.

Ak teda predpokladáme, že máme nejakú N-detnú rodinu, o ktorej vieme, že má chlapca menom Václav, a chceme vedieť, aká je šanca, že aj ostatné deti sú chlapci, tak dostávame (ako pomer uvedených pravdepodobností), že je to:

   Q = (  c^N - (c-P)^N  ) / (   1-(1-P)^N  ).

Krása, nie? Je to všeobecné riešenie pre ľubovoľné N a nepotrebovali sme osobitne rozoberať všetky možné kombinácie, s vyčíslovaním každej jednej, atď.

Pre špeciálny prípad N = 2, c = 1/2, ktorý uvádzal Martin (alebo aj klasický boy-or-girl-paradox), sa nám po triviálnych úpravách uvedený výraz zjednoduší na:

  Q = 1 - 1 / (2 - P).

Navyše si môžeme všimnúť, že vo výpočte tohto vzťahu sme nepotrebovali využiť ani len predpoklad, že v rodine nemôžu byť dvaja Václavovia! Tento vzorec by sa dal preto použiť aj na riešenie pôvodného Boy-or-girl paradoxu, kde by sme ignorovali meno toho chlapca, a teda by sme brali P = 1/2, čo by implikovalo Q = 1/3 (zatiaľ čo prípad s menom spomínal Martin preto, aby ukázal ďalšiu kontra-intuitívnosť pôvodného paradoxu, a síce, že uvedenie zdanlivo nepodstatnej informácie, ktorou je meno toho chlapca, mení pravdepodobnosť, že druhé dieťa je tiež chlapec). Uvedený vzorec by sme tiež mohli použiť aj na inú úlohu, ktorú Martin uvažoval, totiž prípad mena Kleofáš (namiesto mena Václav), kde už predpokladal, že meno Kleofáš má zanedbateľne malé P, t.j. P blížiace sa k 0, kedy dostaneme, že Q sa bude blížiť k 1/2. Len v prípade Václava sa úloha trochu skomplikovala v tom, že tam číslo P nebolo jasné zo zadania, ktoré uvádzalo len číslo V. Problém však mohol  vyriešiť samozrejme tak, že by len trochu modifikoval zadanie, aby namiesto polovičného pomeru Václavov ku všetkým chlapcom Slovenska uvádzal len polovičnú pravdepodobnosť (P=1/2), že chlapec dostane meno Václav v prípade, že v tej rodine také meno ešte nebolo (a vtedy nie je potrebné nijako riešiť otázku, aká by tomu bola šanca v prípade, že také meno už bolo, lebo od toho by už výsledok nezávisel), a vtedy by už samozrejme dostal to svoje Q=3/7.

Každopádne existuje ešte viacero iných zaujímavých variácií Boy-or-girl paradoxu a zaujímavostí, ktoré by som odporučil si prečítať na wiki.

Páčil sa Vám tento článok? Pridajte si blogera medzi obľúbených a my Vám pošleme email keď napíše ďalší článok
Pridaj k obľúbeným

Hlavné správy

DOMOV

Kaliňák o kauze Bašternák: Nič som neustál, situácia sa môže ešte zomlieť

Minister vnútra Robert Kaliňák sa po konci konferencie Smeru ponáhľal.

PLUS

Tragédia pochovaná pod tonami bahna

Pred päťdesiatimi rokmi zažila Británia jedno z najhorších nešťastí v histórii.

DOMOV

Sme dokonalí sociálni demokrati, ukončil konferenciu Fico (minúta po minúte)

V Bratislave je programová konferencia strany Smer.


Už ste čítali?