Tvrzení chrámu 2 (statistika)
Při pohledu zevnitř oceníte jemnou výzdobu oltáře, žebrovou klenbu hlavní lodě nebo strohou úsečnost nekonečných řad dřevěných lavic. Něco, co zvenčí vůbec neuvidíte. Odtamtud ale lépe vyniknou pitoreskní chrliče vody, ornamentované průčelí či majestátní elegance chrámových věží. Každý pohled má své přednosti a nedostatky.
Čeština je také takovým chrámem. Jiné krásy nabízí zvídavým turistům venku a úplně jiné výhody poskytuje svým ovečkám uvnitř. Jako by žila několik životů současně. Jinak ji vidí universitní profesor literatury a jinak ji vidí sezonní česač hrušek. Jinak ji slyší dánský student bohemistiky v Kodani a jinak ji slyší rodilý pražský taxikář. Jinak ji vnímají na Hané, jinak v Polabí a ještě o trochu jinak na Chodsku.
Já se z gondoly mateřského jazyka na češtinu pochopitelně koukám převážně zevnitř. Díky vrtochům osudu se na ni ale občas mrknu i zvenčí. Jednak žiju šest časových pásem od Prahy a hledím na ni přes poměrně rozložitý oceán a jednak jsem matematik, humanitními předměty víceméně nezasažený, takže si s jazykovými fajnovostmi moc hlavu nelámu a většinou se je snažím ošulit. Kdybyste mě o půlnoci probudili a zeptali se, co je to "příčestí", tak Vám to neřeknu. Upřímně řečeno, já Vám to neřeknu ani ve dvě odpoledne, protože to prostě nevím. Ale i přes to, že neznám všechna skrytá zákoutí češtiny a manuál k její obsluze jsem ztratil i se skříní, která jím byla kdysi vypodložená, nevycházím z údivu, jak ten náš jazyk vezdejší dokáže snít, vyprávět, malovat, zpívat, zurčet, třpytit se, mámit, flirtovat, burcovat, ale někdy i remcat, klít, brumlat, popichovat, blábolit či odmlouvat.
Zkrátka všechno zvládne hravě. Doslova. Tak krásnému a bohatému jazyku mě maminka naučila, až se mi občas tají dech. Provází mne celý život - věrně zobrazuje vnější svět do mé vnitřní reality a vůbec mi nenadává, že ho občas omylem majznu po hlavě, když se mé myšlenky v pádu rychle potřebují něčeho zachytit. A asi proto jsem si založil tuhle sérii. Mám pocit, že rodnému jazyku něco dlužím. Pohled z trochu jiné strany.
Datová pitva u Chlumce (29. srpna 1813)
V dnešní pitvě pouze dodělám pár obecných grafů, na které nezbyl v nultém Tvrzení čas.
Nejdříve se podívám na vztah mezi průměrnou délkou slova a karmou. Průměrná délka slova v češtině je zhruba 5 písmenek a četnost slov s danou délkou se dá vyčíst z následujících dvou grafů.
V prvním grafu jsem udělal ze vzorku blogů slovník a prostě jsem spočítal, kolik je v něm slov jednopísmenných, dvoupísmenných, trojpísmenných atd. Na vlastní četnost slov v textech jsem při tom nehleděl. To je samozřejmě vůči krátkým slovům trochu nespravedlivé. Je jich sice méně ale vyskytují se podstatně častěji (nejfrekventovanějším slovem - jak asi tušíte - je jednopísmenná spojka "a"). Proto jsem nakreslil druhý graf, který tu četnost zohledňuje a můžete se na něj dívat jako na četnost slov v textovém korpusu. Takže pokud se nějaké slovo - třeba "nad" - vyskytuje v textu 180x, započítám ho 180x, zatímco v prvním grafu ho započítávám pouze jednou, protože ve slovníku se vyskytuje pouze jednou. Délka slova (tedy počet písmenek) je na ose x.
(mimochodem, kopie slovníku včetně četností je zde)
Z toho druhého grafu vidíte, že když si vyberete náhodné slovo přímo z textu, bude mít nejpravděpodobněji dvě písmenka, pak pět atd. Slovo vytáhnuté náhodně ze slovníku bude nejspíš osmipísmenné. Tady ale musím říci, že různé gramatické variace počítám pro jednoduchost jako samostatná slova ("cesta", "cestami", "cestou", "cestu" atd tedy počítám každé zvlášť). Kdybych všechna slova převedl do základního tvaru, posílila by se kratší část spektra.
Zatímco předchozímu grafu se někdy říká histogram a ukazuje nám kolik objektů daného typu v souboru máme, následující graf ukazuje rozložení karmy - a to zvlášť pro muže a pro ženy. Technicky se mu říká "hustota pravděpodobnosti", ale můžete si ho představit jako spojitý histogram. Na ose x je karma a na ose y si odečtete jak je daná hodnota pravděpodobná. Tam kde je křivka vyšší, tam je karma pravděpobnější.
Průměrná karma mužských blogů je 17.55, pro ženské blogy je to 13.28 a předchozí graf ukazuje proč tomu tak je. Zatímco v oblasti velmi vysoké karmy (nad 45) jsou ženské a mužské blogy prakticky nerozlišitelné, ve střední části převažují muži. Tato dominance je podle mého soudu způsobena tím, že muži se častěji pouštějí do kontroverzních (a zhusta politických) témat, zatímco ženy píší většinou o životě, což pohříchu implikuje nízkokarmický obsah. Poměrně široký seznam základních témat a jejich vlivu na karmu najdete v prvním Tvrzení. Vyplývá z něho, že tři největší karmohoňky na tomto serveru jsou islám, rasismus a Ukrajina. Z politiků Vám karmu nejlépe nabudí Karel Schwarzenberg.
Z dalšího grafu vidíme, že průměrná délka slov v blogu nemá na karmu vliv (každý bod reprezentuje jeden blog).
Ve druhé části se podíváme na to, jaká se v jednotlivých blozích objevují slova, zda běžná a nebo vzácná. Za tím účelem si je ale musíme nejdřív definovat (budu používat stejný slovník)
slova běžná: četnost 100 a více - takových je 10072 z celkového počtu 407742 (2.55%)
slova vzácná: četnost 10 a méně - takových je 340060 z celkového počtu 407742 (83.4%)
Začneme vlivem na karmu. Každý bod opět reprezentuje jeden blog - modré jsou mužské, červené ženské. Na ose y je procento běžných či vzácných slov v daném blogu.
Z těchto dvou obrázků je celkem jasně vidět, že ani běžná ani vzácná slova Vám sama o sobě karmou nezahýbají. Malá zajímavost: mezi blogy, které obsahují alespoň 1000 písmenek je 5 u nichž je podíl vzácných slov 0%.
Ještě o něco zajímavější je srovnání mužů a žen. Vyhodíme karmu a budeme sledovat pouze chování procenta běžných či vzácných slov. Je to opět v podstatě spojitý histogram. Z obrázků vidíte, že běžná slova tvoří většinou 70 - 90% našich individuálních blogů, zatímco slova vzácná přispívají pouze 2 - 10% (zbytek jsou ta slova s četností 10-100, která nesleduju).
Tady je vidět celkem jasně, že u slov běžných hrají prim muži (modrá křivka je posunutá směrem k vyšším procentům), zatímco u slov vzácných dominují ženy (červená křivka je posunutá k vyšším procentům).
Vše tedy můžeme shrnout větou: muži mají vyšší karmu, ale ženy používají bohatější jazyk.
Proč tomu tak je, to si rozmyslete sami.
Jan Řeháček
Brunhild the Turtle
Dalším živočichem našeho parku, který si zaslouží samostatný medailon je vodní želva. Je to poměrně těžko objevitelná samotářka, ale letos v létě chodila pod můstek na spadané moruše, takže jsem měl dost příležitostí ji nafotit.
Jan Řeháček
Reakce na článek pana K. Trčálka k článku pana L. Stejskala o článku pana M. Šupy
V klubovně Božího domu důchodců vládla odpolední siesta. Hospodin si v klidu luštil Pilátovu nedělní křížovku, Osiris a Thor hráli u stolečku dámu a v rohu se usmívala Pallas Athéna a trpělivě štrykovala návlek na obranný štít.
Jan Řeháček
Archibald the Watersnake
Našeho vodního hada Archibalda už jsem vám představil několikrát, takže tady je jen pár nových fotek z letošního léta a jedno krátké video ze sváteční plavby potokem. Kdo při pohledu na hady omdlévá, nechť si připraví mokrý hadr.
Jan Řeháček
Nedělní chvilka angličtiny: kids
Dětský svět má v každém jazyce své specifické výrazivo, protože je to tak trochu vesmír sám o sobě. Od žvatlání batolat až po jazykové experimenty puberťáků představuje nepřebernou studnici. Tady je pár zajímavostí z té anglické.
Jan Řeháček
Sonáta měsíčního svitu
Ne, tohle nebude o Beethovenovi. V zimě jsem jednou fotil noční odlesky Měsíce v potoce a zjistil jsem, že při vhodném zčeření vody z toho vychází velice zajímavé fotografie. No a v létě už jsem jen pokus zopakoval se sluníčkem.
Další články autora |
Studentky rozrušila přednáška psycholožky, tři dívky skončily v nemocnici
Na kutnohorské střední škole zasahovali záchranáři kvůli skupině rozrušených studentek. Dívky...
Podvod století za 2,4 miliardy. Ortinskému hrozí osm let a peněžitý trest 25 milionů
Luxusní auta, zlaté cihly, diamanty a drahé nemovitosti. To vše si kupoval osmadvacetiletý Jakub...
Rusové hlásí průlom fronty. Ukrajinská minela jim přihrála klíčové město
Premium Jako „den průlomů“ oslavují ruští vojenští blogeři pondělní události na doněcké frontě, kde se...
Zemřel bývalý místopředseda ODS Miroslav Macek. Bylo mu 79 let
Ve věku 79 let zemřel bývalý místopředseda ODS a federální vlády Miroslav Macek, bylo mu 79 let. O...
NATO by Rusy porazilo, Putin má jedinou naději, řekl polský ministr zahraničí
Rusko by se mělo bát Severoatlantické aliance, protože ho v případě střetu s ní čeká „nevyhnutelná...
Kyjev na Rusko vyslal drony, balistická raketa v Oděse způsobila požár
Sledujeme online Ukrajinské drony v noci na čtvrtek poškodily energetickou infrastrukturu v západoruské Orlovské...
Tlaková níže přinese mírné ochlazení. O víkendu bude oblačno, přijdou i bouřky
Přímý přenos Silný vítr a nebezpečí vzniku požáru na vybraných místech v Česku hrozí ještě ve čtvrtek, výstrahy...
USA uvalily nové sankce na stovky subjektů. V Rusku, Číně i na Slovensku
Spojené státy americké uvalily nové sankce na stovky osob a právnických subjektů. Souvisejí hlavně...
Zřícená dálnice v jižní Číně má již 36 obětí, další pátrání komplikuje počasí
Nejméně 36 lidí zemřelo v hornaté oblasti na jihu Číny, kde se ve středu po silných deštích zřítila...
Stavební pozemek o výměře 978 m2, Zlín
Zlín - Chlum
3 280 000 Kč
- Počet článků 402
- Celková karma 19,54
- Průměrná čtenost 920x