Premium

Získejte všechny články mimořádně
jen za 49 Kč/3 měsíce

Píší blogérky jinak než bloggeři?

Na počátku byl otazník. Tedy přesněji řečeno otázka zda ženy používají při psaní více otazníků než muži. Z ní poměrně rychle vyvstala sekundární otázka, zda ženy používají slovo "proč" častěji než muži - no a na problém bylo zaděláno. Když ho zformuluji co nejstručněji, mohl by znít takto: liší se četnost používání určitých slov (nebo znaků) mezi oběma pohlavími? A jelikož nejlepším řešením je empirický průzkum v terénu, rozhodl jsem se, že se záhadě podívám trochu na zoubek. Nechal jsem svůj počítač projet několik tisíc místních blogů a výsledky letní datové projížďky po vezdejším rybníčku jsou připojeny níže.

Protože blogy nemají přístupný kolektivní archív (alepoň o žádném nevím), omezil jsem se při zkoumání blogů na dobu zhruba od poloviny února do půlky července - dále jí budu říkat jen sledované období. Při vycucávání písmenek z blogů mi mezi prsty protékala celá řada zajímavých údajů - karma, délka blogu či čas publikace - a tak jsem se rozhodl ta data nejdřív trochu posmažit. Pokud Vás všeobecné statistiky nezajímají, klidně tu první obrázkovou sekci sakum-pikum přeskočte a vrhněte se hned na sekci druhou.

A bacha, používám desetinnou tečku, ne čárku.

1. Statistika

První dva obrázky jsou celkem jednoduché a ukazují průměrný počet blogů za hodinu (samozřejmě v rámci sledovaného období). Protože jsem si myslel, že bude velký rozdíl mezi všedními dny a víkendy, rozdělil jsem propočítání na tyto dvě kategorie, ale nakonec se ukázalo, že ten rozdíl zase tak veliký není. Ale aspoň jsem se dozvěděl, že průměrný počet blogů za den je zhruba 111.9 ve všední den a 78.4 o víkendu.

V průběhu dané hodiny se však blogy neobjevují rovnoměrně. V první minutě jich najdete většinou víc než později, protože mnozí bloggeři své příspěvky časují "na celou". Dobře je to vidět na následujícím obrázku který je v podstatě spojitou verzí předchozích. Pro každý čas na ose x z něho vyčtete (na ose y)  jaká je pravděpodobnost, že náhodně vybraný blog vyšel právě v tomto čase (je to svým způsobem spojitý histogram). Hlavně dopoledne je vidět, že na začátku každé hodiny pravděpodobnost prudce vzroste.

Teď se mrkneme na délku blogů. Tu budu měřit v počtu znaků (písmenek, mezer, interpunkce, číslic atd). V prvním grafu jsem seřadil všechny blogy podle délky (celkem jich bylo 16745) a výsledek vidíte na obrázku. Každý bod představuje jeden blog, délka je na ose y. Pro představu: solidní odstavec má zhruba tisíc znaků a blogy nad 10000 znaků jsou všeobecně považovány za dlouhé. Z obrázku ale vidíte, že takových blogů není mnoho (za sledované období jich bylo přesně 702).

Ten předchozí obrázek dobře ukazuje hlavně extremní hodnoty. Pro běžné blogy je lepší udělat z délky blogu náhodnou veličinu a použít opět spojitý histogram - tedy technicky: zobrazit hustotu pravděpodobnosti  této náhodné proměnné (probability density function). Na ose x je délka a na ose y pravděpodobnost, že se taková délka v blozích vyskytuje. Tady jasně vidíte, že naprostá většina bloggerů se snaží držet délku mezi 2000 a 5000 znaků. Blogů nad 5000 je jen 19.3% a blogů nad 10000 ještě méně, pouze 4.2%.

Další série se týká vztahu mezi karmou a délkou blogu. Všeobecně by se dalo očekávat, že kratší blogy budou mít výrazně vyšší karmu než ty delší či dlouhé, ale ukázalo se, že i poměrně dlouhé blogy mohou mít solidní karmu. Následující obrázek ukazuje délku i karmu všech 16745 zkoumaných blogů. Každý bod opět reprezentuje jeden blog ze sledovaného období. Délka je na ose x, karma na ose y.

Protože většina blogů se vejde do 20000 znaků (jak už jsme viděli výše), tak jsem udělal výřez této oblasti na následujícím obrázku, abychom do toho chumlu lépe viděli. Na něm si můžete všimnout, že i když pár "dlouhých" blogů má slušnou karmu, většina vysokokarmových blogů skutečně leží v oblasti 2000 až 5000 znaků.

Ještě jasněji to uvidíme, pokud si karmu zprůměrujeme. Následující obrázek je vytvořen takto. Pro každou délku (řekněme 2500 znaků) si udělám malý interval okolo ní (řekněme od 2200 do 2900) a pak vyberu všechny blogy, které se do této oblasti délkově vejdou a spočítám jim průměrnou karmu. Tu potom přiřadím zvolené délce (v našem případě 2500 znaků) a vzniklou dvojici čísel vynesu do grafu. A takhle to udělám s každou délkou. Takto způměrovaná karma se dá lépe číst a vidíte sami, že maximální průměrná karma existuje skutečně zhruba v oblasti kolem 3000 znaků.

V dalším grafu se zaměříme pouze na karmu. I na ni se mrkneme jako na náhodnou veličinu. Na ose x tedy uvidíme karmu a na ose y si odečteme jak je daná karma pravděpodobná. Z této křivky a nebo přímo z dat pak získáme další informace. Karmu nad 10 má 64.5% blogů, karmu nad 20 má 30.0%, karmu nad 30 už jen 13.3% a karmu nad 40 dosahuje pouze 2.8% blogů. Průměrná karma za sledované období je 16.2 s mediánem 13.1

Předposlední obrázek je podobný jako ten první. Je na něm průměrná karma podle času publikování. Karma je vpodstatě konstantní, takže pokud vám na ní záleží, je vcelku jedno, kdy svůj článek vypustíte do světa.

A nakonec něco o nás bloggerech. Za sledované období se v souboru vyskytlo celkem 1932 bloggerů.  Z nich 554 publikovalo pouze jeden blog, 281 jich napsalo dva a 179 má na kontě tři.  Tu poslední skupinu už vidíte v pravé části posledního obrázku (je to ten poslední "schod" - ten schod před tím jsou bloggeři se 4 blogy, ten předchozí pak bloggeři s pěti atd). Každý bodík grafu znázorňuje počet blogů jednoho autora či autorky.

Ta bílá "díra" na začátku odpovídá 17 bloggerům kteří sepsali 100 a více blogů za sledované období (na stovce jsem to uříznul, protože jinak by se ta hlavní skupina dala špatně rozlišit). Nicméně pokud Vás zajímá, kolik blogů těch prvních 17 borců vyprodukovalo, tady máte přesné počty: 283, 273, 257, 214, 214, 204, 168, 152, 137, 123, 121, 110, 110, 110, 110, 109, 103. V této hyperaktivní skupině jsou pouze dvě ženy (se 168 a 110 blogy). Zbytek jsou muži.

To, že muži jsou větší psavci vyplývá i z následujícího údaje. V této skupině blogerů (aktivních ve sledovaném období) je 1377 mužů, 537 žen a 18 nezařazených. Když se ale podíváte na celková čísla produktivity, zjistíte že muži napsali 12332 blogů a ženy pouze 3684. Mužů je zde tedy 2.56x více, ale sepsali 3.35x více blogů. Mimochodem, průměrná délka mužského slova (tedy slova v mužském blogu) je 5.130 písmenka, zatímco u žen to je 4.925 písmenka. Mužská slova jsou tedy v průměru zhruba o pětinu písmenka delší. No, ale nebudeme to rozmazávat - na délce přece nezáleží.

Jinak čísla z předchozího odstavce vám také poskytují obrázek jak statisticky relevantní je soubor blogů z něhož pochází data pro zbytek tohoto článku.

2. Muži-ženy (slova)

Ve srovnání s předchozí sekcí bude tato poměrně jednoduchá. Budu v ní sledovat četnost jednotlivých slov ve třech typech blogů: nejprve projedu všechny blogy, a pak muže a ženy zvlášť. Protože slov je hodně, jejich četnost je poměrně malá. I nejobvyklejší slovo (jímž je spojka "a") představuje pouze 3.4% všech slov. Proto budu v celé této sekci používat jako jednotku četnosti jednu setinu procenta. Pokud tedy chcete u nějakého slova získat procentní údaj o četnosti v souboru, vynásobte si uvedené číslo hodnotou 0.01 nebo vydělte 100.

V první tabulce budu sledovat četnost slov tak jak jsou napsána (tedy bez přidávání gramatických variant). Jsou to ostatně většinou slova nesklonná. Pro rozdíl mezi četností u mužů a u žen budu používat jednoduchý vzoreček: rozdíl = (muži - ženy)/vše. Jinými slovy - snažím se ten rozdíl trochu normalizovat, protože větší čísla plodí větší rozdíly. Tam kde tento normalizovaný rozdíl (v kladném či záporném smyslu) překročí určitou hranici, tam toto slovo obarvím modře (je-li častější u mužů) a nebo červeně (u žen). Z tabulky vidíte, že to inkriminované "proč" je sice mírně ženské, na červenou mu to ale nestačilo (hranici jsem stanovil na 0.1).

Mimochodem, při zpracování převádím všechno na malá písmena (jak, Jak i JAK jsou tedy ekvivalentní).

všeslovomužiženyrozdíl
34.056jak33.01237.630-0.136
13.326kde13.18913.793-0.045
11.029kdo11.5399.281+0.205
10.489kdy10.35110.959-0.058
9.662proč9.48310.277-0.082
10.005proto10.3598.797+0.156
3.303přesto3.3463.153+0.059
25.428nebo25.22226.134-0.036
14.943pak14.50416.443-0.130
53.647tak53.22555.093-0.035
40.771jako41.09639.656+0.035
0.917jakoby0.8291.219-0.425
2.999nějak2.7843.733-0.317
8.710bych8.23410.340-0.242
18.981ani18.78719.644-0.045
16.354než16.75914.968+0.110
13.74111.77520.471-0.633
10.989ty10.55112.492-0.177
4.810my4.8414.706+0.028
2.367vy2.2162.882-0.281
3.317myslím3.3763.114+0.079
0.529cítím0.3940.991-1.129
1.169vidím1.0651.523-0.392
2.284vím1.8283.845-0.883
2.999nevím2.6774.101-0.475
141.539je145.331128.554+0.119
19.706není20.34717.512+0.144
6.954musí7.3275.678+0.237
1.015nesmí1.0680.832+0.233
3.334naopak3.5672.539+0.308
2.182zároveň2.2701.881+0.178
5.048ovšem5.4863.545+0.385
9.998však10.7797.322+0.346
9.688třeba9.8039.295+0.052
6.228snad6.0596.809-0.121
3.167určitě3.1873.100+0.027
1.015údajně1.0720.817+0.251
5.628vlastně5.4716.166-0.124
2.408skoro2.1843.177-0.412
11.086asi10.46213.222-0.249
4.867trochu4.3426.664-0.477
7.097moc6.6438.652-0.283
2.200málo2.1732.292-0.054
3.400hodně3.1854.135-0.279
3.747úplně3.5814.314-0.196
6.984vůbec6.9537.090-0.020
4.043díky4.1113.811+0.074
2.846kvůli2.8752.747+0.045
2.123méně2.2501.688+0.265
7.861více8.5905.363+0.410
2.058rychle1.9272.505-0.281
1.574pomalu1.4452.017-0.363
5.421dobře5.1976.190-0.183
1.398špatně1.3741.480-0.075
5.071ano5.2294.527+0.139
11.920ne11.37113.797-0.204
1.093nikoli1.2470.566+0.623
1.486nikoliv1.5821.156+0.287
7.583EU8.8913.105+0.763
5.256USA6.5700.759+1.105
1.027OSN1.0930.798+0.288

Další tabulka je podobná, pouze budu u slov započítávat i gramatické varianty. Pokud je tedy sledované slovo třeba "vlk", tak ve větě "Vlk vlku člověkem" bude četnost "vlka" 66.6% (dvě třetiny, nikoliv jedna třetina). Tahle tabulka pochopitelně vypovídá spíš "o čem" se píše, než "jak" se píše. Slova jsem si vybral celkem náhodně a jako jednotku budu i nadále používat setiny procenta.

všeslovomužiženyrozdíl
1.421Sobotka1.7840.179+1.129
1.947Babiš2.3890.435+1.003
0.847Kalousek1.0520.145+1.071
0.500Havel0.6200.087+1.067
0.734Klaus0.8910.193+0.951
1.191Zeman1.4680.242+1.030
1.325Obama1.4440.919+0.396
6.152Putin5.4308.623-0.519
8.134práce7.40510.630-0.396
4.166rodina3.5516.272-0.653
11.372dítě8.37221.642-1.167
1.050sport1.1330.764+0.351
11.411strana12.8126.616+0.543
7.585vláda8.9472.921+0.795
7.194problém7.7005.460+0.311
4.940názor5.5492.858+0.545
3.703svoboda4.2291.901+0.629
2.521láska1.9344.531-1.030
8.604čas8.03610.548-0.292
1.864pes1.4413.313-1.004
0.931kočka0.6052.051-1.552
1.201ekonomika1.3720.619+0.626
4.819politika5.6911.833+0.801

V poslední tabulce této sekce definici slova ještě rozšířím. Kromě gramatických variant budu započítávat i slova významově podobná (a jejich gramatické varianty). Tím se ze slova vlastně udělá takové jednoduché "téma". Tak například slovo "ukrajina" jsem obohatil o výrazy "ukrajinec", "ukrajinka", "ukrajinský", "kyjev", "kyjevský" (plus jejich gramatické varianty). Téma "jídlo" v sobě zase zahrnuje i slova "kuchař", "kuchařka", "kuchyně", "vařit", "smažit" a pár dalších. Výběr doprovodných slov je samozřejmě ryze subjektivní, takže vám ukážu jen pár příkladů a pofrčíme dál.

všeslovomužiženyrozdíl
0.775pravice0.9250.261+0.857
0.683levice0.8180.222+0.871
20.781Ukrajina24.2468.918+0.738
14.555Česko16.8246.785+0.690
1.492umění1.4341.693-0.173
2.448jídlo1.6975.020-1.358
1.837turistika1.6412.505-0.470
7.910škola6.99711.036-0.511
2.745historie3.0191.809+0.441
17.114zákon19.4229.213+0.597
7.510válka8.5224.043+0.596

3. Muži-ženy (písmenka)

No, a konečně jsme se dostali k jádru pudla. Teď se tedy podíváme na četnost jednotlivých písmenek a některých dalších znaků (jako % nebo ?). Tak kdo si myslíte, že používá otazník častěji? Máte poslední šanci se zamyslet než vám vyjevím pravdu. Otazník jsem dal hned na začátek tabulky.

Protože písmenek je méně než slov, jejich četnost je poměrně velká a v této sekci budu tedy používat procenta (tak jak je známe ze školy). Všechny údaje níže jsou podobné jako v předchozí sekci, jenom budeme počítat písmenka místo slov. Protože některé znaky (třeba mezera) jsou špatně viditelné, obklopím každý znak dvěma hvězdičkami. Navíc Vám ukážu i kód znaku (code) v softvéru který používám. Většinou je to ASCII code.

V tabulce jsou nejdřív nealfanumerické znaky, pak číslice a nakonec písmenka.

(taky jsem pro znaky snížil hodnotu hranice pro genderové obarvení na 0.05)

všeznakcodemužiženyrozdíl
0.081630.0780.094-0.195
0.039330.0320.060-0.713
0.008370.0080.005+0.384
0.007420.0080.003+0.769
0.066400.0650.067-0.032
0.072410.0710.075-0.054
0.016950.0140.025-0.716
0.105450.1080.096+0.118
1.131461.1031.229-0.112
1.325441.2831.473-0.143
0.007590.0080.005+0.387
0.058580.0590.055+0.060
0.080340.0800.081-0.019
0.039470.0400.035+0.115
15.2333215.13115.593-0.030
0.096480.1020.076+0.272
0.087490.0910.074+0.195
0.058500.0620.044+0.307
0.032510.0340.028+0.176
0.033520.0340.030+0.095
0.031530.0320.026+0.190
0.021540.0220.018+0.163
0.020550.0210.016+0.221
0.023560.0250.020+0.214
0.038570.0420.027+0.370
5.582975.5245.787-0.047
1.7672251.7651.774-0.005
1.362981.3681.341+0.019
1.907991.9311.822+0.057
0.7322690.7290.742-0.017
2.9521002.9442.979-0.012
0.0242710.0230.026-0.125
6.4331016.4286.451-0.003
0.8702330.8890.803+0.098
1.3682831.3471.444-0.071
0.2121020.2180.189+0.137
0.2041030.2110.181+0.145
1.7251041.7241.729-0.003
3.6401053.6983.436+0.072
2.2642372.2772.219+0.026
1.9131061.8961.970-0.039
3.0271073.0303.018+0.004
3.3521083.3213.462-0.042
2.8471092.8142.966-0.053
5.1681105.2145.003+0.041
0.0453280.0450.045-0.000
6.4701116.5276.267+0.040
0.0142430.0140.016-0.165
2.5551122.5722.496+0.030
0.0031130.0030.003+0.031
2.7181142.7622.559+0.075
0.8463450.8430.857-0.016
3.7011153.7133.656+0.016
0.6753530.6670.701-0.051
4.5201164.5604.378+0.040
0.0393570.0380.042-0.099
2.5871172.5902.576+0.005
0.0952500.1000.079+0.220
0.3783670.3890.338+0.135
3.1801183.1923.138+0.017
0.0401190.0440.028+0.387
0.0481200.0510.040+0.219
1.4831211.4701.530-0.041
0.6522530.6650.608+0.088
1.5891221.6081.524+0.053
0.9473820.9261.021-0.100

A je to.

Autor: Jan Řeháček | středa 30.7.2014 9:09 | karma článku: 21,33 | přečteno: 830x
  • Další články autora

Jan Řeháček

Brunhild the Turtle

Dalším živočichem našeho parku, který si zaslouží samostatný medailon je vodní želva. Je to poměrně těžko objevitelná samotářka, ale letos v létě chodila pod můstek na spadané moruše, takže jsem měl dost příležitostí ji nafotit.

9.11.2022 v 9:09 | Karma: 17,10 | Přečteno: 250x | Diskuse| Fotoblogy

Jan Řeháček

Reakce na článek pana K. Trčálka k článku pana L. Stejskala o článku pana M. Šupy

V klubovně Božího domu důchodců vládla odpolední siesta. Hospodin si v klidu luštil Pilátovu nedělní křížovku, Osiris a Thor hráli u stolečku dámu a v rohu se usmívala Pallas Athéna a trpělivě štrykovala návlek na obranný štít.

10.10.2022 v 9:09 | Karma: 25,81 | Přečteno: 566x | Diskuse| Poezie a próza

Jan Řeháček

Archibald the Watersnake

Našeho vodního hada Archibalda už jsem vám představil několikrát, takže tady je jen pár nových fotek z letošního léta a jedno krátké video ze sváteční plavby potokem. Kdo při pohledu na hady omdlévá, nechť si připraví mokrý hadr.

9.10.2022 v 9:09 | Karma: 21,49 | Přečteno: 368x | Diskuse| Fotoblogy

Jan Řeháček

Nedělní chvilka angličtiny: kids

Dětský svět má v každém jazyce své specifické výrazivo, protože je to tak trochu vesmír sám o sobě. Od žvatlání batolat až po jazykové experimenty puberťáků představuje nepřebernou studnici. Tady je pár zajímavostí z té anglické.

2.10.2022 v 9:09 | Karma: 18,31 | Přečteno: 498x | Diskuse| Ostatní

Jan Řeháček

Sonáta měsíčního svitu

Ne, tohle nebude o Beethovenovi. V zimě jsem jednou fotil noční odlesky Měsíce v potoce a zjistil jsem, že při vhodném zčeření vody z toho vychází velice zajímavé fotografie. No a v létě už jsem jen pokus zopakoval se sluníčkem.

9.9.2022 v 9:09 | Karma: 14,85 | Přečteno: 220x | Diskuse| Fotoblogy
  • Nejčtenější

Studentky rozrušila přednáška psycholožky, tři dívky skončily v nemocnici

25. dubna 2024  12:40,  aktualizováno  14:38

Na kutnohorské střední škole zasahovali záchranáři kvůli skupině rozrušených studentek. Dívky...

Podvod století za 2,4 miliardy. Ortinskému hrozí osm let a peněžitý trest 25 milionů

29. dubna 2024  6:21,  aktualizováno  13:19

Luxusní auta, zlaté cihly, diamanty a drahé nemovitosti. To vše si kupoval osmadvacetiletý Jakub...

Zemřel bývalý místopředseda ODS Miroslav Macek. Bylo mu 79 let

1. května 2024  12:58

Ve věku 79 let zemřel bývalý místopředseda ODS a federální vlády Miroslav Macek, bylo mu 79 let. O...

To nemyslíte vážně! Soudce ostře zpražil bývalého vrchního žalobce

1. května 2024  10:17

Emotivní závěr měl úterní jednací den v kauze údajného „podvodu století“, v němž měly přijít tisíce...

Moskva se chlubí kořistí z Ukrajiny: Abramsy, Leopardy i českým BVP

1. května 2024  15:38

V Moskvě ve středu začala výstava západní vojenské techniky, kterou používá ukrajinská armáda a...

Sluší se, aby zaměstnanec věděl, proč je propouštěn, řekl Juchelka

2. května 2024  5:42,  aktualizováno  18:36

Přímý přenos Poslanci začali projednávat úpravu zákoníku práce. Stínový ministr práce a sociálních věcí Aleš...

Rozhodnutí o přijetí či nepřijetí eura v Česku udělá příští vláda, říká Fiala

2. května 2024  14:35,  aktualizováno  18:25

Dvacet let od vstupu do Evropské unie Česká republika stále nepřijala společnou evropskou měnu...

Na Plzeňsku hoří střecha sklárny. Zásah je komplikovaný, říkají hasiči

2. května 2024  18:22

V Heřmanově Huti na severním Plzeňsku hoří v areálu sklárny. Podle informací iDNES.cz od hasičů,...

SPOLU paroduje heslo ANO a spojuje ho s Ruskem, premiér Fiala to hájí

2. května 2024  10:56,  aktualizováno  17:53

V kampani před volbami do Evropského parlamentu vsadila koalice SPOLU i na antikampaň. Na sociální...

  • Počet článků 402
  • Celková karma 19,54
  • Průměrná čtenost 920x
Devátý nejhorší kuchař na světě, odpůrce politické překorektnělosti, začínající marťan, neúnavný konzument točeného kyslíku a jazykový dobrodruh ab incunabulis. Člen Analytického piva a Gustavu pro jazyk český. Správce Vojensko-českého slovníku.