Streszczenie
W tekście opisuje sposób analizy danych z wyborów samorządowych 2024 do sejmików wojewódzkich i konkluzje tej analizy. Pokazuję, że w danych dotyczących liczby kart do głosowania w województwie śląskim mamy bardzo silną sygnaturę potencjalnej, zewnetrznej manipulacji. Należy ten wynik rozumieć jako sugestie ponownego sprawdzena danych wyborczych dla wojewodztwa śląskiego.Przyjrzyjmy się pewnemu aspektowi wyborów do sejmikow w wyborach samorządowych w 2024. Dane do analizy zostały pobrane z oficjalnej strony PKW.
Strona: https://wybory.gov.pl/sejmsenat2023/pl/dane_w_arkuszach, częśc: 'Okręgi wyborcze' -> 'Sejmiki Województw CSV'.
Wprowadzenie czyli przygotowanie danych
Po zebraniu danych ze wszystkich województw, wysumowano głosy oddane na osoby startujace z danego komitetu wyborczego i określono je jako całośc głosów oddanych na dany komitet wyborczy.Na początek, wykreślmy zbiór rysunków pokazujących co się działo z kartami wyborczymi. Ile kart bylo ważnych, ile nieważnych oraz liczbę glosów nieważnych i z jakiego powodu. Jako oznaczenia zmiennych użyto oryginalnych nazw dostępnych w danych.
Jedyną wartością bezwzględną poniżej, jest zależnośc 'Liczba kart wyjętych z urny' od województwa. To jest nasza wartośc referencyjna służąca do obliczenia udziału procentowego reszty pokazanych zmiennych. Ostatni wykres pokazuje wartośc binarną: zwycięski komitet wyborczy w województwie (komitet_1 - PIS, komitet_5 - KO).
W następnym kroku przyjrzyjmy się następującym zmiennym:
- ['Liczba głosów nieważnych %'] = 100.* ['Liczba głosów nieważnych'] / ['Liczba kart wyjętych z urny']
- ['różnica głosów %'] = 100.*( ['komitet_1'] -
['komitet_5']) / ['Liczba głosów ważnych oddanych łącznie na wszystkie
listy kandydatów']
( gdzie 'komitet_1' == 'KW PRAWO I SPRAWIEDLIWOŚĆ' oraz 'komitet_5' == 'KKW KOALICJA OBYWATELSKA' ).
i przy ich pomocy wyliczmy stosunek
'Liczba głosów nieważnych %' do wartosci bezwględnej 'różnica głosów %'
który nazwiemy "ważnoscią głosów nieważnych":
['Ważnosc głosów nieważnych'] = ['Liczba głosów nieważnych %'] / wartosc bezwzględna ['różnica głosów %']
Zależność 'Ważnosc głosów nieważnych' od województwa pokazujemy na rys 2.
Na czerwono zaznaczono wyniki z wygraną PIS ('KW PRAWO I SPRAWIEDLIWOŚĆ'), na zielono - z wygraną KO ('KKW KOALICJA OBYWATELSKA').
Linia pokazująca wartośc 1, służy do zobrazowania województw w których 'Liczba głosów nieważnych' mogła zdecydować o możliwej wygranej lub przegranej komitetu.
- Dla 'Ważnosc głosów nieważnych' > 1 : 'Liczba głosów nieważnych' mogła przyczynić się do wyboru zwyciezcy w województwie.
- Dla 'Ważnosc głosów nieważnych' <= 1 : zwycięzców wybrały głównie głosy ważne.
Jak widać z powyzszego wykresu, mamy 4 województwa, dla których 'Liczba głosów nieważnych' może być decydująca.
To województwa:
'mazowieckie', 'warmińsko-mazurskie', 'wielkopolskie', 'śląskie' .
W kroku 3cim, spójrzmy na statystyczne zachowanie zmiennych
- 'Komisja otrzymała kart do głosowania',
- 'Liczba wyborców uprawnionych do głosowania',
- 'Nie wykorzystano kart do głosowania',
- 'Liczba wyborców, którym wydano karty do głosowania',
- 'Liczba wyborców, którym wydano karty do głosowania w lokalu wyborczym oraz w głosowaniu korespondencyjnym (łącznie)'.
Sprawdźmy jak wygląda zależność prawa Benforda dla 2giej cyfry dostepnej w danych, dla województw 'mazowieckie', 'warmińsko-mazurskie', 'wielkopolskie', 'śląskie' .
Jako glówne kryterium zgodności z prawem Benforda (dla 2giej cyfry) przyjęto wartość p-value dopasowania.
Jesli wartość p-value jest: << 0.005 to mamy do czynienia z odstępstwem, tzn. że rozkład 2gich cyfr w wartościach danych nie spełnia prawa Benforda dla 2giej cyfry. Innymi słowy, sugeruje to, żeliczby zostały "poprawione" w nienaturalny sposób.
Żeby ograniczyć liczbę wykresow, pokazano tylko te, które wskazują na odstępstwa.
województwo 'śląskie' :
województwo 'wielkopolskie' :
województwo 'mazowieckie' :
województwo 'warmińsko-mazurskie' :
brak odstępstw.
Jak można zobaczyć powyżej, znaczące odstępstwo od prawa Benforda dla 2giej cyfry występuje dla województwa 'śląskie', dla wszystkich analizowanych zmiennych:
- 'Komisja otrzymała kart do głosowania': błąd(*) = 0.48, p-value << 0.005,
- 'Liczba wyborców uprawnionych do głosowania': błąd = 0.12, p-value << 0.005,
- 'Nie wykorzystano kart do głosowania': błąd = 0.08, p-value=0.002 (< 0.005),
- 'Liczba wyborców, którym wydano karty do głosowania': błąd = 0.082, p-value=0.0007 (<< 0.005),
- 'Liczba wyborców, którym wydano karty do głosowania w lokalu wyborczym oraz w głosowaniu korespondencyjnym (łącznie)': błąd = 0.085, p-value=0.0007 (<< 0.005).
W przypadku 'Komisja otrzymała kart do głosowania', widać wyraźnie możliwe manipulacje liczby kart do glosowania, głównie dla cyfr 0 i 5.
Dla innych województw mamy następujące odstępstwa od prawa Benforda (dla 2giej cyfry):
- 'wielkopolskie':
-'Nie wykorzystano kart do głosowania': błąd = 0.08, p-value=0.003 (< 0.005). - 'mazowieckie':
-'Liczba wyborców uprawnionych do głosowania': błąd = 0.06, p-value=0.004 (< 0.005),
-'Liczba wyborców, którym wydano karty do głosowania': błąd = 0.055, p-value=0.004 (< 0.005).
Ze wzgledu na to, że obliczone dla województw 'mazowieckie' i 'wielkopolskie' wartości p-value są bardzo bliskie przyjętej wartości granicznej p-value (=0.005, która jest przyjęta arbitralnie), dlatego lepiej przyjąć hipoteze, że w tych województwach nie doszło do manipulacji.
Stąd nie ma podstaw, żeby 'Liczba głosów nieważnych' wpłynęła na wynik wyborów w tych województwach.
Inaczej jest w przypadku województwa 'śląskie', gdzie istnieje silna sygnatura manipulacji związanej z liczbą kart wyborczych.
Czy ta analiza udowadnia, że wybory zostały sfałszowane w województwie 'śląskie' ? Nie, tylko pokazuje znalezione mocne statystyczne sygnatury manipulacji.
Jak napisałem we wstępie, niniejsza analiza sugeruje mocno konieczność ponownego sprawdzena danych wyborczych Wyborów Samorządowych 2024 dla wojewodztwa śląskiego.
Powyższa analiza jest prywatnym projektem autora i bazuje na przeprowadzonych tylko przez niego wyliczeniach. Nie mozna wykluczyc mozliwego błędu.
Dziękuje za przeczytanie !
(*): błąd dopasowania jest wyznaczany jako: Mean absolute percentage error
No comments:
Post a Comment