Saturday, November 11, 2023

Pobieżna analiza wyborów do Parlamentu Polskiego 2023

[mapa ze strony https://wbdata.pl/wybory-2023-mapy/]

Zadałem sobie pytanie czy ostatnie wybory 15.10.2023 były uczciwe i czy można to sprawdzić statystycznie przy pomocy prostej analizy wspomaganej intuicją.
Zatem, nie będzie to twardy dowód na oszustwa wyborcze.
Dane do analizy można odnaleźć na stronie https://wybory.gov.pl/sejmsenat2023/pl/dane_w_arkuszach), w części 'Wyniki głosowania na listy Sejmowe'. Plik 'po okręgach Sejm CSV XLSX' zawiera dane ze wszystkich obwodow wyborczych.

Wprowadzenie

Zacznijmy od paru defnicji. W dalszej czesci bede opieral sie na paru nowych zmiennych, jak napisalem analiza jest bardzo uproszczona. Ze wzgledu na wielość partii, wprowadzam następujące grupy:
  1. 'OPOZYCJA' = 'KOALICYJNY KOMITET WYBORCZY TRZECIA DROGA POLSKA 2050 SZYMONA HOŁOWNI - POLSKIE STRONNICTWO LUDOWE'+
    'KOALICYJNY KOMITET WYBORCZY KOALICJA OBYWATELSKA PO .N IPL ZIELONI']+
    'KOMITET WYBORCZY NOWA LEWICA'
  2. 'INNE PATRIE' = 'KOMITET WYBORCZY BEZPARTYJNI SAMORZĄDOWCY'+
    'KOMITET WYBORCZY WYBORCÓW MNIEJSZOŚĆ NIEMIECKA'+
    'KOMITET WYBORCZY KONFEDERACJA WOLNOŚĆ I NIEPODLEGŁOŚĆ'+
    'KOMITET WYBORCZY POLSKA JEST JEDNA'+
    'KOMITET WYBORCZY WYBORCÓW RUCHU DOBROBYTU I POKOJU'+
    'KOMITET WYBORCZY NORMALNY KRAJ'+
    'KOMITET WYBORCZY ANTYPARTIA'+
    'KOMITET WYBORCZY RUCH NAPRAWY POLSKI'
  3. 'KOMITET WYBORCZY PRAWO I SPRAWIEDLIWOŚĆ' - jako osobna grupa
Ponieważ 'KOMITET WYBORCZY RUCH NAPRAWY POLSKI' i 'OPOZYCJA' są głównymi graczami, dlatego w dalszej części będę analizował 3 grupy danych:
  1. wszystkie obwody: bez rozróżnienia
  2. a) OPOZYCJA > KOMITET WYBORCZY PRAWO I SPRAWIEDLIWOŚĆ: gdy suma głosów na 'OPOZYCJA' w obwodzie jest większa od liczby głosów na 'KOMITET WYBORCZY PRAWO I SPRAWIEDLIWOŚĆ'
  3. b) OPOZYCJA < KOMITET WYBORCZY PRAWO I SPRAWIEDLIWOŚĆ: gdy suma głosów na 'KOMITET WYBORCZY PRAWO I SPRAWIEDLIWOŚĆ' w obwodzie jest większa od liczby głosów na 'OPOZYCJA'

Jako zmienną do porównywania rozkładów grup partyjnych używam stosunku liczby głosów oddanych na grupę partyjną w obwodzie do całkowitej liczby głosów w tym obwodzie.

Rozkłady oddanych głosów

Rozkłady wyglądają tak:
dla grupy wszystkie obwody:
Rys. 1


Jak widać, rozkłady 'KOMITET WYBORCZY PRAWO I SPRAWIEDLIWOŚĆ' i 'OPOZYCJA' są niemal lustrzanymi odbiciami względem wartości $\approx 0.5$. Rozkłady dla następnych grup danych:
dla grupy a) OPOZYCJA > KOMITET WYBORCZY PRAWO I SPRAWIEDLIWOŚĆ
Rys. 2


i dla grupy b) OPOZYCJA < KOMITET WYBORCZY PRAWO I SPRAWIEDLIWOŚĆ

Rys. 3


W analizie danych takich jak ta , zwykle mamy do czynienia z rozkładami w przybliżeniu symetrycznymi, tak jak dla grup: a) OPOZYCJA > KOMITET WYBORCZY PRAWO I SPRAWIEDLIWOŚĆ i wszystkie obwody. W przypadku ostatniej grupy (b) OPOZYCJA < KOMITET WYBORCZY PRAWO I SPRAWIEDLIWOŚĆ) mamy asymetryczny podział pomiędzy grupami politycznymi 'KOMITET WYBORCZY PRAWO I SPRAWIEDLIWOŚĆ' i 'OPOZYCJA' w pobliżu 'stosunek glosow na grupe partyjna do sumy wszystkich oddanych głosow - na obwod'$\approx 0.45$. Poparcie dla 'KOMITET WYBORCZY PRAWO I SPRAWIEDLIWOŚĆ' bardzo ostro maleje do 0. rozkład poparcia dla 'OPOZYCJA', także wydaje się opada stromiej, ale nie jest to tak dramatyczne jak dla 'KOMITET WYBORCZY PRAWO I SPRAWIEDLIWOŚĆ'.
Ponieważ ten aspekt wygląda dziwnie, zatem w dalszym ciągu będę analizował głosy, w tych obwodach wyborczych dla których wartosc 'stosunek glosow na grupe partyjna do sumy wszystkich oddanych glosow - na obwod' wynosi $0.3 - 0.6$.

W poszukiwaniu manipulacji

W tym celu wybieram przedzial grupę danych 'b) OPOZYCJA < KOMITET WYBORCZY PRAWO I SPRAWIEDLIWOŚĆ' dla których wartosc 'stosunek glosow na grupe partyjna do sumy wszystkich oddanych głosów - na obwod' wynosi $0.3 - 0.6$ i wyliczam rozkład 2giej cyfry z wartości glosowań na 'KOMITET WYBORCZY PRAWO I SPRAWIEDLIWOŚĆ' i 'OPOZYCJA'. Jesli głosy nie zostały zmanipulowane, to otrzymany rozkład powinien być zgodny z prawem Benforda dla 2giej cyfry (Benford\'s law - Wikipedia)
Z reguły, sprawdzanie rozkładu 2giej cyfry ze zbioru wartości jest mniej zależne na dodatkowe czynniki mogące powodowa przekłamania, np. różnice w wielkości obwodów wyborczych, rozdzielone mocno rozkłady analizowanych zmiennych. Tego typu czynniki powodują, że rozkład 1szej cyfry wartosci zmiennych nie jest wiarygodny, nawet jeśli taki rozkład mocno odbiega od oczekiwanego rozkładu wedle praw Bendforda dla 1szej liczby.

Do analizy rozkładu 2giej cyfry wybrałem te zmienne ze skopiowanych danych z obwodow wyborczych, które powinny najbardziej bezpośrednio ukazywać ewentualne manipulacje:
  1. 'Liczba głosów ważnych oddanych łącznie na wszystkie listy kandydatów',
  2. 'Liczba głosów nieważnych',
  3. 'W tym z powodu postawienia znaku „X” obok nazwiska dwóch lub większej liczby kandydatów z różnych list'
a także liczbę oddanych głosów na 'KOMITET WYBORCZY PRAWO I SPRAWIEDLIWOŚĆ', 'OPOZYCJA' i 'INNE PATRIE'. Jako bląd dopasowania jest wyliczany Chi2 (oznaczony na wykresach poniżej jako CHI2). Otrzymane rozkłady:
Rys. 4


Na wykreach powyżej, przez $N$ oznaczam liczbe wartości z których wyliczono rozkład.
Dla przypadku zmiennej 'Liczba głosów ważnych oddanych łącznie na wszystkie listy kandydatów' (wykres 1) powyżej): wynik sugeruje wiekszą manipulację danych dla obwodów z kategorii 'a) OPOZYCJA > KOMITET WYBORCZY PRAWO I SPRAWIEDLIWOŚĆ', cyfry 0 i 1 można interpretować jako dołożone.
Dla zmiennej 'Liczba głosów nieważnych' (wykres 2) powyżej): błędy dopasowania są podobne dla obu grup danych 'a) OPOZYCJA > KOMITET WYBORCZY PRAWO I SPRAWIEDLIWOŚĆ' i 'b) OPOZYCJA < KOMITET WYBORCZY PRAWO I SPRAWIEDLIWOŚĆ'. 'Liczba głosów nieważnych' jest większa dla przypadku 'a) OPOZYCJA > KOMITET WYBORCZY PRAWO I SPRAWIEDLIWOŚĆ'.
Zmienna 'W tym z powodu postawienia znaku „X” obok nazwiska dwóch lub większej liczby kandydatów z różnych list' pokazuje jeszcze bardziej znaczące statystycznie różnice dla obu grup danych (a) i b)).
Wykresy 2) i 3) powyżej sugerują manipulacje związane ze zwiększaniem liczby głosów nieważnych.

Na następnym rysunku pokazuję analizę liczby głosow poparcia na grupy polityczne.
Rys. 5


Poparcie dla grupy 'OPOZYCJA' (wykres 1) powyżej) ma mały błąd dopasowania (CHI2 < 1.) dla obu grup danych (a) i b)). Trudno tu wskazać na manipulacje.
Poparcie dla 'KOMITET WYBORCZY PRAWO I SPRAWIEDLIWOŚĆ' (wykres 2) powyżej) też jest obarczone małym błędem dopasowania - CHI2 < 1. dla grupy b) i CHI2 $\approx$ 2. dla grupy a). W grupie a) cyfry 0, 1 rozkładu poparcia są poniżej oczekiwanego rozkładu.
W przypadku 'INNE PATRIE', widać również większy błąd dopasowania dla grupy danych a) niż dla grupy b).

Podsumowanie

W przeprowadzonej analizie pokazuje potencjalne miejsce, w którym mogło dojść do manipulacji głosow poparcia na grupy polityczne. Są to obwody wyborcze, w których poparcie 'KOMITET WYBORCZY PRAWO I SPRAWIEDLIWOŚĆ' i 'OPOZYCJA' jest zrównoważone (wartosc 'stosunek glosow na grupe partyjna do sumy wszystkich oddanych głosów - na obwod' wynosi $0.3 - 0.6$). Wykresy na Rys. 5 pokazują, że do pewnych manipulacji dochodziło częściej w obwodach należących do grupy danych 'a) OPOZYCJA > KOMITET WYBORCZY PRAWO I SPRAWIEDLIWOŚĆ' na niekorzyść 'KOMITET WYBORCZY PRAWO I SPRAWIEDLIWOŚĆ'.
Czy ta analiza udowadnia, że wybory zostały sfałszowane ? Nie, tylko sugeruje statystycznie znalezione sygnatury manipulacji, które są małe. Jak napisałem we wstępie, niniejsza analiza nie jest dowodem na oszustwa wyborcze.


Dziękuje za przeczytanie !