Saturday, August 17, 2024

Unsupervised predictive maintenance solution for industrial systems

Predictive maintenance solution for industrial systems -- an unsupervised approach based on log periodic power law


author: Bogdan Łobodziński



Arxiv article: arXiv:2408.05231 [stat.AP]


Abstract:
A new unsupervised predictive maintenance analysis method based on the renormalization group approach used to discover critical behavior in complex systems has been proposed. The algorithm analyzes univariate time series and detects critical points based on a newly proposed theorem that identifies critical points using a Log Periodic Power Law function fits. Application of a new algo- rithm for predictive maintenance analysis of industrial data collected from reciprocating compressor systems is presented. Based on the knowledge of the dynamics of the analyzed compressor system, the proposed algorithm predicts valve and piston rod seal failures well in advance.

Keywords: Failure Prediction; Predictive Maintenance; Time Series; Unsupervised Analysis; Renormalization group; Critical Systems; Log Periodic Power Law; Reciprocating compressors



Overview of the article



Main goal of the work

The goal of the paper is to present a methodology for describing critical behavior in complex systems based on the renormalization group approach in unsupervised predictive maintenance, specifically demonstrating the effectiveness of the algorithm for industrial applications using time series data from a monitored reciprocating compressor.

The key results

The key results of the work include the development and application of a new unsupervised predictive maintenance analysis method based on the renormalization group approach, specifically using a Log Periodic Power Law (LPPL) function to predict failures in reciprocating compressor systems and other industrial complex systems. The method effectively identifies critical points in time series data, determines the time window in which predicted failures may occur, and classifies the predicted failures based on the goodness of fit of the LPPL curve to the data. The results demonstrate the ability to predict serious failures with a fitting error below a defined threshold and to identify less critical failures that do not require immediate intervention.

The advantage of the presented method over supervised ML methods

- The main advantage of the presented method over supervised ML methods is that it does not require labeled data, making it suitable for applications where labeled data is scarce or unavailable. This unsupervised approach allows for the detection of critical behavior in complex systems without prior knowledge of the system's normal or anomalous states.
- The proposed method is based on functional similarity rather than numerical values as available ML methods.
- The method searches for common functional behavior, making it applicable to very short time series and data that describe physical processes degrading due to perturbations.
- The proposed solution greatly simplifies the final production pipelnie. There is no need to monitor the data used in the model, as the most challenging part is fitting the function to the data. - The proposed model can be applied to very short time series - in the presented case of the reciprocating compressor, the minimum length of the series is only 101 points.

Requirements to apply the presented model in practice

To apply the presented model in practice, one would need
-access to time series data representing the physical behavior of the system being monitored. The data should describe a physical process that degrades or changes due to perturbations introduced by interacting elements. - Individualized adjustment of the ranges of change of parameters to be matched in the LPPL function is required based on the dynamic characteristics of the monitored device.
- The time step of the input time series should be selected to be consistent with the dynamic characteristics of the monitored device.
Visualization of the results of the proposed method. The figure shows annotations describing failures predicted by the algorithm - colored text (different from gray and black), reasons for compressor repair - black text and diagnosed compressor abnormal behavior requiring monitoring - gray text. For better visualization, the areas of diagnosed compressor abnormal behavior that require monitoring are displayed in the “Monitored event” category.


If any reader would be interested in using the model, do not hesitate to contact me.

Wednesday, April 17, 2024

Wybory Samorządowe 2024: pobieżna analiza

[źródło: https://wydarzenia.interia.pl/]

Streszczenie

W tekście opisuje sposób analizy danych z wyborów samorządowych 2024 do sejmików wojewódzkich i konkluzje tej analizy. Pokazuję, że w danych dotyczących liczby kart do głosowania w województwie śląskim mamy bardzo silną sygnaturę potencjalnej, zewnetrznej manipulacji. Należy ten wynik rozumieć jako sugestie ponownego sprawdzena danych wyborczych dla wojewodztwa śląskiego.

Przyjrzyjmy się pewnemu aspektowi wyborów do sejmikow w wyborach samorządowych w 2024. Dane do analizy zostały pobrane z oficjalnej strony PKW.
Strona: https://wybory.gov.pl/sejmsenat2023/pl/dane_w_arkuszach, częśc: 'Okręgi wyborcze' -> 'Sejmiki Województw CSV'.

Wprowadzenie czyli przygotowanie danych

Po zebraniu danych ze wszystkich województw, wysumowano głosy oddane na osoby startujace z danego komitetu wyborczego i określono je jako całośc głosów oddanych na dany komitet wyborczy.
Na początek, wykreślmy zbiór rysunków pokazujących co się działo z kartami wyborczymi. Ile kart bylo ważnych, ile nieważnych oraz liczbę glosów nieważnych i z jakiego powodu. Jako oznaczenia zmiennych użyto oryginalnych nazw dostępnych w danych.
Jedyną wartością bezwzględną poniżej, jest zależnośc 'Liczba kart wyjętych z urny' od województwa. To jest nasza wartośc referencyjna służąca do obliczenia udziału procentowego reszty pokazanych zmiennych. Ostatni wykres pokazuje wartośc binarną: zwycięski komitet wyborczy w województwie (komitet_1 - PIS, komitet_5 - KO).





































W następnym kroku przyjrzyjmy się następującym zmiennym:
  1. ['Liczba głosów nieważnych %'] = 100.* ['Liczba głosów nieważnych'] / ['Liczba kart wyjętych z urny']
  2. ['różnica głosów %'] = 100.*( ['komitet_1'] - ['komitet_5']) / ['Liczba głosów ważnych oddanych łącznie na wszystkie listy kandydatów']
    ( gdzie 'komitet_1' == 'KW PRAWO I SPRAWIEDLIWOŚĆ' oraz 'komitet_5' == 'KKW KOALICJA OBYWATELSKA' ).

i przy ich pomocy wyliczmy stosunek
'Liczba głosów nieważnych %' do wartosci bezwględnej 'różnica głosów %'
który nazwiemy "ważnoscią głosów nieważnych":

['Ważnosc głosów nieważnych'] = ['Liczba głosów nieważnych %'] / wartosc bezwzględna ['różnica głosów %']


Zależność 'Ważnosc głosów nieważnych' od województwa pokazujemy na rys 2.
Na czerwono zaznaczono wyniki z wygraną PIS ('KW PRAWO I SPRAWIEDLIWOŚĆ'), na zielono - z wygraną KO ('KKW KOALICJA OBYWATELSKA').






Linia pokazująca wartośc 1, służy do zobrazowania województw w których 'Liczba głosów nieważnych' mogła zdecydować o możliwej wygranej lub przegranej komitetu.
  1. Dla 'Ważnosc głosów nieważnych' > 1 : 'Liczba głosów nieważnych' mogła przyczynić się do wyboru zwyciezcy w województwie.
  2. Dla 'Ważnosc głosów nieważnych' <= 1 : zwycięzców wybrały głównie głosy ważne.

Jak widać z powyzszego wykresu, mamy 4 województwa, dla których 'Liczba głosów nieważnych' może być decydująca.
To województwa:
'mazowieckie', 'warmińsko-mazurskie', 'wielkopolskie', 'śląskie' .

W kroku 3cim, spójrzmy na statystyczne zachowanie zmiennych
  1. 'Komisja otrzymała kart do głosowania',
  2. 'Liczba wyborców uprawnionych do głosowania',
  3. 'Nie wykorzystano kart do głosowania',
  4. 'Liczba wyborców, którym wydano karty do głosowania',
  5. 'Liczba wyborców, którym wydano karty do głosowania w lokalu wyborczym oraz w głosowaniu korespondencyjnym (łącznie)'.

Sprawdźmy jak wygląda zależność prawa Benforda dla 2giej cyfry dostepnej w danych, dla województw 'mazowieckie', 'warmińsko-mazurskie', 'wielkopolskie', 'śląskie' .

Jako glówne kryterium zgodności z prawem Benforda (dla 2giej cyfry) przyjęto wartość p-value dopasowania.

Jesli wartość p-value jest: << 0.005 to mamy do czynienia z odstępstwem, tzn. że rozkład 2gich cyfr w wartościach danych nie spełnia prawa Benforda dla 2giej cyfry. Innymi słowy, sugeruje to, żeliczby zostały "poprawione" w nienaturalny sposób.

Żeby ograniczyć liczbę wykresow, pokazano tylko te, które wskazują na odstępstwa.

województwo 'śląskie' :

































województwo 'wielkopolskie' :























województwo 'mazowieckie' :

























województwo 'warmińsko-mazurskie' :

brak odstępstw.

Jak można zobaczyć powyżej, znaczące odstępstwo od prawa Benforda dla 2giej cyfry występuje dla województwa 'śląskie', dla wszystkich analizowanych zmiennych:
  1. 'Komisja otrzymała kart do głosowania': błąd(*) = 0.48, p-value << 0.005,
  2. 'Liczba wyborców uprawnionych do głosowania': błąd = 0.12, p-value << 0.005,
  3. 'Nie wykorzystano kart do głosowania': błąd = 0.08, p-value=0.002 (< 0.005),
  4. 'Liczba wyborców, którym wydano karty do głosowania': błąd = 0.082, p-value=0.0007 (<< 0.005),
  5. 'Liczba wyborców, którym wydano karty do głosowania w lokalu wyborczym oraz w głosowaniu korespondencyjnym (łącznie)': błąd = 0.085, p-value=0.0007 (<< 0.005).

W przypadku 'Komisja otrzymała kart do głosowania', widać wyraźnie możliwe manipulacje liczby kart do glosowania, głównie dla cyfr 0 i 5.

Dla innych województw mamy następujące odstępstwa od prawa Benforda (dla 2giej cyfry):
  1. 'wielkopolskie':
    -'Nie wykorzystano kart do głosowania': błąd = 0.08, p-value=0.003 (< 0.005).
  2. 'mazowieckie':
    -'Liczba wyborców uprawnionych do głosowania': błąd = 0.06, p-value=0.004 (< 0.005),
    -'Liczba wyborców, którym wydano karty do głosowania': błąd = 0.055, p-value=0.004 (< 0.005).

Ze wzgledu na to, że obliczone dla województw 'mazowieckie' i 'wielkopolskie' wartości p-value są bardzo bliskie przyjętej wartości granicznej p-value (=0.005, która jest przyjęta arbitralnie), dlatego lepiej przyjąć hipoteze, że w tych województwach nie doszło do manipulacji.
Stąd nie ma podstaw, żeby 'Liczba głosów nieważnych' wpłynęła na wynik wyborów w tych województwach.
Inaczej jest w przypadku województwa 'śląskie', gdzie istnieje silna sygnatura manipulacji związanej z liczbą kart wyborczych.




Czy ta analiza udowadnia, że wybory zostały sfałszowane w województwie 'śląskie' ? Nie, tylko pokazuje znalezione mocne statystyczne sygnatury manipulacji.
Jak napisałem we wstępie, niniejsza analiza sugeruje mocno konieczność ponownego sprawdzena danych wyborczych Wyborów Samorządowych 2024 dla wojewodztwa śląskiego.



Powyższa analiza jest prywatnym projektem autora i bazuje na przeprowadzonych tylko przez niego wyliczeniach. Nie mozna wykluczyc mozliwego błędu.



Dziękuje za przeczytanie !



(*): błąd dopasowania jest wyznaczany jako: Mean absolute percentage error