Sztuczna Inteligencja w systemie predykcji stanu jakości powietrza firmy Airly

Sztuczna Inteligencja w systemie predykcji stanu jakości powietrza firmy Airly

dr hab. inż. Piotr A. Kowalski, prof. AGH – ekspert ds. uczenia maszynowego w Airly

„Dzień dobry! Szanowni Państwo tematem dzisiejszego wykładu będzie predykcja stanu jakości powietrza”, tak zacząłbym swój wykład skierowany do moich Studentów. Jednakże dzisiaj to z Wami mam przyjemności porozmawiać na temat związany z dużym wydarzeniem w firmie Airly. Otóż mamy przyjemność oddać do użytku najnowszy produkt, którym jest inteligentna predykcja jakości powierza.

Ale musimy zacząć od początku, czyli wyjaśnić sobie czym jest ta predykcja? A więc, jak sięgniemy pamięcią to od zawsze, od dziecięcych lat, towarzyszyło nam zagadnienie przewidywania – najczęściej związane to było z wydarzeniami z przyszłości. W wielu książkach dla dzieci (ale również dla młodzieży i dorosłych) możemy odszukać przykłady różnych wróżek czy magów posługujących się dziwnymi artefaktami, którzy byli w stanie powiedzieć co będzie jutro, za tydzień czy też kto wygra jakąś potyczkę. Praktycznie zawsze ów fantazy świat, ze względu na nietuzinkowość samego zadania, jest związany z magią i swoistym mistycyzmem. W dzisiejszych czasach predykcja czyli możliwość przewidzenia pewnych zachowań czy zjawisk, realizowana jest zupełnie inaczej. W celu rozwiązania tak niebanalnego i trudnego problemu sięgamy do aparatów matematycznych, które ze względu na dużą liczbę danych często wspomagane są przez bardzo skomplikowane metody obliczeń komputerowych.

Istota chęci znajomości tego co stanie się w przyszłości jest bardzo praktyczna. Wyobraźmy sobie choćby cały szereg zagadnień z domeny ekonomii. Dzięki możliwości predykcji jesteśmy w stanie zauważyć nadchodzący kryzys gospodarczy i przygotować się na jego skutki lub tez przeciwdziałać jego następstwom. Co ciekawe, jeśli owa predykcja dokonana zostanie możliwie wcześnie, to można się pokusić o wszczęcie odpowiednich procedur gospodarczych przeciwdziałających takim niepożądanym zjawiskom w ekonomii jak kryzys, krach na giełdach itp.

Firma Airly od początku swojego istnienia stawiała na kompleksowość rozwiązania, proponując predykcje jakości stanu powietrza. Przy czym wskazanie to obejmuje kolejne 24h prognozy w trybie godzina po godzinie, a nie jak często można zobaczyć czy przeczytać w postaci wartości uśrednionych na następną dobę. Jak zacząłem kierować zespołem realizującym zadanie inteligentnej prognozy stanu jakości powietrza, zastałem klasyczny sprawdzony algorytm oparty o regresję liniową. W pierwszej kolejności chcieliśmy usprawnić ten algorytm dodając szereg ciekawych procedur, jednak cały czas czegoś w nim brakowało. To w dużej mierze przyczyniło się do wykorzystania w niniejszym zadaniu sieci neuronowych będących domeną sztucznej inteligencji.

W trakcie opracowywania procedury predykcji w pierwszej kolejności musieliśmy zbadać i zdecydować które z danych wejściowych będą przydatne, a które stanowią tylko niepotrzebne tło. Po dogłębnej analizie, okazało się, że nasz zestaw danych będzie opierał się o dwa typy danych. Pierwszym są informacje związane ze stanem jakości powietrza (PM 10 oraz PM 2.5) z ostatnich kilkudziesięciu pomiarów pochodzących z naszej gęstej sieci czujników, drugim zaś są wyselekcjonowane dane pogodowe.

Jak już wcześniej wspomniałem zadnie predykcji nie należy do prostych, wręcz można powiedzieć, że jest nie lada wyzwaniem, szczególnie jeśli uwzględnimy 24-godzinną rozdzielczość obliczanej prognozy. W zagadnieniu poszukiwania modelu predykcji bardzo wiele zależy od kreatywności zespołu badawczego, gdyż dość trudno określić liczbę algorytmów, które mogą podjąć się tego wyzwania oczywiście z lepszym lub gorszym rezultatem. W przypadku rozwiązania zagadnienia tak skomplikowanego i wieloczynnikowego jakim jest prognoza stanu jakości powietrza, dobrze jest posłużyć się metodami należącymi do domeny inteligencji obliczeniowej. Sztuczne sieci neuronowe są wręcz predestynowane do zadań, w których cała wiedza jest skondensowana w danych. To właśnie zbiory przykładów – często liczbowych – stanowią naturalną bazę wiedzy, która w trakcie procesu zwanego uczeniem, transferowana jest do struktury sieci neuronowej.

Prace związane z poszukiwaniem odpowiedniej struktury sieci neuronowej trwały kilkanaście miesięcy. W trakcie badań naukowych staraliśmy się testować istniejące, klasyczne sieci neuronowe takie jak struktury wielowarstwowych perceptronów, jak i sięgać po najnowsze zdobycze nauki określane mianem uczenia głębokiego. Bazując na otrzymywanych wynikach proponowaliśmy wiele własnych rozwiązań w zakresie tz. topologii sieci neuronowej. Każda z symulacji powoli przybliżała nas do coraz lepszego rozwiązania. Teraz, na etapie podsumowania możemy powiedzieć, że przebadanych zostało kilkanaście typów struktur neuronowych, a w obrębie każdej z nich dokonano ogromnej liczby testów. W sumie, dzięki symulacjom w chmurze obliczeniowej sprawdzono działanie ponad 1500 różnych instancji sieci neuronowych. Przy czym do nauki oraz walidacji struktur neuronowych użyto danych pochodzących z ponad 2000 stacji pomiaru zanieczyszczenia powietrza pyłami zawieszonymi firmy Airly. Tak duży wolumin danych pozwala na zgromadzenie w bazie wiedzy, bardzo wielu ciekawych zachowań związanych z zanieczyszczeniem powietrza. Co ciekawe my nigdy się o nich nie dowiemy, gdyż są one wyłącznie w postaci praktycznie niekończących się słupków danych, których „interpretacją” zajmują się algorytmy uczenia sztucznych sieci neuronowych.

Po wielu próbach i testach oddajemy Wam gotowy do użytku algorytm oparty o najnowsze rozwiązania związane ze sztucznymi sieciami neuronowymi. Co ciekawe użyty przez nas bazowy typ sieci neuronowej nie istniał w trakcie realizacji pierwszych kroków z prognozą jakości powietrza w firmie Airly. Co więcej muszę w tym miejscu zaznaczyć, że użyty typ sieci neuronowych dotychczas był stosowany w zupełnie innych, bardzo odległych koncepcyjnie zadaniach niż zagadnienie predykcji czy regresji. Procedura predykcji została zoptymalizowana pod kontem szybkości działania tak, aby co godzinę generować najnowszą prognozę na kolejne 24h.

W trakcie prac nad algorytmem prognozy staniu jakości powietrza, nasze badania były prezentowane na kilku renomowanych konferencjach naukowych spotykając się z bardzo ciepłym przyjęciem. Może to nawet zabrzmi nieskromnie, ale na jednej z nich, nasz referat został uznany za najlepsze wystąpienie. Jasną rzeczą jest że oprócz pochwał naszego rozwiązania ze strony środowiska naukowego, ważna jest ewaluacja liczbowa. Dlatego teraz w kilku słowach chciałem pokazać Wam jaka jest sprawdzalność naszego modelu prognostycznego. Otóż sam model oblicza wartości PM 10 oraz PM2.5 ale jako informację wyjściową pokazuje wartość indeksu CAQI. Indeks ten określa stan jakości powietrza za pomocą liczby w skali od 1 do 100, gdzie niska wartość oznacza dobrą jakość powietrza, a wysoka wartość wskazuje złą jakość powietrza. Przy czym jest on podzielony na pięć zakresów. Pierwsze cztery stanowią przedziały o szerokości 25 jednostek oraz ostatni powyżej wartości 100.

Na wykresie możemy zobaczyć dokładność prognozy stanu jakości powietrza w dwóch wariantach. Pierwszy z nich reprezentowany kolorem czerwonym zakłada, że interesuje nas błąd bezwzględny (czyli warość bezwzględną pomiędzy wartością predykcji a rzeczywistą) nie większy niż 25 jednostek indeksu CAQI, drugi zaś oznaczony kolorem żółtym reprezentuje błąd nie większy niż 12,5 jednostek rozważanego indeksu. Poszczególne rodzaje błędów oznaczają szerokość całego oraz połowy przedziału z zakresów związanych z werbalnym określeniem stanu jakości powietrza. Z wykresu możemy zobaczyć że jeśli jako satysfakcjonujący błąd maksymalny rozważymy całą szerokość przedziału czyli 25 jednostek indeksu CAQI, to dla pierwszej godziny osiągamy sprawdzalność na poziomie prawie 99% a dla 24 godziny 95%. Czyli średnia sprawdzalność dla tego wariantu wynosi praktycznie 96%. W drugim bardziej restrykcyjnym przypadku ponownie możemy zobaczyć że dla pierwszej godziny sprawdzalność wyniosi 92% a następnie opada i w ostatniej 24 godzinie osiąga 73,5%. Ten wariant cechuje się sprawdzalnością na poziomie 77,5%.

Na naszych mapach stanu jakości powietrza, będziemy prezentować bieżącą sprawdzalność prognozy z użyciem właśnie tej metodyki. Jako miarę będziemy używać średniej wartości błędu maksymalnego dla pełnej szerokości przedziału mierzonego przez okres dwóch tygodni. A zatem jeśli wartość sprawdzalności wyniesie 95% oznaczać to będzie że przez ostatnie 14 dni, generowana prognoza 95 razy na 100 nie była obarczona większym błędem niż jeden przedział indeksu CAQI.

Na samym końcu pragnę serdecznie podziękować całemu zespołowi analizy danych oraz wszystkim współpracownikom za rzetelną pracę oraz liczne dyskusje, bez których nie otrzymalibyśmy tak znakomitego algorytmu. W szczególności chciałbym podziękować Kasprowi, Olkowi, Denisowi oraz Michałowi za wspaniałą współpracę i inspiracje badawcze.

O autorze:

Piotr A. Kowalski jest naukowcem, pracującym na stanowisku profesora AGH na Wydziale Fizyki i Informatyki Stosowanej, a także w Instytucie Badań Systemowych Polskiej Akademii Nauk. W 2003 r. uzyskał tytuł magistra „Teleinformatyki” oraz „Automatyki” (oba z wyróżnieniem) na Politechnice Krakowskiej, w 2009 roku obronił doktorat z zakresu inteligentnej analizy danych, natomiast w 2018 uzyskał stopień doktora habilitowanego w dyscyplinie informatyki w Polskiej Akademii Nauk. Od 2018 roku związany jest firmą Airly, w której pełni funkcje eksperta ds. uczenia maszynowego i koordynatora działu analizy danych. Odpowiedzialny jest za badania naukowe oraz realizację procedur predykcji jakości powietrza. Jego zainteresowania badawcze osadzone są w dziedzinie technologii informatycznych i koncentrują się na inteligentnych metodach (sieci neuronowe, systemy rozmyte i algorytmy inspirowane naturą) w zastosowaniu do złożonych systemów i algorytmów odkrywania wiedzy.