“A mai világban hihetetlen mennyiségű adat keletkezik, nem lehet nem foglalkozni velük”

2024 március 21.

Interjú Svastits Gézával, Data Science képzésünk végzett hallgatójával

Eredeti végzettséged szerint épületgépész vagy, korábban ingatlanokkal foglalkozó cégnél (Indotek Group senior portfólió menedzser) dolgoztál, jelenleg az energiaszektorban. Linkedin profilod frappáns módon a kettes- és tizenhatos számrendszerrel írja le, hogy vérbeli data enthusiast vagy. Milyen elvárásokkal érkeztél a képzésre, mit vártál a képzéstől?

Van még egy gazdasági diplomám is, úgyhogy nem is tudok olyan munkakört felidézni, amikor ne számokkal foglalkoztam volna. De visszatérve a kérdésre: alapvetően karrierváltási céllal jelentkeztem, szerettem volna valami nagyon naprakészet tanulni. 2021 őszén lezárult egy majdnem két évtizedes intenzív szakasz a karrieremben, célszerűnek tűnt egy komolyabb szünetet tartani, és ezt tanulásra kihasználni. Ez elég jól be is jött, a Kürt Akadémia Data Science képzés elvégzése után pár hónappal el is tudtam helyezkedni egy „adatos” munkakörben.

Minek a hatására döntötted el, hogy szeretnél mélyebben is megismerkedni az adatos területtel? Milyen szinten foglalkoztál adatokkal a képzés elvégzése előtt?

Félig viccesen azt tudom mondani, hogy már a 80-as évek közepén, elsős gimnazista koromban írtam az első adatvizualizációs programomat egy Commodore 64 számítógépre. Édesanyám Budapest légszennyezettségi adatait mérte és kézzel rajzolgatta Budapest térképére a különböző helyszíneken mért adatokat, ezt programoztam le. Komolyra fordítva a szót, mint említettem, valójában mindig is adatokkal foglalkoztam, csak „hagyományos” módon. Eleinte energetikai számításokkal, majd inkább pénzügyekkel – költségvetések, beszámolók, banki finanszírozás –, de írtam programot a korábbi munkahelyemen. A képzésen megismert gépi tanulásos algoritmusok viszont teljesen új szemléletet adtak az adatokkal való munkához.

Svastits Géza és Nagy-Rácz István, a KÜRT Akadémia Data Science képzésének oklevélátadó ünnepségén

Hol hallottál a képzésről?

Igazából nem célirányosan Data Science képzést kerestem, de amikor rátaláltam a képzés ajánló videójára, rögtön tudtam, hogy ez kell nekem.

A tanultak közül mely módszerek, vagy a képzés mely témái voltak leginkább tanulságosak/hasznosak számodra?

Nehéz egy témát kiemelni. Nagyon szerettem az első 10 alkalmat, amikor az algoritmusokat tanultuk, alkalmaztuk, főleg a programozós részeket. De az adatvizualizációs, vagy a prezentációs alkalom is hasznos, gyakorlati ismereteket adott. Szerettem azokat az előadásokat is, amikor nem mentünk a téma mélyére, de jó rálátást adott az adott területre, pl. mint a big data, deep learning, vagy akár az adatos világ jogi vonatkozásai. Talán nem is a témát érdemes kiemelni, hanem azt, hogy nemcsak az egyes területek elismert szakértői voltak az előadók, hanem nagyon jó hangulatúak voltak az órák.

Ezek közül melyek azok, amiket a munkád során már alkalmazol is a képzés hatására?

A napom legnagyobb részét az teszi ki, hogy python kódot írok a különböző adatfeldolgozási feladataimhoz, valamint az adatvizualizációs alkalmon tanultak is rendszeresen előjönnek. Fő tevékenységünk gázkereskedelem, itt fontos feladat rövid távú (másnapi) fogyasztás előrejelzés készítése, amihez ugyan van egy pár éve működő modellünk, de napirenden van ennek az optimalizálása, újragondolása, ebben a munkában is részt veszek majd. Illetve a munkán kívül is igyekszem közel maradni a területhez - járok például egy Data Science Klubba – és remélhetőleg előbb-utóbb a dédelgetett hobbiprojektjeimre is jut idő.

A KÜRT Akadémia Data Science képzésének 12. évfolyama az ünnepélyes oklevélátadón

Mit gondolsz, milyen mélységű programozási tudásra van szükség ahhoz, hogy valaki tényleg profitáljon a képzésből?

Ezt nem tudom objektíven megítélni, mivel én a programozós részeket szerettem a legjobban. A csoportban többen is voltak alap programozói tudás nélkül, szerintem nekik is nagyon hasznos volt, de biztos, hogy kevésbé élvezték, mint én.

A képzésen több csapatban dolgoztatok projektfeladatokon. Mesélnél a projektről, és arról, hogy mi is volt pontosan a célotok, milyen adatokkal dolgoztatok, milyen módszereket használtatok? 

A csapatunk a budapesti közbringarendszer adatait elemezte, az ötlet onnan jött, hogy én is lelkes „bubis” vagyok. Kétféle adatunk volt: a BKK-tól megkaptuk a kerékpár használati adatokat 2022 januárjától augusztusig. Ez egy majdnem 2 millió soros adatbázis volt, tartalmazta, hogy a felhasználók (természetesen anonimizálva) mikor és hol vették fel a kerékpárt, mikor és hol tették le, és ezen kívül néhány további adatot is. A másik adatforrásunk egy nyilvános webhely volt, ahol élőben lehet látni, hogy melyik állomáson hány kerékpár van, innen 5 percenként leszedtük az adatokat több hónapon keresztül. A BKK-tól nem kaptunk konkrét üzleti problémát, így viszont lehetőségünk volt a tanultak közül több algoritmust is kipróbálni. Építettünk interaktív dashboard-ot, a felhasználókat „klasztereztük”, vagyis csoportosítottuk a használati szokásaik alapján, és anomáliadetekciót is lefuttattunk a kerékpárok útvonalát követve. Félig viccből az időjárás és a Bubi használat összefüggését is megvizsgáltuk, és természetesen megállapítottuk, hogy rossz időben kevesebben bicikliznek. Tulajdonképpen nem is fejeztük be, még rengeteg ötletünk volt, de abba kellett hagyni a munkát, mert be kellett mutatni. A prezentáció már jutalomjáték volt, úgy vettem észre, hogy a csoporttársaknak és a zsűritagoknak is nagyon tetszett.

Mi volt az, amit egy ilyen projektmunkából hasznosítani tudsz a korábbiakhoz képest?

Három dolog is eszembe jut: az első a „feature engineering” – ez az adatelőkészítésnek az a része, amikor a meglévő adatokból újakat képzünk, talán ez a legkreatívabb része a munkának. A másik, hogy érdemes „külső” adatokat is keresni. Mi például az OMSZ honlapján elérhető óránkénti időjárási adatokat kötöttük össze használati adatokkal, illetve összeszedtük a nevezetességek, egyetemek és kollégiumok GPS koordinátáit is – végül sajnos ez utóbbiak modellbe integrálására már nem maradt időnk. A harmadik a „storytelling” fontossága, hogy sokkal jobban átmegy az üzenet, ha történetbe van ágyazva. Nálunk két szál is volt, az egyik ez én személyes „érintettségem”, a másik Az igazság bajnokai című dán vígjáték, amiben data scientist-ek okoznak különböző bonyodalmakat.

Kiknek ajánlanád a képzést?

Kicsit közhelyes, de a mai világban hihetetlen mennyiségű adat keletkezik, nem lehet nem foglalkozni velük. Ilyen szempontból mindenki érintett. Azt azért nem merném mondani, hogy mindenkinek való a képzés. Leginkább azt tudom kiemelni, hogy azoknak lesz igazán jó, akiket valamilyen szinten lelkesít az adatokkal való munka – ők amellett, hogy sokat tanulnak, még élvezni is fogják.

Ha érdekel a Data Science képzésünk, ismerd meg részletes tematikánkat!

Érdekel a Data Science képzés

2024 március 21.

Hozzászólások

Kapcsolódó cikkek