„Kipróbáltam a saját üzleti problémámon ezt az új szemléletmódot, és még jobb eredményt értem el”

2022 május 26.

Interjú Varga Áronnal, a Rossman Business Analystjével a Data Science képzésünkről

Varga Áron nemrég fejezte be Data Science képzésünket – miután az AI Technológiát is elvégezte. Arra vágyott, hogy áttekintést kapjon az adatelemzés minden területéről, és közben a gyakorlatban is kipróbálhassa a módszereket. Ugyanis a Rossmann-nál rengeteg adat érkezik be hozzájuk napi szinten a boltokból, a webshopból és a CRM-adatbázisból.

A képzést nemcsak a csapat és a jó hangulatot teremtő oktatók miatt élvezte. Például éppen egy előrejelző modellt készített, amit már majdnem leadott, amikor a képzésen tanultak alapján még hatékonyabbá tudta tenni azt. De rengeteget tanult a vizsgamunkából is: a csapatukkal egy izgalmas borajánló rendszeren dolgoztak. Ezekről mesél interjúnkban, és arról is, miként tudja használni a képzésen tanultakat a munkája során.

Controllerként kezdted a pályád, később Business Developer, Business Intelligence Developer, majd Business Analyst szerepköröket is kipróbáltál. Hogyan alakult ez a karrierút? Mit jelent ez kompetenciák és feladatok tekintetében?

Gazdálkodási és menedzsment alapszakon végeztem a Budapesti Corvinus Egyetemen, így kézenfekvő volt, hogy valami pénzügyes szakmában helyezkedjek el. A kontrolling szakma pont nekem való volt a pályafutásom elején, mivel érteni kell az üzleti döntéshozáshoz, ismerni kell a gazdasági folyamatokat és nem utolsó sorban otthonosan kell mozogni a technikai környezetben, legfőképpen az Excelben. Az évek során engem inkább ez utóbbi fogott meg, és elég hamar kinőttem az Excel nyújtotta lehetőségeket, ezért elindultam az adattárolás (SQL) és a programozás (először Java, majd Python) útvesztőjében. Egy idő után teljesen elhagytam a kontrolling világát, és kihasználva hogy egy-egy fejlesztésnek értem az üzleti oldalát a kontrollingos tapasztalatom révén, és a technikai megvalósítását is meg tudom csinálni, elkezdtem a cégen belül alkalmazásokat fejleszteni a társosztályoknak. Először csak üzleti folyamatok egyszerűsítésére és gyorsítására (itt voltam Business Developer), de ahogy egyre több és több tapasztalatom lett már valós idejű döntéshozást támogató rendszerek (mint Business Intelligence Developer) programozásában is részt vettem. A jelenlegi pozíciómban (Business Analyst) nagyobb hangsúlyt kapnak az üzleti folyamatok és döntéstámogatás a programozás kárára, de teljesen szabadkezet kapok a számolásokban és a modellépítéseknél, ahol hatalmas segítség az, hogy a korábbi pozícióimban más-más szemszögből kellett vizsgálnom az üzleti problémákat. Véleményem szerint az is egy fontos kompetencia, hogy egy-egy projektnek az elejétől a végéig átlátom a folyamatát, kezdve az adatgyűjtéstől és tárolástól az adat-előkészítésig, a feldolgozáson át az ellenőrzésig, és persze nem utolsó sorban az eredmények prezentációra való értékeléséig.

Varga Áron a képzés vezetőjével, Nagy-Rácz Istvánnal

Ebben az útban milyen szerepet kapott a Data Science képzés? És miért a KÜRT Akadémia képzését választottad?

Korábban volt szerencsém elvégezni az AI Technológia képzést a KÜRT Akadémiánál, de ekkor még annyira új volt nekem ez a terület, hogy sokszor csak kapkodtam a fejemet, és nem értettem teljesen, hogy mit is csináltunk pontosan. Egy valamit azonban megjegyeztem, hogy az oktatás színvonala hibátlan volt, és csakis rajtam múlt, hogy mennyit tudok profitálni a képzésből.

Amikor az üzleti életben kezdtem el használni az AI képzésen tanultakat, akkor jöttem rá, hogy ha meg is tudok oldani egy adott üzleti problémát valamelyik gépi tanulási módszerrel, akkor sem vagyok benne biztos, hogy teljesen értem a működési mechanizmust és hogy miképpen lehetne még javítani a modell eredményességét. Ezért döntöttem úgy, hogy jó lenne még egyszer visszaülni az iskolapadba, és végighallgatni strukturált módon a terület legfontosabb témáiról egy-egy előadást, valamint hogy választ kapjak a felmerülő kérdéseimre, mivel ebből rengeteget gyűjtöttem össze már a képzés előtt.  

Nem volt kérdés, hogy a KÜRT Akadémiát válasszam, mert biztos voltam benne, hogy az elmélet mellett rendkívül hasznos gyakorlati tudásra is szert tehetünk a képzés elvégzésével. Őszintén szólva teljes mértékben teljesült ez az elvárásom. Van egy olyan elméletem, hogy akkor érted igazán egy modell működését, hogyha az utca emberének is el tudod mondani 1-2 mondatban úgy, hogy ő is megértse. Ez az üzleti életre szerintem kifejezettem igaz, egy másik terület felsővezetőjét valószínűleg nem fogja érdekelni a különbség egy neurális háló esetén a ReLu és a sigmoid aktivációs függvények között, de ha magabiztosan elmondod neki a lényeget egy ilyen modell működéséről pár mondatban, akkor elhiszi, hogy érted, amit csinálsz, és elfogadja a prezentált eredményt.

A Rossmanntól érkeztél a képzésre – mesélnél arról, hogy milyen adatos kihívásokkal néztek szembe?

Az adatból sosem elég, és szerencsére itt szinte végtelen mennyiségű adat áll a rendelkezésünkre. Van egy listám arról, hogy milyen üzleti döntéstámogatási projekteket szeretnék megcsinálni, és ahogy végzek egy feladattal, közben három másik eszembe jut, ami aztán felkerül erre a listára. Rengeteg adat érkezik napi szinten a boltokból, a webshopról és a CRM-adatbázisból, nagy kihívást jelent mindent nyomon követni, ellenőrizni és persze nem utolsó sorban üzletileg feldolgozni és értelmezhetővé tenni. De hát ez adja a Data Science szakma nehézségét és szépségét is egyben.

A képzés mennyiben segített téged a mindennapi munkád során?

Egy konkrét példával is tudok válaszolni a kérdésre: a képzés alatt elkezdtem egy előrejelző modellt felépíteni a munkahelyemen, ami egész szép eredményeket hozott, és úgy éreztem, hogy mindent kihoztam az adott feladatból, már készültem is arra, hogy büszkén bemutatom a főnökömnek az eredményeket. Aztán a következő képzési alkalmon pont egy hasonló gyakorlati példát oldottunk meg közösen, és olyan dimenziókat is figyelembe vettünk, amikre nem is gondoltam korábban. Pár nap múlva kipróbáltam a saját üzleti problémámon ezt az új szemléletmódot, és sikerült még jobb eredményt elérnem. Másik szempontból viszont egy nagyon jó megerősítés volt, hogy az alapelképzelésem sem volt rossz, de hiányzott egy olyan ’szikra’, amit a képzés nélkül biztos nem kaptam volna meg.

Azt is bátran állíthatom, hogy rengeteg inspirációt kaptam a képzés során. Ha egy számomra új területről volt szó akkor a képzési alkalom után több napig azon gondolkoztam, hogy miképpen tudnám beépíteni ezt az új módszert a mindennapi munkavégzésem során, hol tudnék profitálni abból, hogy ehhez is értek valamelyest. Ezekről is készítettem egy listát, bízom benne, hogy előbb-utóbb ennek is a végére tudok érni.

Az évfolyam hallgatói az ünnepélyes oklevélátadón.

Beszéljünk egy kicsit a vizsgamunkáról! A te csapatod borokkal kapcsolatos adatbázist használt. Mi volt a kérésfelvetésetek?

Magában az adatbázisban különböző típusú borokról volt adat, többek között ár, pontszám, évjárat, régió és egy szöveges értékelés szerepelt benne. Néhány számított mezővel kiegészítettük (pl. az adott évjárat-régió-bortípus átlagára és átlagpontszáma, valamint az ország-régió alapján földrajzi szélességi és hosszúsági fok), és kitöröltük a nem releváns adatokat (pl. ki írta a kommentet).

A visszajelzések alapján mi egy olyan utat jártunk be a vizsgamunka során, amit még senki sem választott a Data Science képzés történetében: elsődlegesen az volt a koncepciónk, hogy ugyanazon az adathalmazon próbáljuk ki a képzésen tanult lehető legtöbb adatelemzési módszert. Másodlagosan pedig azt szerettük volna elérni, hogy egy alternatív borajánló rendszert építsünk az alábbi technológiákkal:

  • klaszterezés: a borokat tíz különböző klaszterbe osztottuk egy K-means algoritmus segítségével, aztán egy döntési fa segítségével vizsgáltuk meg az adott klaszter tulajdonságait. Így olyan klasztereket tudtunk azonosítani, mint az átlagon felüli amerikai borok vagy az olcsó és magas pontszámú francia borok. A való életben a kedvenc borod tulajdonságai alapján tudnánk neked más borokat ajánlani kipróbálásra ugyanabból a klaszterből, vagy ha szeretnél teljesen mást kipróbálni akkor a legtávolabbi (legkevésbé hasonló) klaszterből is válogathatsz kedvedre.
  • klasszifikáció: nekem ez volt a személyes kedvencem, itt egy olyan Naive Bayes classifier modellt építettünk, ami a bor szöveges értékelése alapján próbálta meg kitalálni, hogy milyen típusú (pl. cabernet sauvignon, chardonnay) az adott bor. A való életben ezt úgy tudnánk felhasználni, hogyha van egy elképzelésed arról, hogy milyen ízvilágú bort kóstolnál, akkor a mi algoritmusunk segít abban, hogy milyen típusú borok között keresgélj a szöveges leírásod alapján.
  • regresszió: itt arra voltunk kíváncsiak, hogy a szöveges értékelés alapján meg tudjuk-e becsülni az adott bor ár-érték arányát. Három különböző modellt építettünk, egy neurális hálót, egy random forestet és egy XGBoostot. Végül utóbbival értük el a legjobb eredményt, ezzel azt tudjuk megmondani egy bor szöveges értékelése alapján, hogy mennyire jó az ár-érték aránya. Ha esetleg a kedvenc borod alacsony ár-értékű értékelést kapna, akkor a fenti két módszerrel tudunk neked hasonló és/vagy jobb bort ajánlani kipróbálásra.

Ezen kívül készítettünk még egy látványos Power BI vizualizációt, ami egyrészt hibakeresésre is jó volt (pl. az egyik spanyol régió GPS koordinátáit Oroszországba számolta az algoritmus), másrészt mi is jobban megismertük az adatainkat, láthattuk, melyik régióban a legmagasabb az átlagpontszám, hol vannak a legrégebbi borok, valamint egy scatter diagramon megvizsgáltuk az ár és a pontszám kapcsolatát.

Összességében sikerült a felügyelt és nem felügyelt tanítási módszereket kipróbálni, foglalkoztunk szövegelemzéssel és adatvizualizációval, utólag még egy anomáliadetekciót szívesen futtatnék az adathalmazon, abból is biztos sok értékes információt kapnánk az adatainkról.

Az adatelőkészítés részt te mutattad be, és azt írtátok alá, hogy „A legfontosabb lépés”, miért? És közben ezt az alábbi ironikus slide-ot is betettétek. Ezek szerint a legfontosabb és a legkínkeservesebb? 😊

Részlet a csapat vizsgamunkájából

Az biztos, hogy ezzel ment el a legtöbb idő. De ahogy az ősi dakota közmondás is tartja, jó elemzést csak jó adatokból lehet készíteni 😊 Egy adatelemzőnek mindig fáj a szíve, ha adatot kell törölni az adathalmazból, mi is így jártunk. Sajnos több olyan rekord is szerepelt az adatbázisban, ahol hiányzó értékek voltak, ezeket automatikusan töröltük. Ezután volt még néhány feltételünk, aminek nem felelt meg minden rekord, sajnos ezeket is törölnünk kellett. Rossz volt nézni, ahogy lépésről lépésre csökken a sorok száma, de szerencsére így is maradt elegendő adatunk a fent bemutatott modellek kipróbálásához.

Én személy szerint úgy éltem meg a projekt ezen részén, hogy legyünk már túl rajta, és kezdjük el végre a kreatív részét a feladatnak, ahol modelleket tanítunk, és ténylegesen fel tudunk mutatni kézzel fogható eredményt. Az adatelőkészítés egy olyan háttérmunka, ami nem annyira látványos, de tapasztalataim szerint legalább annyira fontos, mint hogy milyen modellel tudjuk a későbbiekben elérni a legjobb eredményt.

Milyen gyakorlati haszna lehet például ezeknek a módszereknek, amelyeket a vizsgamunka során alkalmaztatok?

Arra tökéletes volt a vizsgamunka, hogy egy tesztkörnyezetben sok mindent ki tudjunk próbálni, mielőtt élesben is használni kezdenénk, valamint van egy jó összehasonlítási alapunk az egyes modellek használhatóságáról, előnyeiről és hátrányairól. Nagy-Rácz István képzésvezető rengeteget segített nekünk a projektmunka során, többször tartottunk projektmegbeszélést, ahol mindig hasznos tanácsokkal látott el minket és válaszolt a felmerült kérdéseinkre.

A képzésen tanultakat a gyakorlati élet bármelyik területén fel lehet használni, legyen szó az üzleti életben egy mélyebb adatelemzésről, vagy egy előrejelző modell építéséről, vagy hobbi szinten egy arcfelismerő algoritmus fejlesztéséről (pont ilyet csináltam a múlt héten). Nagyon gyorsan fejlődik a mesterséges intelligencia világa, és remek cikkek vannak róla a neten, nehéz lépést tartani a legújabb technológiákkal. De, akit érdekel ez a téma akár a munkája során, akár hobbiszinten, biztosan nem fog unatkozni.

A képzés mely témái, előadásai voltak rád nagy hatással?

Három témát szeretnék kiemelni, ami számomra a leghasznosabb volt. Az első a szövegelemzés, nagyon tetszik a gondolkodásmód ahogyan a szöveges leírásokat átfordítjuk a számok világára, majd ebből nyerünk ki teljesen új információkat. A vizsgamunka során mi is hasonlót csináltunk, ezért volt szerencsém elmélyülni ebben a területben, és látthattam, hogy milyen potenciál van a szövegelemzésben. Biztos vagyok benne, hogy a jövőben (akár a munkahelyen, akár hobbiszinten) fogok még hasonlót csinálni.

A második téma, amit kiemelnék, az a big data technológiák a databricksen. Nagyon hasznos és érdekes volt hallani, hogy miképpen lehet rengeteg (és tényleg rengeteg!) adattal nagyon gyorsan dolgozni. Említés szintjén hallottam már korábban erről a technológiáról, de nem volt még szerencsém dolgozni vele, remélem a jövőben találok olyan projektet, ahol tudom majd használni a képzésen tanultakat.

A harmadik előadás kicsit kilóg a fenti sorból, ugyanis ez az utolsó képzési alkalom volt, ahol arról volt szó, hogy miképpen tudunk magabiztosan és karizmatikusan prezentálni. Egy data science projekt során nem elég megtalálni a legjobb modellt, és elvégezni a számolásokat, az eredményeket be is kell mutatni a nem feltétlenül hozzáértő közönségnek. Ez az interaktív előadás ebben segített nekünk sokat, ráadásul a projektmunka prezentálásánál egyből ki is tudtuk próbálni az itt tanultakat.

Milyen volt a képzésre járók csapata? Milyen volt a képzések hangulata?

Vegyes volt a csapat minden tekintetben, voltak a versenyszférából és a közigazgatásból, voltak mérnökök, közgazdászok, de még tanár végzettséggel is volt résztvevő. Ennek ellenére hamar megtaláltuk a közös hangot, nagyon jó volt a hangulat végig a képzés során, amire még a közvetlen és jófej oktatók is rátettek egy lapáttal. Mivel még éreztette a hatását a Covid-járvány, ezért a képzés során egy személyes – egy online óra felbontásban folyt az oktatás. Nekem a pénteki napok (és nem csak a hétvége miatt) igazi ünnepnapnak számítottak a képzés során, jó volt azzal tölteni a péntek délutánt, hogy valami újat tanulhattam.

A képzés felénél szervezett a KÜRT Akadémia egy esti borozást a társaságnak, ami remekül sikerült, jobban meg tudtuk ismerni egymást a tantermen kívül is. A képzés végén az ünnepélyes oklevélátadót is kellőképpen megünnepeltük a csapattal egy hajnalig tartó mulatozással.

Kinek ajánlanád a képzést? Milyen előzetes tudással rendelkezzen, milyen területről érkezzen az a jelentkező, akinek a leginkább hasznos lehet a képzés?

A terület szerintem a mai világban már nem annyira lényeges, ugyanis mindenhol folyik a digitalizáció, előbb-utóbb az összes iparágban szükség lesz data scientistekre, akik le tudják fordítani az adatokat az üzlet számára érthető formára, és támogatni az üzleti döntéshozást. A képzés során szinte nulláról is meg lehet tanulni, hogyan válhatunk előbb-utóbb kiváló data scientistté. Még az sem szükséges, hogy programozni tudjanak a résztvevők (külön Python alapok képzést is szerveztek nekünk), de nem árt, ha van hozzá egy kis affinitás.

Úgy gondolom, hogy gyakorló adatelemzőknek is érdemes elvégezni a képzést, mivel egy új szemléletmódot kapnak, valamint segíti az ’outside the box’ gondolkodásmód kialakulását. Nem utolsó sorban pedig azoknak is tudom ajánlani a képzést, akik csak hobbi szinten szeretnének foglalkozni adatelemzéssel és a mesterséges intelligenciával.

Te is átfogó képet kapnál a Data Science módszerekről, és a gyakorlatban is elmélyednél az adatok világában? Akkor jelentkezz ősszel induló Data Science képzésünkre!

Érdekel a Data Science képzés

2022 május 26.

Hozzászólások