Sokszínű adatok

A 2017-es conTEXT konferencia a hagyományoknak megfelelően a legújabb szöveganalitikai megoldásokról és lehetőségekről szólt, a beszédtechnológia, a sportanalitika, a mesterséges intelligencia vagy éppen a kognitív alkalmazások oldaláról.

A teltházas rendezvény megnyitójában Körmendi György, a Clementine ügyvezetője a szöveganalitikai helyzet változásairól beszélt, mely az elmúlt egy évben is számos újdonságot tartogatott. A chatbotok működését, az interfaceket, vagy éppen a teljes technológiát befolyásoló újdonságok és lehetőségek bemutatásával komplex képet kaptunk az iparág helyzetéről, a felmerülő „merre tovább?” kérdésekről.

Dévényi Edit, a K&H csoport analitikus CRM osztályvezetője 10 olyan megoldást mutatott be, amelyen keresztül a szöveganalitika támogathatja a CRM működését, illetve hozzájárulhat az ügyfélélmény javításához. Megoldásai között szerepelt a chatbotok használata, a geo- és hálózatanalitikai megoldások alkalmazása továbbá a felhasználók érzelmeinek, élményeinek és egymásra vetített hatásainak vizsgálata is. Az általa bemutatott megoldások nagyban segítik azokat az elemzési folyamatokat, amelyek az ügyfél számára legmegfelelőbb ajánlat kidolgozásra hivatottak.

Vada Gergely, a Fusion Vital alapítója előadásában strukturálatlan humán fiziológiai adatok elemzésén alapuló esettanulmányokat mutatott be a profi sport, a fegyveres erők és a civil élet területéről. Kutatásaik, projektjeik során ugyanis szívdobbanások milliárdjainak elemzésén keresztül vizsgálták, hogy mit jelentenek a gyakorlatban azok az elvont fogalmak, mint „sportolói teljesítőképesség”, „ismételt bevethetőség” a katonaságnál vagy „egészséges életvitel” a mindennapokban. Mint kiderült, a pulzusvarianca elemzésével rengeteg értékes adat kinyerhető: a fizikai terhelés, a restitúciós folyamatok eredményessége, az éjszakai regeneráció vagy a mentális felkészültség mind-mind megmutatkozik a pulzus mintázatában, amely ma már könnyen hozzáférhető. Ráadásul nem csupán sportolás vagy egyéb terhelés közben, hanem az új technológia segítségével hasznos információk gyűjthetők a sportoló mindennapjait 80%-ban kitevő, az edzők által közvetlenül kontrolálhatatlan, korábban homályban maradó időszakokról, tevékenységekről (szabadidő, alvás, étkezés, életmód, munka, pihenés, pszichés sajátosságok) is.

Boa László, az IBM cloud architect szakértője Watson chatbot implementációk tanulságairól beszélt. Olyan gyakorlati példákat muatott be, amelyek a mindennapjainkra is nagy hatással vannak, például a vércukormérés területén. A páciensek ugyanis adataik segítségével már nem csak valós idejű betekintést kapnak állapotukba, de Watson segíthet előrejelzéseket készíteni, vagy éppen a kritikus döntések meghozatalában. Az ilyen és ehhez hasonló, személyre szabott megoldások ma már egyre szélesebb körben és egyre több szektorban elterjedtek, miközben kiválóan integrálják az analitikai, mobil, közösségi, biztonsági és felhő technológiákat.

Pancza Judit, a Clementine szöveganalitikai szakértője sorra vette az IBM SPSS Modeler valamint a Watson Explorer hasonlóságait és eltéréseit, a szótáralkotás, a vizualizáció, a felhasználók vagy éppen az alkalmazási lehetőségek szemszögéből. Az így kialakult összehasonlítás nyomán egy speciális demot mutatott be, amely - hibrid megoldásként - a két szoftver legjobb tulajdonságait ötvözve képes hatékony szöveganalitikai elemzésekre, valamint azok vizualizálására


Fegyó Tibor, a SpeechTex ügyvezetője előadásában bemutatta, hogy hol tart jelenleg a magyar nyelvű élőbeszéd leiratozása, milyen speech-to-text eljárások léteznek, ezek milyen erősségekkel illetve hiányosságokkal bírnak. Emellett megismertette a jelenlévőkkel a speech-to-text egy érdekes és összetett fejlesztési területével, a sport közvetítések valós idejű leiratozásával. A gyakorlati életből hozott példáin keresztül láthattuk, hogy milyen komplex és egyben szakterület specifikus tudással kell rendelkeznie egy programnak már egy futballmeccs pontos leiratozásához is.

Sztahó Dávid, a BMT TMIT kutatója újra megerősített mindenkit abban, hogy a beszédünkben rejlő nem-verbális információ sok mindent elárul rólunk. A beszéd a természetes kommunikációnk egyik alapvető eszköze, ám ezen kívül a hangok képzését befolyásolja a mindenkori egészségi és érzelmi állapotunk is. Az előadás során a résztvevők megismerhették a hang-alapú érzelem azonosítás során fellépő feladatokat, a felismerés információtechnológiai folyamatát, az alkalmazás gyakorlati problémáit, valamint a jelenlegi state-of-the-art megoldásokat. A gyakorlati alkalmazási területek és a felmerülő gyakorlati problémák bemutatása betekintést nyújtott a téma iránt érdeklődők számára.

A Precognox képviseletében Ilyés Virág (Data Scientist), Katona Eszter (Junior Data Scientist) valamint Varjú Zoltán (Head of Data Science) mutatták be tartalomelemzési kutatási projektjüket. Azt mindenki tudja, hogy a sajtóban megjelenő cikkek nem csak szöveges információt tartalmaznak, egy írás nem csak nyelvi, hanem képi eszközökkel is él. De vajon ugyanolyan módon tematizálják-e az egyes híroldalak szöveges és képi tartalmai a tárgyalt témákat? Kutatásuk során a migrációs válság kapcsán a hazai online médiában megjelent több mint negyvenezer cikket és a hozzájuk tartozó majd' tízezer képet elemezték, hogy megtudják a választ az author-topic model eljárás segítségével.

A konferencia zárásaként Máté Anna, a Clementine elemzője a nyári slágerek világába kalauzolt mindenkit – természetesen a szöveganalitika irányából. Kutatásában a dalszövegekből létrehozott adatbázis az SPSS Modeler szoftverben került tisztításra, -rendszerezésre, majd a Text Analytics megoldás segítségével specifikus szótárt készített. Előadásában ezen szótár létrehozásának kihívásait részletezte a magyar nyelvben található egyalakú- és hasonló alakú szavak, a homonimák vagy éppen a több jelentés problémájának kiszűrésével. A megoldásokat három irányból is bemutatta: szinonima, kézi szabály valamint szófaj alapján. Az elemzés végére pedig az is kiderült, hogy milyen szavakat, kifejezéseket használnak a magyar könnyűzenei élet szereplői a legmenőbb nyári slágerek megalkotásához.

Data science a piackutatás területén

Szeptember 26-án, kedden 16 órakor folytatódott a „Ha nagy leszek data scientist leszek! De hol?!” meetup sorozatunk, ahol ezúttal kifejezetten a piackutatás területén zajló adatelemzési gyakorlatokba tekinthettünk be

Az új helyszínen, a Kaptár Budapest termében megtartott rendezvény érdekes témákat tartogatott:

  • Pancza Judit, a Clementine szöveganalitikai szakértője gyakorlati példát hozott, melyet az IBM SPSS Modeler segítségével prezentált. A FINA vizes világbajnokság alatt született bejegyzésekben szavak, kifejezések, hashtegek gyakoriságát, a tendencia alakulását vizsgálta – most pedig a meetup résztvevőinek a konkrét folyamatot mutatta be.
    Aki esetleg lemaradt az előadásról, annak ajánljuk figyelmébe a projekt rövid összefoglalóját: http://www.clementine.hu/hirek-2/igy-szurkoltunk-a-vizes-vb-alatt
  • Máté Anna, a Clementine elemzője szintén egy szöveganalitikai projekttel készült, méghozzá a rádiós slágerlisták világából. Kutatásában a dalszövegekből létrehozott adatbázis az SPSS Modeler szoftverben került tisztításra, -rendszerezésre, majd a Text Analytics megoldás segítségével specifikus szótárt készített. Az elemzés végére pedig az is kiderült, hogy milyen szavakat, kifejezéseket használnak a magyar könnyűzenei élet szereplői a legmenőbb nyári slágerek megalkotásához.
    Érdekel a téma? További információ itt: http://www.clementine.hu/hirek-2/szoveganalitikaval-slagert-lehetseges
  • Molnár Sándor, az Ariosz energia üzletágvezetője egy nemzetközi fogyasztásváltozás-vizsgálat tapasztalatairól számolt be egy okosmérés kutatás bemutatásával. Konzorciumi vezetőként az Ariosz szakemberei a projekt során a fogyasztói szegmentációt végezték el, méghozzá metaklaszterezési eljárással. A cél az volt, hogy azonosítani tudják a tipikus fogyasztói mintázatokat, majd őket perszonalizált kommunikációval érjék el.
  • Szerencsés Tibor, az IPSOS üzletfejlesztési vezetőjeként és tapasztalt kutatóként a piackutatás egészéről, az új trendekről tartott bemutatót, konkrét példákkal színesítve: online eye tracker megoldások, vásárlási élmény a virtuális valóságban.
  • Könyves Tóth Előd, a Clementine szakértője az IBM SPSS Statistics verziófrissítése kapcsán mutatta be annak újdonságait, kifejezetten a bayes-i és hagyományos statisztikai eljárások különbségeire fókuszálva.

A gyakorlati bemutatók már az előadások közben kérdéseket generáltak, majd a hivatalos program végén további érdekes beszélgetésekre került sor. A meetup sorozatunk hamarosan folytatódik, a következő dátumért és további információért érdemes honlapunkat böngészni: clementine.hu/datastream

Szöveganalitikával slágert? Lehetséges!

Vajon mitől függ, hogy egy zeneszám a slágerlisták élére kerül, vagy sem? Van élet a Despacito-n túl? Milyen szavakat, kifejezéseket használnak a magyar könnyűzenei élet szereplői a legmenőbb nyári slágerek megalkotásához? A Clementine szöveganalitikai elemzésen alapuló kutatásából többek között kiderül, hogy ’mire várunk?’ vagy hogy ’melyik a legtöbbet megénekelt testrészünk?’.

Az Axis of Awesome – ’Four Chord Song’ című produkciója óta köztudott, hogy nem feltétlen az egyedi, fülbemászó dallamok jelentik egy-egy zenei alkotás számára a siker kulcsát. A jól megválasztott szavak, kifejezések ugyanolyan fontosak a csúcsra jutáshoz. Ezt bizonyítandó, a szöveganalitikai megoldásokkal és adatbányászattal foglalkozó Clementine feldolgozta a 30. hét rádiós játszási listáinak Top 40 magyar nyelvű dalát, és a szövegek elemzésével vizsgálta a leginkább használt népszerű szavak, kifejezések előfordulását, rendszerességét. (Az elemzés alapjául szolgáló rádiós lista itt érhető el: http://zene.slagerlistak.hu/magyar-radios-top-40-slagerlista/2017/30.)

A módszertani szempontból első ránézésre sem egyszerű feladat (a dalszövegekből létrehozott adatbázis az SPSS Modeler szoftverben került tisztításra, -rendszerezésre, majd a Text Mining megoldás segítségével egy területspecifikus szótár kapcsolódott az adatokhoz) során kiderült, hogy a helyzet még bonyolultabb. A magyar nyelvű dalszövegek izgalmas részét képezik ugyanis azon kifejezések, melyek egy-egy kontextusban eltérő jelentéssel bírnak: mindenki ég a vágytól és sokan ezt éppen a kék ég alatt teszik; gyakran fúj a szél, miközben a szakadék szélén ácsorognak; de nyáron a hajunkat is feltűzzük, ha a lobog a tábortűz, meg ne égjen. Ezért olyan szótárt kellett létrehozni, amely tartalmaz a dalszövegekre jellemző szókészletet mellett olyan szabályokat is, amelyek kiküszöbölhetővé teszik a sok azonos alakú kifejezést, illetve felismerik a legjellemzőbb szószerkezeteket is.


Az elemzés végeredményeként készült ábráról kiderül, mit hallgatunk szívesen a nyáron, mik azok a kifejezések és trópusok, amelyek vissza-visszatérnek. Így már gyerekjáték lesz megírni a jövő nyár legnagyobb slágerét ;)

Így szurkoltunk a vizes vb alatt

Nemcsak élőben, a helyszínen vagy a TV képernyője előtt ülve szurkoltuk végig a 2017-es vizes vb-t. Aktívak voltunk a közösségi médiában is, szinte minden részeredményt és eredményt azonnal kommentált a magyarok jó része. A vb alatt leggyakrabban a #hajrá magyarok, a #vizilabda és a #duna aréna hashtag-eket írtuk le.

A közösségi oldalak közül a magyarok leggyakrabban a Facebook-ot használják, így a vizes vb alatt is itt született a legtöbb bejegyzés. A szurkolók több, mint háromezer nyilvános bejegyzésben osztották meg, hol és hogyan szurkolnak a magyar sportolóknak, milyen eseményeken vettek részt vagy melyik sportág a kedvencük. Kommentálták természetesen az eredményeket is. 

Elemzésünkben azt vizsgáltuk, milyen hashtag-eket és szavakat, kifejezéseket használtunk a leggyakrabban az elmúlt napokban, a vb-vel kapcsolatban. Letöltöttük a #finabudapest2017 és #avizösszeköt hashtaggel ellátott nyilvános bejegyzéseket. Az adatokat rendszereztük és elemezhető formába hoztuk, különválasztottuk a hashtageket, a bejegyzés szövegét, valamint időpontját. Ezeket nem manuálisan, hanem szövegbányászati eszközökkel dolgoztuk fel, az IBM SPSS platformba integrált magyar nyelvi elemzésre képes Clemtext megoldásunk segítségével. Az eredményt videóban foglaltuk össze napi bontásban. 

A #hashtag-ekből, szógyakoriságokból gyakorlatilag kirajzolódik a teljes program. Így például a nyitónapon még a #megnyitó vezetett, majd később az egyes sportágak, sportolók nevei, valamint a #döntö kifejezések is beléptek. A teljes vb ideje alatt leggyakrabban a #hajrá magyarok, a #vizilabda és a #duna aréna hashtag-eket írtuk le.
A sportágak közül a #szinkronuszas, a #toronyugras, az #úszás és kapcsolódó szavak, mint a távokra utaló 200, 400 vagy az versenyszámokra utaló vegyes, váltó, valamint a #vizilabda kifejezések szerepeltek leginkább, ezek közül is kiemelkedett a #vizilabda. A sportolók közül pedig a legtöbbször Cseh László, Hosszú Katinka, Kenderesi Tamás neve szerepelt hashtag-ként.

 

dataSTREAM meetup - összefoglaló

Milyen egy data scientist munkája a pénzügyi szektorban?

Június 20-án, kedden délután 16 órakor tartottunk meetup sorozatunk következő rendezvényét, mely most is a „Ha nagy leszek data scientist leszek! De hol?!” témakörét járta körül, ezúttal kifejezetten a pénzügyi szektor lehetőségeit vizsgálva. Ezen iparágban ugyanis nap mint nap hatalmas mennyiségű adat keletkezik, gondoljuk csak a banki ügyletekre vagy éppen a biztosítási esetekre. A csalás felderítés, az ügyfél ajánlatok összeállítása vagy például a churn-menedzsment szempontjából is hasznos megoldások, előrejelzések ma már mindennaposak, fontos szerepük van a szolgáltatások fejlesztésében.

Rekordszámú jelentkező és négy érdekes és hasznos előadás – ez a meetup mérlege, melyen a következő témákat hallhatták a résztvevők:

  • Máté Anna, a Clementine elemzője a biztosítási csalások hatásaira hívta fel a hallgatóság figyelmét. Az elemző a gépjármű-biztosítási csalásokkal foglalkozott részletesebben: ezeknek egy részét egyedül követik el, azonban a nagy horderejű csalás-sorozatokat csoportosan hajtják végre. Ezen csoportok jó eséllyel felderíthetők kapcsolatiháló-elemzéssel, melynek felderítésére konkrét példát láthattunk az előadásban.
  • György Ádám, az OTP Bank elemzési szakértője előadásban ismertetett egy rövid és tanulságos üzleti esetet, amely többek között arról szól, hogy milyen adatelemzési és feldolgozási szolgáltatók vannak jelen a globális piacon; mit kezdhetünk az ilyen szolgáltatásokkal; milyen típusú adatelemzési projekteknél érdemes külső partnert bevonni, valamint, hogy hol tart most az OTP Bank a nemzetközi benchmarkhoz képest elemzői kompetenciában és kapacitásban.
  • Farkas Bálint, a Microsoft képviseletében az AI, vagyis a mesterséges intelligencia felhasználását mutatta be a bankszektorban: kifejezetten az automatizált ügyintézés, valamint a személyre szabott felhasználói élmény területein. Kitért a hitelesítetten biztonságos felhő alapú megoldásokra, azok előnyeire, lehetőségeire. Bemutatójában prezentálta a cég Azure platformján futó adatbányász alkalmazásait.
  • Az IBM adatbányász, üzleti elemző és alkalmazás fejlesztésért felelős szakemberek véleményei alapján készítette legújabb platformját, mely a valós életbeli munkafolyamatok jelentős felgyorsítását célozza meg – ezt mutatta be a cég képviseletében Huszti Dániel. A felület legfőbb ereje a kollaboratív tevékenységben és a fejlett analitikai eszközök egyetlen platformba történő integrálásában rejlik. Az előadás során a résztvevők megismerkedhettek az IBM Watson Data Platform ökoszisztémájával és a pénzügyi szektor számára releváns megoldásaival.


Az eőadások különlegességét az is biztosította, hogy merőben eltérő megoldásokat láthattunk a data science területén, akár konkurens cégektől is. Mindegyik előadás további beszélgetéseket generált, melyekre a hivatalos program végeztével került sor.


A meetup sorozatunk hamarosan folytatódik, a következő dátumért és további információért érdemes honlapunkat böngészni: clementine.hu/datastream

 

dataSTREAM meetup - Data science a pénzügyi szektorban

Június 20-án, kedden délután 16 órakor folytatódik meetup sorozatunk, melyben ezúttal a pénzügyi szektorban rejlő adatelemzési megoldásokat, lehetőségeket szeretnénk bemutatni az érdeklődőknek.

A korábbi alkalmakon beszéltünk arról, hogy merre tart a data science jövője, mik a legújabb trendek, lehetőségek. Ezúttal kifejezetten a pénzügyi szektorban alkalmazott adatelemzési módszereket, best practice megoldásokat vizsgáljuk. Ezen iparágban ugyanis nap mint nap hatalmas mennyiségű adat keletkezik, gondoljuk csak a banki ügyletekre vagy éppen a biztosítási esetekre. A csalás felderítés, az ügyfél ajánlatok összeállítása vagy például a churn-menedzsment szempontjából is hasznos megoldások, előrejelzések ma már mindennaposak, fontos szerepük van a szolgáltatások fejlesztésében.

Ezúttal három előadás során ismerhetjük meg a cégeknél zajló konkrét adatelemzői folyamatokat:

1. Farkas Bálint, Microsoft - Cloudization and AI in banking

Farkas Bálint előadásában az AI, vagyis a mesterséges intelligencia felhasználását mutatja be a bankszektorban: az automatizált ügyintézés, valamint a személyre szabott felhasználói élmény területein. Kitér a hitelesítetten biztonságos felhő alapú megoldásokra, azok előnyeire, lehetőségeire.

2. György Ádám, OTP Bank Nyrt. - Elemzési gyakorlatok a piacon – tanulságok a Bankban

György Ádám, az OTP Bank elemzési szakértője előadásban ismertet egy rövid és tanulságos üzleti esetet, amely többek között arról szól, hogy milyen adatelemzési és feldolgozási szolgáltatók vannak jelen a globális piacon; mit kezdhetünk az ilyen szolgáltatásokkal, valamint, hogy hol tart most az OTP Bank a nemzetközi benchmarkhoz képest elemzői kompetenciában és kapacitásban.

3. Máté Anna, Clementine

Máté Anna, a Clementine elemzője a biztosítási csalások hatásat vizsgálja előadásában. Szakértők becslése szerint az összes bejelentés 5-10%-a lehet csalás, pedig a csalások felderítésével a biztosítócégek elkerülhetnék a jogosulatlan kifizetéseket, amelyek több milliárd forint kifizetést is jelenthetnek évente.

Az előadások után lehetőség nyílik informális kapcsolatteremtésre az érdeklődők számára.

A rendezvény ingyenes.
Jelentkezni lehet e-mail-ben a meetup@clementine.hu e-mail címen vagy a https://www.meetup.com/Budapest-dataSTREAM-Meetup-Series/events/240602591/ oldalon.