Szakács Lili Kata: Gráfbeágyazó (Graph embedding) algoritmusok performanciája

Önálló projekt, szakmai gyakorlat II

2021/22 II. félév

Témavezetők:
Béres Ferenc (SZTAKI, Informatikai Kutatólaboratórium)
Benczúr András (SZTAKI)
Molnár András József (SZTAKI)
Beszámoló:

Közösségi hálózatok vizsgálata során gyakran a szöveges, geolokációs és hálózati struktúra együttes elemzésére van szükség a felhasználói viselkedés, vagy az egyes események pontos feltérképezéséhez. A gépi tanulás és mesterséges intelligencia kutatócsoportunk az elmúlt évek során számos nagyméretű Twitter adathalmazt gyűjtött, melyek többek között nemzetközi sporteseményekhez [1], COVID vakcina véleményekhez vagy népszerű kirándulóhelyekhez kötődnek. Az említett adathalmazok esetén egyszerre áll rendelkezésre a tweetek szövege, a felhasználók közötti interakciók gráfja illetve bizonyos esetben a posztokhoz rendelhető geolokáció. A projekt keretében preferált két téma összefoglalása olvasható a továbbiakban.

A csúcs beágyazó (node embedding) módszerek a gráf csúcsait egy alacsony dimenziós euklideszi térbe képezik le oly módon, hogy a reprezentációk megőrizzék az eredeti gráf szomszédsági és strukturális tulajdonságait [2,3,4]. Így a gráf csúcsait a leképezést követően vektor bemenetként adhatjuk át további gépi tanuló eljárásoknak. A projekt keretein belül különböző csúcs beágyazó módszerek elemzésére és a reprezentációk magyarázhatóságának vizsgálatára kerülne sor a fent említett Twitter adatokon.

A projekt keretein belül a hallgatóknak lehetősége nyílna egy nagyméretű geolokációs adat elemzésére is, mely Twitter felhasználók kirándulásaik során tett posztjait tartalmazza. A hallgatók így megvizsgálhatják népszerű kirándulóhelyek és térségek látogatottságának időbeli és térbeli dinamikáját a COVID időszak alatt, de egy olyan ajánlórendszer kidolgozásában is részt vehetnek, amely képes új kirándulóhelyet ajánlani egy felhasználó korábbi tevékenysége alapján. Saját fejlesztésű modul révén az adat hatékonyan összekapcsolható az OpenStreetMap-pel, így a helyszínek jellegéből további feature-ök nyerhetők ki.

Csúcs beágyazó (node embedding) módszerek vizsgálata.