Szeiler Pál: Social network mining in data-intensive applications

Önálló projekt, szakmai gyakorlat II

2021/22 II. félév

Témavezetők:
Béres Ferenc (SZTAKI, Informatikai Kutatólaboratórium)
Benczúr András (SZTAKI)
Molnár András József (SZTAKI)

Közösségi hálózatok vizsgálata során gyakran a szöveges, geolokációs és hálózati struktúra együttes elemzésére van szükség a felhasználói viselkedés, vagy az egyes események pontos feltérképezéséhez. A gépi tanulás és mesterséges intelligencia kutatócsoportunk az elmúlt évek során számos nagyméretű Twitter adathalmazt gyűjtött, melyek többek között nemzetközi sporteseményekhez [1], COVID vakcina véleményekhez vagy népszerű kirándulóhelyekhez kötődnek. Az említett adathalmazok esetén egyszerre áll rendelkezésre a tweetek szövege, a felhasználók közötti interakciók gráfja illetve bizonyos esetben a posztokhoz rendelhető geolokáció. A projekt keretében preferált két téma összefoglalása olvasható a továbbiakban.

A csúcs beágyazó (node embedding) módszerek a gráf csúcsait egy alacsony dimenziós euklideszi térbe képezik le oly módon, hogy a reprezentációk megőrizzék az eredeti gráf szomszédsági és strukturális tulajdonságait [2,3,4]. Így a gráf csúcsait a leképezést követően vektor bemenetként adhatjuk át további gépi tanuló eljárásoknak. A projekt keretein belül különböző csúcs beágyazó módszerek elemzésére és a reprezentációk magyarázhatóságának vizsgálatára kerülne sor a fent említett Twitter adatokon.

A projekt keretein belül a hallgatóknak lehetősége nyílna egy nagyméretű geolokációs adat elemzésére is, mely Twitter felhasználók kirándulásaik során tett posztjait tartalmazza. A hallgatók így megvizsgálhatják népszerű kirándulóhelyek és térségek látogatottságának időbeli és térbeli dinamikáját a COVID időszak alatt, de egy olyan ajánlórendszer kidolgozásában is részt vehetnek, amely képes új kirándulóhelyet ajánlani egy felhasználó korábbi tevékenysége alapján. Saját fejlesztésű modul révén az adat hatékonyan összekapcsolható az OpenStreetMap-pel, így a helyszínek jellegéből további feature-ök nyerhetők ki.

Referenciák

[1] Ferenc Béres, Róbert Pálovics, Anna Oláh, and András A Benczúr. Temporal walk based centrality metric for graph streams. Applied Network Science , 3(32):26, 2018.

[2] Aditya Grover and Jure Leskovec. node2vec: Scalable feature learning for networks. In Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining , pages 855864. ACM, 2016.

[3] Nesreen Ahmed, Ryan Rossi, John Lee, Xiangnan Kong, Theodore Willke, Rong Zhou, and Hoda Eldardiry. Learning role-based graph embeddings. In StarAI workshop, IJCAI 2018 , pages 18, 2018.

[4] Ferenc Béres, Domokos M. Kelen, Róbert Pálovics, and András A Benczúr. Node embeddings in dynamic graphs. Applied Network Science , 4(64):25, 2019.

[5] Seunghyun Brian Park, Jinwon Kim, Yong Kyu Lee, Chihyung Michael Ok, Visualizing theme park visitors’ emotions using social media analytics and geospatial analytics, Tourism Management, Volume 80, 2020, 104127, ISSN 0261-5177, https://doi.org/10.1016/j.tourman.2020.104127.

[6] Michael Sinclair, Marius Mayer, Manuel Woltering, Andrea Ghermandi, Using social media to estimate visitor provenance and patterns of recreation in Germany's national parks, Journal of Environmental Management, Volume 263, 2020, 110418, ISSN 0301-4797, https://doi.org/10.1016/j.jenvman.2020.110418.

[7] Andrea Ghermandi, Analysis of intensity and spatial patterns of public use in natural treatment systems using geotagged photos from social media, Water Research, Volume 105, 2016, Pages 297-304, ISSN 0043-1354, https://doi.org/10.1016/j.watres.2016.09.009.

[8] Arjan S. Gosal, Ilse R. Geijzendorffer, Tomáš Václavík, Brigitte Poulin, Guy Ziv, Using social media, machine learning and natural language processing to map multiple recreational beneficiaries, Ecosystem Services, Volume 38, 2019, 100958, ISSN 2212-0416, https://doi.org/10.1016/j.ecoser.2019.100958.

[9] Wilkins, E.J., Wood, S.A. & Smith, J.W. Uses and Limitations of Social Media to Inform Visitor Use Management in Parks and Protected Areas: A Systematic Review. Environmental Management 67, 120–132 (2021). ttps://doi.org/10.1007/s00267-020-01373-7

[10] Wood, S., Guerry, A., Silver, J. et al. Using social media to quantify nature-based tourism and recreation. Sci Rep 3, 2976 (2013). https://doi.org/10.1038/srep02976

[11] Tenkanen, H., Di Minin, E., Heikinheimo, V. et al. Instagram, Flickr, or Twitter: Assessing the usability of social media data for visitor monitoring in protected areas. Sci Rep 7, 17615 (2017). https://doi.org/10.1038/s41598-017-18007-4