Szökrön Dorottya: Fehérje klasszifikáció funkciósosztályok alapján

Önálló projekt, szakmai gyakorlat II

2021/22 II. félév

Témavezető:
Lukács András (ELTE Matematikai Intézet)

Az önálló projekt témája a mesterséges intelligencia, azon belül a gépi/mély tanulás területéről választható. Két preferált téma összefoglalása olvasható a továbbiakban.

Orvosi képfeldolgozás. A projekt keretein belül orvosi képek klasszifikációs, ill. szegmentációs feladataival, az ehhez szükséges gépi/mély tanulási modellek és algoritmusok fejlesztésével, implementálásával, méréseken keresztül történő kipróbálásával lehet foglalkozni. A vizsgált képek sokféle orvosi képalkotó eszközből (röntgen, CT, MRI, ultrahang, endoszkópia), ill. szövetek mikroszkópos felvételeiből jöhetnek. A munka kiterjed a képi előfeldolgozási eljárások vizsgálatára, javítására is. Az alkalmazott technikák főleg konvolúciós rétegekből épülő mély hálókon alapulnak, ill. újabban transformer modellek. Megbeszélés és megfelelő adathalmazok alapján más típusú képekkel, és kapcsolódó feladatokkal is lehet foglakozni, mint pl. műholdképek elemzése, emberi vagy állati testhelyzetek felismerése stb.

Természetes nyelvek, félig strukturált és hálózatos adathalmazok modellezése. A kutatási téma a mesterséges intelligencia, azon belül a gépi tanulás, mély tanulás módszereinek nyelvi, félig strukturált, ill. hálózatos adathalmazok modellezésére való alkalmazhatóságának vizsgálata. Példák a félig strukturált adathalmazokra a naplóállományok, biológiai szekvenciák vagy programkódok, amelyek bár nyelvi elemekből építkeznek, a természetes nyelvnél kötöttebb struktúrákba rendezve. Naplóállományok (logadatok) leírhatják különféle IT rendszerek működését, hálózati forgalmat, biztonsági eseményeket. Tipikus kapcsolódó feladat pl. a normális működéstől eltérő anomáliák keresése. Általánosabban megfogalmazható feladat annak felismerése, hogy az adatok sorai, egységei által leírt elemi események, leírói mikor állnak össze makró szintű jelenségekké, entitásokká. Biológiai szekvencia pl. fehérjék aminosavsorrendje, amiből térszerkezetére, biológiai funkciójára, elhelyezkedésére következtethetünk. Programkódok estében pl. hasonló funkcionalitással rendelkező kódok keresése, a funkciók megcímkézése, vagy akár a kódok javítása lehet a feladat.

Az önálló projekt témája a természetesnyelv-feldolgozás (NLP) módszereinek alkalmazása fehérjeszekvenciák vizsgálatában. Ilyen feladatok a pl. a fehérjék térbeli szerkezetének, vagy annak egyes sajátosságainak predikciója az aminosavszekvencia ismeretében. A munka során össze kívánjuk hasonlítani a szekvenciákat feldolgozó LSTM, 1D konvolúciós, transformer modellek és az ezekre építhető rekurrens geometriai hálózat teljesítményét. További feladat a modellek hatékonyabb tanítása, pl. a transfer learning alkalmazásával.