Szőcs-Nagy, Medárd (2025) Zenehallgatási szokások elemzése Pythonban. BA/BSc, Faipari Mérnöki és Kreatívipari Kar (2013-tól 2021.06.30-ig: Simonyi Károly Műszaki, Faanyagtudományi és Művészeti Kar).
|
PDF
FMK-73-2025-SZ.pdf Hozzáférés joga: Csak nyilvántartásba vett egyetemi IP-kről nyitható meg Download (4MB) |
Absztrakt (kivonat)
(English version below) A szakdolgozat célja annak vizsgálata, hogy mely zenei műfajok és streaming platformok kapcsolódnak intenzívebb felhasználói elmélyüléshez, amelyet hosszú hallgatási szakaszok és változatos hallgatói viselkedések jellemeznek. A vizsgálat leginkább a népszerűbb műfajokra és azok jellemzőire fókuszál. Az elemzés alapját a ListenBrainz nyílt adatbázisból gyűjtött, API lekérésekkel kiegészített és tisztított hallgatási események milliói képezik. Első sorban konzekvens döntési sorozatokon alapuló Python-adatfeldolgozó szkriptet készítettem. Ezt követően beágyazás-alapú műfajreprezentációt alkalmaztam a Sentence-Transformers könyvtár segítségével, dimenziócsökkentést végeztem UMAP és PCA módszerekkel, majd klaszterezést hajtottam végre HDBSCAN és AgglomerativeClustering algoritmusokkal a koherens zenei csoportok azonosítására. A hallgatói sokféleséget (diverzitást) Simpson-index, Shannon-entrópia és ENS segítségével mértem, míg a klasztereken belüli kohéziót (összesített koszinusz-szimilaritás) és klaszterméret közötti kapcsolatot Pearson- és Spearman-korrelációval, lineáris illesztéssel és LOWESS simítással vizsgáltam. Az adatok vizualizációját elsősorban Matplotlib és Seaborn, kiegészítő interaktív ábrákat Plotly segítségével készítettem, például műfajpárok felfedezéséhez. Az előfeldolgozott adatok JSON és/vagy PostgreSQL formátumban vannak tárolva. Ezen felül a dolgozat vizsgálja azokat a tényezőket (platformfunkciók, lejátszási listák és ajánlórendszerek), amelyek befolyásolják a felhasználói viselkedést, hallgatói sokféleséget és elköteleződést a modern zenei streaming platformokon, különös tekintettel a Spotify üzleti modelljére, ahol a hallgatói sokféleség növelése hozzájárul a felhasználók megtartásához és a bevétel növekedéséhez. A dolgozat bemutatja, szükség esetén összehasonlítja a használt könyvtárakat, valamint külön figyelmet fordít a kiugró adatokra. A dolgozat három fő részre bontható: adatgyűjtés és előfeldolgozás; fejlett technológiák alkalmazása (Python, SentenceTransformers, klaszterezési algoritmusok); valamint statisztikai elemzések, vizualizációk és az ezekből levont következtetések. This thesis aims to determine which music genres and streaming platforms are linked to deeper forms of listener immersion, defined by long listening sessions and diverse listening behaviour. The focus will be on the more popular genres and their characteristics. The research is based on millions of listening events collected and cleaned from the ListenBrainz open database. I developed a Python-based data-processing pipeline, followed by embedding-based genre representation using a modern library called Sentence-Transformers, dimensionality reduction with UMAP and PCA, and clustering via HDBSCAN and AgglomerativeClustering to identify coherent musical groups. I used Simpson index, Shannon entropy and ENS to measure users’ listening diversity, and Pearson and Spearman correlation with linear fit and LOWESS smoothing were used to examine whether cohesion (overall cosine similarity within clusters) declines over cluster size. Visualisations were produced primarily with Matplotlib and Seaborn, with additional interactive plots generated through Plotly for exploratory analyses such as genre-pair discovery. All processed data were stored in JSON and/or PostgreSQL formats. Furthermore, the thesis explores the factors such as platform features, playlists and recommendation algorithms influencing user behaviour, listening diversity and engagement patterns on modern music-streaming platforms, paying particular attention to Spotify’s business model, where listening diversity has been shown to support user retention and revenue growth. The thesis highlights the libraries used and pays special attention to outlying data. The thesis could be described by three main parts: data collection and preprocessing; the application of advanced technologies such as Python, embedding models and clustering algorithms; and statistical analyses with visualization and insights.
Magyar cím
Zenehallgatási szokások elemzése Pythonban
Angol cím
Analysis of Music Listening Habits Using Python
Intézmény
Soproni Egyetem
Kar
Tanszékcsoport/intézet
FMK - Alkalmazott Tudományi Intézet
Szak
NEM RÉSZLETEZETT
Témavezető(k)
Helyi kari azonosító
FMK-73-2025-SZ
| Mű típusa: | Szakdolgozat |
|---|---|
| Felhasználói azonosító szám (ID): | Medárd Szőcs-Nagy |
| Dátum: | 07 Dec 2025 14:55 |
| Utolsó módosítás: | 07 Dec 2025 14:55 |
| URI: | http://diploma.uni-sopron.hu/id/eprint/16261 |
Actions (login required)
![]() |
Tétel nézet |

