Subject headings and the word. Machine processing of interview collections at the Centre for Social Sciences.

Horváth, Anna and Szöllősi, Melinda and Annus, Szabolcs (2023) Subject headings and the word. Machine processing of interview collections at the Centre for Social Sciences. [Data Collection]


A Társadalomtudományi Kutatóközpont Mesterséges Intelligencia Nemzeti Laboratórium a TK MILAB Speaker Series című rendezvénysorozatában online kutatásbeszámolókat, beszélgetéseket tart a mesterséges intelligencia társadalmi hatásairól. A sorozat 2023. január 31-i állomását a TK Kutatási Dokumentációs Központja (KDK) szervezte „Tárgyszavak és a világ. Gépi feldolgozás a TK társadalomtudományos interjúiban” címmel. Az előadáson Horváth Anna (TK KDK), Szöllősi Melinda (ELTE TáTK PhD) és Annus Szabolcs (ELTE TáTK PhD) kutatási összefoglalóját ismertették a projekt résztvevői. Az eseményt Gárdos Judit (TK KDK és TK SZI) moderálta. Az előadás absztraktja: A természetesnyelv-feldolgozás (Natural Language Processing) egyre elterjedtebb módszertanná növi ki magát a társadalomtudományi szövegelemzés területén. Újabban az adatrepozitóriumok világában is mind nagyobb teret nyer ez az innovatív módszertani megközelítés. A TK Kutatási Dokumentációs Központjának és a SZTAKI Elosztott Rendszerek Osztályának munkatársai a MILAB pilot projekt keretei között a KDK és a 20. Század Hangja Archívum és Kutatóműhely interjús gyűjteményeihez tartozó metaadatok gazdagítását tűzték ki célul. A projekt célja, a feladathoz összeállított társadalomtudományos tárgyszókészlet alkalmazásával, gépi szövegelemzési technikák tesztelésével, majd a legmegfelelőbb kiválasztásával tárgyszavakat (tartalmat leíró címkéket) társítani a KDK interjús anyagaihoz. Az így kapott új metaadatok által az anyagok újabb kutatások számára nyílnak meg, szélesebb kutatói és érdeklődői kör számára válnak láthatóvá, hozzáférhetővé. Az előadás kitér a munka eddigi lépéseire, a KDK-tárgyszókészlet összeállításának módjára, a gépi tárgyszógenerálás manuális előkészítése és utólagos validálása során felmerülő módszertani és episztemológiai kérdésekre, az elért eredményekre, valamint a felhasználás tervezett módjaira. A TK Speaker Series 2022 őszi-téli előadássorozatának további alkalmai: 2022.09.13.: Gelányi Péter, Járay István: Revisiting the Viscosity and Power of Legislatures: A Text Reuse Analysis with Data for Hungary 2022.09.20.: Sik Endre: A morális pánikgomb (MPG) működésének modellezése hagyoményos és NLP modellekkel 2022.09.27.: Üveges István: Aspect based emotion analysis of Hungarian parlamentary speeches 2022.10.11.: Máté Ákos: Measuring monetary sentiment in the European Central Bank communication using large language models 2022.11.08.: Kiss László, Molnár Csaba: Pártszakadások vizsgálata szövegbányászati eszközökkel 2022.11.22.: Péli Gábor: Formal modelling legal concept ambiguity. Conceptualization and operationalisation for testing 2023.01.10.: Ságvári Bence: Framing artificial intelligence in the Hungarian online media 2023.01.17.: Kmetty Zoltán: Code it again! Capturing the changing narratives of anti-vaccination 2023.01.24.: Janky Béla: Datasheet: Synthetic data for better estimations of causal effects 2023.02.07.: Octopus Research Tools alkalmazás bemutatása 2023.02.21.: Bai Attila, Balogh Péter, Czibere Ibolya, Kovács Imre, Megyesi Boldizsár: A magyar farmok drónhasználatának a meghatározói

The Centre for Social Sciences Artificial Intelligence National Laboratory is hosting a series of online research presentations and discussions on the societal impact of artificial intelligence, named TK MILAB Speaker Series. The event on January 31 2023 was organised by the Research Documentation Centre under the title "Subject headings and the word. Machine processing of interview collections at the Centre for Social Sciences." a presentation - Anna Horváth (TK KDK), Melinda Szöllősi (ELTE TáTK PhD) and Szabolcs Annus (ELTE TáTK PhD) - on their research summary. The event was moderated by Judit Gárdos (TK KDK and TK SZI). Abstract of the presentation: Natural Language Processing (NLP) is becoming a widely used methodology in the field of social science text analysis. Recently, this innovative methodological approach is also gaining ground in the world of data repositories. Within the MILAB pilot project, the staff of the Research Documentation Centre (TK) and the Department of Distributed Systems (SZTAKI) aimed at enriching the metadata of the interview collections of the KDK and the Voices of the 20th Century Archive and Research Group. The aim of the project is to assign subject headings (content tags) to the KDK interview material by using a set of sociologically relevant topics, testing machine text analysis techniques and selecting the most appropriate ones. The new metadata will open up the interview collection for further research projects, making it visible and accessible for those interested. The presentation covers the steps of the work so far, the way in which the KDK thesaurus (controlled vocabulary) was compiled, the methodological and epistemological issues encountered during manual preparation and validation of the machine-based coding, the results obtained, and the planned ways of use.

Legal and ethical issues

Title in English: Subject headings and the word. Machine processing of interview collections at the Centre for Social Sciences.
Keywords: interjúk, MI, gépi tanulás
Keywords in English: interviews, AI, machine learning
Subjects: H Social Sciences > H Social Sciences (General)
Divisions: Research Documentation Centre (KDK)
Research funder: TK MILAB
Depositing User: Júlia Egyed-Gergely
Date Deposited: 30 Mar 2023 13:33
Last Modified: 28 Apr 2023 12:04

Actions (login required)

View Item View Item

Available files