[Home bibliotech]
Home > Les thèses en ligne de l'INP

Contribution à la modélisation des métadonnées associées aux documents multimédias et à leur enrichissement par l’usage

Manzat, Ana-Maria (2013) Contribution à la modélisation des métadonnées associées aux documents multimédias et à leur enrichissement par l’usage. (Contribution to the modeling of metadata associated to multimedia documents and to their enrichment through the usage.)

Full text available as:

PDF - Requires a PDF viewer such as GSview, Xpdf or Adobe Acrobat Reader
4.86 Mo

Abstract

De nos jours, ce ne sont pas que les collections multimédias qui deviennent de plus en plus volumineuses, mais aussi les métadonnées qui les décrivent. L’extraction des métadonnées est très coûteuse en consommation de ressources. Cela pose le problème de la gestion efficace de ces grands volumes de données, en minimisant cette consommation. Le fait que les utilisateurs sont en constante interaction avec les documents multimédias et les métadonnées complique encore plus cette gestion. Dans cette thèse, nous étudions le problème de la gestion de métadonnées en intégrant les interactions des utilisateurs à deux niveaux: dans le processus de création de métadonnées et dans leur enrichissement. La grande variété de standards et normes de métadonnées existants ne sont pas interopérables. Les solutions proposées à ce problème d’interopérabilité se sont focalisées sur la création d’ontologies qui décrivent les contenus multimédias du point de vue sémantique, sans forcément prendre en compte les standards de métadonnées et d’autres informations de plus bas niveau sur les documents. Pour résoudre ce problème nous proposons un format de métadonnées qui intègre les standards et normes les plus utilisés et qui est flexible et extensible en structure et en vocabulaire. Dans le cadre d’un système de gestion des contenus multimédias, le processus d’indexation est celui qui consomme le plus de ressources, à travers les algorithmes d’indexation qui extraient les métadonnées. Dans les systèmes classiques, cette indexation est accomplie avec un ensemble d’algorithmes d’indexation figé dans le temps, sans se soucier de la consommation des ressources ni de l’évolution des besoins de l’utilisateur. Pour prendre en compte les besoins que l’utilisateur spécifie dans sa requête, afin de n’extraire que les métadonnées nécessaires et ainsi limiter d’un côté le volume de métadonnées à gérer et de l’autre la consommation des ressources, nous proposons de répartir le processus d’indexation en deux phases: une fois à l’acquisition des contenus (indexation implicite), et une deuxième fois, si besoin, au moment de l’exécution de la requête de l’utilisateur (indexation explicite) en ayant recours à une liste d’algorithmes d’indexation déterminée principalement en fonction de la requête de l’utilisateur. L’utilisateur est de plus en plus pris en compte dans les systèmes multimédias à travers ses interactions avec le système et le document. Nous proposons d’aller plus loin dans la prise en compte de l’utilisateur, en considérant ses interactions avec les différentes parties du document mais aussi avec les métadonnées qui décrivent le document. Cela a été réalisé à travers l’extension du format de métadonnées proposée, par l’ajout d une température à chaque élément du format, qui varie dans le temps, étant calculée en fonction de la façon dont l’utilisateur interagit avec le document, mais aussi avec les métadonnées dans une période de temps. Nous avons validé nos propositions dans deux domaines différents: la vidéo surveillance et le commerce électronique. Le projet LINDO nous a permis la validation du format des métadonnées et de la sélection des algorithmes d’indexation dans le cadre de l’indexation explicite, dans le cadre de la vidéo surveillance. Dans le domaine du commerce électronique, nous avons exploité les interactions des utilisateurs réels avec un site de vente en ligne pour calculer la température des métadonnées associées aux pages du site pendant une période de deux mois. Nous avons utilisé cette température pour réaliser le reclassement des résultats obtenus pour une requête de l’utilisateur. Nous avons réalisé un test utilisateur sur une vingtaine de personnes. Ce test montre que pour certaines requêtes de l’utilisateur ce reclassement des résultats aide les utilisateurs à trouver les informations recherchés plus vite. Ce travail a permis de répondre au problème de la prise compte de l’utilisateur dans le processus de gestion des documents multimédias, en proposant: un modèle de métadonnées qui intègre les standards de métadonnées les plus utilisés; l’indexation différée des contenus multimédias (indexation implicite et explicite); l’enrichissement des métadonnées en considérant les interactions des utilisateurs avec le système, les documents multimédias et les métadonnées. ABSTRACT : Nowadays, not only multimedia collections become larger, but also the metadata describing them. The metadata extraction is the most ressource consumming process in the management of multimedia collections. This raises the problem of the efficient management of these large data volumes while minimizing ressource consumption. Users’ constant interactions with multimedia documents and metadata complicate this management process. In this thesis, we adress this problem of metadata management by integrating users’ interactions at two levels: in the process of metadata creation and in their enrichment. The existing metadata standards are heterogenous and not interoperable. The proposed solutions for this interoperability problem focused on creating ontologies that describe the multimedia contents from a semantic point of view, without necessarily taking into account metadata standards and other low level information. To solve this problem, we propose a metadata format that integrates the most widely used metadata standards and which is flexible and extensible in structure and vocabulary. In a multimedia management system, the indexing process is the most resource consumming, through the indexing algorithms that extract metadata. In conventional systems, the indexing is accomplished with a fixed set of indexing algorithms, without considering the resource consumption and users’ changing needs. To take into account the user’s needs, specified in his query, in ordre to extract only the necessary metadata and thus, on one side, to limit the metadata volume and on the other to reduce the resource consumption, we propose to split the indexing process into two phases: first time, at the contents acquisition time (i.e., implicit indexation), and, a second time, if necessary, at the query execution time (i.e., explicit indexation), employing a list of indexing algorithms determined mainly according to the user’s query. The users are more and more taken into account in multimedia systems through their interactions with the system and the documents. We propose to go further in this consideration, by taking into account users’interactions with different parts of the document, and also with the document’s metadata. This was achieved through the extention of the proposed metadata format, by associating a temperature to each metadata element. This temperature is calculated according to the users’ interactions with the document and with the metadata, in a time period. We have validated our proposals in two different domains: vidéosurveillance and e-commerce. The LINDO project has allowed us to validate the metadata format and indexing algorithms selection in the context of explicit indexation, for a video surceillance use case. For the e-commerce, we have used an online shopping site and the interactions of its real users, for a two months period, to calculate the temperature of the metadata associated to the web pages describing the site’s products. We have used this temperature for reranking the results obtained for a user’s query. We conducted a user study with twenty people, which shows that, for some users’ queries, the results reranking helps the users to find faster the desired information. This thesis has addressed the problem of taking into account the user in the multimedia documents management by: (1 )proposing a model metadata that integrates the most used metadata standards; (2) spliting the multimedia indexing in two steps ( implicit and explicit indexation); (3) enriching the metadata according to the users’ interactions with the system, the multimedia documents and the metadata.

Department or laboratory:Institut de Recherche en Informatique de Toulouse - IRIT (Toulouse, France)
Directeur de thèse:Sedes, Florence and Grigoras, Romulus
Uncontrolled Keywords:Documents et métadonnées multimédias - Processus d’indexation - Usage - Interactions des utilisateurs - Température. KEYWORDS : Multimedia documents - Multimedia metadata - Indexing process - Usage - Users’ interactions - Temperature
Subjects:Computer science > Computer systems
Deposited On:08 April 2014

Archive Staff Only: edit this record


Contacts | Infos légales | Plan du site | Intranet

(c)INP de Toulouse 2012 - Tous droits réservés. -  INP Communication