Titre : | Noyaux de mots et d'arbres : efficacité et unification | Type de document : | texte manuscrit | Auteurs : | Slimane Bellaouar, Auteur ; Djelloul Ziadi, Directeur de thèse ; Hadda Cherroun, Directeur de thèse | Editeur : | Laghouat : Université Amar Telidji - Département d'informatique | Année de publication : | 2018 | Importance : | 173 p | Format : | 27 cm | Accompagnement : | 1 disque optique numérique (CD-ROM) | Langues : | Français | Catégories : | THESES :10 informatique
| Mots-clés : | Apprentissage automatique Noyau rationnel Noyau de mots Noyau d’arbres Noyau sous-séquences de mots Efficacité unification Arbre d’intervalles de somme en couches Automate pondéré Noyau d’ensembles de séquences | Résumé : | L’apprentissage automatique fait appel à des méthodes intelligentes d’analyse de données qui consistent à extraire automatiquement de l’information significative à partir des collections de données massives. Cependant, les méthodes classiques de l’apprentissage automatique sont des méthodes linéaires. Elles sont souvent très bien adaptées à des documents plats. Dans la pratique, de nombreuses applications disposent de données qui peuvent être représentées naturellement sous une forme structurée (séquences, arbres, graphes, . . .). Les méthodes à noyaux constituent des approches efficaces disposant d’un fondement théorique solide pour prendre en charge ce type de données. Elles ont été largement utilisées pour l’apprentissage automatique à partir des données structurées.
L’objectif de notre travail est double. En premier lieu, nous nous sommes focalisés sur l’aspect efficacité, qui est une propriété clé des méthodes à noyaux. Dans cette perspective nous avons ciblé le noyau sous-séquences de mots (string subsequence kernel, SSK), qui est utilisé avec succès dans plusieurs tâches de l’apprentissage automatique. L’idée de base de notre approche consiste à réduire le calcul du noyau SSK à un problème géométrique. Plus précisément, nous avons fait appel à un arbre d’intervalles en couches (layered range tree, LRT) pour lequel nous avons appliqué les algorithmes de géométrie calculatoire correspondants.
Dans une perspective d’améliorer notre approche, nous avons étendu la structure de données arbre d’intervalles en couches (LRT) à un arbre d’intervalles de somme en couches (layered Range Sum Tree, LRST) doté des opérations d’agrégation. De même, nous avons présenté des évaluations empiriques de l’approche étendue, à la fois sur des données synthétiques et des données réelles extraites des articles de presse. les résultats ont montré l’efficacité de notre approche pour des alphabets de grande taille, à l’exception des mots trop courts.
Le second objectif de la thèse consiste à contribuer au développement d’une théorie d’unification des méthodes liées à l’apprentissage automatique. En fait, dans les dernières années, un effort important a été consacré aux noyaux de séquences en se concentrant sur des problèmes spécifiques conduisant, ainsi, à une variété d’approches. Dans ce contexte, nous avons proposé une plateforme générale qui s’occupe de l’évaluation des noyaux de séquences. En effet,la projection d’un mot s dans un espace de redescription de haute dimension peut être modélisée par une série formelle réalisée par un automate pondéré (weighted automaton, WA) As représentant toutes les sous-séquences de s. Le calcul du noyau toutes sous-séquences K(s; t) entre deux mots s et t est le comportement de l’automate pondéré As;t = As \ At.
Pour une évaluation efficace d’un tel noyau, nous avons proposé une nouvelle technique d’intersection d’automates (intersection par anticipation). les résultats des expérimentations ont révélé que l’évaluation du noyau toutes sous-séquences utilisant notre technique est plus rapide que celle utilisant l’intersection standard. De plus, nous avons pu généraliser notre modèle à base d’automates pondérés pour créer un nouveau noyau d’ensembles de séquences qui peut être vu comme un noyau d’arbre. | note de thèses : | Thèse de doctorat en informatique |
Noyaux de mots et d'arbres : efficacité et unification [texte manuscrit] / Slimane Bellaouar, Auteur ; Djelloul Ziadi, Directeur de thèse ; Hadda Cherroun, Directeur de thèse . - Laghouat : Université Amar Telidji - Département d'informatique, 2018 . - 173 p ; 27 cm + 1 disque optique numérique (CD-ROM). Langues : Français Catégories : | THESES :10 informatique
| Mots-clés : | Apprentissage automatique Noyau rationnel Noyau de mots Noyau d’arbres Noyau sous-séquences de mots Efficacité unification Arbre d’intervalles de somme en couches Automate pondéré Noyau d’ensembles de séquences | Résumé : | L’apprentissage automatique fait appel à des méthodes intelligentes d’analyse de données qui consistent à extraire automatiquement de l’information significative à partir des collections de données massives. Cependant, les méthodes classiques de l’apprentissage automatique sont des méthodes linéaires. Elles sont souvent très bien adaptées à des documents plats. Dans la pratique, de nombreuses applications disposent de données qui peuvent être représentées naturellement sous une forme structurée (séquences, arbres, graphes, . . .). Les méthodes à noyaux constituent des approches efficaces disposant d’un fondement théorique solide pour prendre en charge ce type de données. Elles ont été largement utilisées pour l’apprentissage automatique à partir des données structurées.
L’objectif de notre travail est double. En premier lieu, nous nous sommes focalisés sur l’aspect efficacité, qui est une propriété clé des méthodes à noyaux. Dans cette perspective nous avons ciblé le noyau sous-séquences de mots (string subsequence kernel, SSK), qui est utilisé avec succès dans plusieurs tâches de l’apprentissage automatique. L’idée de base de notre approche consiste à réduire le calcul du noyau SSK à un problème géométrique. Plus précisément, nous avons fait appel à un arbre d’intervalles en couches (layered range tree, LRT) pour lequel nous avons appliqué les algorithmes de géométrie calculatoire correspondants.
Dans une perspective d’améliorer notre approche, nous avons étendu la structure de données arbre d’intervalles en couches (LRT) à un arbre d’intervalles de somme en couches (layered Range Sum Tree, LRST) doté des opérations d’agrégation. De même, nous avons présenté des évaluations empiriques de l’approche étendue, à la fois sur des données synthétiques et des données réelles extraites des articles de presse. les résultats ont montré l’efficacité de notre approche pour des alphabets de grande taille, à l’exception des mots trop courts.
Le second objectif de la thèse consiste à contribuer au développement d’une théorie d’unification des méthodes liées à l’apprentissage automatique. En fait, dans les dernières années, un effort important a été consacré aux noyaux de séquences en se concentrant sur des problèmes spécifiques conduisant, ainsi, à une variété d’approches. Dans ce contexte, nous avons proposé une plateforme générale qui s’occupe de l’évaluation des noyaux de séquences. En effet,la projection d’un mot s dans un espace de redescription de haute dimension peut être modélisée par une série formelle réalisée par un automate pondéré (weighted automaton, WA) As représentant toutes les sous-séquences de s. Le calcul du noyau toutes sous-séquences K(s; t) entre deux mots s et t est le comportement de l’automate pondéré As;t = As \ At.
Pour une évaluation efficace d’un tel noyau, nous avons proposé une nouvelle technique d’intersection d’automates (intersection par anticipation). les résultats des expérimentations ont révélé que l’évaluation du noyau toutes sous-séquences utilisant notre technique est plus rapide que celle utilisant l’intersection standard. De plus, nous avons pu généraliser notre modèle à base d’automates pondérés pour créer un nouveau noyau d’ensembles de séquences qui peut être vu comme un noyau d’arbre. | note de thèses : | Thèse de doctorat en informatique |
|