Titre : | Optimisation de la fragmentation verticale des entrepôts de données distribués par la fouille de données | Type de document : | document multimédia | Auteurs : | Ahmed Benmelouka, Auteur ; Youcef Ouinten, Directeur de thèse ; Benameur Ziani, Directeur de thèse | Editeur : | Laghouat : Université Amar Telidji - Département d'informatique | Année de publication : | 2024 | Importance : | 118 p. | Accompagnement : | 1 disque optique numérique (CD-ROM) | Langues : | Français | Mots-clés : | Entrepôt de données distribués Requêtes analytiques Fouille de données Fragmentation verticale Allocation Réplication | Résumé : | Un entrepôt de données distribuées peut être décrit comme une collection intégrée de données dispersées physiquement et logiquement à travers les sites d’un réseau. Cet ensemble englobe une vaste quantité de données destinées aux processus d’aide à la décision et traite un nombre considérable de requêtes analytiques complexes et exigeantes en termes de temps d’exécution. La fragmentation est une technique d'optimisation consistant à diviser une base de données en un ensemble de sous-bases sans perte d'information. Cette technique pose un défi quant à la manière de fragmenter les données et de les allouer aux différents nœuds, un problème reconnu comme étant NP-Complet.
Le but principal de cette thèse est l’optimisation du temps de réponse aux requêtes par la détermination d’une distribution optimale des fragments sur les sites du réseau, améliorant ainsi les performances. Deux techniques visant à optimiser la conception physique des entrepôts de données relationnels structurés en schéma étoilé sont proposées.
Ces méthodes s'appuient sur deux concepts de fouille de données. La recherche de motifs fréquents, initialement présentée par Agrawal dans le domaine de la découverte de connaissances, est utilisée pour détecter les ensembles d’articles fréquemment achetés. Cependant, la simple fréquence d’apparition d’un motif ne suffit pas à fournir des informations pertinentes pour les décideurs. L’intégration d’informations contextuelles est donc essentielle pour améliorer significativement les résultats, car la pertinence d’un motif dépend non seulement de sa fréquence dans la base de données, mais aussi du contexte dans lequel il se manifeste. C'est dans cette optique que, dans la première partie de cette thèse, nous proposons une nouvelle approche pour la fragmentation verticale des entrepôts de données distribuées en utilisant des motifs fréquents contextuels. Cette approche introduit un contexte garantissant une meilleure solution par rapport aux méthodes existantes. Sa caractéristique principale réside dans la génération et l’allocation des fragments en une seule itération, sans nécessiter de fonction objective supplémentaire, ce qui simplifie et accélère le processus de fragmentation verticale dans un environnement distribué, offrant ainsi une solution efficace pour améliorer les performances de la prise de décision stratégique.VIII Dans la deuxième partie du travail, nous introduisons une nouvelle mesure de distance binaire spécifiquement pour évaluer la similarité entre les requêtes. Notre approche repose sur une représentation binaire des attributs, où ’1’ indique la présence de l’attribut dans une requête et ’0’ indique son absence. Cette représentation permet de mesurer la distance entre les vecteurs, chaque vecteur représentant une requête sous forme binaire. Nous mettons en œuvre une classification k-means en utilisant notre mesure de distance binaire. Cette méthode est adaptée à notre étude en raison de ses performances et de sa capacité à offrir une meilleure classification de grandes quantités de données.
Les évaluations expérimentales menées sur un entrepôt de données de référence, utilisant un banc d'essai et un ensemble de requêtes décisionnelles, démontrent l'efficacité et la flexibilité des approches proposées. Ces approches peuvent aider dans le processus de la fragmentation verticale par l'application de la fouille de données. | note de thèses : | Thèse de doctorat en informatique |
Optimisation de la fragmentation verticale des entrepôts de données distribués par la fouille de données [document multimédia] / Ahmed Benmelouka, Auteur ; Youcef Ouinten, Directeur de thèse ; Benameur Ziani, Directeur de thèse . - Laghouat : Université Amar Telidji - Département d'informatique, 2024 . - 118 p. + 1 disque optique numérique (CD-ROM). Langues : Français Mots-clés : | Entrepôt de données distribués Requêtes analytiques Fouille de données Fragmentation verticale Allocation Réplication | Résumé : | Un entrepôt de données distribuées peut être décrit comme une collection intégrée de données dispersées physiquement et logiquement à travers les sites d’un réseau. Cet ensemble englobe une vaste quantité de données destinées aux processus d’aide à la décision et traite un nombre considérable de requêtes analytiques complexes et exigeantes en termes de temps d’exécution. La fragmentation est une technique d'optimisation consistant à diviser une base de données en un ensemble de sous-bases sans perte d'information. Cette technique pose un défi quant à la manière de fragmenter les données et de les allouer aux différents nœuds, un problème reconnu comme étant NP-Complet.
Le but principal de cette thèse est l’optimisation du temps de réponse aux requêtes par la détermination d’une distribution optimale des fragments sur les sites du réseau, améliorant ainsi les performances. Deux techniques visant à optimiser la conception physique des entrepôts de données relationnels structurés en schéma étoilé sont proposées.
Ces méthodes s'appuient sur deux concepts de fouille de données. La recherche de motifs fréquents, initialement présentée par Agrawal dans le domaine de la découverte de connaissances, est utilisée pour détecter les ensembles d’articles fréquemment achetés. Cependant, la simple fréquence d’apparition d’un motif ne suffit pas à fournir des informations pertinentes pour les décideurs. L’intégration d’informations contextuelles est donc essentielle pour améliorer significativement les résultats, car la pertinence d’un motif dépend non seulement de sa fréquence dans la base de données, mais aussi du contexte dans lequel il se manifeste. C'est dans cette optique que, dans la première partie de cette thèse, nous proposons une nouvelle approche pour la fragmentation verticale des entrepôts de données distribuées en utilisant des motifs fréquents contextuels. Cette approche introduit un contexte garantissant une meilleure solution par rapport aux méthodes existantes. Sa caractéristique principale réside dans la génération et l’allocation des fragments en une seule itération, sans nécessiter de fonction objective supplémentaire, ce qui simplifie et accélère le processus de fragmentation verticale dans un environnement distribué, offrant ainsi une solution efficace pour améliorer les performances de la prise de décision stratégique.VIII Dans la deuxième partie du travail, nous introduisons une nouvelle mesure de distance binaire spécifiquement pour évaluer la similarité entre les requêtes. Notre approche repose sur une représentation binaire des attributs, où ’1’ indique la présence de l’attribut dans une requête et ’0’ indique son absence. Cette représentation permet de mesurer la distance entre les vecteurs, chaque vecteur représentant une requête sous forme binaire. Nous mettons en œuvre une classification k-means en utilisant notre mesure de distance binaire. Cette méthode est adaptée à notre étude en raison de ses performances et de sa capacité à offrir une meilleure classification de grandes quantités de données.
Les évaluations expérimentales menées sur un entrepôt de données de référence, utilisant un banc d'essai et un ensemble de requêtes décisionnelles, démontrent l'efficacité et la flexibilité des approches proposées. Ces approches peuvent aider dans le processus de la fragmentation verticale par l'application de la fouille de données. | note de thèses : | Thèse de doctorat en informatique |
|