SmartWebScraper-CV Documentation
Application intelligente d’annotation de pages web par Computer Vision, OCR, NLP et LLM
Note
Ce projet a été réalisé dans le cadre de la formation d’ingénieur à l’ENSAM Meknès, au sein de la filière IATD-SI (Ingénierie de l’Intelligence Artificielle et des Technologies de la Donnée pour les Systèmes Industriels).
Auteurs: DJERI-ALASSANI OUBENOUPOU & EL MAJDI WALID
Encadré par: Professeur Tawfik MASROUR
Date: 16 Juin 2025
Aperçu du Projet
SmartWebScraper-CV est une application complète qui combine plusieurs technologies d’intelligence artificielle pour extraire, comprendre et structurer automatiquement le contenu de pages web capturées sous forme d’images.
Technologies Clés
Computer Vision : Detectron2 (Faster R-CNN) pour la détection d’objets
OCR : PaddleOCR pour l’extraction de texte
NLP : NLTK, spaCy, TF-IDF pour le traitement du langage naturel
LLM : Gemini API et Mistral via Ollama
Web Framework : Flask avec interface responsive
Fonctionnalités Principales
Table des Matières
Introduction
Acquisition des Données
Annotation et Dataset
Modélisation
OCR et NLP