SmartWebScraper-CV Documentation

SmartWebScraper-CV Logo

Application intelligente d’annotation de pages web par Computer Vision, OCR, NLP et LLM

Note

Ce projet a été réalisé dans le cadre de la formation d’ingénieur à l’ENSAM Meknès, au sein de la filière IATD-SI (Ingénierie de l’Intelligence Artificielle et des Technologies de la Donnée pour les Systèmes Industriels).

Auteurs: DJERI-ALASSANI OUBENOUPOU & EL MAJDI WALID

Encadré par: Professeur Tawfik MASROUR

Date: 16 Juin 2025

Aperçu du Projet

SmartWebScraper-CV est une application complète qui combine plusieurs technologies d’intelligence artificielle pour extraire, comprendre et structurer automatiquement le contenu de pages web capturées sous forme d’images.

Architecture générale du système

Technologies Clés

  • Computer Vision : Detectron2 (Faster R-CNN) pour la détection d’objets

  • OCR : PaddleOCR pour l’extraction de texte

  • NLP : NLTK, spaCy, TF-IDF pour le traitement du langage naturel

  • LLM : Gemini API et Mistral via Ollama

  • Web Framework : Flask avec interface responsive

Fonctionnalités Principales

Table des Matières

Indices et tables