Objectifs du Projet
L’objectif principal de ce projet est de développer un système intelligent capable de scraper visuellement une page web, c’est-à-dire d’extraire et analyser son contenu de manière automatisée à partir d’une capture d’image.
Objectifs Techniques Détaillés
1. Capture Intelligente
✓ Capturer l'image complète d'un site web
✓ Gérer le contenu dynamique et le scrolling
✓ Optimiser la qualité de capture pour l'analyse
Technologies utilisées : Selenium, undetected-chromedriver, Playwright
2. Détection Automatique des Zones
✓ Détecter automatiquement les zones d'intérêt
✓ Classifier les éléments (titre, contenu, publicité, footer, etc.)
✓ Fournir des annotations précises avec coordonnées
Technologies utilisées : Detectron2, Faster R-CNN, annotations COCO
3. Extraction et Traitement du Texte
✓ Extraire le texte des zones conservées via OCR
✓ Nettoyer et structurer le contenu extrait
✓ Appliquer des traitements NLP avancés
Technologies utilisées : PaddleOCR, NLTK, spaCy, TF-IDF
4. Interaction Intelligente
✓ Permettre l'interrogation du contenu extrait
✓ Générer des résumés automatiques
✓ Répondre à des questions spécifiques
✓ Extraire des entités nommées
Technologies utilisées : Gemini API, Mistral (Ollama), Word2Vec
Objectifs Fonctionnels
Application Complète avec Deux Profils
Profil Utilisateur Final
Profil Administrateur
Workflow Complet
flowchart TD
A[URL soumise] --> B[Capture d'écran]
B --> C[Détection automatique]
C --> D{Validation utilisateur}
D -->|OK| E[Extraction OCR]
D -->|KO| F[Annotation manuelle]
F --> E
E --> G[Traitement NLP]
G --> H[Interaction utilisateur]
H --> I[Feedback et amélioration]
I --> J[Fine-tuning du modèle]
Objectifs d’Innovation
Contribution Scientifique
Dataset unique : Constitution d’un dataset COCO de pages web annotées
Pipeline intégré : Combinaison CV + OCR + NLP dans une même application
Apprentissage continu : Système auto-amélioré par feedback utilisateur
Valeur Ajoutée Technique
Robustesse : Fonctionne même sur les sites les plus protégés
Précision : Détection contextuelle des zones importantes
Extensibilité : Architecture modulaire permettant l’ajout de nouvelles fonctionnalités
Métriques de Succès
Métrique |
Objectif Visé |
Résultat Atteint |
|---|---|---|
Précision détection (mAP) |
> 40% |
41.6% |
Qualité OCR |
> 85% sur texte net |
> 90% |
Temps de traitement |
< 10 secondes |
4-6 secondes |
Satisfaction utilisateur |
> 4/5 |
4.6/5 |
Astuce
L’application permet aujourd’hui de détecter automatiquement les blocs fonctionnels dans une page, de nettoyer, résumer et analyser le contenu OCR, de poser des questions ou lancer des requêtes spécifiques, et de constituer un dataset de fine-tuning progressif basé sur les retours utilisateurs.