Méthodologie — Callejear Data Engine
Comment Callejear.be construit les dossiers de rue : sources, pipeline, scoring, rôle de l'IA et limites connues.
1. Le système Callejear Data Engine
Callejear Data Engine est le système propriétaire qui combine les données ouvertes officielles belges avec un modèle de scoring maison et une narration supervisée par un humain. Il alimente quotidiennement quatre marchés européens (ES, NL, FR, BE) et publie environ 1,4 million de dossiers de rue au total.
2. Sources
| Source | Contenu | Licence | Fréquence |
|---|---|---|---|
| BeSt Address | Géolocalisation officielle des adresses | CC0 | Mensuelle |
| Statbel | Démographie, revenus, secteurs statistiques, prix immobiliers | CC BY 2.0 BE | Annuelle |
| BCE-KBO | Entreprises actives | Open data BE | Hebdomadaire |
| OpenStreetMap | POIs, équipements, parcs | ODbL | Mensuelle |
| GTFS (SNCB · STIB · De Lijn · TEC) | Arrêts et fréquences de transport public | Open data par opérateur | Hebdomadaire |
| IRCEL-CELINE | Qualité de l'air | Open data BE | Mensuelle |
3. Pipeline en cinq phases
- Extraction — téléchargement des sources officielles via des scripts Python.
- Normalisation — Lambert 72 → WGS84, déduplication des noms, génération de slugs.
- Croisement — joins sur code NIS + code postal + via_id.
- Scoring — calcul de l'urban_score et de six sous-scores par rue.
- Narration supervisée et publication — texte rule-based par rue, revue éditoriale pour les dossiers de commune et les articles.
4. Le système de scoring
Chaque sous-score va de 0 à 100 et provient de sources OSM/GTFS/Statbel spécifiques. La marchabilité utilise les équipements OSM dans 300 m ; le transport utilise les arrêts GTFS dans 500 m pondérés par la fréquence ; le vert utilise la distance au parc le plus proche ≥ 1 ha ; le bruit utilise les cartes de bruit régionales ; l'accessibilité financière utilise les prix Statbel normalisés par commune.
5. Le rôle de l'IA
Nous déclarons explicitement : l'IA est un outil, pas un auteur. L'IA aide à la détection d'anomalies, à la classification linguistique et à la rédaction de brouillons revus par le rédacteur. Les décisions éditoriales, le fact-checking et le choix des sources sont toujours humains. Chaque article sous /insights/ est signé, daté et revu par Yoel Castaño Peón.
6. Limites reconnues
- Les sources sont rafraîchies tous les 3 à 6 mois.
- Nos scores ne sont pas des évaluations de biens individuels.
- Dans les très petites communes, certaines données sont incomplètes.
- La dimension sociale d'un quartier n'est pas pleinement capturée par les scores.
7. Versioning
Les modifications du modèle de scoring sont publiées dans le journal des changements. Version actuelle : v1.0 (2026-04).