Méthodologie — Callejear Data Engine

Comment Callejear.be construit les dossiers de rue : sources, pipeline, scoring, rôle de l'IA et limites connues.

1. Le système Callejear Data Engine

Callejear Data Engine est le système propriétaire qui combine les données ouvertes officielles belges avec un modèle de scoring maison et une narration supervisée par un humain. Il alimente quotidiennement quatre marchés européens (ES, NL, FR, BE) et publie environ 1,4 million de dossiers de rue au total.

2. Sources

SourceContenuLicenceFréquence
BeSt AddressGéolocalisation officielle des adressesCC0Mensuelle
StatbelDémographie, revenus, secteurs statistiques, prix immobiliersCC BY 2.0 BEAnnuelle
BCE-KBOEntreprises activesOpen data BEHebdomadaire
OpenStreetMapPOIs, équipements, parcsODbLMensuelle
GTFS (SNCB · STIB · De Lijn · TEC)Arrêts et fréquences de transport publicOpen data par opérateurHebdomadaire
IRCEL-CELINEQualité de l'airOpen data BEMensuelle

3. Pipeline en cinq phases

  1. Extraction — téléchargement des sources officielles via des scripts Python.
  2. Normalisation — Lambert 72 → WGS84, déduplication des noms, génération de slugs.
  3. Croisement — joins sur code NIS + code postal + via_id.
  4. Scoring — calcul de l'urban_score et de six sous-scores par rue.
  5. Narration supervisée et publication — texte rule-based par rue, revue éditoriale pour les dossiers de commune et les articles.

4. Le système de scoring

urban_score = 0.25·walkability + 0.20·commerce + 0.20·transport + 0.15·green + 0.10·noise_inv + 0.10·affordability

Chaque sous-score va de 0 à 100 et provient de sources OSM/GTFS/Statbel spécifiques. La marchabilité utilise les équipements OSM dans 300 m ; le transport utilise les arrêts GTFS dans 500 m pondérés par la fréquence ; le vert utilise la distance au parc le plus proche ≥ 1 ha ; le bruit utilise les cartes de bruit régionales ; l'accessibilité financière utilise les prix Statbel normalisés par commune.

5. Le rôle de l'IA

Nous déclarons explicitement : l'IA est un outil, pas un auteur. L'IA aide à la détection d'anomalies, à la classification linguistique et à la rédaction de brouillons revus par le rédacteur. Les décisions éditoriales, le fact-checking et le choix des sources sont toujours humains. Chaque article sous /insights/ est signé, daté et revu par Yoel Castaño Peón.

6. Limites reconnues

  • Les sources sont rafraîchies tous les 3 à 6 mois.
  • Nos scores ne sont pas des évaluations de biens individuels.
  • Dans les très petites communes, certaines données sont incomplètes.
  • La dimension sociale d'un quartier n'est pas pleinement capturée par les scores.

7. Versioning

Les modifications du modèle de scoring sont publiées dans le journal des changements. Version actuelle : v1.0 (2026-04).

Avertissement légal. Les informations publiées sur Callejear.be sont informatives et ne constituent pas un conseil financier, juridique ou immobilier adapté à une situation individuelle. Consultez un professionnel qualifié pour toute décision d'achat, de vente ou d'investissement.