Methodologie — Callejear Data Engine
Hoe Callejear.be de straatdossiers opbouwt: bronnen, pipeline, scoring, rol van AI, en bekende grenzen.
1. Het Callejear Data Engine systeem
Callejear Data Engine is het propriëtaire systeem dat officiële Belgische open data combineert met een eigen scoringmodel en een door mensen gesuperviseerd narratief. Het draait dagelijks vier Europese markten (ES, NL, FR, BE) en publiceert ongeveer 1,4 miljoen straatdossiers in totaal.
2. Bronnen
| Bron | Inhoud | Licentie | Frequentie |
|---|---|---|---|
| BeSt Address | Officiële geolocalisatie van adressen | CC0 | Maandelijks |
| Statbel | Demografie, inkomens, statistische sectoren, vastgoedprijzen | CC BY 2.0 BE | Jaarlijks |
| BCE-KBO | Actieve ondernemingen | Open data BE | Wekelijks |
| OpenStreetMap | POIs, voorzieningen, parken | ODbL | Maandelijks |
| GTFS (SNCB · STIB · De Lijn · TEC) | Openbaar vervoer haltes en frequenties | Open data per operator | Wekelijks |
| IRCEL-CELINE | Luchtkwaliteit | Open data BE | Maandelijks |
3. Pipeline in vijf fases
- Extractie — downloaden van officiële bronnen via Python-scripts.
- Normalisatie — Lambert 72 → WGS84, naam dedup, slug generation.
- Kruising — joins op NIS code + postcode + via_id.
- Scoring — berekening van urban_score en zes sub-scores per straat.
- Begeleide narratief en publicatie — rule-based tekst per straat, redactionele review voor commune-dossiers en artikelen.
4. Het scoring systeem
Elke sub-score is 0-100 en wordt berekend uit specifieke OSM/GTFS/Statbel-bronnen. Walkability gebruikt OSM-voorzieningen binnen 300 m; transport gebruikt GTFS-stops binnen 500 m gewogen door frequentie; green gebruikt afstand tot dichtstbijzijnde park ≥ 1 ha; noise gebruikt geluidskaarten van het gewest; affordability gebruikt Statbel-prijzen genormaliseerd per gemeente.
5. De rol van AI
Wij verklaren expliciet: AI is een hulpmiddel, geen auteur. AI helpt ons bij anomaliedetectie, taalclassificatie en het opstellen van conceptteksten die de redacteur nakijkt. Redactionele beslissingen, factchecking en bronkeuze zijn altijd menselijk. Elk artikel onder /insights/ is gesigneerd, gedateerd en herzien door Yoel Castaño Peón.
6. Erkende grenzen
- Brongegevens worden elke 3-6 maanden ververst.
- Onze scores zijn geen taxaties van afzonderlijke panden.
- In zeer kleine gemeenten zijn sommige gegevens onvolledig.
- De sociale dimensie van een buurt wordt niet volledig gevangen door de scores.
7. Versionering
Wijzigingen aan het scoringmodel worden gepubliceerd in de wijzigingslogboek. Huidige versie: v1.0 (2026-04).