Methodik — Callejear Data Engine
Wie Callejear.be Straßendossiers erstellt: Quellen, Pipeline, Scoring, Rolle der KI und bekannte Grenzen.
1. Das Callejear Data Engine System
Callejear Data Engine ist das proprietäre System, das offizielle belgische Open Data mit einem eigenen Scoring-Modell und einer menschlich überwachten Narrative kombiniert. Es betreibt täglich vier europäische Märkte (ES, NL, FR, BE) und veröffentlicht insgesamt rund 1,4 Millionen Straßendossiers.
2. Quellen
| Quelle | Inhalt | Lizenz | Frequenz |
|---|---|---|---|
| BeSt Address | Offizielle Adress-Geolokalisierung | CC0 | Monatlich |
| Statbel | Demografie, Einkommen, statistische Sektoren, Immobilienpreise | CC BY 2.0 BE | Jährlich |
| BCE-KBO | Aktive Unternehmen | Open Data BE | Wöchentlich |
| OpenStreetMap | POIs, Einrichtungen, Parks | ODbL | Monatlich |
| GTFS (SNCB · STIB · De Lijn · TEC) | ÖPNV-Haltestellen und Frequenzen | Open Data je Betreiber | Wöchentlich |
| IRCEL-CELINE | Luftqualität | Open Data BE | Monatlich |
3. Pipeline in fünf Phasen
- Extraktion — Download offizieller Quellen über Python-Skripte.
- Normalisierung — Lambert 72 → WGS84, Namens-Deduplikation, Slug-Erzeugung.
- Kreuzung — Joins über NIS-Code + Postleitzahl + via_id.
- Scoring — Berechnung von urban_score und sechs Teil-Scores je Straße.
- Begleitete Narrative und Veröffentlichung — Regelbasierter Text je Straße, redaktionelle Prüfung für Gemeinde-Dossiers und Artikel.
4. Das Scoring-System
Jeder Teilscore liegt zwischen 0-100 und wird aus spezifischen OSM/GTFS/Statbel-Quellen berechnet. Walkability nutzt OSM-Einrichtungen innerhalb von 300 m; Transport nutzt GTFS-Haltestellen innerhalb von 500 m gewichtet nach Frequenz; Grün nutzt die Distanz zum nächsten Park ≥ 1 ha; Lärm nutzt regionale Lärmkarten; Affordability nutzt Statbel-Preise normalisiert je Gemeinde.
5. Die Rolle der KI
Wir erklären ausdrücklich: KI ist ein Werkzeug, kein Autor. KI hilft bei Anomalieerkennung, Sprachklassifikation und der Erstellung von Entwürfen, die der Redakteur überprüft. Redaktionelle Entscheidungen, Faktencheck und Quellenauswahl sind immer menschlich. Jeder Artikel unter /insights/ ist signiert, datiert und von Yoel Castaño Peón geprüft.
6. Anerkannte Grenzen
- Quellen werden alle 3-6 Monate aktualisiert.
- Unsere Scores sind keine Bewertungen einzelner Immobilien.
- In sehr kleinen Gemeinden sind einige Daten unvollständig.
- Die soziale Dimension eines Viertels wird nicht vollständig durch Scores erfasst.
7. Versionierung
Änderungen am Scoring-Modell werden im Changelog veröffentlicht. Aktuelle Version: v1.0 (2026-04).