Datenerfassung
Wie Vartovii Daten aus mehreren Quellen sammelt und verarbeitet.
📊 Datenquellen
| Quelle | Datentyp | Methode | Update-Frequenz |
|---|---|---|---|
| Kununu | Mitarbeiterbewertungen | Plattformintegration | Bei Bedarf |
| Geschäftsbewertungen | Places API | Bei Bedarf | |
| Diskussionen | Reddit API (PRAW) | Bei Bedarf | |
| SerpAPI | Stellenangebote | API | Bei Bedarf |
🔧 Erfassungsarchitektur
Benutzeranfrage → Smart Search → Erfassungswarteschlange → 4 parallele Jobs → Datenbank
↓
┌─────────┴─────────┐
↓ ↓ ↓ ↓
Kununu Google Reddit Jobs
↓ ↓ ↓ ↓
└─────────┬─────────┘
↓
Sentiment-Analyse (KI)
↓
Themenextraktion (ABSA)
↓
Trust Score Berechnung
Datenpunkte
1. Mitarbeiterbewertungen (Kununu)
| Feld | Beschreibung |
|---|---|
| Bewertungstext | Vollständiges Mitarbeiter-Feedback |
| Bewertung | 1-5 Sterne-Bewertung |
| Vorteile/Nachteile | Strukturiertes Feedback |
| Berufsbezeichnung | Titel der Position |
| Datum | Zeitstempel der Bewertung |
2. Kundenbewertungen (Google)
| Feld | Beschreibung |
|---|---|
| Bewertung | 1-5 Sterne |
| Bewertungstext | Kundenfeedback |
| Autor | Name des Rezensenten |
| Datum | Zeitstempel der Bewertung |
3. Community-Diskussionen (Reddit)
Nutzt die offizielle Reddit API (PRAW) mit OAuth2.
| Feld | Beschreibung |
|---|---|
| Beitragstitel | Diskussionsthema |
| Inhalt | Beitragstext + Top-Kommentare |
| Punktzahl | Community-Upvotes |
| Subreddit | Quell-Community |
Ziel-Communities:
- r/jobs, r/careerguidance
- r/cscareerquestions
- Industry-specific subreddits
4. Stellenangebote
| Feld | Beschreibung |
|---|---|
| Titel | Berufsbezeichnung |
| Standort | Bürostandort |
| Gehalt | Bereich, falls verfügbar |
| Veröffentlichungsdatum | Datum der Ausschreibung |
📦 Smart Search API
Ein-Klick-Analyse aus allen Quellen:
POST /api/search/magic-search
{
"company_name": "BMW",
"country": "de"
}
Antwort:
{
"status": "analysis_started",
"jobs_started": 4,
"message": "🚀 Analysis started!"
}
🔄 Job-Status
| Status | Bedeutung |
|---|---|
pending | In Warteschlange |
running | Wird aktuell erfasst |
completed | Abgeschlossen |
failed | Fehler aufgetreten |
cancelled | Manuell abgebrochen |
⚡ Nachbearbeitungs-Pipeline
Nach Abschluss der Erfassung:
- Deduplizierung – Entfernen doppelter Einträge
- Sentiment-Analyse – KI-Kategorisierung (Gemini 2.5)
- Themenextraktion – ABSA für die Aspektanalyse
- Trust Score – Neuberechnung des Unternehmens-Scores
- Views Refresh – Aktualisierung der materialisierten Views
📋 Datennutzung
- Alle Daten stammen aus öffentlichen Quellen
- Mitarbeiterbewertungen sind auf den Quellplattformen anonym
- Wir halten uns an die Nutzungsbedingungen jeder Plattform
- Daten werden ausschließlich für die aggregierte Analyse verwendet
Die Datenerfassung wird bei Bedarf über Smart Search oder API ausgelöst.