Datenerfassung

Wie Vartovii Daten aus mehreren Quellen sammelt und verarbeitet.

📊 Datenquellen

Quelle	Datentyp	Methode	Update-Frequenz
Kununu	Mitarbeiterbewertungen	Plattformintegration	Bei Bedarf
Google	Geschäftsbewertungen	Places API	Bei Bedarf
Reddit	Diskussionen	Reddit API (PRAW)	Bei Bedarf
SerpAPI	Stellenangebote	API	Bei Bedarf

🔧 Erfassungsarchitektur

Benutzeranfrage → Smart Search → Erfassungswarteschlange → 4 parallele Jobs → Datenbank
                                    ↓
                          ┌─────────┴─────────┐
                          ↓         ↓         ↓         ↓
                      Kununu    Google    Reddit    Jobs
                          ↓         ↓         ↓         ↓
                          └─────────┬─────────┘
                                    ↓
                          Sentiment-Analyse (KI)
                                    ↓
                          Themenextraktion (ABSA)
                                    ↓
                          Trust Score Berechnung

Datenpunkte

1. Mitarbeiterbewertungen (Kununu)

Feld	Beschreibung
Bewertungstext	Vollständiges Mitarbeiter-Feedback
Bewertung	1-5 Sterne-Bewertung
Vorteile/Nachteile	Strukturiertes Feedback
Berufsbezeichnung	Titel der Position
Datum	Zeitstempel der Bewertung

2. Kundenbewertungen (Google)

Feld	Beschreibung
Bewertung	1-5 Sterne
Bewertungstext	Kundenfeedback
Autor	Name des Rezensenten
Datum	Zeitstempel der Bewertung

3. Community-Diskussionen (Reddit)

Nutzt die offizielle Reddit API (PRAW) mit OAuth2.

Feld	Beschreibung
Beitragstitel	Diskussionsthema
Inhalt	Beitragstext + Top-Kommentare
Punktzahl	Community-Upvotes
Subreddit	Quell-Community

Ziel-Communities:

r/jobs, r/careerguidance
r/cscareerquestions
Industry-specific subreddits

4. Stellenangebote

Feld	Beschreibung
Titel	Berufsbezeichnung
Standort	Bürostandort
Gehalt	Bereich, falls verfügbar
Veröffentlichungsdatum	Datum der Ausschreibung

📦 Smart Search API

Ein-Klick-Analyse aus allen Quellen:

POST /api/search/magic-search
{
  "company_name": "BMW",
  "country": "de"
}

Antwort:

{
  "status": "analysis_started",
  "jobs_started": 4,
  "message": "🚀 Analysis started!"
}

🔄 Job-Status

Status	Bedeutung
`pending`	In Warteschlange
`running`	Wird aktuell erfasst
`completed`	Abgeschlossen
`failed`	Fehler aufgetreten
`cancelled`	Manuell abgebrochen

⚡ Nachbearbeitungs-Pipeline

Nach Abschluss der Erfassung:

Deduplizierung – Entfernen doppelter Einträge
Sentiment-Analyse – KI-Kategorisierung (Gemini 2.5)
Themenextraktion – ABSA für die Aspektanalyse
Trust Score – Neuberechnung des Unternehmens-Scores
Views Refresh – Aktualisierung der materialisierten Views

📋 Datennutzung

Alle Daten stammen aus öffentlichen Quellen
Mitarbeiterbewertungen sind auf den Quellplattformen anonym
Wir halten uns an die Nutzungsbedingungen jeder Plattform
Daten werden ausschließlich für die aggregierte Analyse verwendet

Die Datenerfassung wird bei Bedarf über Smart Search oder API ausgelöst.

📊 Datenquellen​

🔧 Erfassungsarchitektur​

Datenpunkte​

1. Mitarbeiterbewertungen (Kununu)​

2. Kundenbewertungen (Google)​

3. Community-Diskussionen (Reddit)​

4. Stellenangebote​

📦 Smart Search API​

🔄 Job-Status​

⚡ Nachbearbeitungs-Pipeline​

📋 Datennutzung​