Zum Hauptinhalt springen

Datenerfassung

Wie Vartovii Daten aus mehreren Quellen sammelt und verarbeitet.

📊 Datenquellen

QuelleDatentypMethodeUpdate-Frequenz
KununuMitarbeiterbewertungenPlattformintegrationBei Bedarf
GoogleGeschäftsbewertungenPlaces APIBei Bedarf
RedditDiskussionenReddit API (PRAW)Bei Bedarf
SerpAPIStellenangeboteAPIBei Bedarf

🔧 Erfassungsarchitektur

Benutzeranfrage → Smart Search → Erfassungswarteschlange → 4 parallele Jobs → Datenbank

┌─────────┴─────────┐
↓ ↓ ↓ ↓
Kununu Google Reddit Jobs
↓ ↓ ↓ ↓
└─────────┬─────────┘

Sentiment-Analyse (KI)

Themenextraktion (ABSA)

Trust Score Berechnung

Datenpunkte

1. Mitarbeiterbewertungen (Kununu)

FeldBeschreibung
BewertungstextVollständiges Mitarbeiter-Feedback
Bewertung1-5 Sterne-Bewertung
Vorteile/NachteileStrukturiertes Feedback
BerufsbezeichnungTitel der Position
DatumZeitstempel der Bewertung

2. Kundenbewertungen (Google)

FeldBeschreibung
Bewertung1-5 Sterne
BewertungstextKundenfeedback
AutorName des Rezensenten
DatumZeitstempel der Bewertung

3. Community-Diskussionen (Reddit)

Nutzt die offizielle Reddit API (PRAW) mit OAuth2.

FeldBeschreibung
BeitragstitelDiskussionsthema
InhaltBeitragstext + Top-Kommentare
PunktzahlCommunity-Upvotes
SubredditQuell-Community

Ziel-Communities:

  • r/jobs, r/careerguidance
  • r/cscareerquestions
  • Industry-specific subreddits

4. Stellenangebote

FeldBeschreibung
TitelBerufsbezeichnung
StandortBürostandort
GehaltBereich, falls verfügbar
VeröffentlichungsdatumDatum der Ausschreibung

📦 Smart Search API

Ein-Klick-Analyse aus allen Quellen:

POST /api/search/magic-search
{
"company_name": "BMW",
"country": "de"
}

Antwort:

{
"status": "analysis_started",
"jobs_started": 4,
"message": "🚀 Analysis started!"
}

🔄 Job-Status

StatusBedeutung
pendingIn Warteschlange
runningWird aktuell erfasst
completedAbgeschlossen
failedFehler aufgetreten
cancelledManuell abgebrochen

⚡ Nachbearbeitungs-Pipeline

Nach Abschluss der Erfassung:

  1. Deduplizierung – Entfernen doppelter Einträge
  2. Sentiment-Analyse – KI-Kategorisierung (Gemini 2.5)
  3. Themenextraktion – ABSA für die Aspektanalyse
  4. Trust Score – Neuberechnung des Unternehmens-Scores
  5. Views Refresh – Aktualisierung der materialisierten Views

📋 Datennutzung

  • Alle Daten stammen aus öffentlichen Quellen
  • Mitarbeiterbewertungen sind auf den Quellplattformen anonym
  • Wir halten uns an die Nutzungsbedingungen jeder Plattform
  • Daten werden ausschließlich für die aggregierte Analyse verwendet

Die Datenerfassung wird bei Bedarf über Smart Search oder API ausgelöst.