Zum Hauptinhalt springen

Reddit Scraper

Sammelt Unternehmensdiskussionen von Reddit, um soziale Stimmungsdaten bereitzustellen.

Übersicht

Attribut	Wert
Quelle	Reddit API (PRAW)
Auth	OAuth2
Rate Limit	60 requests/Minute
Cache	6 Stunden

Gesammelte Daten

Feld	Beschreibung
`title`	Beitragstitel
`text`	Beitragsinhalt + Top-Kommentare
`score`	Upvotes
`subreddit`	Quell-Subreddit
`date`	Erstellungsdatum des Beitrags

Ziel-Subreddits

Subreddit	Inhalt
r/jobs	Jobsuche, Bewertungen
r/careerguidance	Karriereberatung
r/cscareerquestions	Tech-Unternehmen
r/antiwork	Probleme am Arbeitsplatz
r/germany	DACH-spezifisch

Suchstrategie

# Suche über mehrere Subreddits hinweg
posts = search_company_posts("BMW", limit=100)

Relevanzfilterung

Mindestens 5 Upvotes
Muss den Firmennamen erwähnen
Stellenangebote ausschließen
Werbepostings ausschließen

Stimmungsableitung

Keine Sternebewertungen, daher leiten wir die Stimmung ab aus:

Beitragswertung (Upvotes)
Kommentar-Ton
Schlüsselwort-Erkennung
Subreddit-Kontext

Datenschutz

Es werden nur öffentliche Beiträge gesammelt
Autorennamen werden nicht gespeichert
Einhaltung der Reddit API-Bedingungen

Reddit bietet ungefilterte Mitarbeiterperspektiven.

Übersicht
Gesammelte Daten
Ziel-Subreddits
Suchstrategie
Relevanzfilterung
Stimmungsableitung
Datenschutz