Перейти до основного вмісту

Збір Даних

Як Vartovii збирає та обробляє дані з багатьох джерел.

📊 Джерела Даних

SourceData TypeMethodUpdate Frequency
KununuВідгуки співробітниківІнтеграція платформиЗа запитом
GoogleВідгуки про бізнесPlaces APIЗа запитом
RedditОбговоренняReddit API (PRAW)За запитом
SerpAPIВакансіїAPIЗа запитом

🔧 Архітектура Збору

User Request → Smart Search → Collection Queue → 4 Parallel Jobs → Database

┌─────────┴─────────┐
↓ ↓ ↓ ↓
Kununu Google Reddit Jobs
↓ ↓ ↓ ↓
└─────────┬─────────┘

Sentiment Analysis (AI)

Topic Extraction (ABSA)

Trust Score Calculation

Точки Даних

1. Відгуки Співробітників (Kununu)

FieldDescription
Review textПовний відгук співробітника
RatingОцінка 1-5 зірок
Pros/ConsСтруктурований відгук
Job roleНазва посади
DateЧас відгуку

2. Відгуки Клієнтів (Google)

FieldDescription
Rating1-5 зірок
Review textВідгук клієнта
AuthorІм'я рецензента
DateЧас відгуку

3. Обговорення Спільноти (Reddit)

Використовує офіційний Reddit API (PRAW) з OAuth2.

FieldDescription
Post titleТема обговорення
ContentТекст допису + найкращі коментарі
ScoreВподобання спільноти
SubredditВихідна спільнота

Цільові спільноти:

  • r/jobs, r/careerguidance
  • r/cscareerquestions
  • Субредіти, специфічні для галузі

4. Вакансії

FieldDescription
TitleНазва посади
LocationМісцезнаходження офісу
SalaryДіапазон, якщо доступний
Posted dateДата публікації

📦 Smart Search API

Аналіз з усіх джерел в один клік:

POST /api/search/magic-search
{
"company_name": "BMW",
"country": "de"
}

Відповідь:

{
"status": "analysis_started",
"jobs_started": 4,
"message": "🚀 Analysis started!"
}

🔄 Статуси Завдань

StatusMeaning
pendingВ черзі
runningЗараз збираються
completedЗавершено
failedВиникла помилка
cancelledЗупинено вручну

⚡ Конвеєр Постобробки

Після завершення збору:

  1. Дедуплікація - Видалення дублікатів
  2. Аналіз Настроїв - Категоризація за допомогою ШІ (Gemini 2.5)
  3. Виділення Тим - ABSA для аспектного аналізу
  4. Trust Score - Перерахунок оцінки компанії
  5. Оновлення Переглядів - Оновлення матеріалізованих переглядів

📋 Використання Даних

  • Усі дані з публічних джерел
  • Відгуки співробітників анонімні на вихідних платформах
  • Ми дотримуємося Умов надання послуг кожної платформи
  • Дані використовуються лише для агрегованого аналізу

Збір даних запускається за запитом через Smart Search або API.