Збір Даних

Як Vartovii збирає та обробляє дані з багатьох джерел.

📊 Джерела Даних

Source	Data Type	Method	Update Frequency
Kununu	Відгуки співробітників	Інтеграція платформи	За запитом
Google	Відгуки про бізнес	Places API	За запитом
Reddit	Обговорення	Reddit API (PRAW)	За запитом
SerpAPI	Вакансії	API	За запитом

🔧 Архітектура Збору

User Request → Smart Search → Collection Queue → 4 Parallel Jobs → Database
                                    ↓
                          ┌─────────┴─────────┐
                          ↓         ↓         ↓         ↓
                      Kununu    Google    Reddit    Jobs
                          ↓         ↓         ↓         ↓
                          └─────────┬─────────┘
                                    ↓
                          Sentiment Analysis (AI)
                                    ↓
                          Topic Extraction (ABSA)
                                    ↓
                          Trust Score Calculation

Точки Даних

1. Відгуки Співробітників (Kununu)

Field	Description
Review text	Повний відгук співробітника
Rating	Оцінка 1-5 зірок
Pros/Cons	Структурований відгук
Job role	Назва посади
Date	Час відгуку

2. Відгуки Клієнтів (Google)

Field	Description
Rating	1-5 зірок
Review text	Відгук клієнта
Author	Ім'я рецензента
Date	Час відгуку

3. Обговорення Спільноти (Reddit)

Використовує офіційний Reddit API (PRAW) з OAuth2.

Field	Description
Post title	Тема обговорення
Content	Текст допису + найкращі коментарі
Score	Вподобання спільноти
Subreddit	Вихідна спільнота

Цільові спільноти:

r/jobs, r/careerguidance
r/cscareerquestions
Субредіти, специфічні для галузі

4. Вакансії

Field	Description
Title	Назва посади
Location	Місцезнаходження офісу
Salary	Діапазон, якщо доступний
Posted date	Дата публікації

📦 Smart Search API

Аналіз з усіх джерел в один клік:

POST /api/search/magic-search
{
  "company_name": "BMW",
  "country": "de"
}

Відповідь:

{
  "status": "analysis_started",
  "jobs_started": 4,
  "message": "🚀 Analysis started!"
}

🔄 Статуси Завдань

Status	Meaning
`pending`	В черзі
`running`	Зараз збираються
`completed`	Завершено
`failed`	Виникла помилка
`cancelled`	Зупинено вручну

⚡ Конвеєр Постобробки

Після завершення збору:

Дедуплікація - Видалення дублікатів
Аналіз Настроїв - Категоризація за допомогою ШІ (Gemini 2.5)
Виділення Тим - ABSA для аспектного аналізу
Trust Score - Перерахунок оцінки компанії
Оновлення Переглядів - Оновлення матеріалізованих переглядів

📋 Використання Даних

Усі дані з публічних джерел
Відгуки співробітників анонімні на вихідних платформах
Ми дотримуємося Умов надання послуг кожної платформи
Дані використовуються лише для агрегованого аналізу

Збір даних запускається за запитом через Smart Search або API.

📊 Джерела Даних​

🔧 Архітектура Збору​

Точки Даних​

1. Відгуки Співробітників (Kununu)​

2. Відгуки Клієнтів (Google)​

3. Обговорення Спільноти (Reddit)​

4. Вакансії​

📦 Smart Search API​

🔄 Статуси Завдань​

⚡ Конвеєр Постобробки​

📋 Використання Даних​