Збір Даних
Як Vartovii збирає та обробляє дані з багатьох джерел.
📊 Джерела Даних
| Source | Data Type | Method | Update Frequency |
|---|---|---|---|
| Kununu | Відгуки співробітників | Інтеграція платформи | За запитом |
| Відгуки про бізнес | Places API | За запитом | |
| Обговорення | Reddit API (PRAW) | За запитом | |
| SerpAPI | Вакансії | API | За запитом |
🔧 Архітектура Збору
User Request → Smart Search → Collection Queue → 4 Parallel Jobs → Database
↓
┌─────────┴─────────┐
↓ ↓ ↓ ↓
Kununu Google Reddit Jobs
↓ ↓ ↓ ↓
└─────────┬─────────┘
↓
Sentiment Analysis (AI)
↓
Topic Extraction (ABSA)
↓
Trust Score Calculation
Точки Даних
1. Відгуки Співробітників (Kununu)
| Field | Description |
|---|---|
| Review text | Повний відгук співробітника |
| Rating | Оцінка 1-5 зірок |
| Pros/Cons | Структурований відгук |
| Job role | Назва посади |
| Date | Час відгуку |
2. Відгуки Клієнтів (Google)
| Field | Description |
|---|---|
| Rating | 1-5 зірок |
| Review text | Відгук клієнта |
| Author | Ім'я рецензента |
| Date | Час відгуку |
3. Обговорення Спільноти (Reddit)
Використовує офіційний Reddit API (PRAW) з OAuth2.
| Field | Description |
|---|---|
| Post title | Тема обговорення |
| Content | Текст допису + найкращі коментарі |
| Score | Вподобання спільноти |
| Subreddit | Вихідна спільнота |
Цільові спільноти:
- r/jobs, r/careerguidance
- r/cscareerquestions
- Субредіти, специфічні для галузі
4. Вакансії
| Field | Description |
|---|---|
| Title | Назва посади |
| Location | Місцезнаходження офісу |
| Salary | Діапазон, якщо доступний |
| Posted date | Дата публікації |
📦 Smart Search API
Аналіз з усіх джерел в один клік:
POST /api/search/magic-search
{
"company_name": "BMW",
"country": "de"
}
Відповідь:
{
"status": "analysis_started",
"jobs_started": 4,
"message": "🚀 Analysis started!"
}
🔄 Статуси Завдань
| Status | Meaning |
|---|---|
pending | В черзі |
running | Зараз збираються |
completed | Завершено |
failed | Виникла помилка |
cancelled | Зупинено вручну |
⚡ Конвеєр Постобробки
Після завершення збору:
- Дедуплікація - Видалення дублікатів
- Аналіз Настроїв - Категоризація за допомогою ШІ (Gemini 2.5)
- Виділення Тим - ABSA для аспектного аналізу
- Trust Score - Перерахунок оцінки компанії
- Оновлення Переглядів - Оновлення матеріалізованих переглядів
📋 Використання Даних
- Усі дані з публічних джерел
- Відгуки співробітників анонімні на вихідних платформах
- Ми дотримуємося Умов надання послуг кожної платформи
- Дані використовуються лише для агрегованого аналізу
Збір даних запускається за запитом через Smart Search або API.