Self-hosted ChatGPT-аналог: OpenWebUI + Ollama + RAG за 30 хвилин

Щоб запустити свій chatgpt vps з підтримкою RAG і завантаження документів, знадобиться сервер з мінімум 16-32 GB RAM і 8 vCPU, що при використанні зв'язки Ollama і OpenWebUI дозволяє обробляти корпоративні дані локально за $90/міс без передачі інформації стороннім компаніям. Такий підхід повністю виключає витоки даних (data leaks) і залежність від API OpenAI або Anthropic, надаючи повний контроль над конфіденційною інформацією.

Який сервер вибрати для свого chatgpt vps?

Ефективна робота локальної мовної моделі (LLM) безпосередньо залежить від обсягу оперативної пам'яті і швидкості процесора, якщо ви не використовуєте дорогі GPU. Для комфортної роботи 1-5 користувачів з моделями рівня Llama 3.1 8B або Mistral 7B оптимально вибирати тарифи рівня VPS-L або виділені сервери початкового рівня.

Технічні вимоги до заліза

Основне навантаження при генерації тексту лягає на CPU і RAM. На відміну від навчання, інференс (виведення) моделей можна виконувати на процесорі, якщо використовувати квантовані моделі (формат GGUF). Оперативна пам'ять критична: модель 8B в квантуванні 4-біт займає близько 5 GB, але для роботи RAG (Retrieval-Augmented Generation) і кешування контексту потрібен запас.

Параметр	Мінімум (Slow)	Рекомендовано (Fast)	Корпоративний стандарт
vCPU Cores	4 Cores	8-12 Cores	16+ Cores
RAM	8 GB	16-32 GB	64 GB+
Диск (NVMe)	40 GB	100 GB	500 GB+
Приблизна ціна	$20-30/міс	$60-90/міс	$150+/міс

Якщо ви плануєте міграцію зі складних хмарних платформ, рекомендуємо вивчити переїзд з AWS Lightsail/EC2 на dedicated, що дозволить заощадити до $2000 на місяць при запуску важких моделей.

CPU vs GPU на VPS

Для більшості завдань малого бізнесу оренда сервера з GPU (наприклад, NVIDIA A100 або RTX 4090) надмірна за ціною. Сучасні інструкції процесорів (AVX2, AVX-512) дозволяють Ollama видавати швидкість 10-15 токенів в секунду на звичайних VPS. Цього достатньо для читання і генерації тексту в реальному часі. Ключовим фактором стає частота ядра і обсяг кешу L3.

Покроковий openwebui setup: від Docker до першої моделі

OpenWebUI - це найбільш просунутий інтерфейс для роботи з LLM, який візуально повторює ChatGPT, але працює повністю на вашому сервері. Він підтримує багатокористувацький режим, управління моделями і вбудований движок для RAG.

Встановлення Docker і базового оточення

Для початку роботи на чистій Ubuntu 22.04/24.04 необхідно встановити Docker Engine. Ми рекомендуємо використовувати контейнеризацію для ізоляції компонентів системи.

sudo apt update && sudo apt upgrade -y
sudo apt install curl git -y
curl -fsSL https://get.docker.com -o get-docker.sh
sudo sh get-docker.sh

Після установки Docker можна переходити до розгортання зв'язки Ollama + OpenWebUI. Найпростіший спосіб - використовувати готовий Docker Compose файл або єдину команду запуску, яка об'єднає інтерфейс і бекенд.

Запуск OpenWebUI з підтримкою Ollama

Для реалізації privategpt vps ми використовуємо контейнер, який вже містить всі необхідні залежності для роботи з векторними базами даних.

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

Після виконання цієї команди інтерфейс буде доступний за адресою http://IP_вашого_сервера:3000. При першому вході вам запропонують створити аккаунт адміністратора. Всі дані користувачів і історія листування будуть зберігатися локально в Docker-волюмі. Подробиці налаштування бекенда можна знайти в гайді про свій LLM на CPU VPS: Ollama + llama.cpp.

Шукаєте надійний сервер для ваших проектів?

VPS від $10/міс і виділені сервери від $9/міс з NVMe, DDoS-захистом і підтримкою 24/7.

Дивитися пропозиції →

Налаштування RAG для local chatgpt: робота з PDF і базою знань

Головна перевага self hosted gpt перед публічними сервісами - можливість "згодовувати" нейромережі внутрішні документи компанії (NDA, технічні завдання, регламенти) без ризику їх потрапляння в навчальні вибірки глобальних моделей.

Як працює RAG в OpenWebUI

RAG (Retrieval-Augmented Generation) працює за наступним алгоритмом:

Ви завантажуєте файл (PDF, DOCX, TXT) в інтерфейс.
Система розбиває текст на чанки (фрагменти).
Спеціальна модель ембедінгів (наприклад, nomic-embed-text) перетворює текст у вектори.
При питанні користувача система шукає найбільш схожі фрагменти в локальній базі знань.
Знайдений контекст передається основній моделі разом з вашим питанням.

В OpenWebUI налаштування RAG відбувається в розділі "Documents". Ви можете завантажити цілу папку з документацією або кодову базу проекту. Для коректної роботи переконайтеся, що в налаштуваннях обрана модель ембедінгів. За замовчуванням використовується CPU-версія, що ідеально підходить для нашого VPS.

Завантаження кодової бази і PDF

Щоб ваш local chatgpt став експертом у вашому проекті, використовуйте функцію колекцій. Ви можете створити колекцію "Project_Alpha" і завантажити туди всі .py або .js файли. При спілкуванні з моделлю достатньо буде згадати колекцію через символ #, і нейромережа буде використовувати ваш код як контекст для відповідей. Це перетворює звичайний чат в повноцінний інструмент рівня GitHub Copilot, але з приватним зберіганням даних.

rocket_launch Швидкий вибір

Шукаєте сервер, який просто працює?

Valebyte VPS — NVMe, підтримка 24/7, розгортання за 60 секунд.

Переглянути тарифи VPS arrow_forward

Безпека self hosted gpt і корпоративна ізоляція

При розгортанні корпоративного чату на базі openwebui setup необхідно приділити увагу захисту периметра. Відкритий порт 3000 - це пряма загроза безпеці.

Налаштування HTTPS і Nginx Reverse Proxy

Ніколи не використовуйте HTTP для передачі корпоративних даних. Встановіть Nginx і отримайте безкоштовний SSL-сертифікат Let's Encrypt. Це зашифрує трафік між вашим браузером і VPS.

sudo apt install nginx certbot python3-certbot-nginx -y
# Пример конфигурации Nginx
server {
    listen 80;
    server_name chat.yourcompany.com;
    location / {
        proxy_pass http://localhost:3000;
        proxy_set_header Host $host;
        proxy_set_header X-Real-IP $remote_addr;
    }
}

Якщо ви переїжджаєте з інших хостингів, наприклад, плануєте міграцію з Hetzner на Valebyte, не забудьте оновити DNS-записи і перевипустити сертифікати.

Обмеження доступу через VPN

Для максимальної безпеки рекомендовано закрити доступ до порту 80/443 для зовнішнього світу та дозволити його тільки через внутрішню мережу. Ви можете підняти свій VPN на цьому ж або сусідньому сервері. Відмінним варіантом буде використання 3x-ui панелі для налаштування Reality, що забезпечить прихований та швидкий доступ співробітників до корпоративного ІІ.

Порівняння моделей для privategpt vps: Llama 3.1 vs Mistral

Вибір моделі визначає якість відповідей та швидкість роботи. На VPS без відеокарти ми обмежені моделями до 14-20 мільярдів параметрів.

Модель	Розмір (4-bit)	Спеціалізація	Швидкість на 8 vCPU
Llama 3.1 8B	4.7 GB	Універсальна, логіка	12-15 токенів/сек
Mistral Nemo 12B	7.5 GB	Довгий контекст (128k)	8-10 токенів/сек
Qwen 2.5 7B	4.4 GB	Кодування та математика	14-16 токенів/сек
Phi-3 Mini	2.3 GB	Швидкі прості задачі	25+ токенів/сек

Для більшості офісних задач (написання листів, сумаризація зустрічей) Llama 3.1 8B є золотим стандартом. Якщо ж вам потрібно аналізувати величезні логи або довгі юридичні договори, Mistral Nemo з його розширеним вікном контексту буде більш кращим.

Оптимізація та тюнінг продуктивності на CPU

Щоб ваш свій chatgpt vps не "гальмував" при одночасній роботі декількох співробітників, необхідно правильно налаштувати параметри Ollama.

Управління потоками (Threads)

За замовчуванням Ollama намагається використовувати всі доступні ядра. Однак це може призвести до зависання всієї системи. В налаштуваннях OpenWebUI або через змінні оточення Ollama можна обмежити кількість потоків для одного запиту. Оптимальне значення — NUM_THREADS = (всього_ядер - 1).

Квантування та формат GGUF

Використання моделей у форматі FP16 на CPU неможливе через колосальні вимоги до пам'яті. Завжди обирайте квантування Q4_K_M або Q5_K_M. Втрата точності порівняно з повною моделлю складає менше 1-2%, але вимоги до RAM знижуються в 4 рази. Якщо ви раніше використовували DigitalOcean і зіткнулися з нестачею ресурсів, подивіться гайд як переїхати з DigitalOcean на більш потужні конфігурації Valebyte.

rocket_launch Швидкий вибір

Шукаєте сервер, який просто працює?

Valebyte VPS — NVMe, підтримка 24/7, розгортання за 60 секунд.

Переглянути тарифи VPS arrow_forward

Інтеграція та API: як використовувати свій ChatGPT в робочих процесах

OpenWebUI надає API, повністю сумісний з OpenAI API. Це означає, що ви можете підключити свій локальний сервер до будь-яких сторонніх додатків (IDE, CRM, месенджери), просто замінивши base_url.

Для розробників: Підключіть VS Code через розширення Continue.dev до вашого VPS. Ви отримаєте приватне автодоповнення коду.
Для аналітиків: Використовуйте Python-скрипти для масової обробки документів через API вашого сервера.
Для HR: Налаштуйте автоматичний первинний скринінг резюме, завантажуючи їх в папку RAG.

Вартість володіння такою системою фіксована. На відміну від OpenAI, де рахунок росте пропорційно кількості токенів, за свій chatgpt vps ви платите фіксовану оренду сервера, незалежно від інтенсивності використання.

Висновки

Для створення безпечного корпоративного аналога ChatGPT достатньо орендувати VPS з 16-32 GB RAM та розгорнути зв'язку OpenWebUI + Ollama, що забезпечить повну приватність даних за $90/міс. Рекомендується використовувати модель Llama 3.1 8B для повсякденних задач та обов'язково налаштовувати доступ через VPN або Reverse Proxy з SSL для захисту корпоративної інформації.

Готові обрати сервер?

VPS та виділені сервери в 72+ країнах з миттєвою активацією та повним root-доступом.

Почати зараз →