# Полное руководство по использованию облачных моделей Ollama (Ollama Cloud)
Платформа Ollama, изначально известная удобным запуском локальных LLM, расширила свой функционал, добавив облачный инференс (Ollama Cloud). Это позволяет использовать тяжелые модели, которые физически не поместились бы в локальную видеопамять, через привычный стандартизированный интерфейс.
Ниже представлена подробная инструкция по тарифам, поиску, подключению и использованию облачных моделей.
---
## 1. Платные тарифы: Pro и Max
Облачные модели Ollama доступны в рамках подписочной модели с фиксированной стоимостью. Выбор тарифа напрямую зависит от интенсивности вашей работы, особенно если вы занимаетесь многоагентными системами или фоновой обработкой кода:
* **Free ($0/мес):** Подходит для тестирования. Доступна 1 облачная модель одновременно с жесткими базовыми лимитами по токенам.
* **Pro ($20/мес или $200/год):** Рабочий стандарт для повседневной разработки и "vibe coding".
* Запуск до 3 облачных моделей одновременно.
* Лимит использования в 50 раз выше, чем на бесплатном тарифе.
* Поддержка до 3 приватных (собственных) моделей.
* **Max ($100/мес):** Для тяжелого, непрерывного использования и оркестрации множества агентов.
* Поддержка до 10 облачных моделей одновременно.
* Лимит токенов в 5 раз больше, чем в тарифе Pro.
Как пример лимиты очень большие я паралельно использую 2-3 агентов в Claude Code сразу и пока неразу не уперся в лимиты

---
## 2. Поиск и выбор моделей
Все модели, доступные для запуска в облаке, собраны в официальном каталоге и фильтруются по специальной ссылке: [https://ollama.com/search?c=cloud](https://ollama.com/search?c=cloud).
**Примеры популярных облачных моделей:**
* `gemma4:31b-cloud` / `gemma4:26b-a4b` — продвинутые варианты для сложных задач, кодинга и математики (с длинным контекстом до 256K токенов).
* `kimi-k2.6:cloud`, `deepseek-v4-pro:cloud` — мощная модель, отлично подходящая для глубоких рассуждений и работы в качестве "мозга" агента.
* `glm-5.1:cloud`, `deepseek-v4-flash:cloud` — универсальные модели с высокой пропускной способностью.
**Главное отличие:** В отличие от локальных весов, модели с тегом `:cloud` не скачиваются на ваше устройство. CLI или API автоматически маршрутизируют ваши промпты на высокопроизводительные серверы Ollama.
---
## 3. Пошаговая настройка доступа
Чтобы использовать Ollama Cloud в своих средах (особенно на Arch Linux или Ubuntu), необходимо настроить авторизацию через API-ключ.
1. Зарегистрируйтесь на сайте Ollama и оформите подписку Pro или Max.
2. Перейдите в настройки аккаунта и сгенерируйте свой **API-ключ**.
3. Добавьте ключ в переменные окружения вашей системы. Для этого откройте ваш `~/.bashrc` или `~/.zshrc` и добавьте строку:
```bash
export OLLAMA_API_KEY="ваш_api_ключ_здесь"
```
4. Обновите конфигурацию (`source ~/.bashrc`) или перезапустите терминал.
---
## 4. Сценарии и инструменты использования
Уникальность Ollama Cloud в том, что облачные модели работают ровно в тех же инструментах, где раньше работали локальные.
### Вариант А: Оркестрация AI-агентов (Claude Code, OpenClaw)
Если вы строите автономные системы или автоматизируете работу с репозиториями, Ollama выступает идеальным мостом. Вы можете запустить официальную интеграцию **Claude Code** в интерактивном или автономном (headless) режиме, передав облачную модель.
```bash
# Интерактивный сеанс:
ollama launch claude --model kimi-k2.5:cloud
# Headless-режим для автоматического анализа архитектуры или скриптов CI/CD:
ollama launch claude --model kimi-k2.5:cloud --yes -- -p "how does this repository work?"
```
Для непрерывных рутинных задач (аудит, трекинг) в Claude Code есть полезная команда `/loop`. Поскольку такие задачи требуют контекстных окон от 64K, облачные модели подходят идеально:
```bash
# Введите это внутри сессии Claude Code:
/loop 30m Check my open PRs and summarize their status.
```
Также Ollama умеет автоматически генерировать конфиги и запускать новейшие фреймворки, такие как **OpenClaw**:
```bash
ollama launch openclaw --model kimi-k2.5:cloud
```
### Вариант Б: Визуальный интерфейс (Open WebUI)
Для повседневного использования и тестирования идей лучше всего развернуть **Open WebUI**. Это мощный, красивый Self-Hosted интерфейс, который бесшовно подхватит ваши облачные модели.
Проще всего запустить его через Docker:
```bash
docker run -d \
--network=host \
-v open-webui:/app/backend/data \
-e OLLAMA_BASE_URL=http://127.0.0.1:11434 \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:main
```
В самом интерфейсе модели с тегом `:cloud` появятся в привычном выпадающем списке. Вы сможете быстро переключаться между быстрыми локальными моделями для набросков и облачным инференсом для сложных промптов.
### Вариант В: Свои Python-скрипты (RAG пайплайны)
При разработке собственных архитектур (например, многоагентных систем на LangGraph с использованием Supabase или Redis) вы можете напрямую использовать официальную Python-библиотеку `ollama`.
Облачные API поддерживают потоковую передачу (streaming), строгие JSON-схемы вывода и трассировку "размышлений" (thinking trace).
**Установка:**
```bash
pip install ollama python-dotenv pydantic
```
**Пример асинхронного стриминга ответа:**
```python
import os
from ollama import Client
# Клиент автоматически подхватит OLLAMA_API_KEY из окружения
client = Client()
response = client.chat(
model='gemma4:31b-cloud',
messages=[
{'role': 'system', 'content': 'You are a staff engineer. Use modular architecture principles.'},
{'role': 'user', 'content': 'Design a high-load RAG pipeline schema using Redis for fast retrieval.'}
],
stream=True
# Для автономных агентов можно добавить format='json' для строгого ответа
)
print("Генерация ответа облачной моделью...")
for chunk in response:
# Некоторые модели умеют транслировать процесс рассуждения до выдачи ответа
if 'thinking' in chunk:
# Логика обработки рассуждений
pass
# Вывод финального текста в реальном времени
print(chunk['message']['content'], end='', flush=True)
```
## Рекомендации
* **Разделение нагрузки:** Оставляйте небольшие модели локально для базовых задач, а на тарифы Pro/Max выводите глубокую аналитику и агентов, требующих больших контекстных окон.
* **Контроль лимитов:** На платных тарифах Ollama присылает уведомление при достижении 90% лимита. Внимательно следите за агентами, стоящими на `/loop`, так как они могут быстро израсходовать квоту подписки. Следите за параллелизмом (до 3 моделей на Pro, до 10 на Max), чтобы избегать ошибок API при одновременном запуске нескольких скриптов.