Создание полноценного рабочего процесса LLM с Ollama и Gradio

Введение в создание саморазворачиваемого рабочего процесса LLM с помощью Ollama

Сегодня мы рассмотрим, как создать полный саморазворачиваемый рабочий процесс для больших языковых моделей (LLM) с использованием Ollama, REST API и интерфейса Gradio. Этот подход идеально подходит для разработчиков, аналитиков данных и практиков искусственного интеллекта, стремящихся к практическому применению технологий ИИ в своем бизнесе.

Преимущества саморазворачиваемого рабочего процесса

Создание саморазворачиваемого рабочего процесса LLM имеет ряд значительных преимуществ:

Контроль над данными: Вы сами управляете своими данными, что повышает безопасность и конфиденциальность.
Снижение затрат: Сравнительно низкие затраты на развертывание, так как вы используете собственные ресурсы.
Гибкость: Возможность модифицировать и адаптировать решения под конкретные задачи.

Основные этапы реализации

Теперь давайте подробно рассмотрим основные шаги, необходимые для создания рабочего процесса.

1. Установка Ollama в среде Google Colab

Начнем с установки Ollama и Gradio. Для этого используем простой скрипт на Python:

import os, subprocess

def sh(cmd, check=True):
    p = subprocess.Popen(cmd, shell=True, stdout=subprocess.PIPE, stderr=subprocess.STDOUT, text=True)
    for line in p.stdout:
        print(line, end="")
    p.wait()
    if check and p.returncode != 0:
        raise RuntimeError(f"Command failed: {cmd}")

if not os.path.exists("/usr/local/bin/ollama"):
    print(" Установка Ollama ...")
    sh("curl -fsSL https://ollama.com/install.sh | sh")
else:
    print(" Ollama уже установлен.")

Этот код проверяет, установлен ли Ollama, и устанавливает его, если это не так.

2. Запуск сервера Ollama

После установки нужно запустить сервер Ollama:

def start_ollama():
    try:
        requests.get("http://127.0.0.1:11434/api/tags", timeout=1)
        print(" Сервер Ollama уже запущен.")
        return None
    except Exception:
        pass
    print(" Запуск сервера Ollama ...")
    proc = subprocess.Popen(["ollama", "serve"], stdout=subprocess.PIPE, stderr=subprocess.STDOUT, text=True)
    return proc

server_proc = start_ollama()

Этот код запускает сервер и проверяет его статус. Убедитесь, что он работает, прежде чем продолжить.

3. Управление моделями

Теперь определим модель, которую будем использовать:

MODEL = "qwen2.5:0.5b-instruct"
tags = requests.get("http://127.0.0.1:11434/api/tags", timeout=5).json()
if not any(m.get("name") == MODEL for m in tags.get("models", [])):
    print(f" Загружаем модель {MODEL} ...")
    sh(f"ollama pull {MODEL}")

Этот фрагмент кода проверяет доступность модели и загружает ее при необходимости.

4. Реализация чат-функциональности

Создадим клиент для взаимодействия с моделью в режиме реального времени:

def ollama_chat_stream(messages, model=MODEL):
    payload = {"model": model, "messages": messages, "stream": True}
    with requests.post("http://127.0.0.1:11434/api/chat", json=payload, stream=True) as r:
        for line in r.iter_lines():
            if line:
                data = json.loads(line.decode("utf-8"))
                yield data["message"]["content"]

5. Проведение тестирования

Запустим тест, чтобы убедиться, что все работает:

def smoke_test():
    user_msg = {"role": "user", "content": "Как улучшить качество сна?"}
    for chunk in ollama_chat_stream([user_msg]):
        print(chunk)
smoke_test()

6. Создание интерфейса Gradio

Наконец, интегрируем Gradio для создания пользовательского интерфейса:

import gradio as gr

def chat_fn(message):
    return next(ollama_chat_stream([{"role": "user", "content": message}]))

with gr.Blocks() as demo:
    gr.Markdown("# Чат с Ollama")
    msg = gr.Textbox(label="Ваше сообщение", placeholder="Спросите что угодно...")
    chat = gr.Chatbot()
    
    def user_send(m):
        response = chat_fn(m)
        return response

    msg.submit(user_send, [msg], [chat])
demo.launch()

Теперь у нас есть интерактивный интерфейс для общения с моделью.

Заключение

Создание саморазворачиваемого рабочего процесса LLM с помощью Ollama, REST API и Gradio позволяет не только экспериментировать с языковыми моделями, но и адаптировать их под уникальные задачи вашего бизнеса. Этот процесс является доступным и экономически эффективным решением для тех, кто хочет внедрить ИИ в свои проекты.

Для дальнейшего изучения, не стесняйтесь следить за нами в социальных сетях и делиться своими успехами в работе с Ollama!