Создание компактного AI-ассистента для программирования с Mistral Devstral

Создание ИИ-помощника для программирования с минимальным объемом памяти с помощью Mistral Devstral

В современном мире автоматизации бизнеса и разработки программного обеспечения особое внимание уделяется эффективности и оптимизации ресурсов. Одним из ярких решений в этой области стал Mistral Devstral — мощный ИИ-помощник для кодирования, который может работать даже в условиях ограниченного пространства. Давайте разберемся, как создать такой помощник и какие преимущества он может принести.

Установка необходимых пакетов

Прежде чем приступить к созданию ИИ-помощника, необходимо установить несколько легковесных библиотек. Это позволит минимизировать использование дискового пространства:

!pip install -q kagglehub mistral-common bitsandbytes transformers --no-cache-dir
!pip install -q accelerate torch --no-cache-dir

Эти команды обеспечивают отсутствие кэша и загружают только необходимые библиотеки для эффективной работы модели.

Управление кэшем

Чтобы поддерживать минимальный объем занимаемого места на диске, важно регулярно очищать ненужные файлы. Ниже представлен пример функции, которая поможет в этом:

def cleanup_cache():
   """Очистка ненужных файлов для экономии дискового пространства"""
   cache_dirs = ['/root/.cache', '/tmp/kagglehub']
   for cache_dir in cache_dirs:
       if os.path.exists(cache_dir):
           shutil.rmtree(cache_dir, ignore_errors=True)
   gc.collect()

Эта проактивная очистка помогает освободить место перед и после ключевых операций.

Инициализация модели

Следующий шаг — создание класса LightweightDevstral, который отвечает за загрузку модели и генерацию текста:

class LightweightDevstral:
   def __init__(self):
       print("Загрузка модели (режим потоковой передачи)...")
       self.model_path = kagglehub.model_download(
           'mistral-ai/devstral-small-2505/Transformers/devstral-small-2505/1',
           force_download=False 
       )
       quantization_config = BitsAndBytesConfig(
           bnb_4bit_compute_dtype=torch.float16,
           bnb_4bit_quant_type="nf4",
           bnb_4bit_use_double_quant=True,
           bnb_4bit_quant_storage=torch.uint8,
           load_in_4bit=True
       )
       print("Загрузка ультра-сжатой модели...")
       self.model = AutoModelForCausalLM.from_pretrained(
           self.model_path,
           torch_dtype=torch.float16,
           device_map="auto",
           quantization_config=quantization_config,
           low_cpu_mem_usage=True, 
           trust_remote_code=True
       )
       self.tokenizer = MistralTokenizer.from_file(f'{self.model_path}/tekken.json')
       cleanup_cache()
       print("Легкий помощник готов! (~2 ГБ дискового пространства)")

Эффективная генерация текста

Метод generate использует безопасные для памяти практики:

def generate(self, prompt, max_tokens=400): 
       """Генерация текста с учетом экономии памяти"""
       tokenized = self.tokenizer.encode_chat_completion(
           ChatCompletionRequest(messages=[UserMessage(content=prompt)])
       )
       input_ids = torch.tensor([tokenized.tokens])
       if torch.cuda.is_available():
           input_ids = input_ids.to(self.model.device)
       with torch.inference_mode(): 
           output = self.model.generate(
               input_ids=input_ids,
               max_new_tokens=max_tokens,
               temperature=0.6,
               top_p=0.85,
               do_sample=True,
               pad_token_id=self.tokenizer.eos_token_id,
               use_cache=True 
           )[0]
       del input_ids
       torch.cuda.empty_cache() if torch.cuda.is_available() else None
       return self.tokenizer.decode(output[len(tokenized.tokens):])

Этот метод позволяет эффективно генерировать текст, минимизируя потребление памяти.

Интерактивный режим кодирования

Введем режим Quick Coding, который позволяет пользователям отправлять короткие запросы на кодирование:

def quick_coding():
   """Легкий интерактивный сеанс"""
   print("\nРЕЖИМ БЫСТРОГО КОДИРОВАНИЯ")
   print("=" * 40)
   print("Введите короткие запросы на кодирование (нажмите 'exit' для выхода)")
  
   session_count = 0
   max_sessions = 5 
  
   while session_count < max_sessions:
       prompt = input(f"\n[{session_count+1}/{max_sessions}] Ваш запрос: ")
       if prompt.lower() in ['exit', 'quit', '']:
           break
       try:
           result = assistant.generate(prompt, max_tokens=300)
           print("Решение:")
           print(result[:500]) 
           gc.collect()
           if torch.cuda.is_available():
               torch.cuda.empty_cache()
       except Exception as e:
           print(f"Ошибка: {str(e)[:100]}...")
       session_count += 1
   print(f"\nСеанс завершен! Память очищена.")

Мониторинг использования диска

Для контроля за использованием дискового пространства можно воспользоваться следующим кодом:

def check_disk_usage():
   """Мониторинг использования диска"""
   import subprocess
   try:
       result = subprocess.run(['df', '-h', '/'], capture_output=True, text=True)
       lines = result.stdout.split('\n')
       if len(lines) > 1:
           usage_line = lines[1].split()
           used = usage_line[2]
           available = usage_line[3]
           print(f"Диск: {used} занято, {available} доступно")
   except:
       print("Проверка использования диска недоступна")

Таким образом, мы можем эффективно использовать возможности модели Mistral Devstral в условиях ограниченного пространства, не жертвуя удобством или скоростью. Модель загружается в высокосжатом формате, выполняет эффективную генерацию текста и оперативно очищает память после использования.

Не забудьте проверить код и подписаться на нашу рассылку, чтобы не пропустить новые обновления и советы по использованию ИИ в вашем бизнесе!