Как установить нейросеть на ПК локально: приложения для запуска ИИ

1 июля, 17:19 8 мин.

Как установить нейросеть локально на компьютер – выбор программы, проверка железа и запуск модели

Автор

Свой ИИ без интернета.

Вы наверняка видели, как кто-то общается с нейросетью прямо на своем компьютере – без интернета и подписок. Сегодня разберем самое начало этого пути для тех, кто хочет гонять ИИ на своем железе локально. Поговорим про установку среды, загрузку модели и ее запуск. А как именно ее потом использовать – подключать как агента, крутить на своем сервере или просто общаться в чате – решать уже вам.

Приложения для локального запуска нейросетей

Программ для запуска ИИ на своем железе много. Вот три самых популярных варианта:

LM Studio – десктопное приложение с удобным графическим интерфейсом для Windows, macOS и Linux. Прямо внутри можно искать и скачивать модели, общаться с ними в чате, а при желании поднять локальный сервер с API. Самый дружелюбный вариант для новичка.
Ollama – бесплатный инструмент с открытым исходным кодом, который работает из командной строки. Его часто описывают как «Docker для нейросетей» – одной командой скачиваете модель и сразу запускаете. Ollama сама определяет вашу видеокарту и подбирает настройки, а еще легко встраивается в другие программы и скрипты.
llama.cpp – это не столько приложение, сколько сам движок для запуска моделей, написанный на C/C++. Он работает почти на любом железе (процессор, видеокарты NVIDIA, AMD и Apple), дает максимум контроля, но требует возни со сборкой и командной строкой. Кстати, многие удобные программы, включая LM Studio, под капотом используют именно его.

Дальше все будем разбирать на примере LM Studio – он популярнее и проще остальных, а графический интерфейс избавляет от возни с командами. Скачайте программу с официального сайта и установите, следуя подсказкам установщика, тут нет ничего сложного.

Проверка системных требований

Теперь нужно понять, насколько большая (а значит, и умная) модель поместится на вашу видеокарту. Запускать нейросети можно не только из видеопамяти, но такие способы обычно работают заметно хуже и требуют возни с настройками, поэтому для старта ориентируемся именно на видеопамять.

Если вы не знаете, сколько памяти у вашей видеокарты, загляните в диспетчер задач. Нажмите правой кнопкой мыши по панели задач и выберите «Диспетчер задач». Перейдите в раздел «Производительность» и откройте «Графический процессор» – там и увидите объем видеопамяти.

Дальше прикидываем, сколько места займет конкретная модель. Искать их удобно прямо в LM Studio на вкладке Model Search. Загуглите, какая модель влезает в вашу видеопамять, найдите ее по названию через поиск и кликните. Если модель помещается, вы увидите зеленую надпись Full GPU Offload Possible и ее размер на кнопке рядом. Если нет, надпись станет синей Partial GPU Offload Possible. Такую модель лучше обойти стороной, ваше железо ее не потянет.

Учтите еще один момент. Кроме веса самой модели часть видеопамяти съедает контекстное окно. Это не общие знания модели, которые зашиты внутри, а память о текущем открытом чате. У разных моделей контекст разный по объему в токенах, да и сами токены занимают разное место. По опыту скажу так – оставляйте свободными хотя бы 2 ГБ видеопамяти, чтобы модель не вылетала во время работы.

Скачивание нейросети на свой ПК

Тут все просто. Нажмите кнопку «Download» и дождитесь окончания загрузки. Остается финальный шаг – запуск модели.

Настройка и запуск нейросети

Перейдите на вкладку «My Models» и кликните по загруженной модели. Чтобы начать сразу, нажмите «Use in New Chat», после этого можно общаться с ИИ и давать ему задачи.

Если модель почему-то не запускается или вы хотите настроить ее заранее, откройте раздел «Load». Настроек тут много, разберем, за что они отвечают:

Context Length – размер «памяти» модели, то есть сколько токенов (примерно слов и символов) она держит в одном разговоре. Больше значение – модель помнит больше текста, но сильнее нагружает память. Некоторые модели поддерживают до миллиона с лишним токенов, но выкручивать максимум не стоит, памяти не хватит.
GPU Offload – сколько слоев модели перенести на видеокарту. Чем больше слоев на GPU, тем быстрее работа. Если видеопамяти мало, уменьшайте значение, тогда часть ляжет на процессор – медленнее, зато стабильнее.
CPU Thread Pool Size – сколько потоков процессора задействовать. Обычно ставят по числу физических ядер.
Evaluation Batch Size – сколько токенов обрабатывается за один проход при чтении вашего запроса. Больше – быстрее обработка длинного текста, но выше нагрузка на память.
Physical Batch Size – то же самое, но на более низком, физическом уровне. Технический параметр, который обычно не трогают.
Max Concurrent Predictions – сколько запросов модель обрабатывает одновременно. Пригодится, если к ней обращаются сразу несколько чатов или приложений.
Unified KV Cache (экспериментально) – объединенное хранение «кэша внимания», помогает экономнее расходовать память.
RoPE Frequency Base / Scale (Auto) – тонкая настройка механизма, который отвечает за работу с длинным контекстом. Лучше оставить Auto и менять только осознанно.
Offload KV Cache to GPU Memory – хранить кэш контекста в видеопамяти. Быстрее, но занимает VRAM.
Keep Model in Memory – позволяет держать модель в оперативной памяти целиком и не выгружать. Ответы приходят быстрее, но и RAM расходуется активнее.
Try mmap() – позволяет подгружать файл модели с диска по мере надобности. Помогает запустить модель, которая не влезает в память целиком, но снижает скорость ее работы.
Seed (Random Seed) – сид, прямо как в играх. При фиксированном значении ответы на один и тот же запрос будут повторяться, при Random – вы каждый раз будете получать новые.
Flash Attention – ускоренный и экономный по памяти алгоритм внимания. Обычно его держат включенным, к тому же без него не заработает сжатие кэша контекста.
K Cache / V Cache Quantization Type – сжатие кэша контекста, чтобы сэкономить память ценой небольшой потери качества. Если памяти под контекст не хватает, снизьте параметр с F16 до Q8_0. Ниже опускать не советую, качество заметно просядет.

Что настраивать новичку

Не пугайтесь количества галочек. Из всего списка новичку стоит трогать всего три параметра:

GPU Offload – если модель тормозит, увеличивайте значение. Если не запускается или вылетает, уменьшайте.
Context Length – увеличивайте, когда нужен длинный диалог или большой документ, уменьшайте, когда не хватает памяти.
K Cache / V Cache Quantization Type – поднимайте ради качества, снижайте, когда не хватает памяти.

Дальше загляните на вкладку «Inference». Она отвечает не за скорость или объем памяти, а за характер модели – креативность, размышления, системный промт и манеру отвечать:

System Prompt – системная инструкция, которая задает модели роль и стиль поведения. Например, «Ты помощник, отвечай кратко и по-русски». Работает как постоянная установка на весь диалог.
Settings – общие настройки поведения чата. Здесь же живет Temperature, то есть уровень креативности и непредсказуемости, где ниже значит строже и точнее, а выше – свободнее.
Reasoning Parsing – разбор «размышлений» модели. У рассуждающих моделей вроде DeepSeek R1 есть внутренний блок раздумий, и здесь настраивается, как LM Studio его распознает и будет ли показывать его отдельно от финального ответа.
Sampling – важный раздел для качества ответов, он отвечает за «случайность» генерации. Тут есть Top P и Top K (насколько широко модель выбирает следующее слово) и Repeat Penalty (штраф за повторы).
Structured Output – вывод в строгом формате, например JSON по заданной схеме. Полезно, когда ответ нужен программе, а не человеку.
Speculative Decoding – ускорение генерации, при котором маленькая «черновая» модель предлагает текст, а основная его проверяет. Дает прирост скорости, но придется настроить вспомогательную модель с тем же словарем, что у основной.
Prompt Template – шаблон оформления запроса под конкретную модель. Обычно подтягивается автоматически, менять стоит только если модель отвечает странно из-за неверного шаблона.

Что трогать новичку

Тут все еще проще, достаточно двух параметров:

System Prompt – задайте роль и язык, это сильно влияет на ответы.
Temperature – уменьшайте для точности (факты, код) и увеличивайте для творчества.
Остальное (Prompt Template, Reasoning Parsing, Speculative Decoding) можно оставить по умолчанию, LM Studio сам подстроит их под выбранную модель.

***
На первом запуске не гонитесь за самой большой моделью. Возьмите что-нибудь скромное, освойтесь с интерфейсом и настройками, а уже потом переходите к более тяжелым и умным вариантам. Локальный ИИ хорош тем, что все остается в ваших руках – и данные, и эксперименты, и результат, к тому же абсолютно бесплатно.

***

Что такое промты для нейросетей и как правильно их писать?

Обзор Яндекс Дропс: наушники с ИИ-ассистентом