Lokalne AI

Llama 4 Scout na DGX Spark.
Instalacja "po ludzku".

Mamy potężny sprzęt w postaci Asusa GX10, więc wykorzystajmy go w pełni. Celem tego przewodnika jest uruchomienie modelu Llama 4 Scout całkowicie offline, z interfejsem przypominającym ChatGPT, dostępnym wygodnie z Twojego laptopa. Bez chmury, bez opłat i bez zbędnych komplikacji.

Wielu użytkowników DGX Spark próbuje korzystać z domyślnych narzędzi Nvidii, takich jak Spark Sync czy niestandardowe mapowanie portów na 12000. Moim zdaniem, do domowego lub małego firmowego użytku, to przerost formy nad treścią. Często instalujemy w ten sposób dodatkowe agenty, które zużywają zasoby i komplikują proste rzeczy.

Zrobimy to inaczej – prościej. Zbudujemy stabilne środowisko oparte na standardach: Ollama jako silnik, Open WebUI jako interfejs oraz bezpieczny tunel SSH do zdalnego dostępu. Dzięki temu unikniemy "magicznych" skryptów, które działają do pierwszej aktualizacji systemu, i zachowamy pełną kontrolę nad tym, co dzieje się na maszynie.

Wymagania: Zakładam, że masz już działającego DGX Spark (Asus GX10) z fabrycznym Ubuntu i dostępem do terminala, a Twój laptop znajduje się w tej samej sieci Wi-Fi/LAN. Docker powinien być już zainstalowany fabrycznie.

Krok 1: Silnik (Ollama) i Model

Zacznijmy od fundamentów. Ollama to obecnie standard w uruchamianiu modeli językowych na Linuxie. Jest lekka i świetnie zarządza zasobami GPU. Zaloguj się na swój serwer DGX i wpisz w terminalu poniższą komendę, aby ją zainstalować:

user@dgx-spark:~

$curl -fsSL https://ollama.com/install.sh | sh

>>> Downloading Ollama... >>> Installing ollama to /usr/local/bin... >>> Adding current user to ollama group...

Gdy instalacja dobiegnie końca, możemy pobrać sam model. Wybieramy Llama 4 Scout – to zbalansowana wersja, idealna pod specyfikację GX10. Ostrzegam, że plik waży kilkadziesiąt gigabajtów, więc zależnie od Twojego łącza, może to chwilę potrwać. To dobry moment na kawę.

user@dgx-spark:~

$ollama pull llama4:scout

pulling manifest... downloading template... downloading layers [=========================>] 100% success

Krok 2: Interfejs (Open WebUI)

Mamy silnik, teraz potrzebujemy kierownicy. Open WebUI to nakładka, która wygląda i działa niemal identycznie jak ChatGPT, ale wszystkie dane zostają u Ciebie. Uruchomimy ją w jednym kontenerze Dockera. Poniższa komenda robi wszystko za nas: pobiera obraz, łączy go z Ollamą (dzięki fladze --add-host) i wystawia interfejs na porcie 8080.

user@dgx-spark:~

$docker run -d \

-p 8080:8080 \

--add-host=host.docker.internal:host-gateway \

-v open-webui:/app/backend/data \

--name open-webui \

--restart always \

ghcr.io/open-webui/open-webui:main

1a2b3c4d5e6f... (container ID)

W tym momencie, jeśli otworzysz przeglądarkę na samym urządzeniu DGX i wejdziesz na http://localhost:8080, powinieneś zobaczyć ekran logowania. Załóż tam konto (jest ono w pełni lokalne, nie wysyła nigdzie maili) i wybierz model "llama4:scout" z listy na górze.

Krok 3: Dostęp z kanapy (SSH Tunneling)

Tu dochodzimy do najważniejszej części. Jak korzystać z tego modelu na laptopie, siedząc wygodnie w salonie? Zamiast otwierać porty "na świat" i ryzykować bezpieczeństwem, użyjemy techniki zwanej SSH Tunneling. Wyobraź to sobie jako bezpieczną rurę, która łączy port w Twoim laptopie bezpośrednio z portem serwera, szyfrując wszystko po drodze.

Najpierw sprawdź IP swojego serwera DGX (komenda ip a), szukaj czegoś w stylu 192.168.1.XX. W naszym przykładzie założymy, że jest to 192.168.1.25. Następnie na swoim laptopie (w terminalu lub PowerShell) wpisz:

laptop-uzytkownika: PS

PS C:\Users\User>ssh -L 12000:localhost:8080 user@192.168.1.25

user@192.168.1.25's password:

Po wpisaniu hasła i zalogowaniu, zostaw to okno otwarte w tle. Teraz wystarczy, że na laptopie wejdziesz w przeglądarce pod adres:

http://localhost:12000

Gotowe! Korzystasz z mocy obliczeniowej DGX Spark, ale interfejs masz u siebie. Co więcej, to rozwiązanie świetnie się skaluje. Jeśli Twój zespół chce pracować na tym samym serwerze, każdy może zestawić własny tunel SSH na swoim koncie użytkownika. Open WebUI obsłuży historię czatów dla każdej osoby oddzielnie. To najbezpieczniejsza i najbardziej "produkcyjna" metoda pracy z lokalnym AI.