Jak pobrać i zainstalować Llamę 2 lokalnie - |Wyjaśnienie technologii|Zrób to sam|

Czytelnicy tacy jak Ty pomagają wspierać MUO. Kiedy dokonujesz zakupu za pomocą linków na naszej stronie, możemy otrzymać prowizję partnerską. Czytaj więcej.

Meta wypuściła Llamę 2 latem 2023 roku. Nowa wersja Llama jest dostrojona o 40% więcej tokenów niż oryginalny model Llama, podwajając długość kontekstu i znacznie przewyższając inne dostępne modele z otwartym kodem źródłowym. Najszybszym i najłatwiejszym sposobem uzyskania dostępu do Lamy 2 jest interfejs API na platformie internetowej. Jeśli jednak chcesz uzyskać najlepszą jakość, najlepiej będzie zainstalować i załadować Llamę 2 bezpośrednio na swój komputer.

darmowe filmy bez pobierania bez rejestracji

Mając to na uwadze, stworzyliśmy przewodnik krok po kroku, jak używać interfejsu Text-Generation-WebUI do ładowania skwantowanej Lamy 2 LLM lokalnie na komputerze.

Dlaczego warto zainstalować Llamę 2 lokalnie

Istnieje wiele powodów, dla których ludzie decydują się na bezpośrednie uruchomienie Lamy 2. Niektórzy robią to ze względów prywatności, inni w celu dostosowania, a jeszcze inni ze względu na możliwości offline. Jeśli badasz, dostrajasz lub integrujesz Llamę 2 w swoich projektach, dostęp do Llama 2 poprzez API może nie być dla Ciebie. Celem uruchomienia LLM lokalnie na komputerze jest zmniejszenie zależności narzędzia sztucznej inteligencji innych firm i korzystaj ze sztucznej inteligencji w dowolnym miejscu i czasie, nie martwiąc się o wyciek potencjalnie wrażliwych danych do firm i innych organizacji.

Powiedziawszy to, zacznijmy od przewodnika krok po kroku dotyczącego lokalnej instalacji Lamy 2.

Krok 1: Zainstaluj narzędzie do kompilacji Visual Studio 2019

Aby uprościć sprawę, użyjemy instalatora jednym kliknięciem dla Text-Generation-WebUI (programu służącego do ładowania Lamy 2 z GUI). Aby jednak ten instalator działał, należy pobrać narzędzie Visual Studio 2019 Build Tool i zainstalować niezbędne zasoby.

Pobierać: Visual Studio 2019 (Bezpłatny)

Śmiało, pobierz wersję społecznościową oprogramowania.
Teraz zainstaluj Visual Studio 2019, a następnie otwórz oprogramowanie. Po otwarciu zaznacz pole wyboru Tworzenie desktopów w C++ i naciśnij instaluj.

Teraz, gdy masz już zainstalowany program do tworzenia komputerów stacjonarnych w języku C++, czas pobrać instalator jednym kliknięciem Text-Generation-WebUI.

Krok 2: Zainstaluj Text-Generation-WebUI

Instalator Text-Generation-WebUI za pomocą jednego kliknięcia to skrypt, który automatycznie tworzy wymagane foldery i konfiguruje środowisko Conda oraz wszystkie niezbędne wymagania do uruchomienia modelu AI.

Aby zainstalować skrypt, pobierz instalator jednym kliknięciem, klikając Kod > Pobierz ZIP-a.

Pobierać: Instalator Text-Generation-WebUI (Bezpłatny)

Po pobraniu rozpakuj plik ZIP do preferowanej lokalizacji, a następnie otwórz wyodrębniony folder.
W folderze przewiń w dół i poszukaj odpowiedniego programu startowego dla swojego systemu operacyjnego. Uruchom programy klikając dwukrotnie odpowiedni skrypt.
- Jeśli korzystasz z systemu Windows, wybierz start_windows plik wsadowy
- w przypadku systemu MacOS wybierz start_macos skrypt powłoki
- dla Linuksa, start_linux Skrypt powłoki.
Twój program antywirusowy może wygenerować alert; jest okej. Podpowiedź to tylko program antywirusowy fałszywie pozytywny do uruchamiania pliku wsadowego lub skryptu. Kliknij Mimo wszystko biegnij .
Otworzy się terminal i rozpocznie się konfiguracja. Na początku instalacja zatrzyma się i zapyta, jakiego procesora graficznego używasz. Wybierz odpowiedni typ procesora graficznego zainstalowanego na komputerze i naciśnij Enter. Dla tych, którzy nie mają dedykowanej karty graficznej, wybierz Brak (chcę uruchamiać modele w trybie procesora) . Należy pamiętać, że działanie w trybie procesora jest znacznie wolniejsze w porównaniu do uruchamiania modelu z dedykowanym procesorem graficznym.
Po zakończeniu konfiguracji możesz teraz uruchomić lokalnie Text-Generation-WebUI. Można to zrobić otwierając preferowaną przeglądarkę internetową i wpisując podany adres IP w adresie URL.
WebUI jest teraz gotowy do użycia.

Jednak program jest jedynie modułem ładującym modele. Pobierzmy Llamę 2, aby uruchomić moduł ładujący modele.

Krok 3: Pobierz model Lamy 2

Decydując, której wersji Lamy 2 potrzebujesz, należy wziąć pod uwagę kilka rzeczy. Należą do nich parametry, kwantyzacja, optymalizacja sprzętu, rozmiar i wykorzystanie. Wszystkie te informacje znajdziesz w nazwie modelu.

Parametry: Liczba parametrów używanych do uczenia modelu. Większe parametry powodują, że modele są bardziej wydajne, ale kosztem wydajności.
Stosowanie: Może być standardowy lub czat. Model czatu jest zoptymalizowany do użycia jako chatbot, taki jak ChatGPT, natomiast standardem jest model domyślny.
Optymalizacja sprzętu: Odnosi się do sprzętu, który najlepiej obsługuje dany model. GPTQ oznacza, że model jest zoptymalizowany do działania na dedykowanym procesorze graficznym, podczas gdy GGML jest zoptymalizowany do działania na procesorze.
Kwantyzacja: Oznacza dokładność wag i aktywacji w modelu. Do wnioskowania optymalna jest precyzja q4.
Rozmiar: Dotyczy rozmiaru konkretnego modelu.

Należy pamiętać, że niektóre modele mogą być inaczej rozmieszczone i mogą nawet nie wyświetlać tego samego rodzaju informacji. Jednak tego typu konwencja nazewnictwa jest dość powszechna w Przytulana twarz Biblioteka modeli, więc nadal warto ją zrozumieć.

W tym przykładzie model można zidentyfikować jako średniej wielkości model Lamy 2 wyszkolony na 13 miliardach parametrów zoptymalizowanych pod kątem wnioskowania na czacie przy użyciu dedykowanego procesora.

prześlij wysokiej jakości wideo na facebook

W przypadku osób korzystających z dedykowanego procesora graficznego wybierz opcję GPTQ model, natomiast dla osób korzystających z procesora wybierz GGML . Jeśli chcesz rozmawiać z modelką tak jak za pomocą ChatGPT, wybierz czat , ale jeśli chcesz poeksperymentować z modelem w jego pełnych możliwościach, skorzystaj z opcji standard Model. Jeśli chodzi o parametry, to wiedz, że zastosowanie większych modeli zapewni lepsze rezultaty kosztem wydajności. Osobiście polecam zacząć od modelu 7B. Jeśli chodzi o kwantyzację, użyj q4, ponieważ służy tylko do wnioskowania.

Pobierać: GGML (Bezpłatny)

Pobierać: GPTQ (Bezpłatny)

Teraz, gdy już wiesz, jakiej wersji Llama 2 potrzebujesz, możesz pobrać żądany model.

W moim przypadku, ponieważ uruchamiam to na ultrabooku, będę używać modelu GGML dostosowanego do czatu, zadzwoń-2-7b-chat-ggmlv3.q4_K_S.bin.

Po zakończeniu pobierania umieść model w webui-main-generowanie tekstu > modele .

laptop nie łączy się z internetem

Teraz, gdy już pobrałeś model i umieściłeś go w folderze modelu, czas skonfigurować moduł ładujący model.

Krok 4: Skonfiguruj interfejs WWW do generowania tekstu

Teraz rozpocznijmy fazę konfiguracji.

Jeszcze raz otwórz Text-Generation-WebUI, uruchamiając plik start_(Twój system operacyjny) plik (zobacz poprzednie kroki powyżej).
Na zakładkach znajdujących się nad GUI kliknij Model. Kliknij przycisk odświeżania w menu rozwijanym modelu i wybierz swój model.
Teraz kliknij menu rozwijane Ładowarka modeli i wybierz AutoGPTQ dla osób korzystających z modelu GTPQ i ctransformatory dla tych, którzy korzystają z modelu GGML. Na koniec kliknij Obciążenie aby załadować swój model.
Aby skorzystać z modelu, otwórz zakładkę Czat i rozpocznij testowanie modelu.

Gratulacje, pomyślnie załadowałeś Llamę2 na swój komputer lokalny!

Wypróbuj inne LLM

Teraz, gdy wiesz, jak uruchomić Llamę 2 bezpośrednio na swoim komputerze za pomocą Text-Generation-WebUI, powinieneś móc także uruchamiać inne LLM oprócz Lamy. Pamiętaj tylko o konwencjach nazewnictwa modeli i o tym, że na zwykłych komputerach PC można załadować tylko skwantowane wersje modeli (zwykle z dokładnością do q4). Wiele skwantowanych LLM jest dostępnych na HuggingFace. Jeśli chcesz poznać inne modele, wyszukaj TheBloke w bibliotece modeli HuggingFace, a powinieneś znaleźć wiele dostępnych modeli.