Jak pobrać i zainstalować Llamę 2 lokalnie

Jak pobrać i zainstalować Llamę 2 lokalnie
Czytelnicy tacy jak Ty pomagają wspierać MUO. Kiedy dokonujesz zakupu za pomocą linków na naszej stronie, możemy otrzymać prowizję partnerską. Czytaj więcej.

Meta wypuściła Llamę 2 latem 2023 roku. Nowa wersja Llama jest dostrojona o 40% więcej tokenów niż oryginalny model Llama, podwajając długość kontekstu i znacznie przewyższając inne dostępne modele z otwartym kodem źródłowym. Najszybszym i najłatwiejszym sposobem uzyskania dostępu do Lamy 2 jest interfejs API na platformie internetowej. Jeśli jednak chcesz uzyskać najlepszą jakość, najlepiej będzie zainstalować i załadować Llamę 2 bezpośrednio na swój komputer.





darmowe filmy bez pobierania bez rejestracji

Mając to na uwadze, stworzyliśmy przewodnik krok po kroku, jak używać interfejsu Text-Generation-WebUI do ładowania skwantowanej Lamy 2 LLM lokalnie na komputerze.





Dlaczego warto zainstalować Llamę 2 lokalnie

Istnieje wiele powodów, dla których ludzie decydują się na bezpośrednie uruchomienie Lamy 2. Niektórzy robią to ze względów prywatności, inni w celu dostosowania, a jeszcze inni ze względu na możliwości offline. Jeśli badasz, dostrajasz lub integrujesz Llamę 2 w swoich projektach, dostęp do Llama 2 poprzez API może nie być dla Ciebie. Celem uruchomienia LLM lokalnie na komputerze jest zmniejszenie zależności narzędzia sztucznej inteligencji innych firm i korzystaj ze sztucznej inteligencji w dowolnym miejscu i czasie, nie martwiąc się o wyciek potencjalnie wrażliwych danych do firm i innych organizacji.





Powiedziawszy to, zacznijmy od przewodnika krok po kroku dotyczącego lokalnej instalacji Lamy 2.

Krok 1: Zainstaluj narzędzie do kompilacji Visual Studio 2019

Aby uprościć sprawę, użyjemy instalatora jednym kliknięciem dla Text-Generation-WebUI (programu służącego do ładowania Lamy 2 z GUI). Aby jednak ten instalator działał, należy pobrać narzędzie Visual Studio 2019 Build Tool i zainstalować niezbędne zasoby.



Pobierać: Visual Studio 2019 (Bezpłatny)

  1. Śmiało, pobierz wersję społecznościową oprogramowania.
  2. Teraz zainstaluj Visual Studio 2019, a następnie otwórz oprogramowanie. Po otwarciu zaznacz pole wyboru Tworzenie desktopów w C++ i naciśnij instaluj.   Konwencja nazewnictwa modeli HuggingFace

Teraz, gdy masz już zainstalowany program do tworzenia komputerów stacjonarnych w języku C++, czas pobrać instalator jednym kliknięciem Text-Generation-WebUI.





Krok 2: Zainstaluj Text-Generation-WebUI

Instalator Text-Generation-WebUI za pomocą jednego kliknięcia to skrypt, który automatycznie tworzy wymagane foldery i konfiguruje środowisko Conda oraz wszystkie niezbędne wymagania do uruchomienia modelu AI.

Aby zainstalować skrypt, pobierz instalator jednym kliknięciem, klikając Kod > Pobierz ZIP-a.





Pobierać: Instalator Text-Generation-WebUI (Bezpłatny)

  1. Po pobraniu rozpakuj plik ZIP do preferowanej lokalizacji, a następnie otwórz wyodrębniony folder.
  2. W folderze przewiń w dół i poszukaj odpowiedniego programu startowego dla swojego systemu operacyjnego. Uruchom programy klikając dwukrotnie odpowiedni skrypt.
    • Jeśli korzystasz z systemu Windows, wybierz start_windows plik wsadowy
    • w przypadku systemu MacOS wybierz start_macos skrypt powłoki
    • dla Linuksa, start_linux Skrypt powłoki.   Pobieranie wybranego modelu Llama 2
  3. Twój program antywirusowy może wygenerować alert; jest okej. Podpowiedź to tylko program antywirusowy fałszywie pozytywny do uruchamiania pliku wsadowego lub skryptu. Kliknij Mimo wszystko biegnij .
  4. Otworzy się terminal i rozpocznie się konfiguracja. Na początku instalacja zatrzyma się i zapyta, jakiego procesora graficznego używasz. Wybierz odpowiedni typ procesora graficznego zainstalowanego na komputerze i naciśnij Enter. Dla tych, którzy nie mają dedykowanej karty graficznej, wybierz Brak (chcę uruchamiać modele w trybie procesora) . Należy pamiętać, że działanie w trybie procesora jest znacznie wolniejsze w porównaniu do uruchamiania modelu z dedykowanym procesorem graficznym.   Umieszczanie modelu Lamy 2 w folderze modeli
  5. Po zakończeniu konfiguracji możesz teraz uruchomić lokalnie Text-Generation-WebUI. Można to zrobić otwierając preferowaną przeglądarkę internetową i wpisując podany adres IP w adresie URL.
  6. WebUI jest teraz gotowy do użycia.

Jednak program jest jedynie modułem ładującym modele. Pobierzmy Llamę 2, aby uruchomić moduł ładujący modele.

Krok 3: Pobierz model Lamy 2

Decydując, której wersji Lamy 2 potrzebujesz, należy wziąć pod uwagę kilka rzeczy. Należą do nich parametry, kwantyzacja, optymalizacja sprzętu, rozmiar i wykorzystanie. Wszystkie te informacje znajdziesz w nazwie modelu.

  • Parametry: Liczba parametrów używanych do uczenia modelu. Większe parametry powodują, że modele są bardziej wydajne, ale kosztem wydajności.
  • Stosowanie: Może być standardowy lub czat. Model czatu jest zoptymalizowany do użycia jako chatbot, taki jak ChatGPT, natomiast standardem jest model domyślny.
  • Optymalizacja sprzętu: Odnosi się do sprzętu, który najlepiej obsługuje dany model. GPTQ oznacza, że ​​model jest zoptymalizowany do działania na dedykowanym procesorze graficznym, podczas gdy GGML jest zoptymalizowany do działania na procesorze.
  • Kwantyzacja: Oznacza dokładność wag i aktywacji w modelu. Do wnioskowania optymalna jest precyzja q4.
  • Rozmiar: Dotyczy rozmiaru konkretnego modelu.

Należy pamiętać, że niektóre modele mogą być inaczej rozmieszczone i mogą nawet nie wyświetlać tego samego rodzaju informacji. Jednak tego typu konwencja nazewnictwa jest dość powszechna w Przytulana twarz Biblioteka modeli, więc nadal warto ją zrozumieć.

W tym przykładzie model można zidentyfikować jako średniej wielkości model Lamy 2 wyszkolony na 13 miliardach parametrów zoptymalizowanych pod kątem wnioskowania na czacie przy użyciu dedykowanego procesora.

prześlij wysokiej jakości wideo na facebook

W przypadku osób korzystających z dedykowanego procesora graficznego wybierz opcję GPTQ model, natomiast dla osób korzystających z procesora wybierz GGML . Jeśli chcesz rozmawiać z modelką tak jak za pomocą ChatGPT, wybierz czat , ale jeśli chcesz poeksperymentować z modelem w jego pełnych możliwościach, skorzystaj z opcji standard Model. Jeśli chodzi o parametry, to wiedz, że zastosowanie większych modeli zapewni lepsze rezultaty kosztem wydajności. Osobiście polecam zacząć od modelu 7B. Jeśli chodzi o kwantyzację, użyj q4, ponieważ służy tylko do wnioskowania.

Pobierać: GGML (Bezpłatny)

Pobierać: GPTQ (Bezpłatny)

Teraz, gdy już wiesz, jakiej wersji Llama 2 potrzebujesz, możesz pobrać żądany model.

W moim przypadku, ponieważ uruchamiam to na ultrabooku, będę używać modelu GGML dostosowanego do czatu, zadzwoń-2-7b-chat-ggmlv3.q4_K_S.bin.

Po zakończeniu pobierania umieść model w webui-main-generowanie tekstu > modele .

laptop nie łączy się z internetem

Teraz, gdy już pobrałeś model i umieściłeś go w folderze modelu, czas skonfigurować moduł ładujący model.

Krok 4: Skonfiguruj interfejs WWW do generowania tekstu

Teraz rozpocznijmy fazę konfiguracji.

  1. Jeszcze raz otwórz Text-Generation-WebUI, uruchamiając plik start_(Twój system operacyjny) plik (zobacz poprzednie kroki powyżej).
  2. Na zakładkach znajdujących się nad GUI kliknij Model. Kliknij przycisk odświeżania w menu rozwijanym modelu i wybierz swój model.
  3. Teraz kliknij menu rozwijane Ładowarka modeli i wybierz AutoGPTQ dla osób korzystających z modelu GTPQ i ctransformatory dla tych, którzy korzystają z modelu GGML. Na koniec kliknij Obciążenie aby załadować swój model.
  4. Aby skorzystać z modelu, otwórz zakładkę Czat i rozpocznij testowanie modelu.

Gratulacje, pomyślnie załadowałeś Llamę2 na swój komputer lokalny!

Wypróbuj inne LLM

Teraz, gdy wiesz, jak uruchomić Llamę 2 bezpośrednio na swoim komputerze za pomocą Text-Generation-WebUI, powinieneś móc także uruchamiać inne LLM oprócz Lamy. Pamiętaj tylko o konwencjach nazewnictwa modeli i o tym, że na zwykłych komputerach PC można załadować tylko skwantowane wersje modeli (zwykle z dokładnością do q4). Wiele skwantowanych LLM jest dostępnych na HuggingFace. Jeśli chcesz poznać inne modele, wyszukaj TheBloke w bibliotece modeli HuggingFace, a powinieneś znaleźć wiele dostępnych modeli.