Jak zablokować roboty indeksujące OpenAI przed zeskrobywaniem Twojej witryny

Jak zablokować roboty indeksujące OpenAI przed zeskrobywaniem Twojej witryny
Czytelnicy tacy jak ty pomagają wspierać MUO. Kiedy dokonujesz zakupu za pomocą linków na naszej stronie, możemy otrzymać prowizję partnerską. Czytaj więcej.

Chociaż użytkownicy uwielbiają ChatGPT za samą ilość informacji, które obecnie przechowuje, tego samego nie można powiedzieć o właścicielach witryn.





MUO Wideo dnia PRZEWIŃ, ABY KONTYNUOWAĆ TREŚĆ

ChatGPT OpenAI używa robotów indeksujących do przeszukiwania stron internetowych, ale jeśli jesteś właścicielem witryny internetowej i nie chcesz, aby robot indeksujący OpenAI uzyskiwał dostęp do Twojej witryny, oto kilka rzeczy, które możesz zrobić, aby temu zapobiec.





Jak działa indeksowanie OpenAI?

A robot sieciowy (znany również jako pająk lub bot wyszukiwarki) to zautomatyzowany program, który skanuje Internet w poszukiwaniu informacji. Następnie kompiluje te informacje w sposób ułatwiający wyszukiwarce dostęp do nich.





Roboty indeksujące indeksują każdą stronę każdego odpowiedniego adresu URL, zwykle koncentrując się na witrynach, które są bardziej odpowiednie dla wyszukiwanych haseł. Załóżmy na przykład, że wyszukujesz w Google konkretny błąd systemu Windows. Robot indeksujący w Twojej wyszukiwarce przeskanuje wszystkie adresy URL ze stron internetowych, które uzna za bardziej wiarygodne w temacie błędów systemu Windows.

Robot indeksujący OpenAI nazywa się GPTBot i zgodnie z Dokumentacja OpenAI , przyznanie GPTBotowi dostępu do Twojej witryny może pomóc w szkoleniu modelu AI, aby stał się bezpieczniejszy i dokładniejszy, a nawet może pomóc w rozszerzeniu możliwości modelu AI.



Jak uniemożliwić OpenAI indeksowanie Twojej witryny

Podobnie jak większość innych robotów indeksujących, GPTBot może zostać zablokowany przed dostępem do Twojej witryny, modyfikując witrynę robots.txt protokół (znany również jako protokół wykluczania robotów). Ten plik .txt jest przechowywany na serwerze witryny i kontroluje sposób, w jaki roboty indeksujące i inne zautomatyzowane programy zachowują się w Twojej witrynie.

Oto krótka lista tego, co robot.txt plik może zrobić:





  • Może całkowicie zablokować GPTBotowi dostęp do strony internetowej.
  • Może blokować dostęp GPTBot tylko do niektórych stron z adresu URL.
  • Może powiedzieć GPTBotowi, które łącza mogą podążać, a których nie.

Oto jak kontrolować, co GPTBot może robić w Twojej witrynie:

Całkowicie zablokuj GPTBot dostęp do Twojej witryny

  1. Skonfiguruj plik robot.txt , a następnie edytuj go za pomocą dowolnego narzędzia do edycji tekstu.
  2. Dodaj GPTBota do swojej witryny robots.txt następująco:
 User-agent: GPTBot 
Disallow: /

Zablokuj dostęp GTPBot tylko do niektórych stron

  1. Skonfiguruj robot.txt plik, a następnie edytuj go za pomocą preferowanego narzędzia do edycji tekstu.
  2. Dodaj GPTBota do swojej witryny robots.txt następująco:
 User-agent: GPTBot 
Allow: /directory-1/
Disallow: /directory-2/

Należy jednak pamiętać, że zmiana ww robot.txt nie działa wstecz, a wszelkie informacje, które GPTBot mógł już zebrać z Twojej witryny, nie będą możliwe do odzyskania.





OpenAI umożliwia właścicielom stron internetowych rezygnację z indeksowania

Odkąd roboty indeksujące zostały użyte do trenowania modeli AI, właściciele stron internetowych szukali sposobów na zachowanie prywatności swoich danych.

polecać programy telewizyjne na podstawie tego, co lubię

Niektórzy obawiają się, że modele sztucznej inteligencji w zasadzie kradną ich pracę, a nawet przypisują mniej wizyt w witrynach internetowych faktowi, że teraz użytkownicy uzyskują informacje bez konieczności odwiedzania ich witryn.

Podsumowując, to, czy chcesz całkowicie zablokować chatboty AI przed skanowaniem twoich stron internetowych, jest całkowicie twoim wyborem.