Skip to main content

Artikel · 03.05.2024

Hvordan beskytter du dit indhold mod LLM-scraperen?

GenAI og de store sprogmodeller (LLM'er) som fx ChatGPT, tordner derudad. En nylig introduktion af undtagelsen i ophavsretsloven til tekst- og datamining gør, at du som rettighedshaver nu aktivt skal gøre noget for at undgå, at dine værker bruges til træning af modellerne.

Af senioradvokat (L) Mathias Bartholdy

(ønsker du at springe mellemregningerne over, gå direkte til slutningen af artiklen)

Men hvad skal man gøre?

Det spørgsmål har jeg for nylig kigget ned i. Fra ophavsretsloven ved vi, at ophavspersonen "udtrykkeligt" skal forbeholde sig anvendelsen af værket til tekst- og datamining på "passende vis". Direktivet uddyber, at hvis indholdet ligger offentligt online, kan passende vis være på en "maskinlæsbar måde, herunder i metadata og i vilkår og betingelser for brug af et websted eller en tjeneste". Det kan også ske ved aftaler eller ensidige erklæringer.

Og det var det. I fravær af standarder på området (der nok skal komme) er det, hvad vi har at gå efter lige nu.

Skal man omsætte det til et konkret råd, kan man med fordel se det fra LLM-udbyderens synspunkt. De skal nemlig indrette deres model og scraper efter undtagelsen og have en politik for, hvordan det gøres allerede ét år efter, AI Act offentliggøres i EU-tidende (for de interesserede, se AI Act artikel 53(1)(c)+113(b)).

Og offentliggørelsen er lige om hjørnet.

Vi ved endnu ikke meget om LLM-udbyderes tilgange til at overholde undtagelsen, men vi kan antage, at de ikke har en stor interesse i at gå længere, end hvad der absolut kræves. Deres interesse er først og fremmest at indhente så meget data som muligt. Derfor forventer vi, at LLM-udbydere vil læne sig op ad de sparsomme vejledninger i lovgivningen og fortolke dem så specifikt som muligt.

Når en LLM-udbyder læser direktivet, hæfter de sig formentlig ved "metatags" og "vilkår og betingelser" / "terms and conditions". Udbyderen, der ønsker at overholde reglerne, sørger altså for at konfigurere scraperen til at lede efter netop dette. Når man scraper en hjemmeside, hentes typisk, som det første, hjemmesidens eventuelle "sitemap". Her får den en liste over alle sider og undersider, der findes på domænet. LLM-udbyderen vil derfor lede efter en side, der hedder noget ala. "terms and conditions" og heri specifikt lede efter, om der er taget forbehold for tekst- og datamining. Udbyderen vil også sørge for, at scraperen scanner alle metatags på de sider, den ønsker at scrape.

Hvordan frabeder man sig tekst- og datamining på sin hjemmeside?

Mit bedste råd er:

  • Lav en underside kaldet "Terms and Conditions" på din hjemmeside. Den behøver ikke nødvendigvis være tilgængelig med et link. Den skal blot som minimum fremgå af sitemappet. Skriv heri noget ala. "We reserve the right to use all content on our website for text and data mining under article 4(3) of the DSM-directive (2019/790)".
  • På alle sider og undersider med indhold, I ikke ønsker scrapet, sørg da for at tilføje et metatag i den bagvedliggende HTML-kode, fx "<meta name="text-and-data-mining" content="no">" eller tilføj til det eksisterende description meta-tag: "<meta name="description" content="[nuværende beskrivelse af siden]. No text and data mining, DSM-directive 2019/790 article 4(3)">

Robots.txt er foreslået af flere i branchen som en løsning, men som standarden er nu, lader den ikke til at være tilstrækkelig alene. Lovgiver har simpelthen ikke nævnt løsningen eksplicit, og vi ved endnu ikke, om domstolene vil anse den som tilstrækkelig, når lovgiver har foreslået andre løsninger.

Med tiden vil standarder opstå, og det bliver spændende at følge med i, hvordan domstolene vælger at forholde sig. Især venter vi på mere om tærsklen for, hvornår man som hjemmesideindehaver har gjort sit opt out tilstrækkeligt synligt. Indtil da anbefaler vi at helgardere sig, hvis man som hjemmesideindehaver vil frabede sig sit indhold anvendt af LLM’er.