Legal Doomsday Fir Generative AI ChatGPT Wann Plagiaréierend oder Verstouss gefaangen, warnt AI Ethik An AI Gesetz

Gëtt generativ AI wéi ChatGPT eis Websäiten a mënschlech entworf Inhalt räissen? Sidd bewosst, sief ... [+] opgeregt, bereet sinn.

getty

Gitt Kreditt wou Kreditt verlaangt ass.

Dat ass e bësse vun der Weisheet, déi Dir vläicht opgewuess sidd fir fest ze gleewen. Tatsächlech mengt een oder stellt ee sech vir, datt mir all e bësse raisonnabel averstane sinn, datt dëst eng fair a sënnvoll Daumregel am Liewen ass. Wann een eppes mécht wat d'Unerkennung verdéngt, gitt sécher datt se hir verdéngt Unerkennung kréien.

De contraire Standpunkt géif vill manner zwéngend schéngen.

Wann iergendeen ronderëm goung insistéieren, datt Kreditt soll net unerkannt ginn wann de Kreditt verdanken ass, gutt, Dir kéint behaapten datt sou e Glawen onhéiflech ass an eventuell ënnerhand. Mir fannen eis dacks vociferously gestéiert wann Kreditt vun engem fuddelen ass, deen eppes Notabele erreecht huet. Ech trauen et ze soen datt mir besonnesch disfavoriséieren wann anerer falsch Kreditt huelen fir d'Aarbecht vun aneren. Dat ass eng beonrouegend duebel-Whammy. Déi Persoun, déi de Kreditt sollt kréien, gëtt hire Moment an der Sonn verweigert. Zousätzlech genéisst den Trickster d'Luucht, obwuel se eis falsch täuschen fir eis gënschteg Affektiounen ze mëssbrauchen.

Firwat all dësen Discours iwwer Kreditt op déi richteg Manéier ze sammelen an déi falsch a veruechtend Manéier ze vermeiden?

Well mir schéngen mat engem ähnleche Problem ze stoen, wann et ëm déi lescht an der Kënschtlech Intelligenz (AI) kënnt.

Jo, Fuerderunge sinn datt dëst beweisbar geschitt iwwer eng Zort AI bekannt als Generativ AI. Et gëtt vill Handwringing datt Generative AI, déi wäermst AI an den Neiegkeeten dës Deeg, scho Kreditt geholl huet fir wat et net verdéngt Kreditt ze huelen. An dëst wäert méiglecherweis verschlechtert ginn wéi generativ AI ëmmer méi ausgebaut a benotzt gëtt. Méi a méi Kreditt gëtt dem generativen AI geprägt, wärend leider déi, déi de richtege Kreditt räich verdéngen, am Stëbs bleiwen.

Mäi proposéierte Wee fir dëst angeblech Phänomen knusprech ze bezeechnen ass iwwer zwee snazzy Catchphrasen:

1) Plagiat op Skala
2) Copyright Verletzung op Skala

Ech huelen un datt Dir vläicht vun generativen AI bewosst sidd wéinst enger wäit populärer AI App bekannt als ChatGPT déi am November vun OpenAI verëffentlecht gouf. Ech wäert méi iwwer generativ AI an ChatGPT momentan soen. Bleift drun.

Komme mer direkt un d'Krux vun deem, wat d'Geessen vun de Leit kritt, wéi et war.

E puer hu häerzlech beschwéiert datt generativ AI potenziell Mënschen ofbriechen déi Inhalt erstallt hunn. Dir gesitt, déi meescht generativ AI Apps sinn Daten trainéiert andeems Dir Daten um Internet ënnersicht. Baséierend op dësen Donnéeën kënnen d'Algorithmen e grousst internt Muster-passende Netzwierk an der AI App verféieren, déi duerno anscheinend neien Inhalt produzéiere kann, deen erstaunlech ausgesäit wéi wann et vu mënschlecher Hand entwéckelt gouf anstatt e Stéck Automatioun

Dëse bemierkenswäerte Feat ass zu engem groussen Deel wéinst der Notzung vum Internet gescannten Inhalt. Ouni de Volume an de Räichtum vum Internetinhalt als Quell fir Datetraining, wier déi generativ AI zimlech eidel a wéineg oder keen Interesse fir ze benotzen. Andeems den AI Millioune op Millioune vun Online Dokumenter an Text ënnersicht, zesumme mat all méiglechen assoziéierten Inhalt, gëtt d'Mustermatching graduell ofgeleet fir ze probéieren mënschlech produzéiert Inhalt ze mimikéieren.

Wat méi Inhalt iwwerpréift gëtt, sinn d'Chancen datt d'Mustermatchung méi staark ausgezeechent gëtt an nach besser an der Mimik gëtt, alles anescht gläich.

Hei ass dann d'Zillioun Dollar Fro:

Grouss Fro: Wann Dir oder anerer Inhalter um Internet hunn, op deem eng generativ AI App trainéiert gouf, maacht dat viraussiichtlech ouni Är direkt Erlaabnis a vläicht ganz ouni Är Bewosstsinn iwwerhaapt, sollt Dir Recht op e Stéck vum Kuch hunn, egal wéi ee Wäert entsteet datt generativ AI daten Training?

E puer plädéieren hefteg datt déi eenzeg richteg Äntwert ass Jo, Notamment datt déi mënschlech Inhalter Creatoren wierklech hire Schnëtt vun der Handlung verdéngen. D'Saach ass, Dir wier schwéier gedréckt iergendeen ze fannen deen hire fairen Deel kritt huet, a schlëmmer nach, bal keen huet iergendeng Undeel kritt. D'Creatoren vum Internet Inhalt, déi onfräiwëlleg an onbewosst bäigedroen hunn, ginn am Wesentlechen hire gerechte Kreditt verweigert.

Dëst kéint als grausam an skandaléis charakteriséiert ginn. Mir sinn just duerch d'Auspackung vun der Salbei Wäisheet gaang, datt Kreditt soll ginn, wou Kreditt verlaangt ass. Am Fall vun generativen AI, anscheinend net sou. Déi laangjäreg a virtuéis Fauschtregel iwwer Kreditt schéngt rufflech verletzt ze ginn.

Whoa, de Retort seet, Dir iwwerdréit d'Situatioun komplett a falsch. Sécher, déi generativ AI huet Inhalt um Internet ënnersicht. Sécher, dëst reichend war hëllefräich als Deel vun der Datetraining vun der generativer AI. Gitt zou, déi beandrockend generativ AI Apps haut wieren net sou beandrockend ouni dës betruecht Approche. Awer Dir sidd eng Bréck ze wäit gaang wann Dir seet datt d'Inhaltscreateure sollten e bestëmmte Schëld vu Kreditt zougedeelt ginn.

D'Logik ass wéi follegt. D'Mënsche ginn op den Internet eraus a léiere Saachen aus dem Internet, maachen dat routinéiert an ouni Opwand per se. Eng Persoun déi Blogs iwwer Sanitär liest an duerno fräi verfügbare Sanitär-Fixéiere Videoe kuckt, kéint den nächsten Dag erausgoen an als Plooschter schaffen. Musse se en Deel vun hirer Sanitär-Zesummenhang Remise un de Blogger ginn, deen iwwer geschriwwen huet wéi een e Spull mécht? Musse se dem Vlogger eng Tax iwwerginn, déi de Video gemaach huet, deen d'Schrëtt weist fir eng leckeg Badewanne ze fixéieren?

Bal sécher net.

D'Datentraining vun der generativer AI ass just e Mëttel fir Musteren z'entwéckelen. Soulaang wéi d'Ausgänge vu generativen AI net nëmme Regurgitatioun vu präzis wat iwwerpréift gouf, kënnt Dir iwwerzeegend argumentéieren datt se "geléiert" hunn an dofir net ënnerleien fir spezifesch Kreditt un eng spezifesch Quell ze ginn. Ausser Dir kënnt de generativen AI bei der Ausféierung vun enger exakter Regurgitatioun fänken, sinn d'Indikatiounen datt d'AI iwwer eng bestëmmte Quell generaliséiert huet.

Kee Kreditt ass wéinst jidderengem. Oder, ee mengt, Dir kéint soen datt de Kreditt un jiddereen geet. De Kollektivtext an aneren Inhalt vun der Mënschheet, deen um Internet fonnt gëtt, kritt de Kreditt. Mir kréien all de Kreditt. Probéieren Kreditt op eng bestëmmte Quell ze identifizéieren ass sënnlos. Sidd frou datt AI fortgeschratt gëtt an datt d'Mënschheet all gesot wäert profitéieren. Dës Posten um Internet solle sech geéiert fillen datt se zu enger Zukunft vu Fortschrëtter an der AI bäigedroen hunn a wéi dëst d'Mënschheet fir d'Éiwegkeet hëlleft.

Ech wäert méi iwwer déi zwee kontrastéierend Meenungen ze soen hunn.

Mëttlerweil, leet Dir Iech op de Camp, dee seet, datt Kreditt ze bezuelen ass a spéit ze spéit fir déi, déi Websäiten um Internet hunn, oder fannt Dir datt déi opposéierend Säit, déi seet, datt d'Creatoren vum Internet entscheet sinn net ofgerappt ginn ass eng méi konsequent Haltung?

Eng Rätsel an e Rätsel all zesummen ageklemmt.

Loosst eis dat auspacken.

An der heiteger Kolonn wäert ech dës ausgedréckte Suergen adresséieren datt generativ AI wesentlech plagiéiert oder méiglecherweis d'Urheberrechter vum Inhalt verletzt deen um Internet gepost gouf (gesinn als Intellektuell Eegentumsrecht oder IP Thema). Mir wäerten d'Basis fir dës Qualmer kucken. Ech wäert heiansdo op ChatGPT wärend dëser Diskussioun referéieren well et d'600-Pound Gorilla vun generativen AI ass, awer behalen datt et vill aner generativ AI Apps sinn a si baséieren allgemeng op déiselwecht allgemeng Prinzipien.

Mëttlerweil kënnt Dir Iech froen wat tatsächlech generativ AI ass.

Loosst eis fir d'éischt d'Grondlage vun der generativer AI ofdecken an da kënne mir déi dréngend Matière no kucken.

An all dëst kënnt eng ganz Rëtsch vun AI Ethik an AI Gesetz Iwwerleeungen.

Sidd w.e.g. bewosst datt et dauernd Efforte gëtt fir ethesch AI Prinzipien an d'Entwécklung an d'Feldung vun AI Apps z'erreechen. E wuessende Kontingent vu besuergt a fréier AI Ethiker probéieren ze garantéieren datt d'Efforte fir AI z'entwéckelen an z'adoptéieren eng Vue vu maachen Rechnung droen AI Fir Gutt an averéieren AI Fir Schlecht. Ähnlech ginn et nei AI Gesetzer proposéiert, déi als potenziell Léisunge verbannt ginn fir AI Bestriewen ze verhënneren, datt d'Mënscherechter an dergläiche Amok ginn. Fir meng lafend an extensiv Ofdeckung vun AI Ethik an AI Gesetz, kuckt de Link hei an de Link hei, Just e puer ze Numm.

D'Entwécklung an d'Verëffentlechung vun etheschen AI Virschrëfte ginn verfollegt fir hoffentlech ze verhënneren datt d'Gesellschaft an eng Onmass vun AI-induzéierende Fallen falen. Fir meng Ofdeckung vun den UN AI Ethik Prinzipien wéi entworf an ënnerstëtzt vu bal 200 Länner iwwer d'Efforte vun der UNESCO, kuckt de Link hei. An enger ähnlecher Aart ginn nei AI Gesetzer exploréiert fir ze probéieren AI op engem gläiche Kiel ze halen. Ee vun de leschten hëlt besteet aus enger Rei vun proposéiert AI Bill vun Rechter datt d'US White House viru kuerzem verëffentlecht huet fir Mënscherechter an engem Alter vun AI z'identifizéieren, kuckt de Link hei. Et brauch en Duerf fir AI an AI Entwéckler op engem gerechte Wee ze halen an déi gezielt oder zoufälleg Ënnerhand Efforten ofzeschléissen déi d'Gesellschaft ënnersträichen.

Ech wäert AI Ethik an AI Gesetz verwandte Considératiounen an dës Diskussioun interweave.

Fundamentals Of Generative AI

Déi meescht bekannt Instanz vu generativen AI gëtt duerch eng AI App mam Numm ChatGPT vertrueden. ChatGPT ass am November am ëffentleche Bewosstsinn gesprongen wéi et vun der AI Fuerschungsfirma OpenAI verëffentlecht gouf. Zënter ChatGPT huet iwwerschësseg Schlagzeilen gesammelt an iwwerraschend seng zougewisen fofzéng Minutte Ruhm iwwerschratt.

Ech denken datt Dir wahrscheinlech vu ChatGPT héieren hutt oder vläicht souguer een kennt deen et benotzt huet.

ChatGPT gëtt als generativ AI Applikatioun ugesinn well et als Input en Text vun engem Benotzer hëlt an dann generéiert oder produzéiert en Ausgang deen aus engem Essay besteet. Den AI ass en Text-zu-Text Generator, awer ech beschreiwen den AI als en Text-zu-Essay Generator well dat méi einfach klärt fir wat et allgemeng benotzt gëtt. Dir kënnt generativ AI benotze fir laang Kompositioune ze komponéieren oder Dir kënnt et kréien fir zimlech kuerz pittige Kommentarer ze bidden. Et ass alles op Är Offer.

Alles wat Dir maache musst ass eng Prompt anzeginn an d'AI App generéiert fir Iech en Essay deen probéiert op Är Ufro ze reagéieren. De komponéierten Text wäert schéngen wéi wann den Essay vun der mënschlecher Hand a Geescht geschriwwe wier. Wann Dir eng Prompt gitt, déi gesot huet "Sot mir iwwer den Abraham Lincoln", gëtt de generativen AI Iech en Essay iwwer Lincoln. Et ginn aner Modi vun generativen AI, wéi Text-zu-Konscht an Text-zu-Video. Ech konzentréieren mech hei op d'Text-zu-Text Variatioun.

Ären éischte Gedanken kéint sinn datt dës generativ Fäegkeet net esou e grousse Deal schéngt wat d'Essayen produzéieren. Dir kënnt einfach eng Online Sich vum Internet maachen a liicht Tonne an Tonne Essayen iwwer President Lincoln fannen. De Kicker am Fall vun generativen AI ass datt de generéierten Essay relativ eenzegaarteg ass a bitt eng originell Kompositioun anstatt e Copycat. Wann Dir probéiert den AI-produzéierten Essay iergendwou online ze fannen, wärt Dir et onwahrscheinlech entdecken.

Generativ AI ass viraus trainéiert a benotzt eng komplex mathematesch a computational Formuléierung déi opgestallt gouf andeems Mustere a schrëftleche Wierder a Geschichten iwwer de Web ënnersicht ginn. Als Resultat vun der Ënnersichung vun Dausende a Millioune vu schrëftleche Passagen, kann d'AI nei Essayen a Geschichten ausspäicheren, déi e Mëssbrauch sinn vun deem wat fonnt gouf. Andeems Dir verschidde probabilistesch Funktionalitéit bäidréit, ass de resultéierende Text zimlech eenzegaarteg am Verglach zu deem wat am Trainingsset benotzt gouf.

Et gi vill Bedenken iwwer generativ AI.

Ee entscheedende Nodeel ass datt d'Essayen, déi vun enger generativ-baséierter AI App produzéiert ginn, verschidde Falschheeten agebonne kënnen hunn, inklusiv offensichtlech falsch Fakten, Fakten déi falsch portraitéiert sinn, a scheinbar Fakten déi komplett fabrizéiert sinn. Déi fabrizéiert Aspekter ginn dacks als Form bezeechent AI Halluzinatiounen, e Fangerofdrock, deen ech net favoriséieren, awer leider schéngt souwisou populär Traktioun ze gewannen (fir meng detailléiert Erklärung firwat dëst schlecht an onpassend Terminologie ass, kuckt meng Ofdeckung op de Link hei).

Eng aner Suerg ass datt d'Mënschen einfach Kreditt kënne huelen fir e generativen AI-produzéierten Essay, obwuel se den Essay net selwer zesummegesat hunn. Dir hutt vläicht héieren datt d'Léierpersonal a Schoulen zimlech besuergt sinn iwwer d'Entstoe vu generativen AI Apps. Studente kënne potenziell generativ AI benotze fir hir zougewisen Essayen ze schreiwen. Wann e Student behaapt datt en Essay vun hirer eegener Hand geschriwwen ass, ass et wéineg Chance datt den Enseignant fäeg ass z'ënnerscheeden ob et amplaz vu generativen AI geschmied gouf. Fir meng Analyse vun dëser Schüler an Enseignant confounding Facett, kuckt meng Ofdeckung op de Link hei an de Link hei.

Et goufen e puer zany outsized Fuerderungen op sozialen Medien iwwer Generativ AI behaapt datt dës lescht Versioun vun AI tatsächlech ass sentient AI (nee, si si falsch!). Déi an AI Ethik an AI Gesetz si besonnesch besuergt iwwer dëse wuessenden Trend vun ausgestreckten Fuerderungen. Dir kënnt héiflech soen datt verschidde Leit iwwerschätzen wat d'AI vun haut tatsächlech maache kann. Si huelen un datt AI Fäegkeeten huet déi mir nach net konnten erreechen. Dat ass leider. Méi schlëmm, si kënne sech selwer an anerer erlaben an schreckleche Situatiounen ze kommen wéinst enger Virgab datt d'AI sensibel oder mënschlech ass fir ze handelen.

Anthropomorphize net AI.

Wann Dir dat maacht, kritt Dir an enger plakeg an däischter Vertrauensfal gefaange vun der AI ze erwaarden fir Saachen ze maachen déi et net kann ausféieren. Mat deem gesot, déi lescht am generativen AI ass relativ beandrockend fir wat et maache kann. Sidd awer bewosst datt et bedeitend Aschränkungen sinn déi Dir dauernd am Kapp sollt halen wann Dir all generativ AI App benotzt.

Eng lescht Virwarnung fir de Moment.

Wat och ëmmer Dir gesitt oder liest an enger generativer AI Äntwert dat schéngt als reng sachlech vermëttelt ze ginn (Datumen, Plazen, Leit, asw.), vergewëssert Iech skeptesch ze bleiwen a gewëllt ze duebel ze kontrolléieren wat Dir gesitt.

Jo, Datume kënne gesammelt ginn, Plazen kënne gemaach ginn, an Elementer déi mir normalerweis erwaarden datt se iwwer Reproche sinn all Sujet ze Verdacht. Gleeft net wat Dir liest an haalt e skeptesch Aa wann Dir all generativ AI Essayen oder Ausgänge ënnersicht. Wann eng generativ AI App Iech seet datt den Abraham Lincoln a sengem privaten Jet ronderëm d'Land geflunn ass, wësst Dir ouni Zweifel datt dëst malarky ass. Leider mierken e puer Leit vläicht net datt Jets a sengem Dag net ronderëm waren, oder si wësse vläicht awer net ze bemierken datt den Essay dës brutal an onheemlech falsch Fuerderung mécht.

Eng staark Dosis vu gesonde Skepsis an e persistent Geescht vu Mësstrauen wäert Äre beschte Verméigen sinn wann Dir generativ AI benotzt.

Mir si prett fir an déi nächst Etapp vun dëser Erklärung ze plënneren.

Den Internet an Generativ AI sinn an dësem Zesummen

Elo datt Dir e Schëld hutt vu wat generativ AI ass, kënne mir déi schrecklech Fro entdecken ob generativ AI zimmlech oder ongerecht "leveraging" ass, oder e puer géifen soen blatant verwinnt Internet Inhalt.

Hei sinn meng véier vital Themen, déi zu dëser Matière relevant sinn:

1) Duebel Trouble: Plagiat an Copyright Verletzung
2) Probéieren Plagiat oder Copyright Verletzung ze beweisen wäert probéieren
3) De Fall fir Plagiat Oder Copyright Verstouss ze maachen
4) Juristesch Landminen waarden

Ech wäert jiddereng vun dëse wichtegen Themen ofdecken an Asiicht Iwwerleeungen ubidden, déi mir all solle bewosst nodenken. Jiddereng vun dësen Themen ass en integralen Deel vun engem gréissere Puzzel. Dir kënnt net nëmmen ee Stéck kucken. Dir kënnt och net all Stéck isoléiert vun deenen anere Stécker kucken.

Dëst ass e komplizéierte Mosaik an de ganze Puzzel muss richteg harmonesch berücksichtegt ginn.

Duebel Trouble: Plagiat an Copyright Verletzung

Den duebele Problem mat deenen, déi generativ AI maachen a Felder maachen, ass datt hir Wueren zwou schlecht Saache maache kënnen:

1) Plagiat. Déi generativ AI kéint als plagiéieren Inhalt deen um Internet existéiert wéi den Internet Scannen deen während der Datetraining vun der AI stattfonnt huet.
2) Copyright Verletzung. Déi generativ AI kéint als Entreprise behaapt ginn Urheberrechter assoziéiert mam Internetinhalt deen während Datentraining gescannt gouf.

Fir ze klären, gëtt et vill méi Inhalt um Internet wéi eigentlech typesch fir d'Datentraining vun generativen AI gescannt gëtt. Nëmmen e klengen Deel vum Internet gëtt normalerweis benotzt. Also kënne mir viraussiichtlech unhuelen datt all Inhalt deen net während Datentraining gescannt gouf kee spezielle Rëndfleesch mat generativen AI huet.

Dëst ass awer e bëssen diskutabel well Dir potenziell eng Linn zéie kënnt déi aner Inhalter verbënnt, déi gescannt gouf mam Inhalt deen net gescannt gouf. Och eng aner wichteg Viraussetzung ass datt och wann et Inhalt gëtt deen net gescannt gouf, et kéint nach ëmmer argumentéiert ginn als plagiariséiert an / oder Copyright verletzt wann d'Ausgänge vun der generativer AI vläicht op déiselwecht Verbiage landen. Mäi Punkt ass, datt et vill vun squishiness an all vun dëser.

Kuerze Resumé: Generativ AI ass vill mat potenziellen AI Etheschen an AI Gesetz juristesche Conundrums wann et ëm Plagiat an Urheberrechtsverletzung kënnt déi herrschend daten Trainingspraktiken ënnersträichen.

Bis elo hunn AI Hiersteller an AI Fuerscher duerch dëst zimlech scot-gratis gefuer, trotz dem dreiwenden a prekär hänkende Schwert dat iwwer hinnen hänkt. Nëmmen e puer Prozesser goufen bis haut géint dës Praktiken lancéiert. Dir hutt vläicht Neiegkeeten iwwer sou juristesch Handlungen héieren oder gesinn. Ee, zum Beispill, betrëfft d'Text-zu-Bild Firme vu Midjourney a Stability AI fir Verstouss géint artistesch Inhalter um Internet gepost. En aneren enthält Text-zu-Code-Verletzung géint GitHub, Microsoft, an OpenAI wéinst der Copilot Software déi AI Apps produzéiert. Getty Images huet och gezielt no Stabilitéit AI ze goen fir Text-zu-Bild Verletzung.

Dir kënnt viraussoen datt méi esou Prozesser agereecht ginn.

De Moment ass et e bësse Chance fir dës Prozesser ze starten well d'Resultat relativ onbekannt ass. Wäert d'Geriicht Säit mat den AI Hiersteller oder wäerten déi, déi gleewen datt hiren Inhalt ongerecht ausgenotzt gouf, d'Victoire sinn? Eng deier legal Schluecht ass ëmmer eng sérieux Saach. Ausgaben déi grouss-Skala juristesch Käschten muss géint d'Chancen vun Gewënn oder Verléierer ofgewien ginn.

D'AI Hiersteller schéngen bal keng aner Wiel ze hunn wéi e Kampf opzemaachen. Wa se sech géifen anhalen, och e bëssen, sinn d'Chancen datt e Stroum vun zousätzleche Prozesser géif resultéieren (am Fong, d'Dier opzemaachen fir erhéicht Chancen datt anerer och duerchsetzen). Wann et gesetzlech Blutt am Waasser ass, wäerten déi verbleiwen legal Haien op de betruechten "einfache Score" fueren an e schrecklechen a batteren monetäre Bluttbad géif sécher optrieden.

E puer gleewen datt mir nei AI Gesetzer solle passéieren déi d'AI Hiersteller schützen. De Schutz kéint souguer retroaktiv sinn. D'Basis dofir ass datt wa mir generativ AI Fortschrëtter wëlle gesinn, mir mussen den AI Hiersteller eng sécher Zone Runway ginn. Soubal Gesetzer ufänken Victoiren géint d'AI Hiersteller ze scoren, wann dat geschitt (mir wëssen nach net), ass d'Suerg datt generativ AI wäert verdampen well keen wäert bereet sinn all Ënnerstëtzung un d'AI Firmen ze setzen.

Wéi an engem rezenten Bloomberg Gesetz Stéck ënner dem Titel "ChatGPT: IP, Cybersecurity & Other Legal Risks of Generative AI" vum Dr Ilia Kolochenko a Gordon Platt, Bloomberg Law, Februar 2023, hei sinn zwee vital Auszich, déi dës Standpunkter widderhuelen:

"Eng hefteg Debatt rëselt elo ënner US-Justesch Wëssenschaftler an IP-Gesetzproffen iwwer ob déi onerlaabt Schrauwen a spéider Notzung vun auteursrechtleche Donnéeën eng Copyrightverletzung sinn. Wann d'Vue vu juristesche Praktiker déi d'Urheberrechtsverletzungen an esou Praxis gesinn herrscht, kënnen d'Benotzer vun esou AI Systemer och haftbar sinn fir sekundär Verstouss a potenziell juristesch Auswierkungen.
"Fir d'Erausfuerderung ëmfaassend unzegoen, sollten d'Gesetzgeber net nëmmen d'Moderniséierung vun der existéierender Copyright Gesetzgebung betruechten, awer och eng Rei vun AI-spezifesche Gesetzer a Reglementer ëmzesetzen."

Erënneren, datt mir als Gesellschaft gesetzlech Schutz fir de Expansioun vum Internet, wéi Zeien elo vum Ieweschte Geriichtshaff iwwerpréift de berühmte oder berüchtegt Sektioun 230. Also, et schéngt bannent Grond a Prezedenz datt mir bereet sinn e puer ähnlech Protectiounen fir de Fortschrëtt vun generativ AI ze maachen. Vläicht kéinten d'Protectiounen temporär ageriicht ginn, oflafen nodeems generativ AI e virbestëmmten Niveau vu Kompetenz erreecht huet. Aner Schutzbestëmmunge kéinten ausgeschafft ginn.

Ech wäert geschwënn meng Analyse posten wéi d'Ieweschte Geriichtshaff Bewäertung an den ultimativen Urteel iwwer Sektioun 230 d'Entstoe vu generativen AI kéint beaflossen. Sidd op der Sich no deem nächste Post!

Zréck op déi schrecklech ausgedréckt Meenung datt mir Spillraum sollte ginn fir déi gesellschaftlech beandrockend technologesch Innovatioun bekannt als generativ AI. E puer géife soen datt och wann déi behaapt Copyright Verletzung huet oder geschitt ass, d'Gesellschaft als Ganzt sollt gewëllt sinn dëst z'erméiglechen fir déi spezifesch Zwecker fir generativ AI ze förderen.

D'Hoffnung ass datt nei AI Gesetzer suergfälteg ausgeschafft an ofgestëmmt ginn op d'Detailer verbonne mat Datentraining fir generativ AI.

Et gi vill Géigeargumenter zu dëser Notioun fir nei AI Gesetzer fir dësen Zweck z'entwéckelen. Eng Suerg ass datt all sou neit AI Gesetz d'Iwwerschwemmunge fir all Aart vu Copyrightverletzung opmaacht. Mir wäerten den Dag trauen, datt mir esou nei AI Gesetzer erlaabt hunn op d'Bicher ze landen. Egal wéi schwéier Dir probéiert dëst op nëmmen AI Datetraining ze beschränken, anerer wäerte schmuel oder clever Schleifen fannen, déi zu enger onbegrenzter an onheemlecher Copyrightverletzung ausgoen.

Ronn a ronderëm ginn d'Argumenter.

Een Argument dat net besonnesch Waasser hält huet ze dinn mam Versuch den AI selwer ze verklot. Notéiert datt ech den AI Hiersteller oder d'AI Fuerscher als déi schëlleg Akteuren bezeechent hunn. Dëst sinn Leit a Firmen. E puer proposéiere datt mir AI solle zielen als Partei déi verklot gëtt. Ech hu laang a menger Kolonn diskutéiert datt mir bis elo keng juristesch Perséinlechkeet un AI attributéieren, kuckt de Link hei zum Beispill, an dofir wieren esou Prozesser, déi op AI per se geriicht sinn, elo sënnlos ugesinn.

Als Zousaz zu der Fro, wien oder wat soll verklot ginn, bréngt dat nach en saftigt Thema op.

Gitt un datt eng bestëmmte generativ AI App vun engem AI Hiersteller entwéckelt gëtt, dee mir d'Widget Company nennen. Widget Company ass relativ kleng a Gréisst an huet net vill Einnahmen, nach vill am Wee vu Verméigen. Se verklot wäert net méiglecherweis de grousse Räichtum sammelen, deen ee kéint sichen. Am meeschten hätt Dir just d'Zefriddenheet fir ze rächen wat Dir als falsch ugesi.

Dir wëllt no de grousse Fësch goen.

Hei ass wéi dat wäert entstoen. En AI Hiersteller entscheet fir hir generativ AI zur Verfügung ze stellen Big Time Company, e grousse Konglomerat mat Tonne Teig an Tonne Verméigen. E Prozess mam Numm Widget Company hätt elo e bessert Zil am Siicht, nämlech och andeems Big Time Company nennt. Dëst ass en David a Goliath Kampf deen Affekote géife genéissen. Natierlech wäert d'Big Time Company ouni Zweifel probéieren aus dem Fëschhaken ze wéckelen. Ob se dat kënne maachen ass erëm eng juristesch Fro déi onsécher ass, a si kënnen hoffnungslos an de Muck verstoppt ginn.

Ier mer vill méi wäit doriwwer kommen, wéilt ech eppes entscheedends op den Dësch kréien iwwer déi gestridden Iwwergrëffer vu generativen AI wéinst Datentraining. Ech si sécher datt Dir intuitiv mierkt datt Plagiat an Copyrightverletzung zwee e bësse verschidde Béischt sinn. Si hu vill gemeinsam, obwuel si och däitlech ënnerscheeden.

Hei ass eng praktesch kuerz Beschreiwung vun der Duke University déi déi zwee erkläert:

"Plagiat ass am beschten definéiert als déi net unerkannt Notzung vun enger anerer Persoun hir Aarbecht. Et ass en etheschen Thema mat enger Fuerderung vu Kreditt fir Aarbecht, déi den Usproch net erstallt huet. Et kann een aneren seng Aarbecht plagiéieren onofhängeg vum Copyright Status vun deem Wierk. Zum Beispill ass et trotzdem Plagiat aus engem Buch oder Artikel ze kopéieren deen ze al ass fir nach ënner Copyright ze sinn. Et ass och Plagiat fir Daten aus enger net unerkannten Quell ze benotzen, och wann sachlech Material wéi Daten vläicht net vum Copyright geschützt sinn. Plagiat ass awer liicht geheelt - richteg Zitatioun op d'originell Quell vum Material.
"Verletzung vum Copyright, op der anerer Säit, ass déi onerlaabt Notzung vun enger anerer Aarbecht. Dëst ass e juristescht Thema dat hänkt dovun of ob d'Aarbecht iwwerhaapt vum Copyright geschützt ass oder net, souwéi vu Spezifizitéiten wéi wéi vill benotzt gëtt an den Zweck vum Gebrauch. Wann een zevill vun engem geschützte Wierk kopéiert, oder kopéiert fir en net autoriséierten Zweck, einfach d'Originalquell unerkennen wäert de Problem net léisen. Nëmmen duerch eng viraussiichtlech Erlaabnes vum Copyright Besëtzer vermeit een de Risiko vun enger Verletzungskäschte."

Ech weisen op d'Wichtegkeet vun dësen zwou Bedenken, fir datt Dir mierkt datt d'Remedies deementspriechend ënnerscheeden. Och si si allebéid an Iwwerleeungen agebonnen, déi AI Ethik an AI Gesetz permeéieren, wat se gläich wäertvoll mécht ze ënnersichen.

Loosst eis e behaapt Recours oder Léisung entdecken. Dir gesitt datt et ee vun den duebele Probleemer hëllefe kéint, awer net deen aneren.

E puer hunn insistéiert datt alles wat d'AI Hiersteller maache musse sinn hir Quellen ze zitéieren. Wann generativ AI en Essay produzéiert, enthält just spezifesch Zitater fir wat och ëmmer am Essay steet. Gitt verschidde URLen an aner Indikatiounen fir wéi en Internetinhalt benotzt gouf. Dëst géif schéngen hinnen fräi vun qualms iwwer Plagiat ze kréien. Den ofgeleeten Essay géif viraussiichtlech kloer identifizéieren wéi eng Quelle benotzt gi fir d'Formuléierung ze produzéieren.

Et ginn e puer Ausernanersetzungen an där behaapt Léisung, awer op engem 30,000-Fouss Niveau loosse mer soen, dat déngt als semi-zefriddestellend Kur fir de Plagiat Dilemma. Wéi uewen an der Erklärung vun der Verstouss géint d'Urheberrechter uginn, bréngt d'Zitéierung vu Quellmaterial Iech net onbedéngt aus dem Hondshaus. Unzehuelen datt den Inhalt urheberrechtlech geschützt ass, an ofhängeg vun anere Faktoren wéi wéi vill vum Material benotzt gouf, kann dat erwaart Schwäert vun der Copyrightverletzung schaarf a mat Finalitéit erofgoen.

Duebel Trouble ass d'Schluechtwuert hei.

Probéieren Plagiat oder Copyright Verletzung ze beweisen wäert probéieren

Beweist et!

Dat ass dee gutt verschwonne Refrain, dee mir all zu verschiddenen Zäiten an eisem Liewen héieren hunn.

Dir wësst wéi et geet. Dir kéint behaapten datt eppes geschitt oder geschitt ass. Dir wësst vläicht an Ärem Häerz vun Häerzen datt dëst geschitt ass. Awer wann et ëm push-versus-shove kënnt, musst Dir de Beweis hunn.

Am haitege Sproochesprooch musst Dir d' weisen Festivitéiten, wéi se soen.

Meng Fro fir Iech ass dës: Wéi wäerte mir demonstréierbar beweisen datt generativ AI den Internetinhalt onpassend ausgenotzt huet?

Et gëtt ugeholl datt d'Äntwert einfach sollt sinn. Dir frot oder seet dem generativen AI fir en ausgeliwwert Essay ze produzéieren. Dir huelt dann den Essay a vergläicht et mat deem wat um Internet fonnt gëtt. Wann Dir den Essay fannt, bam, hutt Dir de generativen AI un d'Spréchwuert genagelt.

D'Liewen schéngt ni sou einfach ze sinn.

Stellt Iech vir datt mir generativ AI kréien fir en Essay ze produzéieren deen ongeféier 100 Wierder enthält. Mir ginn ronderëm a probéieren all Ecker vum Internet z'erreechen, op der Sich no deenen 100 Wierder. Wa mir déi 100 Wierder fannen, déi an der selwechter exakter Reiefolleg an op enger identescher Manéier gewise ginn, schénge mir eis selwer e waarme gefaangen ze hunn.

Ugeholl awer datt mir um Internet e scheinbar "vergläichbaren" Essay fannen, obwuel et nëmmen 80 vun den 100 Wierder passt. Dëst schéngt nach ëmmer genuch, vläicht. Awer stellt Iech vir datt mir nëmmen eng Instanz vun 10 Wierder vun den 100 fannen déi passen. Ass dat genuch fir ze klauen datt entweder Plagiat geschitt ass oder datt Copyright Verletzung geschitt ass?

Greyness existéiert.

Text ass witzeg esou.

Vergläicht dëst mat den Text-zu-Bild oder Text-zu-Konscht Ëmstänn. Wann generativ AI eng Text-zu-Bild oder Text-zu-Konscht Fäegkeet ubitt, gitt Dir eng Textprompt an d'AI App produzéiert e Bild baséiert e bëssen op der Ufro déi Dir uginn hutt. D'Bild ass vläicht anescht wéi all Bild dat jeemools op dësem oder soss anere Planéit gesi gouf.

Op der anerer Säit kann d'Bild un aner Biller erënneren, déi et existéieren. Mir kënnen d'generativ AI-produzéiert Bild kucken an e bësse vum Darminstinkt soen datt et sécher ausgesäit wéi en anert Bild dat mir virdru gesinn hunn. Generell, de visuell Aspekter vum Verglach a Kontrast sinn e bësse méi einfach ënnerholl. Wann dat gesot gëtt, wësse w.e.g. datt enorm juristesch Debatten garantéieren iwwer wat d'Iwwerlappung oder d'Replikatioun vun engem Bild vun engem aneren ausmécht.

Eng aner ähnlech Situatioun existéiert mat Musek. Et gi generativ AI Apps déi Iech erlaben en Textprompt anzeginn an den Output produzéiert vun der AI ass Audiomusek. Dës Text-zu-Audio oder Text-zu-Musek AI Fäegkeeten fänken elo just un. Eng Saach op déi Dir Ären Top Dollar wetten kënnt ass datt d'Musek, déi vum generativen AI produzéiert gëtt, héich iwwerpréift gëtt fir Verletzung. Mir schéngen ze wëssen wa mir musikalesch Verstéiss héieren, och wann dëst erëm e komplexe juristesche Problem ass, deen net nëmmen baséiert op wéi mir eis iwwer déi ugesi Replikatioun fillen.

Erlaabt mir nach ee Beispill.

Text-zu-Code generativ AI bitt Iech d'Fäegkeet en Textprompt anzeginn an d'AI wäert Programméierungscode fir Iech produzéieren. Dir kënnt dann dëse Code benotze fir e Computerprogramm ze preparéieren. Dir kënnt de Code genau benotze wéi generéiert, oder Dir kënnt entscheeden de Code z'änneren an unzepassen fir Äre Besoinen ze passen. Et gëtt och e Besoin fir sécher ze stellen datt de Code passend an funktionéierbar ass well et méiglech ass datt Feeler a Falschheeten am generéierte Code entstoe kënnen.

Är éischt Viraussetzung kéint sinn datt de Programméierungscode net anescht ass wéi den Text. Et ass just Text. Sécher, et ass en Text deen e bestëmmten Zweck bitt, awer et ass ëmmer nach Text.

Gutt, net genau. Déi meescht Programméierungssproochen hunn e strikt Format a Struktur fir d'Natur vun de Kodéierungsaussoen vun där Sprooch. Dëst ass an engem Sënn vill méi schmuel wéi fräi fléissend natierlech Sprooch. Dir sidd e bëssen agespaart wéi d'Kodéierungsaussoen formuléiert sinn. Och d'Sequenz an d'Aart a Weis wéi d'Aussoe benotzt a arrayéiert ginn, sinn e bësse gekäppt.

Alles an allem ass d'Méiglechkeet fir ze weisen datt de Programméierungscode plagiéiert oder verletzt gouf bal méi einfach wéi d'natierlech Sprooch alles gesot. Also, wann e generativen AI de Programméierungscode um Internet scannt a spéider Programméierungscode generéiert, sinn d'Chancen fir ze streiden datt de Code blatant replizéiert gouf relativ méi iwwerzeegend. Net e Slam Dunk, also erwaarden datt bitter Schluechte op dësem gefouert ginn.

Mäin iwwergräifend Punkt ass datt mir déiselwecht AI Ethik an AI Gesetz Themen hunn, déi all Modi vu generativen AI konfrontéieren.

Plagiat an Urheberrechtsverletzung wäerte problematesch sinn fir:

Text-zu-Text oder Text-zu-Essay
Text-zu-Bild oder Text-zu-Konscht
Text-zu-Audio oder Text-zu-Musek
Text-zu-Video
Text-ze-Code
Etc.

Si ënnerleien all déiselwecht Bedenken. E puer kënnen e bësse méi einfach sinn ze "beweisen" wéi anerer. All vun hinnen wäerten hir eege Varietéit vun Albtraum vun engem AI Ethik an AI Gesetz Buedem hunn.

Maacht de Fall Fir Plagiat Oder Copyright Verletzung

Fir Diskussiounszwecker, loosst eis op Text-zu-Text oder Text-zu-Essay generativ AI konzentréieren. Ech maachen dat deelweis wéinst der enormer Popularitéit vum ChatGPT, wat den Text-zu-Text Typ vu generativen AI ass. Et gi vill Leit déi ChatGPT benotzen, zesumme mat villen aneren déi verschidden ähnlech Text-zu-Text generativ AI Apps benotzen.

Wësse déi Leit, déi generativ AI Apps benotzen, datt se potenziell op Plagiat oder Copyrightverletzung vertrauen?

Et schéngt zweifelhaft datt se et maachen.

Ech géif trauen ze soen datt déi herrschende Viraussetzung ass datt wann déi generativ AI App verfügbar ass fir ze benotzen, den AI Hiersteller oder d'Firma déi den AI opgestallt huet muss wëssen oder zouversiichtlech sinn datt et näischt ongewollt ass iwwer d'Wueren déi se ubidden fir ze benotzen. Wann Dir et benotze kënnt, muss et iwwer Bord sinn.

Loosst eis mäi fréiere Kommentar iwwerdenken wéi mir probéieren ze beweisen datt e bestëmmten generativen AI op enger falscher Basis schafft wat d'Datentraining ugeet.

Ech kéint och bäigefüügen datt wa mir eng generativ AI dat maache kënnen, d'Chancen fir déi aner z'erreechen si méiglecherweis verbessert. Ech soen net datt all generativ AI Apps am selwechte Boot wieren. Awer si wäerte sech an zimlech haarde Mier fannen wann ee vun hinnen un d'Mauer gepecht ass.

Dofir wäert et och immens derwäert sinn, déi bestehend Prozesser am Aen ze halen. Deen éischten deen iwwer déi behaapt Verstouss gewënnt, wann dëst geschitt, wäert méiglecherweis Doom an Däischtert fir déi aner generativ AI Apps Zauber, ausser e puer Schmuel entkommt déi méi breet Themen op der Hand. Déi, déi iwwer déi behaapt Verstouss verléieren, bedeiten net onbedéngt datt déi generativ AI Apps d'Klacke kënne schloen a feieren. Et kéint sinn datt de Verloscht un aner Faktoren zougeschriwwe gëtt déi net sou relevant sinn fir déi aner generativ AI Apps, a sou weider.

Ech hat erwähnt datt wa mir en 100-Wuert Essay huelen a probéieren déi genau Wierder an der selwechter Sequenz um Internet ze fannen, kënne mir e relativ zolitte Fall fir Plagiat oder Copyrightverletzung hunn, alles anescht gläich. Awer wann d'Zuel vu Wierder déi passend sinn niddereg ass, schénge mir op dënnem Äis ze sinn.

Ech géif gären méi déif an dat gräifen.

En offensichtlechen Aspekt fir e Verglach ze maachen besteet aus de genau selwechte Wierder an der exakt selwechter Sequenz. Dëst ka fir ganz Passagen geschéien. Dëst wier bequem ze gesinn, bal wéi mir op engem Sëlwer Teller iwwerreecht ginn.

Mir kënnen och verdächteg sinn wann nëmmen e Stéck Wierder passen. D'Iddi wier ze kucken ob se entscheedend Wierder sinn oder vläicht Fëllwierder déi mir einfach kënne läschen oder ignoréieren. Mir wëllen och net duerch d'Benotzung vu Wierder an hirer Vergaangenheet oder zukünfteg Zäit, oder vun enger anerer Tomfoolery, gefeelt ginn. Dës Variatioune vu Wierder sollen och berücksichtegt ginn.

En aneren Niveau vum Verglach wier wann d'Wierder net besonnesch déiselwecht Wierder zu engem groussen Ausmooss sinn, awer d'Wierder och an engem variéierten Zoustand schéngen nach ëmmer déiselwecht Punkten ze maachen. Zum Beispill benotzt e Resumé dacks zimlech ähnlech Wierder als eng originell Quell, awer mir kënnen ënnerscheeden datt de Resumé op der ursprénglecher Quell ausgesäit.

Den haardsten Niveau vum Verglach wier op Konzepter oder Iddien baséiert. Ugeholl datt mir en Essay gesinn deen net déiselwecht oder ähnlech Wierder als Vergläichsbasis huet, awer d'Essenz oder d'Iddie sinn déiselwecht. Mir ginn zouginn an rauen Territoire. Wa mer einfach soen, datt Iddien enk geschützt sinn, géife mer bal all Form vu Wëssen a Wëssenserweiterung en Deckel leeën.

Mir kënnen nach eng Kéier op eng praktesch Erklärung vun der Duke University referenzéieren:

"Copyright schützt keng Iddien, nëmmen de spezifeschen Ausdrock vun enger Iddi. Zum Beispill huet e Geriicht decidéiert datt den Dan Brown net de Copyright vun engem fréiere Buch verletzt huet wéi hien geschriwwen huet D'Da Vinci Code well alles wat hien aus dem fréiere Wierk geléint huet, waren d'Basis Iddien, net d'Spezifizitéite vum Komplott oder vum Dialog. Well d'Urheberrechter geduecht ass fir kreativ Produktioun ze encouragéieren, andeems een aneren seng Iddien benotzt fir en neit an originellt Wierk ze bastelen den Zweck vum Urheberrecht erhalen, verletzt et net. Nëmme wann een den Ausdrock vun engem aneren ouni Erlaabnis kopéiert, gëtt d'Urheberrechter potenziell verletzt."
"Fir Plagiat ze vermeiden, op der anerer Säit, muss een d'Quell och vun Iddien unerkennen, déi vun engem aneren geléint sinn, egal ob den Ausdrock vun deenen Iddie mat hinnen ausgeléint gëtt. Also, eng Paraphrase erfuerdert Zitatioun, och wann et selten e Copyright-Problem bréngt.

Notéiert w.e.g. wéi virdru d'Ënnerscheeder tëscht den duebelen Probleemer Facetten identifizéiert.

Elo dann, d'Vergläichs Approche an d'Praxis ëmzesetzen ass eppes wat zënter ville Joeren stattfënnt. Denkt drun op dës Manéier. Schüler, déi Essays fir hir Schoulaarbecht schreiwen, kéinte verlaangt sinn Inhalt vum Internet ze gräifen an ze maachen wéi wann se d'A-Schouljoer Pulitzer Präis-Gewënner Wierder geschriwwen hunn.

D'Léierpersonal benotze scho laang Plagiat-Check Programmer fir dëst ze këmmeren. En Enseignant hëlt e Student säin Essay a fiddert et an de Plagiatchecker. A verschiddene Fäll gëtt eng ganz Schoul d'Benotzung vun engem Plagiatkontrollprogramm lizenzéiert. All Kéier wann d'Studenten en Essay ofginn, musse se als éischt den Essay un de Plagiatkontrollprogramm schécken. Den Enseignant gëtt informéiert wat de Programm bericht.

Leider musst Dir extrem virsiichteg sinn iwwer wat dës Plagiat-Check Programmer ze soen hunn. Et ass wichteg ze bewäerten ob déi gemellt Indikatiounen valabel sinn. Wéi schonn erwähnt, kann d'Kapazitéit fir erauszefannen ob e Wierk kopéiert gouf niwweleg sinn. Wann Dir ouni Gedanken d'Resultat vum Iwwerpréiwungsprogramm akzeptéiert, kënnt Dir e Student falsch virgeworf hunn ze kopéieren wann se dat net gemaach hunn. Dëst kann Séil-crushing ginn.

Fuert weider, kënne mir probéieren Plagiat-Check Programmer am Räich ze testen generativ AI Ausgänge ze benotzen. Behandelt déi ausgeliwwert Essays vun enger generativer AI App wéi wa se vun engem Student geschriwwe wier. Mir moossen dann wat de Plagiatchecker seet. Dëst gëtt mat engem Salzkorn gemaach.

Et gëtt eng rezent Fuerschungsstudie déi probéiert dës Aarte vu Vergläicher am Kontext vun generativen AI op dës Manéier ze operationaliséieren. Ech wéilt gären e puer interessant Erkenntnisser mat Iech iwwergoen.

Als éischt ass e puer zousätzlech Hannergrond erfuerderlech. Generativ AI gëtt heiansdo als LLMs bezeechent (grouss Sproochmodeller) oder einfach LMs (Sproochmodeller). Zweetens, ChatGPT baséiert op enger Versioun vun engem aneren OpenAI generative AI Package mam Numm GPT-3.5. Virun GPT-3.5 gouf et GPT-3, a virdru war GPT-2. Hautdesdaags gëtt GPT-2 als éischter primitiv ugesinn am Verglach mat der spéider Serie, a mir waarden all gespaant op déi kommend Enthüllung vum GPT-4, kuckt meng Diskussioun op de Link hei.

D'Fuerschungsstudie, déi ech kuerz erkläre wëll, bestoung aus der Ënnersichung vum GPT-2. Dat ass wichteg ze realiséieren well mir elo méi wäit iwwer d'Fäegkeete vum GPT-2 sinn. Maacht keng Ausschlag Conclusiounen iwwer d'Resultater vun dëser Analyse vum GPT-2. Trotzdem kënne mir vill vun der Bewäertung vum GPT-2 léieren. D'Etude huet den Titel "Do Language Models Plagiarize?" vum Jooyoung Lee, Thai Le, Jinghui Chen, an Dongwon Lee, erschéngen am ACM WWW '23, Mee 1-5, 2023, Austin, TX, USA.

Dëst ass hir Haaptfuerschungsfro:

"A wéi engem Ausmooss (net limitéiert op d'Erënnerung) exploitéieren LMs Ausdréck oder Sätz aus hiren Trainingsproben?"

Si hunn dës dräi Niveauen oder Kategorien vu potenziellen Plagiat benotzt:

"Verbatim Plagiat: Exakt Kopie vu Wierder oder Sätze ouni Transformatioun."
"Paraphrase Plagiat: Synonym Substitutioun, Wuertbestellung an / oder zréck Iwwersetzung."
"Iddi Plagiat: Representatioun vum Kär Inhalt an enger verlängerter Form."

GPT-2 gouf wierklech op Internetdaten trainéiert an domat e passende Kandidat fir dës Zort Analyse:

"GPT-2 ass pre-trainéiert op WebText, enthält iwwer 8 Milliounen Dokumenter aus 45 Millioune Reddit Linken. Zënter OpenAI huet WebText net ëffentlech verëffentlecht, benotze mir OpenWebText wat eng Open Source Erhuelung vum WebText Corpus ass. Et gouf zouverlässeg vun der fréierer Literatur benotzt.

Selektiv Schlësselbefunde wéi aus der Etude ausgezeechent besteet aus:

"Mir hunn entdeckt datt pre-trainéiert GPT-2 Famillen aus dem OpenWebText plagiéieren."
"Eis Erkenntnisser weisen datt d'Feintuning wesentlech verbatim Plagiatfäll vun OpenWebText reduzéiert."
"Konsequent mam Carlini et al. a Carlini et al., fanne mir datt méi grouss GPT-2 Modeller (grouss an xl) allgemeng plagiéiert Sequenzen generéieren méi dacks wéi méi kleng.
"Awer verschidde LMs kënne verschidde Mustere vu Plagiat weisen, an dofir kënnen eis Resultater net direkt op aner LMs generaliséieren, och méi rezent LMs wéi GPT-3 oder BLOOM."
"Zousätzlech sinn automatesch Plagiatdetektoren bekannt fir vill Ausfallmodi ze hunn (souwuel a falsch Negativer wéi falsch Positiver).
"Gitt datt eng Majoritéit vun den Trainingsdaten vun LMs aus dem Web geschrauft ginn ouni Inhaltsbesëtzer z'informéieren, huet hir Widderhuelung vu Wierder, Ausdréck, a souguer Kär Iddien aus Trainingssets an generéiert Texter ethesch Implikatiounen."

Mir brauchen definitiv vill méi Studien vun dëser Aart.

Wann Dir virwëtzeg sidd wéi GPT-2 mat GPT-3 vergläicht wat d'Datentraining ugeet, gëtt et e ganz markanten Kontrast.

Laut gemellten Indikatiounen war d'Datentraining fir GPT-3 vill méi extensiv:

"De Modell gouf mat Textdatebanken aus dem Internet trainéiert. Dëst beinhalt eng ganz 570GB vun Daten aus Bicher, Webtexter, Wikipedia, Artikelen an aner Schreiwen um Internet. Fir nach méi genee ze sinn, goufen 300 Milliarde Wierder an de System gefüttert“ (BBC Science Focus Magazin, "ChatGPT: Alles wat Dir wësse musst iwwer OpenAI's GPT-3 Tool" vum Alex Hughes, Februar 2023).

Fir déi vun iech interesséiert méi am-Déift Beschreiwunge vun der Date Training fir GPT-3, hei ass en Auszuch aus der offizieller GPT-3 Modell Kaart op GitHub gepost (lescht aktualiséiert Datum opgezielt als September 2020):

"D'GPT-3 Trainingsdates besteet aus Text op den Internet gepost, oder aus Text op den Internet eropgelueden (zB Bicher). D'Internetdaten, op déi se bis haut trainéiert a bewäert gi sinn, enthalen: (1) eng Versioun vum CommonCrawl Dataset, gefiltert baséiert op Ähnlechkeet zu héichqualitativen Referenzkorpora, (2) eng erweidert Versioun vum Webtext-Datasaz, (3) ) zwee Internet-baséiert Buchkorpora, an (4) engleschsproocheg Wikipedia.
"Gitt seng Trainingsdaten, sinn d'Output an d'Performance vum GPT-3 méi representativ fir Internet-verbonne Populatiounen wéi déi, déi a verbal, net-digital Kultur geprägt sinn. D'Internet-verbonne Bevëlkerung ass méi representativ fir entwéckelt Länner, räich, méi jonk a männlech Meenungen, an ass meeschtens US-centric. Méi räich Natiounen a Populatiounen an entwéckelte Länner weisen méi héich Internetpenetratioun. D'digitale Geschlecht Divisioun weist och manner Fraen online representéiert weltwäit. Zousätzlech, well verschidden Deeler vun der Welt verschidden Niveauen vun Internetpenetratioun an Zougang hunn, ënnersträicht d'Dateset manner verbonne Gemeinschaften.

Eng Ausnam vun der uewe genannter Indikatioun iwwer GPT-3 ass datt eng Fauschtregel ënner deenen, déi generativ AI maachen, ass datt wat méi Internetdaten Dir scannt, d'Chancen fir d'generativ AI ze verbesseren oder weiderzegoen.

Dir kënnt dëst op béide Weeër kucken.

1) Verbessert AI. Mir wäerten generativ AI hunn déi iwwer sou vill wéi méiglech vum Internet kräizt. Dat spannend Resultat ass datt déi generativ AI besser wäert sinn wéi et scho ass. Dat ass eppes fir op ze waarden.
2) Kopie Potenzial Galore. Dës Verbreedung vum Scannen vum Internet mécht onheemlech an engagéierend de Plagiat- a Copyrightverletzungsproblem potenziell méi grouss a méi grouss. Wärend et virdru net sou vill Inhaltscreatoren beaflosst waren, wäert d'Gréisst bléien. Wann Dir en Affekot op der Säit vun den Inhaltscreateuren sidd, bréngt dëst Tréinen an Ären Aen (vläicht Tréinen vun Enttäuschung, oder Tréinen vu Freed iwwer wéi eng Perspektiven dëst a Saache Prozesser bréngt).

Ass d'Glas hallef voll oder hallef eidel?

Dir entscheet.

Juristesch Landminen waarden

Eng Fro, déi Dir vläicht iwwerdenkt, ass ob Äre gepostten Internetinhalt als fair Spill ugesi gëtt fir gescannt ze ginn. Wann Ären Inhalt hannert enger Paywall ass, ass et viraussiichtlech keen Zil fir gescannt ze ginn, well et net einfach erreecht ka ginn, ofhängeg vun der Stäerkt vun der Paywall.

Ech géif roden datt déi meescht alldeeglech Leit hiren Inhalt net hannert enger Paywall hunn. Si wëllen datt hiren Inhalt ëffentlech verfügbar ass. Si ginn dovunner aus, datt d'Leit et kucken.

Heescht Ären Inhalt ëffentlech verfügbar ze hunn och axiomatesch datt Dir et guttgeheescht fir gescannt ze ginn fir ze benotzen duerch generativ AI déi Daten trainéiert gëtt?

Vläicht jo, vläicht nee.

Et ass eng vun deenen Roll-Äer-Aen juristesch Themen.

Zréck op déi fréier zitéiert Bloomberg Gesetz Artikel, ernimmen d'Auteuren d'Wichtegkeet vun de Konditioune (T&C) déi mat ville Websäite verbonne sinn:

"Déi legal Landmine - enorm ignoréiert vun onbewosst AI Firmen, déi Online Bots fir Dateschrauwen operéieren - ass verstoppt an de Konditioune, déi allgemeng op ëffentleche Websäite vun all Typ verfügbar sinn. Am Géigesaz zum aktuell ongeléiste IP Gesetz an dem Copyrightverletzungsdilemma, sinn d'Konditioune vun enger Websäit duerch gutt etabléiert Vertragsrecht ënnerstëtzt a kënnen normalerweis viru Geriicht duerchgesat ginn, op genuch Zuel vu Virgäng.

Si weisen datt unzehuelen datt Är Websäit eng Lizenzbezunnen Säit huet, d'Chancen sinn datt wann Dir eng standardiséiert modern Template benotzt, et eng entscheedend Klausel kéint enthalen:

"Dowéinst enthalen déi meescht Boilerplate Konditioune fir Websäiten - vill verfügbar a gratis Zougang - eng Klausel déi automatiséiert Dateschrauwen verbitt. Ironescherweis sinn esou fräi verfügbar Templates méiglecherweis fir ChatGPT Training benotzt. Dofir kënnen Inhaltsbesëtzer wëllen hir Konditioune iwwerpréiwen an eng separat Klausel asetzen, déi all Benotzung vun all Inhalt vun de Websäite fir AI Training oder all ähnlech Zwecker verbitt, egal ob manuell oder automatesch gesammelt, ouni eng prealabel schrëftlech Erlaabnes vum Websäitbesëtzer ".

En zousätzleche Kicker ass an hirer Analyse vu potenziellen Aktiounen fir Inhaltscreatoren abegraff fir iwwer hir Websäiten ze huelen:

"Duerfir kann d'Aféierung vun enger erzwéngbarer Liquidéierter Schuedbestëmmung fir all Violatioun vun der No-Scraping Klausel, verstäerkt mat enger Uerder-ouni-Obligatioun Bestëmmung, eng haltbar Léisung sinn fir déi Auteure vu kreativen Inhalter, déi net gär hunn d'Fruucht vun hirem intellektuell Aarbecht fir AI Trainingszwecker ouni dofir bezuelt ze ginn oder op d'mannst e richtege Kreditt fir hir Aarbecht ze kréien.

Dir wëllt vläicht Ären Affekot iwwer dëst konsultéieren.

E puer soen datt dëst e wesentleche Wee ass fir den AI Hiersteller ze probéieren an ze soen datt d'Creatoren vun Inhalter ganz eescht sinn fir hiren Inhalt ze schützen. Sécherstellen datt Är Lizenz déi richteg Formuléierung huet, schéngt d'AI Hiersteller opmierksam ze maachen.

Anerer sinn awer e bëssen downbeat. Si soen enttäuscht datt Dir kënnt virugoe fir déi härtsten an déidlechst legal Sprooch op Ärer Websäit ze setzen, awer um Enn wäerten d'AI Hiersteller et scannen. Dir wäert net wëssen datt se dat gemaach hunn. Dir wäert en Däiwel vun enger Zäit hunn, déi beweist datt se et gemaach hunn. Dir sidd onwahrscheinlech ze entdecken datt hir Ausgäng Ären Inhalt reflektéieren. Et ass eng biergof Schluecht datt Dir net wäert gewannen.

D'Géigeargument ass datt Dir d'Schluecht ofginn ier se iwwerhaapt gefouert gouf. Wann Dir op d'mannst net genuch juristesch Sprooch hutt, a wann Dir se jeemools fangt, wäerte se sech wéckelen a wéckelen de Wee fir all Verantwortung ze entkommen. Alles well Dir net déi richteg Aart vu legale Sprooche gepost hutt.

Mëttlerweil, eng aner Approche, déi probéiert Traktioun ze gewannen, besteet aus marquéieren Är Websäit mat eppes wat seet datt de Site net vun generativen AI gescannt gëtt. D'Iddi ass datt e standardiséierte Marker ausgeschafft gëtt. Websäite kéinte viraussiichtlech de Marker op hire Site addéieren. AI Hiersteller géife gesot kréien datt se hir Datescannen sollten änneren fir iwwer déi markéiert Websäiten ze sprangen.

Kann eng Marker Approche erfollegräich sinn? Bedenken enthalen d'Käschte fir d'Markéierer ze kréien an ze posten. Zesumme mat ob d'AI Hiersteller sech un d'Markéierer halen an dofir suergen datt se d'markéiert Siten vermeiden. Eng aner Perspektiv ass datt och wann d'AI Hiersteller net mat de Marquage matmaachen, dëst e weideren Hiweis bitt fir op d'Geriicht ze goen an ze argumentéieren datt den Inhaltscreator de leschte Meile gaang ass fir ze probéieren iwwer den AI Scannen ze warnen.

Yikes, alles mécht Äre Kapp spin.

Konklusioun

E puer lescht Bemierkungen zu dësem schwieregen Thema.

Sidd Dir prett fir eng mind-bending Perspektiv op dëser ganzer AI als Plagiarizer an Copyright Verstouss Dilemma?

Vill vun der Viraussetzung iwwer "fänken" generativ AI am Akt vu Plagiat oder Copyrightverletzung hänkt dovun of der Entdeckung vun Ausgängen déi ganz ähnlech virdrun Wierker wéi den Inhalt um Internet datt während daten Training potenziell gescannt gouf.

Stellt awer un datt e Trenn-a-Eruewer-Pléck hei um Spill ass.

Hei ass wat ech mengen.

Wann déi generativ AI e klengt Stéck vun hei an e bëssen vun do aus léint, schlussendlech se zesummen vermëschen fir e bestëmmten Output ze produzéieren, sinn d'Chancen fir e Gotcha Moment ze hunn enorm reduzéiert. All Ausgang wäert anscheinend net op eng genuch Schwell eropgoen, datt Dir sécher ka soen datt et aus engem bestëmmte Quellartikel gestoppt gouf. De resultéierende Essay oder aner Ausgangsmodi wäerten nëmme fraktioun passend sinn. An duerch déi üblech Approche fir ze streiden datt Plagiat oder Copyrightverletzung geschitt ass, musst Dir normalerweis méi weisen wéi e klengt klengt Stéck am Spill ass, besonnesch wann d'Miel net e Standout ass a wäit iwwer den Internet ka fonnt ginn (Ënnerstëtzung) all adäquate Belaaschtung vum Beweis vu Mëssbrauch).

Kënnt Dir nach ëmmer iwwerzeegend deklaréieren datt d'Datentraining vu generativen AI Websäiten an Inhaltscreatoren ofgerappt huet, och wann de proposéierte Beweis en anscheinend immateriellt Undeel ass?

Denkt drun.

Wa mir potenziell Plagiat a Skala an Copyright Verletzung op Skala konfrontéieren, musse mir eis Approche änneren fir ze definéieren wat Plagiat an/oder Copyright Verletzung ausmécht. Vläicht ass et e Fall ze maachen fir Plagiat oder Copyrightverletzung am Haapt oder am grousse. E Mosaik, deen aus Dausende oder Millioune vu minuscule Snippets besteet, kéint als eng Violatioun ausgesat ginn. De scheinbare Problem ass awer datt dëst all Zort Inhalt op eemol ënner engem Regenschirm vu Verstéiss ka kommen. Dëst kéint e glat Hang sinn.

Schwéier Gedanken.

Apropos heftege Gedanken, de Leo Tolstoi, de legendäre Schrëftsteller, huet berühmt gesot: "Déi eenzeg Sënn vum Liewen ass d'Mënschheet ze déngen."

Wann Är Websäit an d'Websäite vun aneren fir d'Verbesserung vun der AI gescannt ginn, an och wann Dir keen eenzege Penny dofir kritt, kënnt Dir feierlech Trouscht hunn an der éierlecher Iwwerzeegung datt Dir zur Zukunft vun der Mënschheet bäidréit? Et schéngt e klenge Präis ze bezuelen.

Gutt, ausser wann AI sech als de gefaartten existenzielle Risiko erausstellt, deen all Mënsch aus der Existenz wëschen. Dir sollt kee Kreditt dofir huelen. Ech huelen un, Dir géift grad esou séier net zu deem schlëmmen Resultat bäidroen. Wann Dir dës kalamitesch Prognose ofsetzt, denkt Dir vläicht datt wann d'AI Hiersteller Sue maachen aus hirer generativer AI, a si schéngen d'Gewënn ze genéissen, Dir sollt och e Stéck vum Kuch kréien. Deelen an deelen gläich. D'AI Hiersteller sollten d'Erlaabnis froen fir all Websäit ze scannen an dann och e Präis ze verhandelen fir ze bezuelen fir de Scan ze maachen.

Gitt Kreditt wou Kreditt verlaangt ass.

Loosst eis dem Sir Walter Scott dat lescht Wuert fir elo ginn: "Oh, wat e verwéckelt Web weave mir. Wa mir als éischt üben fir ze täuschen."

Dëst gëllt vläicht wann Dir mengt datt Täuschung amgaang ass, oder vläicht gëllt net wann Dir mengt datt alles gutt a perfekt oprecht a legitim ass. Gitt w.e.g. generéis Kreditt fir dëst ze denken. Du verdéngs et.

Quell: https://www.forbes.com/sites/lanceeliot/2023/02/26/legal-doomsday-for-generative-ai-chatgpt-if-caught-plagiarizing-or-infringing-warns-ai-ethics- an-a-Gesetz/