IP-IT-Médias

Quand le droit d’auteur rencontre l’IA : ChatGPT et Google BARD vont nous raconter des histoires

10/02/2023

Comme en témoignent les innombrables démonstrations d’utilisation depuis novembre dernier, le lancement de ChatGPT, le tout dernier chatbot de la société OpenAI, est en passe de bouleverser nos usages.

ChatGPT est basé sur un type de modèle de langage « Generative Pre-trained Transformer » de troisième génération, instruit grâce à la technique du machine learning, afin qu’il puisse générer une conversation à partir d’un grand corpus de données sur lesquelles il a été entrainé. Il s’agit d’un outil de recherche conversationnel qui traite et répond aux demandes entrées par l’utilisateur. Une version ultérieure pourrait augmenter son autonomie par le machine learning.

Bien que (comme les humains), ChatGPT commette des erreurs, les résultats sont impressionnants. Les réponses de cette IA sont aisément accessibles, et, au-delà de produire une conversation interactive, cette dernière est capable de régler des problèmes mathématiques ou de code, produire des formules excel, ou même rédiger des dissertations.

A la différence des moteurs de recherche classiques tels que Google ou Microsoft, ChatGPT est capable de formuler des réponses directes, précises, complètes et réfléchies. Cependant, n’en étant qu’à sa version bêta, il n’est pas encore stabilisé, et produit d’autant plus certaines réponses incorrectes, risquant de diffuser de fausses informations. Par ailleurs, les données sur lesquelles il s’appuie datent de 2021.

ChatGPT récemment dévoilé de manière spectaculaire, se voit déjà concurrencé par Google BARD, tout nouveau rival lancé par Google en ce début d’année 2023. Contrairement à ChatGPT, le bien nommé BARD peut accéder à des informations récentes, en accédant à internet pour apporter des réponses à jour[1]– bien qu’exposé à un risque établi d’erreurs. L’objectif de Google est d’intégrer son nouvel outil au sein même de son moteur de recherche, en vue de proposer des réponses supposées plus abouties et complètes en amont des résultats de recherche. L’utilisateur pourra poser une question au moteur de recherche, une réponse structurée sera générée, et une liste de liens vers des pages web serait proposée en dessous – bien que la question de la justification des sources n’ait pas été clarifiée pour l’instant. Google a présenté son annonce à rebondissements lors d’une conférence de presse à Paris, BARD s’est exposé en commettant des erreurs, et il faudra certainement attendre pour essayer cette nouvelle génération de capacités de langage et de conversation alimentées par le modèle de langage de Google pour les applications de dialogue (dit « LaMDA »).

A l’heure où des actions ont été dirigées envers des systèmes d’IA générant des images ou des codes informatiques, nous avons décidé de proposer des éléments de réponse aux nombreuses interrogations quant au droit d’auteur.

Peut-on utiliser librement des contenus protégés au titre du droit d’auteur pour nourrir l’IA, et ce, sans le consentement de leur auteur ?

D’une part, on pourrait considérer que l’utilisation d’œuvres et autres données et objets protégeables, pourrait être un acte de reproduction donnant prise au droit d’auteur. Or, les données utilisées par l’IA sont décomposées, analysées et ingérées par la machine, leur permettant ainsi d’être représentées dans un espace intelligible par la machine et de révéler les liens et similarités par recomposition. En pratique, la machine en extrait une valeur informationnelle, plus qu’une copie de la donnée[2].

D’autre part, il existe une exception au droit d’auteur prévue par la directive « Digital Single Market » de 2019, et transposée à l’article L122-5-3 du Code de la propriété intellectuelle qui concerne notamment le « text and data mining » ou « fouille de texte » dédié aux usages de l’IA, même en cas d’usage commercial. Cette limitation, somme toute très large, prévoit l’exercice d’un droit de retrait (« opt-out ») qui laisse à l’auteur la possibilité de s’opposer à l’utilisation de son œuvre pour nourrir la machine.

S’il venait à être admis que des contenus protégés par le droit d’auteur sont reproduits pour entrainer l’IA, l’utilisation de telles données pour nourrir ChatGPT ouvrirait des arguments sérieux, dans le sens d’un droit positif qui prévoit de telles exceptions au monopole du droit d’auteur.

Peut-on considérer que le texte généré par ChatGPT est un plagiat d’œuvres antérieures ?

Le plagiat est le fait de « s’inspirer d’une œuvre préexistante sans l’autorisation de son auteur ». On peut le voir comme une forme de contrefaçon, voire une catégorie intermédiaire[3]. Or, si on raisonne par analogie avec la technique du sampling, technique créative basée sur l’utilisation d’extraits sonores existants afin de les incorporer dans un son et créant ainsi une nouvelle composition, un échantillon non reconnaissable n’est pas toujours et automatiquement une reproduction[4]. Les juges considèrent qu’il peut être indifférent que l’œuvre litigieuse ait pu emprunter au départ une mélodie antérieure, dès lors que l’œuvre existante est suffisamment travaillée pour n’être plus reconnaissable à l’issue du traitement informatique[5].

Or, ChatGPT est nourri à partir d’un très grand nombre de documents qui lui permettent de générer une réponse basée sur l’ensemble des documents sollicités. La réponse ne reprend pas des pans de documents, et reformule le tout avec ses propres mots. La question reste donc ouverte au cas par cas, et plagiat et contrefaçon seraient caractérisés si la reprise et reproduction d’éléments protégeables reconnaissables était caractérisée.

Les textes générés par ChatGPT sont-ils originaux ?

On pourrait considérer que ChatGPT a une plume robotique dénuée d’originalité, notamment à travers les techniques utilisées pour détecter ce qui a été généré par un homme ou un robot. GPTZero est un programme créé par Edward Tian qui permet, en entrant un texte, de savoir s’il a été produit par un homme ou une IA. Le programme s’appuie sur deux variables : le caractère aléatoire d’une phrase (perplexity), et celui de l’ensemble du texte (burstiness). Plus les phrases et la structure du texte ont un caractère aléatoire, plus elles seront attribuées à l’homme[6]. On peut donc douter de l’originalité de ce que génère la machine, en raison du moindre caractère aléatoire de son texte.

En outre, une œuvre créée avec l’assistance de l’IA peut être originale si elle n’est qu’un simple outil assistant la création de l’œuvre, et que l’on peut prouver que l’utilisateur de la machine lui a donné des instructions construisant une empreinte originale. Poser une question simple à ChatGPT ne permet donc pas au texte produit d’être protégé au titre du droit d’auteur[7]. Tout comme l’acte de création protégé par le droit d’auteur s’oppose au caractère mécanique de la « production » de contenu par la machine[8].

En l’état actuel des connaissances, une œuvre entièrement générée par un système informatique ne devrait pas être susceptible d’être protégée au titre du droit d’auteur : d’une part, parce que la création n’est pas originale car elle ne porte pas l’empreinte de la personnalité de son auteur, et d’autre part, car l’auteur n’est pas une personne physique (la Cour de cassation a jugé qu’« une personne morale ne peut avoir la qualité d’auteur [9]», impliquant a contrario que seule une personne physique peut être auteur[10]).

En revanche, si l’utilisateur a donné des instructions à la machine portant l’empreinte de sa personnalité et peut le prouver, on pourrait considérer que l’auteur est l’utilisateur car l’IA a été utilisée en tant qu’outil pour créer l’œuvre – comme on utiliserait une caméra. Il faut une contribution humaine substantielle pour reconnaitre les droits d’auteur[11]. A titre d’exemple, certains commentateurs français ont pu considérer que l’œuvre de Jason Allen, qui a remporté le concours des beaux-arts de la Colorado State Fair grâce à une œuvre créée avec l’aide de l’outil d’IA MidJourney, est susceptible d’être protégée par le droit d’auteur en raison de l’important processus créatif par lequel l’artiste aurait passé 80 heures à sélectionner les mots entrés dans la machine qui a généré 600 images différentes, avant d’en sélectionner trois et de mélanger leurs éléments avec Photoshop.

Si on considère que ce qui est produit par la machine n’est pas susceptible de protection au titre du droit d’auteur, ce qui est souvent le cas, alors la réponse quant à la possibilité de s’approprier et utiliser ce qui est généré par cette dernière peut être traitée dans des conditions générales d’utilisation.

Il n’existe pour le moment aucune loi avancée et générale, ni aucun règlement mettant en place un régime spécifique dédié à l’intelligence artificielle. Un projet de Règlement sur l’intelligence artificielle est en cours de discussion (RIA)[12], mais il semblerait que les propositions envisagées soient déjà mises à l’épreuve par les derniers modèles d’intelligence artificielle de nouvelle génération tels que ChatGPT[13]. Les régulateurs doivent sans délai à nouveau s’emparer d’une révolution numérique dans tous ses aspects.

Anne-Marie Pecoraro

Avocate associée – Attorney at law, Partner

Spécialisée en propriété intellectuelle, droit des media, droit du numérique.

Specialized in intellectual property. Media and digital technology law.

[1]Google dévoile Bard, sa réponse à ChatGPT – Blog du modérateur

[2]CSPLA – Mission IA et Culture – Rapport final 27/01/20

[3]C. Caron, Droits d’auteur et droits voisins : LexisNexis 3è éd., 2013 n° 497

[4]CJUE, gde ch., 29 juill. 2019, aff. C-476/17, Pelham

[5]Tribunal de grande instance de Paris, 5 juillet 2000 n° 2000-130310

[6]L’arme anti-ChatGPT est là, voilà comment ça marche – Clubic

[7]A qui appartiennent les textes et les images générés par une intelligence artificielle ? – Le Monde

[8]CSPLA – Mission IA et Culture – Rapport final 27/01/20