« Explorer l’espace latent : métamorphoses et autres rêveries des programmes d’intelligence artificielle.
Enquête sur les modèles génératifs d’apprentissage et sur leur apport à la création et aux recherches en esthétique de l’image filmique. »
Cet article avait été rédigé dans le cadre de l’appel à projet pour la bourse de recherche post-doctorale « L’Esthétique au présent : puissances de l’image mouvante » sous la responsabilité de Jacques Aumont (Prix Balzan)
S’il y a bien des images qui se construisent au présent, et que l’on gagnerait à étudier dans les premières années de leur développement, ce sont celles produites par les programmes d’intelligence artificielle. Les Réseaux Antagonistes Génératifs, ou GANs pour l’acronyme anglais , inventés en 2014 par le chercheur américain Ian Goodfellow, ont bousculé ces toutes dernières années le paysage de l’image numérique contemporaine, et ouvrent un large faisceau de possibilités, pour beaucoup encore à découvrir, en matière de création d’image mouvante, que ce soit en art vidéo expérimental ou en technique du cinéma. Ces images produites par des algorithmes d’apprentissage non supervisés introduisent des changements importants par rapport aux méthodes de programmation classique en art génératif ; il ne s’agit plus de décrire en amont un certain nombre de règles qui vont définir une image, mais de laisser le réseau de neurones apprendre à découvrir de lui-même des règles à partir de l’analyse d’un ensemble d’exemples qui lui est donné. Ce simple fait, combiné à des notions techniques et mathématiques inhérentes au fonctionnement de ces GANs, comme celui d’espace latent, notion centrale dans le fonctionnement des systèmes d’apprentissage, offrent un riche vivier à la recherche en esthétique du film.
Les métamorphoses animées qu’ont produites les artistes avec les réseaux antagonistes génératifs (Robbie Barrat, Jake Elwes) constituent un échantillon d’étude efficace dans le sens où les exemples sont récents (à partir de 2017), encore limités en nombre, et nous semblent présenter un résumé substantiel de l’apport esthétique de ces images. D’un point de vue spéculatif, elles font écho à une tradition de pensée du devenir et de la fluidité (Bergson), de l’intensif (Lyotard) ou encore du rhizome et de “l’espace lisse” deleuzien, notions omniprésentes dans la culture de l’art numérique.
Enfin ces animations à l’allure de morphings surréalistes constituent un cas particulier d’images filmiques par la singularité de leur mise en mouvement : c’est la navigation vectorielle au coeur des coordonnées de l’espace latent, noeud algorithmique central, qui les fait exister et se mouvoir, et ce presque indéfiniment (puisqu’il existe une quasi-infinité d’images possibles) ; Pas de mise en séquence ni d’échantillonnage du mouvement ‒qui n’est plus qu’un résultat contingent et non la variable clé de l’équation‒ mais un cheminement dans un espace de projection multi-dimensionnel qui “cartographie” toutes les variantes possibles. Ces images
virtuelles (précisément, puisque seulement susceptibles d’apparaître, de se manifester provisoirement, au hasard de leur découverte) semblent constituer un paradigme précieux sur la question de “l’apparition”.
Les GANs génèrent des images à partir d’une banque de données qui leur est soumis, au terme d’un apprentissage qui les amène à en reproduire fidèlement les caractéristiques. Ils sont dits “antagonistes” car deux réseaux de neurones sont en fait mis en compétition : un générateur, qui a pour mission de générer des images les plus similaires possible à celles de la base de données (un “faux monnayeur”), et un discriminateur dont le rôle est de déterminer le degré “d’authenticité” de ces images par rapport à leurs modèles (un “expert”). Une fois la phase d’apprentissage terminée, quand l’un et l’autre des partis ont atteint un certain niveau d’équilibre dans leur compétence, le GAN est en mesure de générer des images qui sont quasiment indiscernables de ses modèles ; non pas des copies, mais des variantes tout à fait convaincantes. Un système de ce type, véritable bibliothèque de Babel, permet donc d’engendrer des déclinaisons quasi-infinies à partir d’un ensemble initial sélectionné. Si les applications possibles de ces techniques intéressent fortement le monde de la recherche et développement de l’industrie du cinéma, ils semblent, dans leur application plus expérimentale, pouvoir apporter beaucoup à la réflexion sur l’esthétique de l’image mouvante.
Nous proposons de prendre pour point de départ les premières expérimentations animées faites avec ces modèles génératifs, notamment par Robbie Barrat ou Jake Elwes, qui ont tous deux tiré un parti artistique des erreurs et des mauvaises interprétations de ces systèmes, introduisant, à des fins esthétiques, des disruptions dans l’exercice d’apprentissage, pour
produire ces métamorphoses fantasmagoriques et surréalistes. Malgré leur proximité visuelle avec ce que produit la technique du morphing, ces travaux sont en fait le résultat d’un processus créatif et technique sous-jacent foncièrement différent ; là où le morphing consiste en une transition par interpolation mathématique entre plusieurs images données, et donc par transformation progressives de formes au cours d’une séquence, ces métamorphoses animées sont le résultat de l’exploration des innombrables propositions “imaginées” par le réseau de neurones. Cette navigation vectorielle se fait au sein de l’espace de projection qu’on appelle espace latent, qui cartographie par zones les caractéristiques des images en fonction de leur similarité.
La notion d’espace latent, qui est au coeur du fonctionnement des algorithmes d’apprentissage, véhicule un riche paysage conceptuel qui fait écho à des théories fondamentales de la pensée esthétique du 2Oème. Cette cartographie incommensurable de coordonnées incarne une architecture très borgésienne, dans laquelle les images se découvrent au hasard d’une errance à tâtons, livrant par endroit des motifs reconnaissables et réalistes, ailleurs des bruits abstraits de pixels aléatoires, de même que la bibliothèque de Babel contenait nécessairement, étant donné la quasi infinité des possibilités, des livres vides. Cette boîte noire est un espace vierge de toute appréhension humaine directe, on n’en fait qu’une expérience détournée, par le biais de ce que le réseau nous en faire voir ; ce serait comme explorer un cerveau alien par une lorgnette, pour y déceler ce qu’il a compris de notre conscience, de notre culture, et des images qui la composent. Il y a fort à parier que Deleuze, comme Borgès, y aurait trouvé un paradigme de choix pour ses concepts de Rhizome et d’Espace lisse (Mille Plateaux).
De manière générale, c’est cette pensée de l’intensif et de la fluidité (citons aussi Lyotard, Des dispositifs pulsionnels) qui résonne encore dans ces métamorphoses générées, incarnant la possibilité d’une nouvelle ontologie humaine comme moteur de la révision du système classique de représentation : penser l’homme non comme un sujet unique, central, à l’identité stable et définie, mais comme une multiplicité corporelle et pulsionnelle ; concevoir la pensée, la matière et la vie non pas séparément, mais au contraire comme un ensemble continu d’intensités. Si ces idées ont très largement marqué l’art numérique dès ses débuts, elles trouvent ici, avec ces images dont on pourrait dire qu’elles sont hybrides par nature -puisqu’aucune d’entre elles ne correspond à un stade initial ou terminal d’une forme, mais quelles sont toutes des variantes possibles‒ un terrain d’expression tout à fait privilégié.
Ce sont des images ambivalentes, qui empruntent à la fois à l’expression filmique et plastique du point de vue du mouvement. Le mobile y fait force d’apparition, il saute aux yeux, depuis la plus petite échelle des artefacts et des volutes pixelisées qui en sont les marques si caractéristiques, jusqu’aux larges tensions de formes fluides et circonvolues qui s’y nouent, sans qu’il n’y ait d’échantillonnage du mouvement comme dans une prise de vue filmée, ou de mise en séquence de poses comme en animation. Stylistiquement, d’ailleurs, les figures que produisent les GANs ne sont pas sans rappeler les oeuvres de peintres comme Francis Bacon ou Dorothea
Tanning, dans lesquelles la distorsion est utilisée comme outil de manifestation de la présence sensible du corps et des tensions qui le traversent. Certes, ce travail sur la métamorphose est aussi présent en figuration classique ; il y a cette idée chez Rodin notamment, que le mouvement est représenté par la discordance spatio-temporelle des différentes parties de la figure, et qu’ainsi l’animation de la composition picturale passe par la synthèse figurative de différentes positions (L’art, entretiens réunis par Paul Gsell). Le caractère mobile de ces images générées se structure également autour d’une esthétique de «l’empiètement» (Merleau-Ponty, L’oeil et l’esprit), l’hétérogénéité se résolvant dans la continuité du cheminement vectoriel, organisant ainsi la cohésion des «incompossibles» par hybridation. Mais ici le mouvement s’efface au profit d’une mutation, et rappelle la formule de Deleuze à propos des figures de Bacon en “devenir-animal” (Logique de la sensation) ; dans ces images génératives on retrouve cette « zone d’indiscernabilité, d’indécidabilité », ce « fait commun » entre les hommes, les animaux, ou tout autre chose dont on voudra nourrir le système. Les peintures de nus générés par Robbie Barrat sont très parlantes à cet égard, et le parallèle avec les peintures de Bacon est frappant. Façonnées par un travail de manipulation du réseau, d’altération de sa capacité d’apprentissage, et de sélection des images, les figures se chiffonnent, les membres se désingularisent, jusqu’à donner des corps désossés, des Corps sans organes (Deleuze). C’est qu’il manque à l’algorithme une superstructure, une vision d’ensemble qui lui permette d’interpréter tel amas de pixel comme un organe humain, tel motif comme un détail morphologique. Les nombrils rejaillissent çà et là, un sein s’accroche à la base d’une tête comme une verrue, une main est engloutie dans le repli d’une ombre. Les visages de ces figures diamorphiques (Couchot) sont remplacés par des agrégats de chair méconnaissables à force de plissures et de froissements, et font état de la force de dissolution qui habitent ces images, ou plutôt de cette dynamique paradoxale de dissolution-apparition qui les caractérise et qui renvoie toujours au bruit initial, ce noise aléatoire par lequel commence l’apprentissage, dont elles ont émergé.
Alice Suret-Canale,
mai 2019