Lateo.net - Flux RSS en pagaille (pour en ajouter : @ moi)

🔒
❌ À propos de FreshRSS
Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.
À partir d’avant-hierKorben

VASA-1 – Des visages parlants ultra-réalistes et en temps réel

Par : Korben

VASA-1 est un nouveau framework qui permet de générer des visages parlants ultra-réalistes en temps réel ! En gros, vous balancez une simple photo à cette IA, ainsi qu’un petit clip audio, et bim ! Elle vous pond une vidéo d’un visage qui parle, avec une synchronisation de la bouche nickel chrome, des expressions faciales hyper naturelles et des mouvements de tête très fluides. C’est hyper bluffant !

Les chercheurs de Microsoft ont réussi ce tour de force en combinant plusieurs techniques de pointe en deep learning. Ils ont d’abord créé un espace latent expressif et bien organisé pour représenter les visages humains. Ça permet de générer de nouveaux visages variés, qui restent cohérents avec les données existantes. Ensuite, ils ont entraîné un modèle de génération de dynamiques faciales et de mouvements de tête, appelé le Diffusion Transformer, pour générer les mouvements à partir de l’audio et d’autres signaux de contrôle.

Et le résultat est juste époustouflant. On a l’impression de voir de vraies personnes qui parlent, avec toutes les nuances et les subtilités des expressions faciales. Les lèvres bougent parfaitement en rythme avec les paroles, les yeux clignent et regardent naturellement, les sourcils se lèvent et se froncent…

En plus de ça, VASA-1 peut générer des vidéos en haute résolution (512×512) à une cadence élevée, jusqu’à 40 images par seconde, avec une latence de démarrage négligeable. Autant dire que c’est le graal pour toutes les applications qui nécessitent des avatars parlants réalistes. On peut imaginer des assistants virtuels avec lesquels on pourrait interagir de manière super naturelle, des personnages de jeux vidéo encore plus crédibles et attachants, des outils pédagogiques révolutionnaires pour apprendre les langues ou d’autres matières, des thérapies innovantes utilisant des avatars pour aider les patients… etc etc..

En plus de pouvoir contrôler la direction du regard, la distance de la tête et même les émotions du visage généré, VASA-1 est capable de gérer des entrées qui sortent complètement de son domaine d’entraînement comme des photos artistiques, du chant, d’autres langues…etc.

Bon, évidemment, il reste encore quelques limitations. Par exemple, le modèle ne gère que le haut du corps et ne prend pas en compte les éléments non rigides comme les cheveux ou les vêtements. De plus, même si les visages générés semblent très réalistes, ils ne peuvent pas encore imiter parfaitement l’apparence et les mouvements d’une vraie personne mais les chercheurs comptent bien continuer à l’améliorer pour qu’il soit encore plus versatile et expressif.

En attendant, je vous invite à checker leur page de démo pour voir cette merveille en action. C’est juste hallucinant ! Par contre, vu les problèmes éthiques que ça pourrait poser du style usurpation d’identité, fake news et compagnie, et connaissans Microsoft, je pense que VASA-1 ne sera pas testable par tous bientôt malheureusement. Mais je peux me tromper…

Magika, le détecteur de fichiers ultra-rapide de Google

Par : Korben

La dernière nouveauté dans le domaine de l’IA c’est la détection des types de fichiers. Hé ouais ! Google a récemment ouvert les sources de Magika, un système d’identification de types de fichiers basé sur l’IA, qui a pour but de nous aider (enfin, nos outils) à détecter avec précision les types de fichiers binaires et textuels.

Depuis longtemps maintenant, les systèmes Linux sont équipés de libmagic et de l’utilitaire file, qui ont servi de norme de facto pour l’identification des types de fichiers, et ce pendant plus de 50 ans !!

Les navigateurs web, les éditeurs de code et d’innombrables autres logiciels s’appuient sur la détection des types de fichiers pour décider comment afficher correctement un fichier. Par exemple, les IDE modernes utilisent la détection des types de fichiers pour choisir le schéma de coloration syntaxique à utiliser lorsque le développeur commence à taper dans un nouveau fichier.

La détection précise des types de fichiers est un problème difficile, car chaque format de fichier a une structure différente, ou pas de structure du tout. Et c’est encore plus dur pour les formats textuels et les langages de programmation, car ils ont des constructions très similaires. Jusqu’à présent, libmagic et la plupart des autres logiciels d’identification des types de fichiers s’appuyaient sur une collection plutôt artisanale (hmm hmm) d’heuristiques et de règles personnalisées pour détecter chaque format de fichier.

Cette approche manuelle étant à la fois longue et sujette aux erreurs, ce n’est pas forcément l’idéal notamment pour les applications de sécurité où la création d’une détection fiable est particulièrement difficile, car les attaquants tentent constamment de tromper la détection avec des payloads maison 🙂

Pour résoudre ce problème et fournir une détection rapide et précise des types de fichiers, Google a donc développé Magika, un nouveau détecteur de types de fichiers basé sur l’IA.

Sous le capot, Magika utilise un modèle de deep learning personnalisé et hautement optimisé conçu et formé à l’aide de Keras qui ne pèse environ que 1 Mo. Magika utilise aussi Onnx comme moteur d’inférence pour garantir que les fichiers soient identifiés en quelques millisecondes, presque aussi rapidement qu’un outil non basé sur l’IA, même sur un CPU.

En termes de performances, Magika, grâce à son modèle d’IA et son grand ensemble de données d’apprentissage, est capable de surpasser d’autres outils existants d’environ 20 % lorsqu’il est évalué sur un benchmark de 1 million de fichiers englobant plus de 100 types de fichiers. En décomposant par type de fichier, comme indiqué dans le tableau ci-dessous, on observe des gains de performance encore plus importants sur les fichiers textuels, notamment les fichiers de code et les fichiers de configuration avec lesquels d’autres outils peuvent avoir des difficultés.

Magika est utilisé en interne chez Google à grande échelle pour aider à améliorer la sécurité des utilisateurs de leurs services notamment pour l’acheminement des fichiers au sein de Gmail, Drive ou encore Safe Browsing vers des scanners de sécurité et des filtres de contenu.

En examinant une moyenne hebdomadaire de centaines de milliards de fichiers, Google a constaté que Magika améliorait la précision de l’identification des types de fichiers de 50 % par rapport à leur système précédent basé sur de simples règles. Cette augmentation de la précision leur a permis d’analyser 11 % de fichiers en plus avec leurs scanners de documents malveillants spécialisés en IA et ils ont ainsi pu réduire le nombre de fichiers non identifiés à 3 %.

La prochaine intégration de Magika se fera dans VirusTotal et viendra ainsi compléter la fonctionnalité Code Insight existante de la plateforme, qui utilise l’IA générative de Google pour analyser et détecter les codes malveillants. Magika agira alors comme un pré-filtre avant que les fichiers ne soient analysés par Code Insight, améliorant ainsi l’efficacité et la précision de la plateforme. Cette intégration, en raison de la nature collaborative de VirusTotal, contribue directement à l’écosystème cyber, et ça c’est plutôt une bonne nouvelle pour tout le monde.

En ouvrant les sources de Magika, l’objectif de Google est d’aider d’autres éditeurs de logiciels à améliorer leur précision d’identification des fichiers et d’offrir aux chercheurs une méthode fiable pour identifier les types de fichiers à très grande échelle. Le code et le modèle de Magika sont disponibles gratuitement sur Github sous la licence Apache2.

Si vous êtes intéressé, vous pouvez essayer la démo web de Magika.

Magika peut également être rapidement installé en tant qu’utilitaire autonome et bibliothèque python via le gestionnaire de paquets pypi en tapant simplement :

pip install magika

Et pas besoin de GPU !

Pour en savoir plus sur la façon de l’utiliser, je vous invite à vous rendre sur la documentation de Magika.

Merci à Letsar pour l’info !

Nuclear – Un player musical multi-source

Par : Korben

À cause de la guerre en Ukraine, de Bruno Le Maire et de l’inflation galopante, tout le monde, n’a malheureusement, pas les moyens de s’offrir un abonnement Spotify à 10,99 euros par mois. Mais plutôt que de se galérer avec des moyens illégaux pour télécharger de la musique, je vous propose de tester Nuclear.

Ce player au design proche de Spotify et similaire à mps-youtube vous permet de chercher des morceaux sur différentes sources telles que Bandcamp, Soundcloud, Youtube, de voir les pochettes des albums, d’écouter la musique, de faire des playlists et même de la télécharger dans certains cas (quand c’est sur Youtube surtout).

Nuclear est dispo pour Linux, macOS et Windows, et propose également d’avoir les paroles des chansons, un égalisateur pour régler le son, et même un visualiseur pour se faire un petit moment psychédélique.

Bref, c’est le feu parce qu’on y trouve tous les artistes, les albums, des plus connus aux plus obscurs. Nuclear propose également des playlists du moment (comme sur Spotify), des artistes similaires et même un mode « folie » pour se laisser surprendre par les musiques.

Vous pouvez le télécharger ici.

Merci Letsar !

(Article posté initialement le 22/03/2017 – Mis à jour le 27/11/2023)

Polymath – Un outil révolutionnaire pour transformer votre bibliothèque de samples en fichiers MIDI

Par : Korben

Aujourd’hui, j’ai quelque chose de super intéressant à vous présenter !!

J’ai découvert cet outil incroyable baptisé Polymath qui utilise du deep learning pour transformer n’importe quelle bibliothèque musicale en une bibliothèque de samples destinée à votre production musicale.

Imaginez, vous avez une tonne de sons que vous avez récupérés à gauche ou à droite, à partir de vidéos YouTube par exemple, histoire un jour de pouvoir vous inspirer de tel ou tel petit bout. Et bien avec Polymath, il n’est plus nécessaire de fouiller dans tout ça et surtout extraire ce qui vous intéresse au format MIDI.

Polymath le fait pour nous en utilisant plusieurs réseaux neuronaux tels que Demucs, sf_segmenter, Crepe, Basic Pitch, pyrubberband et librosa. Il sépare automatiquement les morceaux en pistes (rythmes, basses, etc.), les quantifie au même tempo et grille rythmique, analyse la structure musicale, la tonalité, et d’autres informations (timbre, volume, etc.), et convertit l’audio en MIDI.

Mais avant de vous lancer tête baissée, voici comment installer et utiliser Polymath. Vous devez d’abord vous assurer d’avoir ffmpeg et python installés sur votre système.

Vous pouvez ensuite cloner le dépôt Polymath en utilisant cette commande :

git clone https://github.com/samim23/polymath

Une fois cela fait, installez les dépendances nécessaires avec la commande

cd polymath
pip install -r requirements.txt

Si vous rencontrez un problème avec basic-pitch, essayez d’exécuter cette commande :

pip install git+https://github.com/spotify/basic-pitch.git

La plupart des bibliothèques utilisées par Polymath sont compatibles avec les GPU via CUDA, alors consultez ce guide pour configurer TensorFlow avec CUDA si vous voulez.

Ensuite, pour ajouter des chansons à votre bibliothèque Polymath, utilisez simplement les commandes suivantes pour les vidéos YouTube ou les fichiers audio locaux :

python polymath.py -a n6DAqMFe97E

python polymath.py -a /path/to/audiolib/song.wav

Notez que les chansons seront automatiquement analysées une première fois, ce qui peut prendre un certain temps. Mais une fois que les chansons seront dans la base de données, vous pourrez y accéder rapidement.

Vous pourrez ensuite rechercher et quantifier des chansons similaires à un tempo spécifique, et même convertir les fichiers audio traités en MIDI (notez que pour le moment, il y a certaines limitations concernant les percussions). Je vous invite fortement à lire la documentation dispo sur Github pour apprendre à utiliser l’outil. Et y’a même la possibilité de faire tourner ce truc dans Docker. C’est fou !!

Ce qui est génial, c’est que vous pouvez ajuster divers paramètres dans Polymath pour adapter l’outil à vos besoins spécifiques. Que vous soyez un producteur de musique débutant, DJ expérimenté ou développeur spécialisé dans le machine learning audio, vous pourrez personnaliser chaque réglage afin d’extraire parfaitement les sons que vous recherchez.

C’est comme si on avait un assistant virtuel dédié à la création d’échantillons personnalisés à partir d’une bibliothèque musicale. C’est un gain de temps de dingue. Ça va sans aucun doute transformer notre façon de travailler avec la musique.

❌