SUPIR – L’IA qui restaure vos photos comme jamais

Par : Korben

SUPIR (Scaling-UP Image Restoration) est une avancée majeure dans le domaine de la restauration d’images intelligente et réaliste. En s’appuyant sur des techniques multi-modales et des générateurs préentraînés avancés, SUPIR repousse les limites de ce qui est possible en termes de qualité et de contrôle de la restauration en combinant ce qui se fait de mieux en ce moment en IA.

Au cœur de SUPIR se trouve un modèle génératif que vous connaissez bien : StableDiffusion-XL (SDXL) et ses 2,6 milliards de paramètres. Pour l’appliquer efficacement à la restauration, les dev du projet ont du concevoir et entrainer un adaptateur de plus de 600 millions de paramètres.

Mais l’autre atout clé de SUPIR est son jeu de données d’entraînement titanesque, avec plus de 20 millions d’images haute résolution et haute qualité, chacune annotée avec une description textuelle détaillée. Cela permet à SUPIR de réaliser des restaurations guidées par des instructions en langage naturel, offrant un contrôle sans précédent sur le résultat final.

Je l’ai testé sur une image culte d’Internet : Les Horribles Cernettes. Pour ceux qui ne connaissent pas, il s’agit de la première photo qui a été envoyée via Internet à Tim Berners-Lee.

Voici l’image d’origine bien dégeu en terme de qualité :

Et voici ce que ça donne une fois passé dans SUPIR. Vous n’avez jamais vu cette photo avec cette qualité, j’en suis sûr !

Des prompts de « qualité négative » sont également utilisés pour améliorer encore la qualité perceptuelle. Et une méthode d’échantillonnage guidé par la restauration a été développée pour préserver la fidélité à l’image source, un défi courant avec les approches génératives.

Par contre, au niveau de certains détails comme les yeux, on n’y est pas encore mais je sais qu’il y a d’autres IA capable de gérer ça.

Grâce à cette combinaison unique de modèles, de données d’entraînement massives et de fonctionnalités plutôt avancées, SUPIR produit des restaurations d’une qualité exceptionnelle, en particulier sur des photos dégradées. Le tout avec la possibilité inédite de contrôler finement le résultat via des instructions en langage naturel.

Voici quelques exemples de cas d’utilisation :

Restaurer des paysages en faisant ressortir toute la beauté naturelle des photos
Obtenir des portraits ultra-détaillés et des expressions faciales quasi-parfaitement restituées
Redonner vie au charme des animaux dans des clichés anciens ou de faible qualité
Remastering de jeux vidéo pour une clarté et un niveau de détail époustouflants
Résurrection de films classiques pour revivre l’âge d’or du cinéma avec une netteté impeccable

Si vous ne me croyez pas, il y a plein d’exemples sur le site officiel du projet. Alors par contre, y’a pas de version en ligne officielle donc vous avez 2 possibilités pour jouer avec. Soit vous taper l’install à la main sur votre ordinateur, soit aller sur Replicate qui héberge une version en ligne avec laquelle vous pourrez améliorer vos images.

Pour en savoir plus sur SUPIR, rendez-vous sur le dépôt officiel du projet.

Korben
VLC dévoile les sombres dessous de la signature d’apps Android
27 mars 2024 à 09:21

VLC dévoile les sombres dessous de la signature d’apps Android

Par : Korben

Astuces VLC

La sécurité sur Android et plus particulièrement la signature des applications c’est loin d’être tout beau tout rose. Vous le savez peut-être, notre bon vieux VLC, a quelques soucis pour mettre à jour son app Android sur le Play Store ces derniers temps.

Alors pourquoi ce blocage ? Eh bien tout simplement parce que Google a décidé de rendre obligatoire l’utilisation des App Bundles pour toutes les applications proposant des fonctionnalités TV. Jusque-là, pas de problème me direz-vous. Sauf que ce nouveau format nécessite de fournir sa clé de signature privée à Google. Et ça, c’est juste im-po-ssible pour l’équipe de VLC !

Fournir sa clé privée à un tiers, c’est comme donner les clés de son appartement à son voisin. C’est la base de la sécurité : ce qui est privé doit le rester. Sinon autant laisser sa porte grande ouverte avec un panneau « Servez-vous » ! 😅

Depuis les débuts d’Android, chaque app doit être installée via un fichier APK. Ce fichier contient tout le nécessaire : le code, les ressources, les données… Et pour vérifier qu’un APK est authentique, il doit être signé avec une clé privée générée par le développeur. N’importe qui peut alors vérifier la clé publique utilisée pour signer le fichier.

L’avantage de ce système est de garantir l’intégrité de l’app. Si le développeur perd sa clé privée ou son mot de passe, impossible de publier des mises à jour car la nouvelle signature ne correspondra pas. Et s’il file sa clé à quelqu’un d’autre, cette personne pourra signer ses propres versions qui seront considérées comme légitimes. Vous voyez le problème maintenant ?

Avec les App Bundles, on passe à un système de double signature où une clé de téléchargement (upload key) permet au Play Store de vérifier que celui qui envoie le fichier est légitime. Jusque-là, ça va. Mais où clé de signature (release key), doit être détenue par Google ! Autrement dit, le Play Store signe l’app à la place du développeur. C’est donc cette clé privée que Google réclame aujourd’hui à VLC.

Google a bien tenté de mettre en place des mesures pour atténuer le problème, comme le dual release qui permet sur les appareils récents (Android 11+) d’installer une mise à jour signée différemment si une preuve de rotation de clé est fournie. Mais pour les apps comme VLC qui supportent aussi les vieux appareils et la TV, ça ne fonctionne pas.

Du coup, l’équipe de VLC se retrouve face à un choix cornélien :

Donner sa clé privée à Google et continuer à publier normalement. Bénéfice : aucun. Risque : Google a le contrôle total sur les mises à jour et la sécurité de l’app. Autant dire que pour eux c’est non.
Virer le support TV des APK publiés sur le Play Store. Avantage : pas besoin de donner sa clé privée pour les appareils récents. Inconvénient : plus de support TV pour les vieux appareils sous Android 10 et moins. Pas top.
Passer full App Bundles. Avantage : aucun. Inconvénient : ça rendrait l’app incompatible avec 30% des utilisateurs actuels. Même pas en rêve !

Bref, vous l’aurez compris, l’équipe de VLC est dans une impasse et c’est pour ça qu’aucune mise à jour n’a été publiée ces derniers mois sur le Play Store.

Et ce n’est pas qu’une question de principe. Le Play Store n’est pas le seul store sur Android. VLC est aussi disponible sur le site officiel, l’Amazon AppStore, le Huawei AppGallery… Donc donner sa clé à Google compromettrait toute la chaîne de publication.

Malheureusement, sans modification de la part de Google sur ces nouvelles exigences, il n’y a pas de solution miracle pour continuer à proposer le support TV sur les vieux appareils Android via le Play Store.

C’est rageant pour les développeurs qui se retrouvent pieds et poings liés, mais c’est aussi inquiétant pour nous utilisateurs. Quand le plus gros store d’apps au monde se met à réclamer les clés privées des développeurs, on peut légitimement se poser des questions sur sa conception de la sécurité et de la vie privée.

Espérons que Google entendra les critiques et fera machine arrière sur ce point. En attendant, la seule chose à faire est de soutenir les développeurs comme VLC qui résistent encore et toujours à l’envahisseur et continuent à privilégier la sécurité de leurs utilisateurs avant tout.

Si ça vous interesse, vous pouvez suivre toute l’affaire en détail sur cet article passionnant (si si, je vous jure) : VLC for Android updates on the Play Store

Korben
Danswer – Posez des questions à vos documents directement dans Slack et compagnie
27 mars 2024 à 09:00

Danswer – Posez des questions à vos documents directement dans Slack et compagnie

Par : Korben

Je pense qu’après tous les articles que j’ai écrit au sujet de l’IA, vous commencez à connaitre le concept de RAG (retrieval augmented generation), vous savez qu’il est possible de donner à bouffer à une IA, tout un tas de documents pour ensuite discuter avec celle-ci en utilisant le contenu comme base de connaissance.

Cela permet de poser des questions en langage naturel sur la documentation fournie. Y’a plein d’outils qui permettent de faire ça, et dernièrement, je vous ai présenté PDFToChat ou Reor qui font ça.

Et aujourd’hui, j’aimerais vous faire découvrir une solution open source de recherche unifiée nommée Danswer. Cet outil intègre plusieurs fonctionnalités essentielles, dont la recherche de documents et les réponses basées sur l’IA à partir des requêtes en langage naturel. Il se connecte également à tous les outils de travail courants, tels que Google Drive, Confluence, Github, Notion, Slack et bien d’autres. Il offre aussi une prise en charge de la discussion comme un ChatGPT qui aurait accès à vos ressources de connaissances privées. Vous pouvez même créer des assistants IA personnalisables avec différents prompts et jeux de données.

Cela permet de couvrir tout un tas de cas d’usages tels quel : accélération du support client et réduction des délais d’escalade, amélioration de l’efficacité de l’ingénierie grâce à une documentation et des historiques de code faciles à trouver, préparation des équipes de vente pour des appels plus efficaces, suivi des demandes et priorités des clients pour les équipes produit, et facilitation de la résolution autonome des problèmes liés aux services informatiques, à l’intégration et aux ressources humaines. #BurnoLeMaireLoveZeCapitalizme

Voici ce que ça donne une fois installé :

Vous pouvez même le connecter au modèle de langage LLM de votre choix (en local ou non) pour une solution entièrement cloisonnée. Il se déploie facilement avec une seule commande Docker Compose et peut être hébergé n’importe où. Vous pouvez également l’exécuter avec Kubernetes.

Pour l’installer rien de plus simple, il vous faut d’abord cloner le dépôt de Danswer :

git clone https://github.com/danswer-ai/danswer.git

ensuite, placez vous dans le dossier contenant le fichier de description du docker compose :

cd danswer/deployment/docker_compose

Puis y’a plus qu’à lancer le bousin :

docker compose -f docker-compose.dev.yml -p danswer-stack up -d --pull always --force-recreate

Ça peut prendre un quart d’heure, voire plus, selon votre connexion puisque Danswer a besoin de télécharger des modèles pour fonctionner.

Ensuite, y’a plus qu’à lancer un navigateur vers http://localhost:3000.

Ensuite pour apprendre à l’utiliser et le customiser, toute la documentation est là.

Merci à Lorenper

Korben
MM1 – L’IA multimodale d’Apple qui « pense » différemment
19 mars 2024 à 18:38

MM1 – L’IA multimodale d’Apple qui « pense » différemment

Par : Korben

Vous pensiez qu’Apple se contentait de suivre les autres géants de la tech en matière d’intelligence artificielle ? Détrompez-vous ! La firme de Cupertino vient de dévoiler les secrets de son nouveau modèle d’IA baptisé MM1, et croyez-moi, ça décoiffe grave !

Alors que Google mise sur son modèle Gemini pour booster les fonctionnalités IA d’iOS 18, Apple a décidé de tracer sa propre route avec MM1. L’idée de génie ? Utiliser un dataset diversifié qui mélange allègrement du texte et des images pour entraîner cette IA nouvelle génération.

Résultat, MM1 est capable de générer des légendes pour des images de manière hyper précises, de répondre à des questions posées sur des images et même d’inférer du langage naturel à partir d’indices linguistiques et visuels. Une vraie bête de compétition !

En combinant différentes méthodes d’entraînement issues d’autres IA avec ses propres techniques maison, Apple espère ainsi rattraper son retard sur des mastodontes comme Google ou OpenAI. Et vu le niveau de performances annoncé, y a de quoi être optimiste !

Alors comment ça fonctionne ?

Et bien si vous montrez une photo de votre chat à MM1, non seulement il sera capable de le reconnaître et de le décrire avec une précision redoutable, mais il pourra aussi répondre à des questions du genre « De quelle couleur est son collier ? » ou « A-t-il l’air joueur ou paresseux sur cette image ?« .

Dans l’exemple réel ci-dessous, on lui demande combien il devra payer pour les bières (photo 1) d’après le menu (photo 2). Et c’est le seul à répondre correctement, et précisemment.

Bluffant, non ?

Et ce n’est qu’un exemple parmi d’autres. Apple étant Apple, on peut s’attendre à ce que MM1 révolutionne notre façon d’interagir avec nos devices. Pourquoi pas imaginer une app qui génère automatiquement la description textulle d’une scène que vous auriez photographié ? Ou un mode « sous-titres » universel qui retranscrirait en temps réel tout ce que votre iPhone voit et entend ? Les possibilités sont infinies dès que l’IA est embarquée !

Bien sûr, tout cela n’est encore qu’à l’état de recherche pour le moment. Mais connaissant Apple, on peut parier que la firme mettra rapidement en application les promesses de MM1 dans ses futurs produits et services. iOS 19 propulsé par une IA multimodale surpuissante, ça envoie du rêve, je ne vous le cache pas.

Avec MM1, Apple prouve une fois de plus sa capacité à innover. Pendant que les autres géants de la Silicon Valley se contentent d’améliorer leurs modèles existants, la marque à la pomme préfère partir d’une feuille blanche pour inventer l’IA de demain. Comme dirait l’autre, « think different », ça a du bon ! 😎

Alors, vous en pensez quoi de ce MM1 ? Hâte de voir ce qu’Apple nous réserve pour la suite.

Perso, j’ai déjà hâte de discuter avec mon iPhone comme s’il était mon meilleur pote. Au moins, j’aurais un pote ^^.

Source

Korben
Comment récupérer des signatures sur un PDF ?
30 janvier 2024 à 09:00

Comment récupérer des signatures sur un PDF ?

Par : Korben

Même si étant sous macOS, c’est le genre de truc que je fais nativement avec l’application « Aperçu », tout le monde ne sait pas forcément signer, annoter ou écrire sur un document PDF. Je vois d’ailleurs encore beaucoup d’âmes perdues qui téléchargent illégalement Adobe Acrobat pour justement faire tout ça.

Mais plus besoin de vous prendre la tête. Grâce au service PDF de l’éditeur de logiciel 24eme, vous allez pouvoir signer un document, écrire dessus ce dont vous avez envie et le télécharger, ce qui vous évitera de l’imprimer pour faire tout ça à la main.

Et vous pouvez même le partager à d’autres personnes pour que chacun puisse apposer sa signature. Et vous au final, vous récupérerez le document signé par tout le monde. Gain de temps assuré même si c’est moins « propre » que de passer par un service comme Docusign ou Yousign.

En plus de ça, le site propose d’autres onglets qui vous permettront de fusionner, trier, pivoter, supprimer, extraire des pages, mais également ajouter, modifier ou supprimer les métadonnées d’un PDF. Et si votre PDF est trop gros pour être envoyé par mail, vous pourrez même réduire sa taille.

Tout ça gratuitement !

Il est évidemment naturel de se soucier de la sécurité des documents lorsqu’il s’agit de les partager en ligne, surtout si ces documents contiennent des informations sensibles. 24eme stocke tous ces documents sur un serveur sécurisé et en limitant l’accès au document aux personnes disposant du lien unique. Mais si vous voulez l’autohéberger pour plus de maitrise des données, ce n’est pas un souci non plus puisque les sources se trouvent ici.

Korben
Interagir avec PostgreSQL en langage naturel grâce à l’IA
14 décembre 2023 à 09:00

Interagir avec PostgreSQL en langage naturel grâce à l’IA

Par : Korben

On fait quand même de belles choses avec l’IA. J’en veux pour preuve ce projet open source encore au stade expérimental qui utilise un système d’IA multi agents vous permettant de poster des questions à une base PostgreSQL en langage naturel.

Propulsé par OpenAI, AutoGen, Postgres, Guidance, Aider, Poetry et Python, c’est l’un des premiers de son genre capable d’utiliser des LLMs (Large Language Modèles) pour faire de la prise de décision avec des consignes réduites ou peu explicites.

Pour vous former à cet outil nommé pompeusement « Multi-Agent Postgres Data Analytics« , son créateur a réalisé une série de vidéos que voici (c’est une playlist)…

Vous pourrez ensuite vous positionner sur une branche du projet qui correspond à une vidéo.

Pour ce faire, clonez le dépôt :

git clone https://github.com/disler/multi-agent-postgres-data-analytics.git

Puis lancez

git branch -a

pour voir toutes les branches correspondant chacune à une vidéo de la playlist.

Faites alors un :

git checkout <nom de la branche>

pour vous positionner sur la branche de votre choix.

Puis lancez la commande :

poetry install
cp .env.sample .env

Editez le fichier .env en y mettant l’URL de Postgres et votre clé OpenAI

Vous pourrez alors lancer un prompt sur votre base de données comme ceci :

poetry run start --prompt "<posez la question de votre choix à l'agent IA>"

Commencez par des questions simples pour prendre la température, puis montez progressivement en complexité.

Il s’agit là de construire des systèmes qui prennent des décisions comme nous le ferions, mais évidemment, tout n’est pas rose au royaume des systèmes multi-agents IA. C’est un art de bien définir les rôles et la fonction de vos agents et ça peut vite coûter cher, surtout en phase de test… donc allez y molo mais vous ne serez pas déçu.

Korben
Une clôture électrique anti-escargots et limaces DIY
28 septembre 2022 à 09:00

Une clôture électrique anti-escargots et limaces DIY

Par : Korben

Voici un bricolage facile à mettre en place qui vous permettra de protéger vos plantations des escargots et autres limaces. L’idée est simple puisqu’il s’agit d’une clôture électrique en scotch cuivré (trouvable ici sur Amazon) qui grâce à une pile 9V permet de distribuer des petites châtaignes aux affamés.

Vous pouvez ranger le beurre à l’ail car cela ne tue pas les animaux mais protégera vos tomates, salades et compagnie. Dans la vidéo, vous verrez comment faire sur une jardinière. Par contre pour l’astuce en pleine terre avec un couvercle en plastique, je ne pense pas que ce soit l’idéal car le plastique peut blesser la plante qui va grossir. A mon avis, on peut faire autrement, mais c’est à réfléchir. Vous aurez peut-être des idées.

A garder dans un coin de votre tête pour l’année prochaine.

Merci à Laurent pour le partage.