Apple a récemment publié un document technique détaillant les modèles développés pour Apple Intelligence, une gamme de fonctionnalités d’IA générative prévue pour iOS, macOS et iPadOS.
Dans ce document, Apple répond aux critiques concernant l’éthique de ses méthodes d’entraînement, affirmant qu’elle n’a utilisé que des données publiques et sous licence.
Lire aussi :
- Quelles sont les conséquences de la suppression des applications VPN par Apple pour les utilisateurs russes ?
- Apple Watch : La nouvelle fonctionnalité de pause des anneaux d’activité d’Apple enfin disponible
Sources de données et confidentialité des utilisateurs
Apple assure que les données utilisées pour entraîner ses modèles proviennent de sources publiques et sous licence, et non de données privées des utilisateurs. Le jeu de données de pré-entraînement se compose de données sous licence d’éditeurs, de jeux de données disponibles publiquement ou en open-source, et d’informations accessibles collectées par notre web crawler, Applebot, explique le document. Cette approche vise à protéger la vie privée des utilisateurs d’Apple.
En juillet, des rapports avaient suggéré qu’Apple utilisait un ensemble de données contenant des sous-titres de vidéos YouTube pour entraîner ses modèles. Face à la controverse, Apple a clarifié que ces modèles ne seraient pas utilisés pour les fonctionnalités d’IA de ses produits.
Une approche éthique et responsable
Le document technique dévoile les Apple Foundation Models (AFM) et insiste sur le fait que les données de formation ont été obtenues de manière responsable. Cela inclut des données web accessibles publiquement et des données sous licence. Apple a également conclu des accords avec plusieurs éditeurs pour utiliser leurs archives de contenu, notamment avec NBC, Condé Nast et IAC.
Les modèles AFM ont été formés sur du code open-source provenant de GitHub, incluant des langages tels que Swift, Python et Java. Apple affirme avoir sélectionné uniquement des dépôts avec des licences permissives, comme celles de type MIT, ISC ou Apache.
Renforcement des compétences des modèles
Pour améliorer les compétences des modèles AFM, Apple a inclus dans son jeu de données des questions et réponses mathématiques provenant de diverses sources en ligne. L’entreprise a également utilisé des jeux de données publics de haute qualité, soigneusement filtrés pour exclure les informations sensibles. En tout, le jeu de données de formation des modèles AFM comprend environ 6,3 trillions de tokens.
Apple a aussi utilisé des retours humains et des données synthétiques pour affiner les modèles et réduire les comportements indésirables. Nos modèles sont conçus pour aider les utilisateurs dans leurs activités quotidiennes, en accord avec les valeurs fondamentales d’Apple et nos principes d’IA responsable, déclare l’entreprise.
En publiant ce document, Apple tente de se positionner comme un acteur éthique dans le domaine de l’IA, tout en évitant les problèmes juridiques potentiels. L’entreprise permet aux webmasters de bloquer son robot d’indexation pour protéger leurs données, tout en cherchant à innover. Les débats juridiques en cours détermineront l’avenir des modèles d’IA générative et de leurs méthodes de formation. Pour l’instant, Apple s’efforce de démontrer sa responsabilité et son engagement envers la protection de la vie privée et l’éthique.