Sciences dessus dessous

Archive de la catégorie ‘Mathématiques’

Mardi 12 août 2014 | Mise en ligne à 16h20 | Commenter Commentaires (21)

Une première femme remporte le «Nobel des maths»

Ça fait un peu drôle de dire ça en 2014, mais mieux vaut tard que jamais : une mathématicienne d’origine iranienne de l’Université Stanford, Maryam Mirzakhani, est devenue aujourd’hui la première femme à remporter la plus prestigieuse distinction en mathématiques, la médaille Fields. L’Union mathématique internationale vient d’en faire l’annonce lors d’un congrès en Corée du Sud.

Souvent présentées comme les «Nobel des maths», les médailles Fields sont décernées à tous les 4 ans à un maximum de 4 mathématiciens à la fois (qui doivent avoir moins de 40 ans à ce moment). Il y a eu 52 (et maintenant 56) médaillés Fields depuis les débuts de ce prix, en 1936.

Mme Marzakhani s’est mérité la médaille grâce à ses travaux en géométrie, notamment sur les «espaces modulaires» — soit des sortes d’«univers multiples» où «chaque point d’un univers est un univers en soi», explique ici le New Scientist. Bien franchement, et c’est un brin frustrant, je n’ai trouvé aucun texte qui explique les avancées de Mme Marzakhani de façon claire pour des non-mathématiciens. Les explications du site de l’Union mathématique internationale sont, mettons, un peu corsée, et celles de Nature restent trop superficielles pour faire comprendre grand-chose à M. et Mme Tout-le-Monde.

Enfin, ce n’est pas un sujet facile à vulgariser…

Il semble toutefois clair qu’à partir de ses travaux en géométrie, la mathématicienne de Stanford est parvenue à faire des liens insoupçonnés avec plusieurs autres branches des mathématiques, et qu’il lui a fallu pour cela démontrer une compréhension poussée de ces branches — une rareté dans un monde où la tendance est nettement à l’hyperspécialisation.

Les autres récipiendaires de la médaille Fields 2014 sont : Arthur Avila, de l’Institut mathématique de Jussieu, à Paris (travaille sur les systèmes dynamiques) ; Manjul Bhargava, de l’Université Princeton («géométrie des nombres») ; et Martin Hairer, de l’Université de Warwick (qui travaille, si j’ai bien compris, sur un mélange entre le calcul différentiel et les probabilités).

Lire les commentaires (21)  |  Commenter cet article






On est encore très loin du célèbre Al, l'ordinateur de bord dans «2001, odyssée de l'espace».

On est encore très loin du célèbre HAL, l'ordinateur de bord dans «2001, odyssée de l'espace».

Un duo d’informaticiens d’Europe de l’Est a mis le petit monde de l’intelligence artificielle en émoi, ce week-end, quand il a été annoncé (par l’Université de Reading, au Royaume Uni) qu’ils avaient mis au point un programme capable de passer le «test de Turing», une sorte d’épreuve quasi mythique qui consiste à rendre un ordinateur suffisamment apte à la conversation pour que des humains croient qu’ils ont affaire à une personne en chair et en os.

Le communiqué de presse parle de «jalon dans l’histoire de l’informatique» et de «signal d’alarme pour la cybercriminalité». Mais pas mal de gens se montrent sceptiques…

Imaginé dans les années 50 par le célèbre mathématicien anglais Alan Turing (souvent décrit comme le «père de l’informatique»), le test de Turing consiste à faire «discuter» des humains avec un ordinateur pendant 5 minutes par écrit et à berner au moins 30 % d’entre eux. Dans ce cas-ci, les programmeurs Vladimir Veselov et Eugene Demchenko ont créé un personnage virtuel nommé Eugène, un faux garçon de 13 ans vivant en Ukraine. Samedi, la Société royale a fait clavarder 30 juges avec cet Eugène fictif et avec un humain véritable pendant 5 minutes. Le test a été répété cinq fois par juge, et à chaque fois le juge devait dire lequel de ses deux interlocuteurs était un Homo sapiens.

Eugène ayant trompé les juges 33 % du temps, les arbitres indépendants (puisqu’il y en avait) ont conclu que le test de Turing avait été passé avec succès pour la première fois de l’histoire.

D’aucuns, depuis, font valoir que le fameux test aurait déjà été réussi en 1991 et en 2011. Le communiqué de Reading reconnaît que d’autres essais ont été tenté et auraient surpassé la barre des 30 %, mais on comprend du texte que les «conversations» virtuelles d’alors étaient beaucoup plus encadrées, moins libres que celles qu’Eugène a eues samedi dernier. J’ignore si c’est le cas, mais cela pourrait effectivement être un point très pertinent — si la conversation implique des choix de réponses, par exemple, il devient beaucoup plus facile d’imiter un humain.

Mais quoi qu’il en soit, il me semble qu’il y a quelques détails dans cette histoire qui amoindrissent pas mal la portée de cet accomplissement (qui demeure grand, on s’entend) :

– Il y a deux ans, ce même Eugène avait passé exactement le même test, mais avait alors échoué. Oh, de très peu, il faut le dire, à 29 %. Mais il me semble que si l’on peut tenter, retenter et re-retenter sa chance, alors le fait de réussir grâce à ce qui est manifestement une fluctuation aléatoire d’un test à l’autre n’est pas particulièrement glorieux.

– Plus fondamentalement, renotent le mathématicien français Jean-Paul Delahaye et le New Scientist, l’invention d’un personnage ukrainien de 13 ans qui doit s’exprimer dans une langue qui n’est pas la sienne, l’anglais, tient de l’entourloupe. Les juges, sachant qu’ils ont affaire à un tel «interlocuteur», peuvent en effet avoir été moins alertes à des fautes de langage ou des répliques un peu bizarres qui leur auraient autrement mis la puce (pardon pour le jeu de mot) à l’oreille.

– Les deux mêmes sources soulignent qu’il ne s’agit pas d’un test d’intelligence, contrairement à ce que l’on entend parfois. À l’origine, Turing voulait répondre à la question de savoir si un ordinateur peut «penser» (d’où, peut-être, le statut prestigieux du test) ; mais comme la notion de pensée est difficile à définir, il a opté pour un test de conversation. Il s’agit donc plus d’une épreuve d’imitation que d’intelligence.

– On me corrigera si je me trompe, mais il m’apparaît par ailleurs que ces critiques, si doctes et fondées soient-elles, manquent un autre aspect un peu «mou» du test de Turing : les changements culturels. Est-ce que les juges de 1991 avaient les mêmes critères que ceux d’aujourd’hui ? Je ne dis pas qu’ils étaient meilleurs ou pires pour «flairer» le virtuel, mais quand on voit l’omniprésence de l’informatique dans nos vies aujourd’hui, présence qui n’a absolument rien à voir avec la situation qui prévalait il y a 20 ans, la question se pose. Quand on constate les progrès énormes qu’a fait l’intelligence artificielle dans les jeux vidéos ces dernières années, la question se pose encore plus, il me semble. Qu’en dites-vous ?

AJOUT (11h45) : Voir aussi ce billet sur le blogue de M. Delahaye. Il y explique notamment l’origine purement anecdotique du cap des 30 % — et pourquoi le seuil fixé par Alan Turing était plutôt de 50 %.

Lire les commentaires (41)  |  Commenter cet article






Les statistiques sont probablement l’outil mathématique le plus utilisé en sciences, mais on s’en sert d’une manière un peu (beaucoup) trop libérale, suggère un papier paru hier dans les Proceedings of the National Academy of Sciences — ce qui donnerait bien des résultats faussement positifs et ferait donc perdre pas mal de temps et d’argent à pas mal de monde…

Quand un savant veut tester une hypothèse à l’aide des stats, il peut s’y prendre grosso modo de deux grandes manières. La première façon, la «classique», est en quelque sorte un proche parent de la «marge d’erreur» des sondages, soit le célèbre «plus ou moins 3 % 19 fois sur 20» (pour un échantillon aléatoire d’environ 1000 personnes). Les stats étant l’art de mesurer la hasard mais pas de l’annuler, cette marge d’erreur signifie que la vraie proportion (de gens qui ont l’intention de voter pour X ou Y, par exemple) doit se situer à l’intérieur de 3 points de pourcentage de ce que dit l’échantillon, ce qui laisse 1 chance sur 20 de sortir de la marge. Et les chercheurs se servent de tests statistiques dérivés de ce principe pour déterminer si deux groupes sont différents ou non — par exemple, si les patients qui ont reçu tel médicament survivent plus longtemps que ceux qui ont reçu un placebo. Le résultat de ces tests est généralement nommé valeur p et doit par convention être inférieur à 0,05 (soit 1 sur 20) pour que l’on considère une différence comme «statistiquement significative», ce qui veut dire que l’écart observé dans l’échantillon a au maximum 1 chance sur 20 d’être du au hasard et non à une différence réelle.

L’autre grande avenue, dite bayesienne (du nom de son inventeur, le mathématicien anglais du XVIIIe siècle Thomas Bayes) est moins connue mais semble de plus en plus utilisée, si je me fie au petit peu que j’en sais. Contrairement à l’approche classique, elle ne mesure pas les chances pour qu’un résultat soit dû au hasard, mais évalue les chances qu’a une hypothèse d’être vraie au regard des données examinées, explique ce compte-rendu de Nature ; ses résultats s’expriment en ratio, comme 2 pour 1 ou 4 pour 1 (notés 2:1 et 4:1), ce qui indique respectivement 2 chances sur 3 et 4 chances sur 5 d’être valide.

À cause de leurs points de départ différents, ces deux grandes approches n’avaient jamais pu être comparées directement, mais c’est ce que le statisticien de Texas A&M Valen Johnson estime être parvenu à faire dans les PNAS. Avec une conclusion un brin effrayante : en statistique bayesienne, une valeur p de 0,05 tombe entre 3:1 et 5:1. C’est donc que beaucoup de disciplines (psycho, sciences sociales, médecine, etc.) considèrent comme «statistiquement significatifs» des résultats qui, jaugés à l’échelle de Bayes, auraient entre 17 et 25 % d’être faux.

Si le raisonnement de M. Johnson et ses calculs sont exacts, cela veut dire que la «marge d’erreur» que les chercheurs utilisent généralement est rien de moins que gi-gan-tes-que. Et de là, déduit Nature, il n’est pas étonnant que l’on ait trop souvent de la misère à reproduire des résultats de recherche.

Je ne me mêlerai pas de la querelle d’école opposant les stats classiques et les bayesiennes, mais cela mérite certainement réflexion. Sans nécessairement copier les seuils de signifiance statistique triplement bétonnés de la physique (où p doit être inférieur à 0,000 001), il y aurait sans doute lieu d’abaisser le seuil de 0,05 couramment employé — et qui ne l’est que par convention, rappelons-le. M. Johnson suggère 0,005… Qu’en dites-vous ?

Lire les commentaires (34)  |  Commenter cet article






publicité

  • Catégories



  • publicité





  • Calendrier

    octobre 2014
    D L Ma Me J V S
    « sept    
     1234
    567891011
    12131415161718
    19202122232425
    262728293031  
  • Archives

  • publicité