OWNI http://owni.fr News, Augmented Tue, 17 Sep 2013 12:04:49 +0000 http://wordpress.org/?v=2.9.2 fr hourly 1 DataLift: un catalyseur pour le web de données http://owni.fr/2010/07/07/datalift-un-catalyseur-pour-le-web-de-donnees/ http://owni.fr/2010/07/07/datalift-un-catalyseur-pour-le-web-de-donnees/#comments Wed, 07 Jul 2010 16:22:31 +0000 Nicolas Cynober http://owni.fr/?p=21452 Malgré mon optimisme naturel, la polémique monte sur la capacité de l’APIE à développer l’accès aux données gouvernementales en tant que service public. Robin Berjon a récemment mis en garde contre un modèle cherchant à en monétiser l’accès. Cela rajouterait en effet une barrière considérable à l’innovation nécessaire dans l’exploitation de ces données. Dans ce contexte, il est intéressant de noter le développement de projets parallèles sur le territoire français. Je pense au déjà connu Regards Citoyens, à Data Publica, dont je parlerai bientôt plus en détail, et également au tout jeune projet DataLift, dont François Scharffe a accepté de nous parler.

Nicolas Cynober : Salut François, est-ce que tu peux nous présenter DataLift en quelques mots ainsi que ton rôle dans le projet ?

François Scharffe : DataLift est un projet visant à créer une plateforme permettant à des éditeurs de données de publier leurs données sur le web de données. Le projet est découpé en tâches correspondant à des problèmes à résoudre le long de la chaîne de publication. Il faut tout d’abord sélectionner les ontologies qui permettront de décrire les données brutes. Ensuite il faut convertir les données dans le format du web sémantique, RDF. Puis il faut publier ces données selon les principes du web de données, ce qui suppose en parallèle d’interconnecter ces données avec d’autres jeux de données existants.

La plateforme d’outils qui sera construite au sein du projet a un caractère expérimental. C’est-à-dire que d’une part il y a dans DataLift une composante de recherche : nous allons développer de nouvelles techniques permettant d’automatiser le processus de publication. D’autre part nous allons expérimenter ces techniques pour effectivement publier des jeux de données. Le projet vient d’être retenu par l’ANR au sein de l’appel CONTINT et commencera en octobre. Je suis le coordinateur scientifique du projet.

Que signifie “interconnecter les données”, à quoi cela sert-il ?

Lorsque l’on publie un jeu de données, un principe du web de données est qu’il faut interconnecter ce jeu de données à d’autres jeux existant. Cela revient à identifier les ressources déjà publiées sur le web de données qui correspondent à des ressources dans le jeu de données à publier. Par exemple si l’IGN publie un jeu de données sur les localités en France, il sera utile d’indiquer les équivalences entre ces localités et les ressources leur correspondant dans DBPedia.

Interconnecter les jeux de données est une étape cruciale.

C’est une tâche ardue, mais sans laquelle il n’y aurait pas de web de données. Ce serait un peu comme avoir le web sans liens entre les pages.

Peux tu nous parler un peu plus de vos fournisseurs de données, qu’attends-tu de l’APIE ?

Nous commençons le projet avec deux importants partenaires fournisseurs de données : l’IGN et l’INSEE. Ce seront donc les premiers à bénéficier des services de la plateforme. À coté de cela nous avons contacté un certain nombre d’institutions, associations et entreprises qui souhaitent rejoindre le projet et expérimenter la plateforme DataLift. Parmi eux je peux citer l’association Regards citoyens, le projet Data Publica, la DILA, la Fédération des parcs régionaux de France. La plateforme est ouverte et j’invite les lecteurs à me contacter s’ils sont intéressés pour nous rejoindre.

Nous sommes aussi en contact avec l’APIE qui souhaite développer un portail de données gouvernementales. L’APIE effectue un travail de sensibilisation auprès des ministères pour obtenir l’ouverture de leurs données. Les données que l’APIE pourra rassembler pourront être enrichies par la plateforme DataLift. La discussion reste aujourd’hui ouverte sur la manière dont l’APIE construira son portail.

Comment va se passer l’interconnexion de données ayant des licences très hétérogènes ?

C’est une très bonne question. Au sein de DataLift, l’équipe Edelweiss de l’INRIA va étendre les langages de représentation et les mécanismes d’interrogation des données afin de prendre en compte les licences et les informations de provenance attachées aux données. Des techniques vont donc être développées afin que rien n’empêche un fournisseur de données ayant un modèle de revenus basé sur une consultation payante de publier ses données, mais aussi d’attacher des information de qualité et de confiance aux données publiées afin que les consommateurs de données s’y retrouvent.

DataLift est un projet de recherche, des points communs avec le projet du Tetherless World ?

Oui plusieurs. Tout d’abord nous sommes issus de la même communauté de recherche autour du web sémantique et croisons régulièrement Jim Hendler lors de la conférence internationale ISWC. Cela dit, les Américains ont la chance de pouvoir s’appuyer sur un catalogue de données gouvernementales déjà constitué. Nous devons directement contacter les institutions en attendant l’émergence d’un éventuel données.gouv.fr. Je pense que nous allons aussi plus loin en proposant une plateforme permettant à chaque fournisseur de données de publier ses données sur un serveur interne de façon décentralisée. Nous allons travailler afin que la plateforme devienne une référence mondiale en matière d’outils de publication de données.

À ton avis, quand pourrons-nous voir les premiers mashup basés sur les données de DataLift ?

Les premiers jeux de données publiés sont prévus à six mois et la première version de la plateforme est prévue à un an du début du projet. À coté du développement technique sur la plateforme, nous sommes content d’avoir à bord la FING avec laquelle nous allons constituer une communauté de développeurs autour des données de la plateforme. Plusieurs évènements sont prévus mais je préfère garder le suspense de ce côté-là. À coté de cela, la société Atos Origin va travailler à une interface de programmation web de données pour smartphones. Tout cela devrait permettre l’émergence d’applications innovantes autour de la plateforme. Nous encourageons les propositions de projets et communiquerons bientôt sur le sujet.

Le projet a été financé pour trois ans par l’Agence Nationale de la Recherche, peux-tu nous parler un peu de vos ressources et de ton équipe ?

Le projet est actuellement constitué de sept partenaires : les équipes EXMO et Edelweiss de l’INRIA, Eurecom, la société Mondeca, Atos Origin Integration, l’IGN, L’INSEE, et la FING. Un huitième partenaire, l’équipe Tatoo du LIRMM va nous rejoindre sous peu. La plateforme est ouverte et nous accueillerons de nouveaux partenaires notamment fournisseurs de données. Le projet est assez gros pour un projet ANR et son budget total dépasse les trois millions d’Euros. C’est beaucoup d’argent et nous remercions l’ANR de nous faire confiance et de porter un projet sur ce thème. Nous devons maintenant montrer que cet argent sera utilisé à bon escient. Les subventions accordées vont notamment nous permettre de recruter des étudiants, chercheurs et ingénieurs. Avis aux amateurs, des positions sont ouvertes chez les divers partenaires.

L’équipe EXMO est située à l’INRIA Grenoble Rhône-Alpes, elle est dirigée par Jérôme Euzenat. Nous travaillons sur le web sémantique et en particulier sur l’alignement d’ontologies. Quand à moi je vais m’en aller vers Montpellier à partir de la rentrée comme maître de conférence au LIRMM. Je resterai tout de même rattaché à EXMO, on ne quitte pas une si bonne équipe comme ça !

Merci François, bonne continuation à toi et ton équipe !

Billet initialement publié sur all about web, le blog de Nicolas Cynober ; le Twitter de Nicolas : http://twitter.com/cyno/

À consulter aussi, son pearltree sur la publication de données en France

Image CC Flickr illustir

]]>
http://owni.fr/2010/07/07/datalift-un-catalyseur-pour-le-web-de-donnees/feed/ 8
Les enjeux d’une bibliothèque sur le web http://owni.fr/2010/06/10/les-enjeux-d%e2%80%99une-bibliotheque-sur-le-web/ http://owni.fr/2010/06/10/les-enjeux-d%e2%80%99une-bibliotheque-sur-le-web/#comments Thu, 10 Jun 2010 08:45:20 +0000 Christian Fauré http://owni.fr/?p=18113 La plupart des débats sur le rôle et la présence des bibliothèques sur web s’est jusqu’à présent concentré fortement sur les enjeux de numérisation des fonds et sur son corolaire de diffusion des œuvres numériques. Autre thème, mais dans une moindre mesure (surtout à l’échelle du grand public) : la mise en ligne des catalogues et la disponibilité des métadonnées des institutions qui les gèrent. Ces questions sont importantes, mais j’aimerais en proposer une troisième, qui s’appuie sur l’exposition des métadonnées, et constitue à mes yeux la clé de voute pour une stratégie des bibliothèques sur le web.

1. Avoir des ressources facilement identifiables et consultables sur le web

Chacun aura remarqué qu’il n’est pas facile de faire un lien vers l’URL d’un livre qui pointe vers les catalogues en ligne que proposent les bibliothèques. Moi-même, quand je parle d’œuvres ou d’auteurs, je privilégie un lien vers la page associée chez Amazon ou Wikipedia, c’est tellement plus rapide. Mais, à part amener du trafic à ces sites, ce geste de faire un lien n’est pas valorisé en lui-même. Une bibliothèque doit donc commencer par augmenter la visibilité de ses ressources pour ensuite pouvoir donner de la valeur à mon lien.

L’exposition des métadonnées passe par la mise à disposition d’URLs pérennes pour l’ensemble des ressources signifiantes. Ces URLs doivent donc être pérennes (je vous renvoie chez figoblog pour la littérature et les réflexions associées), mais aussi  facilement identifiable (voire inférençable : par exemple, je peux déduire l’URL d’un auteur à partir de celle d’un autre), ainsi que déréfençables (cf. Qu’est-ce qu’une URI déréférençable ?). Point d’autre salut dans cette démarche que d’embrasser les standards du web sémantique et d’emboîter le pas à l’initiative Linked Data.

2. Exploiter la vie de ces ressources sur le web

On n’envoie plus un satellite dans l’espace pour pouvoir dire « je sais le faire », mais pour exécuter une mission bien précise qui repose sur la collecte et la récupération de données. Par analogie, c’est cet objectif qui manque souvent aux stratégies d’ouverture et d’exposition des données. Je suis le premier à dire qu’il faut mettre à disposition les données sur le web, tout comme je suis le premier à dire qu’il faut du très haut débit. Mais si ces initiatives sont nécessaires, elles n’en sont pas pour autant suffisantes, car elles ne sont que les prémices d’une politique, il manque encore quelque chose. C’est notamment la raison pour laquelle je terminais mon texte dans « Pour en finir avec la mécroissance » en écrivant :

« Pire peut-être, ces politiques se limitent à favoriser l’accès à Internet et à offrir des débits de connexion toujours plus important, mais pour quoi faire ? » p. 278.

Je crois qu’il faut partir de là : accéder à des contenus ou des données sur le web, d’accord, mais « pour quoi faire ? » Je balaye ici d’un revers de main toute la rhétorique qui consiste à dire : « ouvrez vos données et vous verrez ce sera formidable ». Oui, je crois effectivement que ce sera formidable, mais ce discours ne favorise pas la prise de décision pour celui qui doit faire l’effort : il faut donc trouver d’autres motivations.

La logique et la stratégie de l’accès orientent trop souvent les débats autour d’une stratégie de diffusion. C’est très bien de diffuser, surtout quand il s’agit de ressources culturelles comme celles que gèrent les bibliothèques, mais je pense que ce n’est pas là que les choses se jouent. La plupart des bibliothécaires ne peuvent pas se satisfaire de concevoir le web comme un simple outil de communication et de diffusion. Le métier de bibliothécaire croule tellement sous la charge de travail que représente la politique d’acquisition, de conservation, de gestion des catalogues, d’archivages, plus tous les aspects fonctionnels d’accueil du public, de relation avec les chercheurs etc. que la perspective du web comme nouvel outil de diffusion ne représente à leur yeux qu’une contrainte de plus qui va surtout donner lieu à une énième refonte du système informatique.

Faire tous ces efforts simplement parce que cela semble inéluctable n’est pas la meilleure des motivations qui soit. On revient donc à notre question « pour quoi faire? », car si la réponse est « parce que c’est nécessaire », on peut être sûr que c’est l’inertie qui va s’installer (pourquoi faire des efforts si la situation est tellement inéluctable ?).

Il faut donner une motivation aux bibliothèques : pénétrer dans l’économie générale du web, cela ne doit pas représenter uniquement un surplus de travail et d’effort, même si la diffusion et la valorisation sont des missions essentielles d’une bibliothèque.

Concernant les bibliothèques, ma proposition sera donc la suivante : il faut développer les « orages sémantiques ». Par cette expression on entend l’ensemble des discussions, polémiques, argumentations autour d’une ressource (auteur, oeuvre, thème, etc.). Dans cette perspective, il faut considérer que chaque ressource disponible en ligne est un paratonnerre dont le but est de capter les polémiques et les discussions dont elle fait l’objet.

Avec cette approche, l’activité de catalogage s’étend au-delà du catalogage des œuvres puisqu’il couvre le catalogage des débats sur autour des ressources sur le web. Grâce à ce catalogage des « orages sémantiques », une bibliothèque peut commencer à fournir de nouveaux services, comme par exemple une sorte de « Zeitgeist », un esprit du temps.

Aujourd’hui la Library of Congress archive, plus qu’elle ne catalogue, les messages plubliés sur la plateforme de Twitter. La question qui est posée aux biblitohèques est la suivante : souhaitez-vous être condamnées à négocier avec des acteurs privés le catalogage des orages sémantiques via leur plateforme commerciale, ou souhaitez-vous développer vous-même ces dispositifs ? C’est-à-dire être pro-actif dans la conception de ces dispositifs pour réinventer le catalogage et les services d’une bibliothèque sur le Web. Voulez-vous n’être que des archivistes sous-traitants des plateformes commerciale ou des promoteurs d’une politique économico-culturelle de la contribution ?

Parlant de contribution, je me dois ici de préciser que je ne parle pas de crowdsourcing, de site participatifs ou autres espaces personnalisés de contribution dont pourrait se doter un site web de bibliothèque. Il ne s’agit pas de ici de rajouter des fonctions de tags ou des folksonomies car le squelette de la démarche repose sur l’autorité des métadonnées de la bibliothèque. Le dispositif de captation des orages sémantiques doit reposer sur les acquis des catalogues et des notices d’autorités pour faire la révolution copernicienne du catalogage : elle ne se fait pas en marge de lui ou contre lui mais avec lui, avec ce trésor des métadonnées.

Ne cherchez pas l’outil magique pour faire cela, je crois qu’il n’existe pas, et il reste à faire. Il y a en fait deux dispositifs qui peuvent répondre à cet enjeu des orages sémantiques :

  • Le premier est un dispositif indirect basé sur l’analyse traces, celui dont je parle ici.
  • Le deuxième est un dispositif direct basé sur des outils critiques offrant des fonctionnalités d’annotation et de traçabilité des polémiques (le modèle que j’ai en tête étant les outils de gestion des sources dans les projets de développement informatique). De celui ci je ne parle pas dans cette note.

La démarche indirecte doit se construire à partir de plusieurs briques fonctionnelles :

  • du « web analytic » au travers de l’ensemble des services qui permettent d’analyser des trafics de sites web ;
  • du text-mining pour dégager des métadonnées des sources qui pointent vers les ressources exposées de la bibliothèque ;
  • du data-mining
  • des technologies d’indexation
  • bien sûr, si l’effort a été fait d’avoir les données structurées en RDF, la granularité des informations de consultations et de requêtes n’en sera que plus fine et plus facilement exploitable.

Il s’agit donc bien d’un panaché de technologies pour ne pas avoir en sortie un simple hit parade ou un moteur de recommandation à la Amazon. De plus, les expérimentations de publication des statistiques brutes de consultations ont montré que c’est Mein Kampf ou Le Kamasutra qui vont trôner en haut des classements. Je précise également qu’il ne s’agit pas uniquement d’utiliser des informations de consultations, mais surtout des informations provenant de la source des liens qui pointent vers ce lieu de référence qu’est une bibliothèque (pensez ici à BackRub, l’ancêtre de Google).

Un petit résumé de ce qui change avec cette approche des orages sémantiques :

  • Les bibliothécaires et conservateurs en « back office » ont un feed-back de ce qui se passe sur le web autour des ressources dont ils ont la gestion. Retour appréciable, me semble-t-il, quand on doit gérer l’évolution de son catalogue : les orages sémantiques placent le bibliothécaire au coeur de son temps, des polémiques et de ce qui fait débat ;
  • La bibliothèque peut ajouter des services innovants sur son site web. Par exemple, je n’irai pas spontanément sur la page d’un auteur sur le site web d’une bibliothèque mais plutôt sur Wikipedia à cause de la richesse des informations. Mais si la page en question me donne une « météo culturelle » de cet auteur, alors cela peut changer mes pratiques ;
  • enfin, au delà du Zeitgeist, c’est une extension de la pratique de catalogage qui révolutionne l’activité d’une bibliothèque en la plaçant au cœur de l’économie générale du web.

Je termine par un dernier point car, les bibliothèques, en ces temps budgétaires difficiles, cherchent à augmenter leurs fonds propres, or je serai le premier à acheter une œuvre (papier ou numérique) qui comprenne un appareil critique issu des informations collectées via le dispositif des orages sémantiques géré par une institution publique telle qu’une bibliothèque. Cela changerait à coup sûr les rapports entre les bibliothèques et les éditeurs, ces derniers ayant beaucoup trop tendance à les mépriser. C’est d’ailleurs quelque chose qui m’a frappé en m’intéressant à la chaîne du livre : l’indifférence et le mépris règne entre les acteurs ce milieu tandis que de nouvelles industries arrivent et raflent la mise, le sourire en coin.

J’espère que les bibliothécaires me pardonneront mon ingérence dans leur domaine de compétence.

Billet initialement publié sur le blog de Christian Fauré ; images CC Flickr beelaineo, Reini68, jakebouma

]]>
http://owni.fr/2010/06/10/les-enjeux-d%e2%80%99une-bibliotheque-sur-le-web/feed/ 2
#Opendata 1/2: ||Les bons ingrédients pour une ouverture des données réussie http://owni.fr/2010/05/31/opendata-12-data-gov-ou-data-gov-uk/ http://owni.fr/2010/05/31/opendata-12-data-gov-ou-data-gov-uk/#comments Mon, 31 May 2010 06:47:14 +0000 Caroline Goulard http://owni.fr/?p=16981 Un consortium d’ONG et de bailleurs de fonds internationaux a récemment commandé un rapport sur l’open data sous l’égide de la Transparency and Accountability Initiative.

L’étude finale, l’Open Data Study, rédigée par Becky Hogge, a été publiée en mai 2010 par l’Open Society Institute (institution fondée par George Soros). Elle explore les politiques d’ouverture des données publiques aux États-Unis et au Royaume-Uni, et cherche à en tirer des conséquences pour mener des initiatives similaires en dehors des démocraties occidentales.

A l’origine de cette démarche, il y a la conviction que l’ouverture des données publiques peut apporter d’importants atouts économiques et sociaux. Pour l’auteur du rapport, rendre disponible des données géographiques, budgétaires, sociales dans un format permettant leur réutilisation, permet d’améliorer les services et de créer de la croissance économique.

Data.gov & data.gov.uk : quelles leçons en tirer ?

Les Etats-Unis et le Royaume-Uni ont récemment adopté des démarches volontaristes sur l’opendata en lançant les deux portails www.data.gov et www.data.gov.uk.

L’exemple britannique : data.gov.uk

Data.gov.uk est un portail donnant accès à un ensemble de données collectées et entretenues par le gouvernement et les institutions publiques britanniques. Actuellement data.gov.uk héberge environ 3 200 bases de données et une cinquantaine d’applications dérivées.

Comment en est-on arrivé là ?

Premier geste fondateur en direction de l’opendata : en juin 2009, le Premier Ministre britannique Gordon Brown annonçait que Tim Berners Lee s’apprêtait à rejoindre son gouvernement comme conseiller.

Mais l’arrivée de celui présenté comme le principal inventeur du World Wide Web ne suffit pas à expliquer le mouvement d’ouverture des données au Royaume-Uni.  Depuis déjà plusieurs années, le gouvernement britannique subissait une pression de la société civile, en particulier d’un groupe de responsables de sites web politiquement engagés, pour délivrer ses données de façon ouverte, dans un format lisible par les machines.

Face à ces acteurs politiques et citoyens mobilisés pour l’ouverture des données, quelques agences gouvernementales ont opposé une forte résistance. En particulier, l’agence de cartographie, l’Ordonance Survey (l’équivalent de notre Cadastre), car une partie de son financement provenait justement de l’exploitation commerciales des données publiques géographiques.

Data.gov.uk a été officiellement lancé en janvier 2010. Le site a été perçu comme une victoire de la communauté pro-opendata. Le Royaume-Uni voit désormais fleurir les sites web et les applications basées sur les données libérées, en particulier sur les données cartographiques liées aux codes postaux, autour de la dernière élection générale de mai 2010.

L’exemple américain : data.gov

Data.gov est un portail du gouvernement américain donnant accès aux bases de données crées par le gouvernement fédéral américain et par ses agences.

Il a été lancé en 2009, avec deux objectifs.

Tout d’abord, la volonté d’impulser une communication bottom-up et de faire émerger de nouvelles idées de gouvernance, en renforçant la transparence des services publics, la participation des citoyens, et la collaboration entre l’Etat et ses administrés.

L’ouverture des données publiques a aussi été pensée comme un moyen d’améliorer l’efficience des agences gouvernementales.

La plupart des agences gouvernementales américaines numérisaient déjà les données dont elles disposaient. Data.gov a été conçu comme un outil pour les aider dans leurs missions de service public.

Comme au Royaume-Uni, l’influence de la communauté des civil hackers a joué un rôle important. Ces citoyens engagés ont réutilisé dans leurs sites web des bases de données publiées par le gouvernement pour les présenter de façon enrichie et plus accessible.

Peut-être en réponse à ces initiatives citoyennes, les CIOs (Chief Information Officers) de certains Etats américains –dont le district de Columbia- ont commencé à rendre publiques leurs bases de données. C’est d’ailleurs le directeur technique du district de Columbia, Vivek Kundra qui a été par la suite embauché par Obama au poste de CIO fédéral en mars 2009.

Ces premiers pas en faveur de l’opendata ont trouvé un écho important lorsque le Président Obama a pris ses fonctions à la Maison Blanche. Il a justement consacré un de ses premiers memorandums à l’ouverture et à la transparence.

Après une phase de recherche et développement, pendant le printemps 2009, data.gov a été lancé le 21 mai 2009.

Il contenait initialement 76 bases de données provenant de 11 agences publiques. Craignant que l’élan vers l’opendata ne retombe et que trop peu de données ne soient publiées, Obama a adopté un décret, le 8 décembre 2009, obligeant chaque agence gouvernementale à publier au moins 3 bases de données de qualité.

Aujourd’hui, la comparaison entre les deux plateformes – data.gov.uk et data.gov – ne joue pas en faveur des Etats-Unis : le portail britannique propose déjà trois fois plus de données, alors que son homologue américaine a six mois d’avance. Et data.gov.uk a fait le choix de formats standardisés favorisant le développement du web sémantique, à la différence de data.gov.

Je vous renvoie aux articles de Flowing Data et RWW pour de plus amples comparaison entre ces deux plateformes.

Les trois acteurs clés de l’ouverture des données

L’Open Data Study tire une leçon intéressante de ces observations : aux Etats-Unis comme au Royaume-Uni la conduite de l’ouverture des données a nécessité l’intervention de trois catégories d’acteurs :

  • La société civile, et en particulier un petit groupe de « civil hackers » très motivés
  • Des fonctionnaires gouvernementaux de peu d’influence, mais compétents et engagés
  • Les hautes sphères du pouvoir, guidées soit par une pression extérieure (dans le cas du Royaume-Uni), soit par le climat réformateur d’une toute nouvelle administration (dans le cas des États-Unis)

En écho aux propos tenus par Tim Berners Lee dans l’entretien qu’il a accordé à l’auteur de cette étude :

It has to start at the top, it has to start in the middle and it has to start at the bottom.

1/Dans une logique bottom-up, la société civile a imposé des exemples de bonnes pratiques et à mis sous pression les gouvernements. Ainsi, data.gov.uk et data.gov n’auraient sans doute jamais été créées si des citoyens engagés n’avaient pas déjà développé des applications telles que TheyWorkForYou.com (au Royaume-Uni) ou GovTrack.us (aux États-Unis), des cartes des accidents de vélo, ou des sites répertoriant les dépenses publiques.

TheyWorkForYou et GovTrack.us ont tous les deux été lancés en 2004, par des groupes de bénévoles qui voulaient faciliter le suivi de l’activité politique des parlementaires. Tous deux s’appuient sur des données déjà publiées sur des sites officiels tels que le Hansard au Royaume-Uni ou celui de la Library of Congress aux Etats-Unis, pour les présenter dans un format plus accessible, avec un moteur de recherche, et un espace de débat.

Les auteurs de ces deux applications sont donc passés outre les copyrights protégeant les bases de données originales. GovTrack.us agit également comme une plateforme de données pour d’autres sites citoyens.

Les citoyens bénévoles à l’origine de TheyWorkForYou (régroupé sous le nom de mySociety, fondée par Tom Steinberg), et de GovTrack.us (regroupés sous le nom de Civic Impulse, fondée par Josh Tauberer) s’identifient eux-même come des « civic hackers », c’est à dire des personnes qui utilisent les outils des technologies numériques pour enrichir la vie citoyenne ou résoudre des problèmes civiques. Ils vivent leur activité comme un engagement démocratique.

En France, nous avons aussi nos « civic hackers », chez Regards Citoyens, les éditeurs de NosDéputés.fr (notre équivalent du TheyWorkForYou britannique) et chez la Quadrature du Net (“La loi, c’est du code, donc ça se hacke“).

2/ Les bonnes pratiques citoyennes n’auraient pas suffit si elles n’avaient pas trouvé un relais auprès des fonctionnaires des échelons intermédiaires du pouvoir. Ces acteurs avaient eux aussi un intérêt à l’ouverture des données publiques, dans laquelle ils voyaient une opportunité pour rendre leur travail plus efficient et mieux compris.

Au Royaume-Uni plus particulièrement, la société civile et la communauté des administrateurs publics se sont alliés autour des problèmes de licences posés par la ré-utilisation des données. Leur coopération leur a permis de construire solide base d’expérience et de buts communs. En 2007, le Cabinet Office (l’organe chargé de coordonner les stratégies entre les différents ministères) a commandé un rapport sur l’ouverture des données publiques à Tom Steinberg, le fondateurs de TheyWorkForYou, et à Ed Mayo, le directeur du National Consumer Council (l’organe chargé de représenter les intérêts des consommateurs). L’étude finale, la Power of Information Review, met en avant les opportunités tant démocratiques qu’économiques de l’opendata.

La retombée la plus marquante du travail réalisé par Steinberg et Mayo sur la Power of Information Review a sans doute été le lancement du concours Show Us a Better Way. Un prix de 20 000£ a été mis en jeu pour le meilleur projet de réutilisation des informations du secteur public. Le concours a attiré environ 500 contributions, et a été gagné conjointement par 14 projets, dont le site WhereDoesMyMoneyGo qui rend compte de comment sont utilisés les impôts collectés par les pouvoirs publics.

L’émulation citoyenne autour de ce concours a constitué un argument formidable pour convaincre les agences gouvernementales de libérer leurs données, en particulier l’Ordonnance Survey de renoncer à monétiser ses données géo-spatiales (sujet déjà traité sur mon blog ici).

3/ L’expertise de ces fonctionnaires et administrateurs publics, a donné confiance aux leaders politiques dans la réussite de stratégies d’ouvertures des donnés publiques. Les dirigeants ont ainsi eu les moyens et la motivation pour passer outre l’inertie institutionnelle.

Le rôle des hautes sphères du pouvoir a surtout consisté à donner une dimension politique et démocratique à des problématiques jusque là perçue comme très technologiques.

L’existence de données : la base du succès

A côté de ce schéma à trois poles d’influence –société civile / administration publique / leaders politiques – l’Open Data Study relève un dernier facteur de réussite des stratégies d’opendata aux Etats-Unis et au Royaume-Uni : l’existence de données publiques nombreuses et fiables. Il y a dans ces pays une longue tradition de collecte de données publique, menée par des agences des fonctionnaires très compétents, disposant d’une relative autonomie et de ressources.

La France partage se solide socle de donnée avec les pays anglosaxons grâce à l’Insee. Le blog de Captain Dash consacre un très bon post à ce sujet, je vous conseille donc de lire “Insee… doesn’t ring a bell? That’s France at its top

Dernière remarque soulevée par l’Open Data Study : l’absence des utilisateurs finaux dans le processus de mise en place de l’ouverture de données. Bien sûr, l’audience des applications telles que TheyWorkForYou ou GovTrack.us ont joué un rôle, mais le plus souvent la notion d’utilité publique à pris le dessus sur la prise en compte des utilisateurs.

Lire la suite de cet article: “L’internationale de l’Opendata?”

Illustrations CC Flickr par Eric Fischer et daveypea

]]>
http://owni.fr/2010/05/31/opendata-12-data-gov-ou-data-gov-uk/feed/ 2
Les interfaces graphiques du web sémantique http://owni.fr/2010/05/11/les-interfaces-graphiques-du-web-semantique/ http://owni.fr/2010/05/11/les-interfaces-graphiques-du-web-semantique/#comments Tue, 11 May 2010 09:01:33 +0000 Christian Fauré http://owni.fr/?p=15185 Bien souvent, quand je vois les interfaces graphiques des applications du web sémantique, cela me fait penser à du Picasso.

Paradoxe : quand les données sont structurées, les interfaces graphiques donnent mécaniquement une impression de dé-structuration.

Si le document Word est le modèle de document qui a inspiré la page du web de document, alors on pourrait peut-être penser que c’est le tableur qui représente le modèle de document du web de données? On pourrait certainement le croire quand on regarde le très justement nommé Tabulator de Berners-Lee, outil pour « surfer sur du RDF » :

Et bien non, c’est la carte et la localisation qui « prennent ». Ainsi, lorsque Tim Berners-Lee a présenté les résultats des démarches d’ouverture des données publiques à TED 2010, il n’a présenté que des interfaces basées sur la géolocalisation des données :

Cliquer ici pour voir la vidéo.

Retour aux fondamentaux finalement, puisqu’on se souvient que les APIs et les mashups du web 2.0 ont commencé avec Google Maps. Ce qui tend à montrer que la mise à disposition de données structurées sur le web s’inscrit dans une logique de re-territorialisation : rien n’est plus démonstratif que de projeter les données sur une carte.

Imaginez par exemple que vous soyez une bibliothèque et que vous vouliez publier vos données en RDF : que pouvez-vous espérer qu’il en ressorte ? Et quelles interfaces pourront être proposées, par des tiers, quand les données seront disponibles ? Avoir les données agrégées autour d’une œuvre ou d’un auteur est bien utile mais l’on retombe sur un web documentaire classique même si le moteur est en RDF.

Alors on repense à cette histoire de re-territorialisation, et on imagine immédiatement des services de localisation des ouvrages dans les bibliothèques. On revient encore à la carte en projetant sur elle les données, même si, en l’occurrence, c’est typiquement un réflexe d’institution que de vouloir in fine « router » et ramener le public dans ses murs.

Si nous devions formuler correctement la question, il faudrait dire : « Quelles sont les informations territoriales que je possède ? » Et dans notre cas : « quelles informations territoriales possède une bibliothèque ? », si l’on retient l’idée qu’il y a corrélation entre l’ouverture des données structurées et une logique de re-territorialisation.

Pour y répondre, il faudrait tirer le fil d’une grappe RDF par les concepts de localisation : tout voir au travers du filtre d’un territoire : maison, rue, quartier, ville, région, pays, etc. Cette « perspective de données » nous dirait certainement beaucoup de choses et stimulerait l’intérêt d’avoir des interfaces graphiques appropriées. Pour l’heure, j’ai l’impression que cela tend vers une interface à la SimCity avec Google Maps, Open StreetView ou l’IGN qui fourniraient le fond d’écran des applications du web sémantique.

J’ai parlé du territoire, c’est-à-dire de l’espace, mais c’est aussi vrai du temps, ici le projet Simile avait déjà tracé la voie. Ce sont les informations avec une métadonnée temporelle ou spatiale dont le « marché » a besoin en priorité.

Billet initialement sur le blog de Christian Fauré

Illustration CC Flickr par yoyolabellut

]]>
http://owni.fr/2010/05/11/les-interfaces-graphiques-du-web-semantique/feed/ 1
Libérons les données ! De quelques aspects juridiques http://owni.fr/2010/03/05/liberons-les-donnees-de-quelques-aspects-juridiques/ http://owni.fr/2010/03/05/liberons-les-donnees-de-quelques-aspects-juridiques/#comments Fri, 05 Mar 2010 15:46:03 +0000 Michèle Battisti http://owni.fr/?p=9468 data

A l’heure où l’on évoque la libération des données publiques [1] et le Web des données [2], ou encore le data journalisme, il semblait utile d’approfondir cette question que l’on avait abordée en 2006 pour les données de la recherche.

Les enjeux

Dans le domaine scientifique, il est essentiel de partager les informations. Pouvoir reconnaître la qualité de  biens collectifs aux résultats de la recherche devient donc un impératif. Quant au Web de données, autre exemple retenu, il implique que l’on puisse relier et interroger de manière simple les données dispersées sur le web [3], mais aussi d’en disposer sans se heurter à des obstacles juridiques.

Or,  pour accéder à des  données et avoir le droit de les utiliser, on s’aperçoit qu’il faut bien  souvent contacter les ayants droit et négocier des licences, ce qui s’avère généralement lent et coûteux.

Pour pallier les risques croissants de réappropriation des données, liés à  l’expansion actuelle de la propriété intellectuelle, ont été développées parallèlement, depuis plusieurs années, des approches techniques et juridiques dites « ouvertes ».

Les données libres et ouvertes permettent ainsi de disposer d’un fonds commun de données dans lequel n’importe qui peut puiser et ce, malgré les différences importantes des contextes juridiques et institutionnels de leur création.

Quelques rappels

DÉFINITIONS

donnée : un fait, notion ou instruction représentée sous forme conventionnelle convenant à la communication, l’interprétation ou au traitement par des moyens humains ou automatiques (afnor)

donnée publique : donnée collectée ou produite dans le cadre de sa mission, par un service public, sur des fonds publics.

donnée libre : une donnée que l’on est libre d’utiliser, de modifier et de rediffuser

donnée ouverte : l’ouverture s’applique la notion d’interopérabilité, assurée par des standards.

licence libre : contrat par lequel un titulaire d’un droit de propriété intellectuelle concède à un tiers tout ou une partie de la jouissance d’un droit, en accordant au moins la possibilité de modifier, de rediffuser et de réutiliser l’œuvre dans des œuvres dérivées. Ces libertés peuvent êtres soumises à conditions [4] (Wikipédia).

domaine public : des œuvres protégées par le droit d’auteur dont la durée des droits patrimoniaux a expiré (droit d’auteur) ou des choses communes qui n’appartiennent à personne mais dont l’usage est commun à tous  (art. 714 Code civil).

LE CADRE JURIDIQUE

Le droit d’auteur. Les données « brutes » ne sont  pas protégées par le droit d’auteur, mais leur mise en forme (sous forme de graphiques, diagrammes,  etc.) pourrait l’être, dès lors que celle-ci s’avère originale et que la présentation des données ne découle pas automatiquement de l’utilisation d’un procédé technique ou d’un logiciel. Si, par ailleurs, la structure et choix des données sont originaux, la base de données sera protégée par le droit d’auteur.

Le droit sui generis des bases de données. Si le producteur de la base de  données peut en outre prouver avoir investi de manière substantielle pour constituer et gérer sa base, il peut s’opposer à toute extraction ou réutilisation substantielle de celle-ci.

Le droit de réutilisation des données publiques. Dans ce cadre, l’administration met à la disposition du public les données qu’elle a produites ou qu’elle détient [5].

D’autres mécanismes.  L’accès aux données peut être protégé a priori par un contrat et a posteriori par une action en concurrence déloyale, pour parasitisme ou pour enrichissement sans cause.

Libérer les données

Pourquoi adopter une licence ?

Même dans le cas où les données ne sont pas protégées par un droit (droit d’auteur, droit sui generis du producteur de base de données), il est recommandé de les diffuser accompagnées d’un contrat de  licence.

Les utilisateurs ont, en effet, besoin de savoir d’où viennent les données (notion d’attribution), si celles-ci elles ont été modifiées (souci d’intégrité et de validation) et de connaître toutes les modalités de réutilisation autorisées.

Les recours à des contrats de licences reconnus dans le monde entier, même si celles-ci nécessitent une adaptation au droit national, permet d’organiser le partage des données en évitant,  puisque les contrats sont la loi des parties, de se pencher sur le problème de la loi applicable et de se heurter à des concepts juridiques différents.

L’extrême diversité des licences

Dans son rapport, le Conseil supérieur de la propriété littéraire et artistique (CSPLA) note qu’il existe des œuvres sous licences mixtes (contenant des éléments sous licences libres et d’autres sous contrats propriétaires) ou encore des licences doubles (permettant d’opter soit pour une licence libre qui impose certaines contraintes, soit pour une licence propriétaire).

A côté des « domaines historiques d’expansion » que sont les logiciels libres, des modèles « généralistes » (licences Creative Commons ou Art Libre, par exemple), diverses communautés (informaticiens, chercheurs [6], musiciens, …) ont développé des licences qui répondent à leurs priorités. En outre, afin de les améliorer, pour s’adapter à de nouvelles pratiques ou de nouvelles législations, ces licences ont  pu évoluer dans le temps  et se présenter sous de nouvelles versions numérotées [7].  Le mouvement ne s’est étendu qu’ensuite et  plus récemment aux données [8].

Quelle licence choisir ?

Pour s’assurer que les données restent libres et bâtir un fonds commun de données,  il est important de  pouvoir contrôler leurs usages. Abandonner tous ses droits de manière anticipée, en choisissant une licence qui fait  entrer son œuvre dans le domaine public (comme l’Open Data Commons – Public Domain Dedication & Licence (PPDL) ou la licence CC Zéro), permet certes de les utiliser pour créer des œuvres dérivées, mais  ne répond pas obligatoirement à un tel objectif, puisqu’il n’oblige pas à partager les résultats obtenus à partir des données utilisées. N’importe qui, une entreprise par exemple, pourrait se réapproprier ces données, d’où le paradoxe qui consiste à créer un droit de propriété, qui ne devrait pas exister, pour empêcher cette action.

Si l’on entend bâtir un fonds commun de collaboration, il s’avère de ce fait   prudent d’adopter une logique de  Copyleft qui « force » le partage. Classées dans le rapport du CSPLA parmi  les licences offrant une liberté pérenne, les licences Copyleft[9] ne « se limitent pas à l’octroi du droit d’utiliser, de modifier et de diffuser l’oeuvre : elles veillent à ce que l’usage de l’œuvre copiée ou modifiée demeure libre. Dès lors que sont combinés les éléments de l’oeuvre mise à disposition, l’oeuvre seconde devra obéir au même régime », ce qui permet de s’assurer de l’existence d’un fonds commun d’oeuvres que l’on peut utiliser librement.

La licence Creative Commons BY-SA[10] qui oblige à citer la source et à partager les données obtenues à partir des données utilisées sous la même licence CC BY-SA, a été adoptée notamment par les concepteurs du projet OpenStreetMap, projet qui connaît un grand succès, qui vise à cartographier des villes à partir de données géographiques libres. Considérant toutefois qu’une licence CC vise à protéger des œuvres protégées par le droit d’auteur, les concepteurs d’OpenStreetMap songent à adopter la licence ODbL, adaptée au droit sui generis des bases de données

Le choix d’une licence n’est pas neutre

S’il convient, en préalable, de s’assurer que l’on est en mesure de céder tous les droits que la licence va conférer (coauteurs éventuels, droits d’auteur sur les œuvres incorporées, …), il convient aussi  d’en apprécier l’impact avant d’opter pour l’une d’entre elles.

Kobé

Mes plus vifs remerciements à Benjamin Jean, Linagora

Ce texte sera également publié sur le site de l’ADBS


Notes

[1] Les portails gouvernementaux en Australie, aux Etats-Unis, ou encore au Royaume-Uni proposent tous des données en libre accès. Mais ces portails seraient moins riches en données que le portail français, tel que préfiguré aujourd’hui. Le niveau « d’ouverture » des données publiques accessibles via le portail  français d’accès aux données publiques annoncé par l’Agence du patrimoine immatériel de l’Etat (APIE), variera selon les administrations. Le Chapitre français Creative Commons a interrogé les candidats aux élections  régionales pour les sensibiliser à l’utilité de libérer les données publiques régionales.

[2] Voir aussi : L’avenir de l’information : le web de données, Hubert Guillaud, InternetActu.net, 4 décembre 2008

[3] Démontrant ainsi la nécessité de l’intéropérabilité,  une condition facilitée par le mouvement Libre.

[4] La licence libre  GPL (General Public License), par exemple, impose que l’on redistribue le logiciel « enrichi » après l’avoir récupéré, étudié et amélioré.

[5] Le principe d’une réutilisation des informations publiques ne s’applique pas  aux informations élaborées dans le cadre d’une mission de service public à caractère industriel et commercial,  ni à  celles dont les tiers détiennent des droits de propriété intellectuelle, ni à  celles qui contiennent des données personnelles non anonymisées lorsque l’accord des personnes concernées n’a pas pu être obtenu.

[6] Des licences spécifiques ont été développées pour certaines disciplines, BiOS Open source dans le domaine des biotechnologies, par exemple.

[7] La version 3.0 des licences Creative Commons, par exemple, tient  compte du droit sui generis qui peut être conféré à certains producteurs de bases de données.

[8] Les réflexions autour des Science Commons [12] et le succès d’OpenStreetMap [17] ont joué à cet égard un rôle majeur

[9] La licence CC BY SA ou la licence Art Libre, par exemple

[10] Licence CC qui oblige à mentionner la source (BY)  qui autorise les modifications, mais qui impose que les oeuvres dérivées soient proposées au public avec les mêmes options Creative Commons que l’œuvre originale.

Références

1.       Rennes et Keolis: ils ont osé ! LiberTic, 1er mars 2010

2.       Vers des données régionales en libre accès, Michaël Szadkowski, blog du Monde, 10 février 2010

3.       Rennes passe à l’open source pour diffuser ses infos pratiques, Christophe Guillemin, 01Net, 24 février 2010
4.       Atelier Communia « Les institutions de mémoire et le domaine public » – Barcelone 1 & 2 oct. 2009 (Compte-rendu et impressions), Calimaq,  S.I.Lex, 13 octobre 2009

5.       The legal status of raw data : a guide for research practice, Madeleine de Cock Buning, Allard Ringnalda, CIER and Tina van der Linden (Centre for Intellectual Property Law,  Surf  Foundation, July 2009

6.       La mise à disposition ouverte des œuvres de l’esprit, Valérie-Laure Bénabou et Joëlle Farchy, Conseil supérieur de la propriété littéraire et artistique juin 2007

7.       CC0 : une nouvelle licence Creative Commons pour « marquer » le domaine public en ligne , Calimaq, S.I.Lex, 17 mars 2009

8.       Mon œuvre est dans le domaine public, Michèle Battisti, Actualités du droit de l’information,   16 mars 2009

9.       (Petit) Guide à l’usage des licences libres, Benjamin Jean, Intervention lors de la matinée juridique, Syntec informatique du 14 mars 2008.

10.    Comment puis-je mettre mes documents sous licence Creative Commons ? Michèle Battisti, Actualités du droit de l’information, janvier 2008

11.    Principes pour des données publiques ouvertes, Hubert Guillaud Internet Actu, 20 décembre 2007

12.    Science Commons : une solution pour le partage des résultats scientifiques, Michèle Battisti avec la collaboration d’Arabelle Baudette, Actualités du droit de l’information, n° 67, mars 2006

13.    Les contrats Creative Commons, Michèle Battisti, Actualités du droit de l’information, n° 52, novembre 2004

Définitions. Guide

14. Open Definition. Un tableau des licences. Sur le site Open Definition

15. Guide to Open Data Licensing. Sur le site Open Knowledge Foundation Wiki

16. Openstreetmap. Sur le site Wikipédia

Présentations ppt

17. Le statut juridique de la donnée libre, Benjamin Jean, Linagora, 17 septembre 2008

18. Data sharing : social and normative, Kaitlin Thaney,  25 octobre 2009

19. Rights Statements on the Web of Data, Leigh Dodds, 25th October 2009

Présentation audiovisuelle

20. Le web des données. Emmanuelle Bermès, 5 à 7, ADBS (en ligne prochainement)

Billet initialement publié sur Paralipomènes

Image bionicteaching sur Flickr

]]>
http://owni.fr/2010/03/05/liberons-les-donnees-de-quelques-aspects-juridiques/feed/ 2
Le web sémantique en soutien à la sérendipité http://owni.fr/2010/02/08/le-web-semantique-en-soutien-a-la-serendipite/ http://owni.fr/2010/02/08/le-web-semantique-en-soutien-a-la-serendipite/#comments Mon, 08 Feb 2010 13:30:46 +0000 Sébastien Declercq http://owni.fr/?p=7778 Comme j’ai tendance à l’observer auprès des autres étudiants de mon master, on tend à associer web sémantique et ordre, rigidité & froideur. Pourtant, rien n’indique que le web sémantique sera si « automatisé » que l’on le pense ! Je ne vais pas rentrer dans le débat du web socio-sémantique (en tout pas cette fois-ci), mais simplement tenter d’abolir ces idées d’un web sémantique robotisé, sans âme.

Pour commencer…

Quels liens peut-on voir entre web sémantique et sérédenpité ? D’une part, on retrouve une architecture de l’information très solide, aux liens durs, à la hiérarchie inébranlable. La rigidité par excellence : à chaque chose sa place, à chaque place sa chose. D’autre part, on assiste à une recherche hasardeuse, passant de lien en lien, offrant des résultats inattendus, non pertinents mais pourtant utiles. L’exemple même du désordre informationnel.

Comment donc associer ces deux concepts ? C’est assez simple : tout est une question de … concepts ! Le web sémantique, en effet, gère des concepts, les structure, les lie afin d’obtenir un ensemble construit : le graphe. Néanmoins, ce graphe n’a qu’une seule vocation : aider la machine à traiter l’information. Là où des liens seront créés, la machine pourra interpréter les informations, utiliser les ponts entre les concepts pour chercher l’information pertinente.

Par contre, le web sémantique ne changera rien (ou très peu) à la recherche humaine : celle-ci sera assez proche de ce qu’elle est maintenant. La grande différence, c’est qu’une recherche humaine via le graphe mènera à une forte augmentation de la sérendipité : quittant le saut de liens en liens, de serveurs en serveurs, on passera directement de concept à concept. Ceci va, sans aucun doute, nous mener à une plus grande divagation d’esprit : là où pour le moment on clique « pour voir ce que l’autre dit », le web sémantique nous fera cliquer pour voir quel lien existe entre deux concepts.

Pour rendre ça plus concret :

Sérendipité actuelle (via Wikipédia) : web sémantiqueontologieRDFXMLXHTMLPDAetc.
Sérendipité « sémantique » (avec Tabulator) : France → Fromage → Boycott des USA → Nucléaire iranien → etc.

On voit donc que, d’un côté, on saute de liens en liens, tout en restant dans un domaine tandis que, de l’autre, on peut quitter un thème très rapidement.

La sérendipité par concepts est effectivement accrue, car on n’est plus limité par une indexation manuelle. Les liens ténus émergent plus facilement grâce au sémantique, ce qui laisse une plus grande liberté d’action à l’internaute, contrairement à l’idée de rigidité préconçue.

» Article initialement publié sur Des TIC au tac

» Photo d’illustration jef safi sur Flickr

]]>
http://owni.fr/2010/02/08/le-web-semantique-en-soutien-a-la-serendipite/feed/ 1
Data data data http://owni.fr/2010/01/25/data-data-data/ http://owni.fr/2010/01/25/data-data-data/#comments Mon, 25 Jan 2010 07:24:49 +0000 Benoit Vidal http://owni.fr/?p=7224 Ce billet a été rédigé par Benoit Vidal, étudiant en 4ème année à l’École des Hautes Études des Technologies de l’Information et de la Communication.

Cela fait déjà quelques temps que l’on peut considérer que nous sommes en pleine infobésité. Avec les blogs, les réseaux sociaux, le temps réel, les addicts de l’information ont de quoi assouvir leur dépendance. C’est dans cet espace que l’on voit apparaître un désir de traitement de l’information différent, plus proche des besoins du récepteur. Du journalisme de liens à l’hyperlocal (ou micro local), l’enjeu est bien celui des données. Ce que l’on appelle data(base) journalism, le journalisme de données, s’inscrit clairement dans trois trajectoires de l’ère de l’Information dans laquelle nous venons à peine d’entrer.

Le premier point, sur lequel je ne m’épancherai pas car Caroline Goularddresse un état des lieux lucide dans un mémoire, est la crise/disparition de la presse papier, l’avènement du web et les changements profonds qu’ils provoquent dans l’économie de la presse.

Raw Data Now

La seconde trajectoire est plus scientifique et concerne le web sémantique, un web des données. Avec un approfondissement et une complexification du web, c’est un saut quantitatif et qualitatif sans précédent, aux conséquences socio-économiques encore largement insoupçonnées. Afin de donner de l’élan à ce web de données, Tim Berners Lee (créateur du web) a lancé le paradigme Linked Data ou données liées. Son slogan Raw Data Now suppose de libérer les données telles qu’elles. C’est la première étape inévitable pour un web avec plus de sens, un web « sémantisé ». Lancé par le gouvernement Obama et leur data.gov, ou des organismes tels que la Sunlight Foundation, on assiste aujourd’hui à de véritables lâchés de données.

La visualisation de données est un des grands défis de ce siècle.

Que faire de ces données brutes ? La réussite des visualisations graphiques interactives du New-York Times relève de leur capacité à faire travailler ensemble journalistes, interaction designers et développeurs afin de donner du sens à l’intéractivité, un sens visuel… à des données qui n’en ont pas, de leur donner une lisibilité, une accessibilité. C’est là toute la difficulté et c’est de la synergie des différents métiers que naîtra la cohérence. Ce traitement de l’information est vraiment pertinent lorsque l’on pense que nous n’en sommes qu’au début du tout numérique. Le lecteur des journaux gratuits chaque matin trouvera certainement un intérêt dans des e-books (Kindle, Tablet Mac) s’ils apportent une réelle plus-value à un canard papier, s’il peut prendre part à ce qu’il regarde, s’il peut jouer avec l’information. L’expérience sera pour lui plus enrichissante, en opposition avec le journalisme narratif. Je vous invite à regarder cette vidéo avec Manuel Lima, Interaction Designer et fondateur deVisualComplexity.com, au sujet de la visualisation de données.

Statistical thinking will one day be as necessary for efficient citizenship as the ability to read and write.

George Wells n’avait pas tort. Cependant, nous ne sommes pas encore dans un contexte de data-obésité comme on peut connaître aujourd’hui uneinfobésité réelle. Tout comme l’information signifie pouvoir, il y a beaucoup de réticences à libérer des données, notamment en France. Data War ?

En conclusion, je vous laisse lire Eric Scherer, directeur stratégie et relations extérieures de l’AFP :

L’an dernier, la page la plus visitée du site du New York Times fut une infographie interactive. Le problème, c’est que les groupes de presse français disent ne pas savoir où trouver les talents pour faire un travail de cette qualité.

Avons-nous ici la seule raison ?

» Article initialement publié sur le site de Benoît Vidal et repris sur Database Journalism /-)

]]>
http://owni.fr/2010/01/25/data-data-data/feed/ 2