Principe de séparation contenu, structure et présentation et autres irritants concernant SharePoint et autres systèmes d’entreprise

20 février 2011

Ce principe de base connu depuis au moins une bonne décennie n’est toujours pas respecté par SharePoint, pas même SharePoint 2010, et autres grands joueurs de l’industrie. L’industrie, que ce soit Oracle, IBM ou autre ne semble pas accorder une grande importance à ce principe, ni celui de l’usage de la codification UTF8 ou autre codification étendue de chaînes de caratères ne se limitant pas à la langue anglaise.

Illustration

  • Au niveau fondation, les bases d’information servant de colonne vertébrale entre différents systèmes ou applications comme l’AD (Active Directory) ne supportent toujours pas les caractères accentués. Et, bien qu’il serve de plus en plus et en grande partie à être le dépôt d’informations de contact et de réseautage entre utilisateurs, le principe de base spécifiant qu’il faut séparer contenu, structure et sa présentation n’est toujours pas respecté : on ne peut utiliser qu’une seule langue d’affichage à la fois, donc si l’on veut supporter plusieurs langues, il est nécessaire de tout mettre dans un seul champ, des champs de libellé supplémentaires pour des langues alternatives n’étant toujours pas disponibles. Et si jamais par miracle, cela se produirait, svp, n’oubliez pas d’ajouter l’attribut de langue…
  • Les colonnes de SharePoint, toute version confondue,
    • l’identifiant de la colonne = son libellé : au mieux, il est possible de revenir en arrière pour renommer le champs selon un libellé plus humain si
      • on voulait avoir des url propres et constantes : ex. Intuitivement quand on crée une colonne, comme un seul champ apparaît, l’utilisateur a le réflexe d’écrire dans sa langue. Donc, si l’on veut par exemple créer la colonne “élément d’application”, on se retrouve avec un champ qui renvoie %C3%A9l%C3%A9ment%5Fx0020%5Fd%5Fx0027%5Fapplication dans l’url, ce qui est très explicite quand on veut : référérer au lien ou au champs dans un code ou pour indexation
      • pourtant d’autres systèmes supportent depuis un moment la modification des espaces en _ ou en – au choix de l’administrateur de système, pour éviter cette prolifération de %20 illisibles et incompréhensibles pour les utilisateurs. Et proposent même de remplacer automatiquement les caractères ou signes diacritiques comme les é ou les ‘, le premier par le é sans accent et le second par, encore une fois, _ ou -, au lieu de %C3%A9 et %5Fx0027%5F, qu’il faudra retraduire dans une autre chaîne de caractères (même code) pour usage dans un autre système.
      • Il est même dans certains cas impossible de séparer l’identifiant unique d’un champ de son libellé, nous nous retrouvons donc prisonnier de ce charabia même en étant discipliné.
    • SharePoint n’utilise pas correctement et ni par défaut les métadonnées Titre, Keywords ou Description, par défaut, c’est le nom de fichier qui est utilisé et le champ titre n’est pas utilisé. 
      • Les métadonnées ne sont pas inscrites dans des tags xhtml, ce qui nuit à la trouvabilité et à l’optimisation du référencement. Cela crée par conséquent une surcharge de travail qui serait facilement épargnée sans ce comportement incompréhensible du point de vue de la gestion de l’information et des recommandations connues du W3C.
    • Dans SharePoint 2010, certes, je ne vais pas me plaindre de l’arrivée du Term Store, donc de la disponibilité de base d’un outil de gestion d’une ou plusieurs taxonomies.
      • Par contre, ce dernier même s’il permet de rendre disponible quelques fonctionnalités de thésaurus et peut faciliter, sans le garantir, une certaine cohérence dans  l’étiquetage des contenus à travers les sites, n’est pas connecté au moteur de recherche, que ce soit Microsoft Search, Fast ou un tiers outil. Il est nécessaire de maintenir les synonymies à deux endroits différents. Encore une fois, une surcharge de travail pour aider les utilisateurs à retrouver le contenu
      • Mais, ouf, les libellés multilingues sont supportés… C’est donc possible chez Microsoft quand ils veulent bien!!!

Les vendeurs comme Microsoft, IBM, Oracle et d’autres s’en sauvent en informant maintenant leurs clients qu’il existe une règle du 80/20, soit :

Pour implanter et configurer un système d’information, particulièrement un ECM (Enterprise Content Management), il faut répartir les efforts de la manière suivante:

  • 20% d’effort sur l’implantation technologique
  • 80% d’effort sur la gestion et la gouvernance de l’information

Or, cette pseudo règle de Paretto ne fonctionne pas puisque si le 20% dépend bien des TI, le reste est de la responsabilité, à tout le moins devrait être, sous le leadership autre que les TI, or la réalité est bien souvent la suivante : 100% du budget est dépensé sur la technologie et rien n’est prévu pour rendre les ressources disponibles du point de vue de la gouvernance et de la qualité de l’information. Plus souvent qu’autrement, les entreprises dépensent dans les technologies sans mettre l’effort utile pour rentabiliser leur investissement en espérant que cela se fasse comme par magie. Pour illustrer, c’est comme implanter une infrastructure d’écoulement des eaux usées, des égoûts et une robinetterie de la meilleure qualité qui soit tout en allant pomper l’eau dans une source polluée sans prendre la peine de filtrer l’eau, ni même de mettre en place une réglementation et des standards de qualité, avec mesures de conformité. Il en résulterait alors que l’eau ne sera pas potable et serait de la même qualité que celle des égoûts… C’est exactement ce qu’il se passe. Les gens d’affaire ne comprennent pas le rôle actifs qu’ils doivent jouer et la responsabilité qu’ils ont pour obtenir le retour sur investissement tant attendu.

Or, le 80% d’investissement dans l’information : aider à la rendre disponible tout en s’assurant que le système engendre le moins de distorsion possible, sa qualité et encadrer sa gestion (les différents flux et usages) n’est ni effectué durant l’élaboration de systèmes, ni durant leur livraison. Comment donc s’étonner que la productivité tant promise ne se réalise pas? Et cela n’est pas manque d’effort de la part des services des TI dans les entreprises.


Données, transactions, documents… Cycle de vie de l’information

13 février 2011

En échos à la réflexion que Jean-Daniel Zeller a commencé ici, je me propose de partager mes propres réflexions et observations par rapport à mon expérience. Il s’agit en effet de concepts avec lesquels nous devons jongler tous les jours dans le contexte du numérique.

Quand j’ai lu la 1ere fois l’article de M. Zeller, je ne pensais pas avoir quoi que ce soit à apporter comme commentaire aux postulats énoncés. J’y ai même trouvé d’éventuelles confirmations dans l’ouvrage suivant : Enterprise Ontology : Theory and Methodology de Jan Dietz. 

En effet, les systèmes d’information des entreprises doivent coller aux processus de création (invention, design, etc.), production et distribution de produits ou services. Le travail des informaticiens est de commencer par modéliser des processus. Les processus les plus “faciles” à modéliser, parce qu’ils sont découpables en actions simples et automatisables, sont les transactions. Un système est donc calibré pour gérer certaines transactions. Quand il s’agit d’échange de données discrètes, l’opération reste simple. La nécessité d’une intervention humaine reste limitée. Le système peut “interpréter” en fonction des possibilités prédéterminées identifiées lors de l’analyse des processus. L’informatique maîtrise ce type d’échange qui reste au niveau applicatif.

Par contre, cela devient beaucoup plus complexe au niveau du document (- rappelons que nous sommes le monde dématérialisé du numérique – un ou plusieurs fichiers, de format différents et/ou des informations composites de sources différentes). L’application ne sait plus alors qu’est-ce qui est quoi à moins qu’on l’explicite via des métadonnées, par exemple. L’être humain devient alors la véritable interface d’interprétation et de rétroaction (autre que de prendre connaissance). C’est là que l’interaction humain-machine prend son importance.

Mon point de vue s’est nuancé – ou plutôt complexifié – quand j’ai reçu le mandat d’aider l’équipe à retrouver, mieux partager et gérer ses documents de travail, à savoir tous ces fichiers qui sont le support de nos réflexions, de nos interactions, prises de position, modèles d’informations mais qui ne sont pas encore ou ne serons jamais des produits finis ou destinés à être utilisés tels quels. Ce rôle m’a permis de (re)prendre conscience de quelque chose qui ne semble pas pris en compte dans l’article de Jean-Daniel Zeller : dans le monde moderne, un document/fichier n’est pas nécessairement le résultat d’une transaction ou une trace officielle de quelque décision. Il contient de l’information pour mémoire, des notes pour plus tard, l’embryon de nouvelles idées, d’idées reformulées, etc. Cela ne veut pas dire que les postulats énoncés sont erronés, il s’agirait en fait  d’expliciter le cadre de validité qui semble implicite: quand les documents sont des preuves/traces de transaction, l’arrêt sur image de données, de sources différentes ou identiques,  mises ensemble  à un temps t, et contextualisées pour un événement X. Le “records” management s’intéresse à ce qui a valeur administrative, financière ou légale, mais le monde numérique a cette particularité que les brouillons ne sont plus des feuilles volantes que l’on jette au bac à recyclage, mais bien du matériel qu’on recycle intellectuellement et techniquement parlant, et qui nous évite de recommencer un modèle, un texte, une présentation de zéro. D’où une meilleure productivité. Par contre, plus personne ne veut jeter ces fichiers qui prolifèrent, si faciles à manipuler, mais si difficiles à retrouver, puisqu’on n’a pas pris la peine de mettre un titre, de les classer ou les trier… et que leur quantité croît à une vitesse phénoménale.

Donc, le document est plus que la trace de données ou de transactions, et le document n’a pas seulement valeur de preuve ou n’est pas nécessairement une publication mais est une sorte support pour connaissance explicitée que l’on veut garder pour soi ou pour partager, maintenant ou plus tard, pour ne pas recommencer de zéro, pour pouvoir le réutiliser.

Le records et le document management sont des outils qui peuvent aider à gérer les documents qui sont identifiés et identifiables avec  une valeur explicitée, ces derniers restent donc associés à une typologie assez traditionnelle et identique à ce qui existe dans le monde analogique. Par contre, les “work in progress” (wip) ne sont que très rarement gérés et encore moins catégorisables selon une typologie. Or il s’agit de la partie invisible de l’iceberg informationnel parce que les usagers s’attendent à ce que ces fichiers/documents soient trouvables – donc indexés – mais il ne sont que rarement correctement repérables parce que :

  • non définis et encore moins décrits : quel type de document ? quel type d’information ? combien de temps est-ce valide, est-ce seulement valide ?
  • et surtout non structurés, et
  • incroyablement nombreux et dupliqués ou avec très, très peu d’éléments de différenciation.

Donc, de nos jours, un document ne peut plus se définir seulement en tant que trace dans le sens de preuve, ni même en tant que publication. Et un fichier  informatique qui porte de l’information, n’est sans doute techniquement pas un document, mais reste néammoins un dépôt d’information structurée ou non qui peut avoir une valeur informationnelle en soi et avoir une utilité qui dépasse les raisons originales de sa création, à tout le moins au regard des utilisateurs.

On aura remarqué que j’ai beaucoup utilisé les termes document/fichier. C’est un fait que dans la vie de tous les jours, le langage courant confond fichier et document.  Ce n’est que lorsque l’on a besoin de définir qu’est-ce qui est quoi pour fin de modélisation ou de conceptualisation que l’on y réfléchit, et encore… Bref, il y a encore du pain sur la planche pour arriver à “apprivoiser” tous ces fichiers dont la durée de vie n’est pas statuée ou difficile à établir quand on n’est pas capable de qualifier vraiment de quel type d’information il s’agit. Mais le plus gros du travail reste l’éducation et la sensibilisation : réussir à faire comprendre qu’on a davantage un problème de sur disponibilité de l’information, ce qui nous freine dans la prise de décision, qu’un problème de non disponiblité de l’information.


Architecture de l’information en marche

5 février 2011

Il y a longtemps que je n’ai plus écrit sur ce blogue pour plusieurs raisons : dont l’apprentissage d’un métier et du fonctionnement d’une organisation assez complexe et particulière.

Mon rôle chez SNC-Lavalin me passionne. Ce n’est pas une situation “traditionnelle” pour quelqu’un qui a obtenu un diplôme en sciences de l’information, dans le sens de bibliothéconomie et archivistique, mais pas plus traditionnelle non plus, du point de vue des technologies de l’information.
Je suis entrée à l’emploi en tant que taxonomiste sans trop savoir ce que ça impliquait vraiment, pas plus que ceux qui m’ont embauché d’ailleurs. Ces circonstances aurait pu mener nulle part : pourquoi un département d’informatique embauche une taxonomiste alors qu’il n’y même pas encore de projet concret, et qu’en plus, les technologies de l’information gèrent certes les systèmes d’information, mais ne sont pas responsables de la qualité du contenu (l’information en tant que tellle) et en sont encore moins le propriétaire moral, administratif ou même légal.
J’ai d’ailleurs passé un certain temps à :
- essayer de trouver un moyen d’expliquer mon rôle à mes collègues alors même que j’avais moi-même besoin de le comprendre. J’avais saisi l’idée globale que je devais aider à trouver l’information. Là où ça devenait compliqué, c’était de donner un exemple concret et parlant parce qu’il n’y en avait pas encore. Le travail était encore à l’état de concept, d’hypothèses de mise en application, sans garantie d’obtenir les ressources, financières ou technologiques nécessaires pour la mise en pratique puisque, justement, comment obtenir un budget et une approbation pour quelque chose qui semble ésotérique et très peu relié aux affaires (puis ça change quoi dans la livraison de nos services ?). Donc, vous aurez compris que j’aussi dû…
- trouver un moyen d’expliquer mon rôle à des personnes, hors du département d’informatique, pour essayer de leur faire comprendre en quoi mon travail pourrait aider le leur et que j’avais besoin de leur collaboration, notamment m’aider à repérer le vocabulaire, le catégoriser et l’organiser de manière à aider à retrouver leur information et le savoir-faire inscrit, éparpillé et noyé dans une masse énorme d’information (une centaine de sites web de projets, presque une 10aine de millions de documents indexés par un moteur de recherche d’entreprise, dont des duplicatas obsolètes et non contrôlés, des fichiers temporaires non détruits, sans compter les répertoires réseaux de groupes ou personnels, les fichiers attachés dans les courriels, etc.). Si donc, la plupart saisissent l’idée, il leur est difficile de voir comment cela pourrait se concrétiser et surtout de savoir ce que ça implique… Et tant qu’on ne voit pas, on a des doutes. Je savais que ça marcherait potentiellement mais expliciter comment ça fonctionne et pourquoi ça fonctionne, sans pouvoir le démontrer concrètement, c’est autre chose.

Finissant par avoir moi-même besoin de voir concrètement comment cela pourrait se mettre en place, j’ai donc travaillé avec les moyens dont nous disposions, à savoir, en exploitant la technologie existante et les moyens du bord. Mon expérience passée en gestion de systèmes et mes connaissances en gestion de réseau m’ont permis d’avoir la crédibilité nécessaire pour obtenir la permission de faire des expérimentations avec le moteur de recherche, dans un environnement de développement (sans nuire pas au fonctionnement réel de tous les jours). J’ai ainsi pu apprendre à exploiter les fonctionnalités du moteur de recherche et commencer à utiliser, par exemple, la fonction thésaurus et les possibilités d’exploiter les métadonnées des documents pour fournir des résultats de recherche plus parlant et filtrables via des facettes… La taxonomie prenait une forme concrète. Il suffisait de montrer ce qu’il était possible de faire juste en exploitant ce qui existait déjà mais restait invisible.
Je suis ainsi devenue la spécialiste fonctionnelle du moteur de recherche. Le moteur de recherche plus utilisé et mieux perçu, mais ce n’est pas gagné… La masse informationnelle augmente très, très rapidement, donc se limiter à ce qui est fait spontanément n’est pas suffisant, il faut continuer à convaincre, à éduquer et … à faire ce qu’on peut avec les moyens du bord.

De fil en aiguille, le moteur de recherche ont été associé à moi. “On a de la difficulté à retrouver notre information, il paraît que vous pouvez nous aider…” Ces appels ont été de petites victoires qui m’ont aidé à avoir puis entretenir ma crédibilité, à me rassurer sur le fait de ne pas lâcher et que j’étais sur la bonne voie. Le moteur de recherche est devenu le moyen pour démontrer en quoi une information mieux gérée : catégorisée, décrite, filtrée, triée ou détruite quand nécessaire, facilite la trouvabilité.

Puis, environ six après mon embauche, le fonctionnement du département d’informatique a été revu et je me suis retrouvée dans une nouvelle équipe : l’architecture globale d’entreprise. Je ne me serais jamais trouvée au sein de cette équipe si je n’avais pas obtenu ces petites victoires, et, encore moins, si mon supérieur ne m’avait pas laissé faire, n’avait pas compris ce que j’essayais de faire et utilisé ces exemples lui-même dès qu’il en avait l’occasion pour démontrer qu’il était possible d’agir et que ce n’était pas seulement théorique.

De taxonomiste, je suis devenue spécialiste en architecture et je travaille en collaboration avec des architectes technologiques (ce que j’appelle la tuyauterie, la logistique de transport et de communication : le réseau de circulation des données et des informations), des architectes systèmes (la vue micro des systèmes : quels sont les processus pour réaliser une transaction, une action, quels sont les intrants et les extrants) et des architectes de données/information (comment les données passent d’un système à l’autre?, sont produites, par qui, quoi? contrôlées par qui, comment? y’en-a-t-elles qui sont communes entre les systèmes, ont-elles la même définition? etc.).

L’aventure est donc devenue collective et ensemble, particulièrement avec les architectes de système et de données, nous essayons de développer une pratique d’architecture de l’information d’entreprise, à savoir une architecture informatique qui intègre les données structurées (les bases de données, notamment) et les informations non structurées (les contenus web, les fichiers bureautiques, les dessins industriels – qui peuvent être des fichiers CAD mais sont de plus en plus des bases de données -).

Le travail du taxonomiste ou de l’architecte de l’information (pas dans le sens d’ergonome web) ne se limite donc pas au web mais pourrait trouver sa place en collaboration avec les architectes de données et de système. L’autre voie possible est d’aider à rendre les technologies sémantiques plus performantes : à titre d’analyste de résultats ou pour le développement de tels outils.
Le paradigme binaire 0-1 ou vrai-faux qu’offre l’informatique n’est plus suffisant. Les décideurs ne disposent que de peu de temps de réaction pour décider sur la base d’une masse d’information qui n’est humainement pas appréhendable aussi rapidement. L’environnement est complexe et change très vite, arriver avec un nombre limité d’options entre lesquelles il faut trancher n’est pas si évident, la réalité est bien plus dans les nuances que dans le noir et blanc. Les outils sémantiques sont donc une voie possible pour assister les prises de décisions et pour compléter les solutions traditionnelles de BI (business intelligence) qui fouillent des données structurées. Or ces outils sémantiques sont basés sur des modèles statistiques articulés sur des ontologies, des moyens qui restent donc mécaniques. Or rien n’est pertinent ou non pertinent en soi. Tout dépend du contexte et du sens. Une machine peut déterminer selon un modèle que cela est le plus probable, sans juger du résultat, mais cela ne veut pas dire que cela a du sens et est vrai… . L’humain reste l’élément capable de juger si cela est possible ou non. L’humain seul peut réintérroger le résultat et déterminer s’il est satisfaisant ou non. Ainsi, les taxonomistes qu’ils viennent de la linguistique, de l’informatique, l’ingénierie, des sciences pures ou de la bibliothéconomie ont donc une belle voie d’avenir devant eux.

Personnellement, j’aime mon travail parce que justement il n’y a pas de réponse toute prête et qu’il faut inventer. Les tâches que j’exécute se formulent au fur et à mesure que des besoins émergent ou des possibilités/obstacles se présentent.


Taxonomy Governance Through Metrics

16 juin 2010

Test et validation d’une taxonomie : ressources pour le Card Sorting

7 décembre 2009

Articles et présentations

Analyse des résultats

  • «When performing analysis on larger numbers of cards, we suggest using a spreadsheet. Enter the results into a spreadsheet, making sure to capture the title and number on each card. »(Maurer (Spencer), D. & Warfel, T. 2004)
  • «Another technique for analyzing data can be found in “Analyzing Card Sort Results with a Spreadsheet Template”; by Joe Lamantia.» (Maurer (Spencer), D. & Warfel, T. 2004)

Outils


Taxonomie : petit dossier de lecture

18 octobre 2009

Il y a quelques mois, je réalisais un dossier de lecture sur la taxonomie. Je ne savais pas alors que ce serait exactement ce que j’aurai comme métier… Ce sera intéressant de confronter mes premières impressions d’étudiantes avec mon expérience sur le terrain.

Voici donc le premier volet : le regard d’une étudiante.

Dossier : Taxonomie

Le but de ce dossier de lecture sur le concept de taxonomie est de faire un tour global sur le sujet pour comprendre son utilité, ses domaines d’applications et ses usages étendus au domaine de l’entreprise et dans l’univers numérique. Nous avons donc privilégié ici des articles qui apportaient des définitions et nous aidaient à cerner la variété possible de schémas et d’utilisation des taxonomies. Ceci nous a donné l’occasion de voir l’évolution de la terminologie mais également l’évolution interne à ce concept depuis quelques années avec notamment l’apparition de l’indexation sociale (ou folksonomie) et l’élargissement à partir du domaine de la gestion des publications à la gestion de l’information globale à l’intérieur des entreprises. C’est-à-dire que l’usage de la taxonomie s’étend au-delà du périmètre d’un centre de documentation, d’une bibliothèque, d’un catalogue ou même de la navigabilité au sein d’un site internet, elle peut s’appliquer aussi à l’ensemble de l’organisation des ressources informationnelles d’une entreprise (soit l’information créée à des fins de publication et de diffusion et l’information créée dans le cadre des activités d’une entreprise).

Le premier article : Knowledge taxonomies, écrit par Jo Anne Côté de l’Université McGill, en 2005, évoque le rôle des professionnels en information dans la création et l’usage des taxonomies.

Le deuxième : Taxonomies to tags : from tree to piles of leaves, de David Weinberger, nous parle des origines de la taxonomie jusqu’à l’usage des étiquettes (tags), de nos jours, pour organiser le savoir.

Le troisième : How semantic tagging increases findability, d’Heather Hedden, tout frais sorti de presse, évoque une évolution du vocabulaire pour désigner la taxonomie, l’extraction d’information et l’indexation au sein de l’industrie qui utilise et vend ce genre de services.

Enfin, le dernier article, mais non le moindre, Disembodied information, de Ruth Frendo, évoque la perspective de la taxonomie dans un contexte de gestion de l’information corporative dans sa globalité et de sa complémentarité avec les plans de classification (dans le sens archivistique du terme : organisation selon les fonctions de l’entreprise et non des sujets), ce à quoi et les archivistes, et les bibliothécaires devraient veiller de concert.


Côté, Jo Anne. 2005. Knowledge taxonomies. Information Outlook, vol.9, no 6, juin 2005 : p. 45-52

Note sur l’auteur et la publication

Jo Anne Côté possède une maîtrise en bibliothéconomie et sciences de l’information de l’Université McGill. Elle était bibliothécaire à la référence à la McGill Music Library et la Reginald J.P. Dawson Library à Montréal, au moment de la rédaction de cet article.

 Information Outlook est une publication de la Special Libraries Association (SLA).

Résumé

Dans cet article, l’auteure met en valeur les compétences des professionnels de l’information qui sont utiles et nécessaires pour établir une taxonomie au sein d’une organisation.

Après avoir défini ce qu’est la taxonomie, soit une aide au repérage de l’information qui établit le portrait de concepts abstraits, reflétant les différentes formes que peut prendre la connaissance, sous forme tangible ou intangible.

Elle développe son argument autour des compétences de base nécessaires pour mettre en place cette dernière : techniques d’analyse, de condensation, de recherche, connaissance du catalogage et des systèmes de classification, capacité de synthèse et connaissance des principes du vocabulaire contrôlé, des thésaurus et de l’indexation. Elle signale que les professionnels de l’information possèdent ces savoir-faire et qu’ils sont transférables dans le cadre de la création d’une taxonomie, quel que soit son type : taxonomie à plat (sans relation entre les catégories), taxonomie hiérarchique (architecture en arborescence), réseau de taxonomies (architecture complexe composée de nœuds ayant plus d’une relation parentale) ou taxonomie à facette (ex. : les métadonnées).

De plus, les professionnels de l’information possèdent des compétences interpersonnelles comme l’écoute, l’usage des entrevues et la capacité de s’exprimer efficacement à l’oral comme à l’écrit, qui sont indispensables.

Elle conclut que malgré des désavantages des méthodes traditionnelles en taxonomie, les professionnels de l’information ont leur place dans le domaine des taxonomies du savoir qui consiste à représenter la réalité de ce dernier au sein d’une organisation et à aider les clients à identifier et repérer l’information selon leurs besoins spécifiques.

 


Weinberger, David. 2005. Taxonomies to tags : from trees to piles of leaves. Release 1.0, vol. 23, no 2, février 2005. En ligne < http://downloads.oreilly.com/radar/r1/02-05.pdf >

 Note sur l’auteur et la publication

David Weinberger est un technologue spécialiste de l’Internet (il possède un doctorat en philosophie). Écrivain, chroniqueur, il enseigne The web difference à la faculté de droit de Harvard conjointement avec un autre professeur. Il s’intéresse particulièrement aux taxonomies, aux ontologies et aux métadonnées et comment les principes de base de l’organisation des choses du monde sont en train d’évoluer.[1]

 Release 1.0 est une publication numérique éditée par Esther Dyson depuis 1983, acquise par O’Reilly en 2006, le bulletin de nouvelles a été renommé Release 2.0 (http://radar.oreilly.com/r2/ ). Elle se spécialise dans l’observation de l’évolution des technologies de l’information.

 Résumé

Cet article d’une trentaine de pages évoque l’évolution du concept de taxonomie en tant qu’organisation du savoir depuis Aristote jusqu’à nos jours avec l’émergence de l’indexation sociale : «The idea that knowledge is shaped like a tree is perhaps our oldest knowledge about knowledge».

Il illustre les définitions, avantages, inconvénients de trois types de taxonomies : la hiérarchie, les facettes et les étiquettes (tags), par des exemples d’usage et de choix stratégiques de différents gros joueurs dans le monde Internet (fournisseurs de services ou de logiciels). Commençant par aborder la classification de Dewey, il présente le répertoire de Yahoo !, le choix de Corbis pour le vocabulaire contrôlé, l’automatisation de la catégorisation de ClearForest, l’OSA Foundation, Endeca et Siderean pour l’usage des facettes, del.icio.us, Flickr, Wikipedia, Frassle et Technorati sur l’usage des étiquettes (tags) et de l’indexation sociale (folksonomie).

Il conclut que l’utilisation des étiquettes (tags) est une révolution et force l’innovation en taxonomie. Par contre, il met en doute l’efficacité de l’usage de l’étiquetage à lui seul, sur le long terme, pour organiser le savoir et faciliter le repérage. L’étiquetage amène une perte du contexte qui nuit à la compréhension et au tri des concepts entre eux. Conscient, que l’on se trouve au début d’une transformation, il pose plusieurs questions sur l’avenir possible d’un usage conjoint des taxonomies telles qu’utilisées jusque là et cette nouvelle forme d’indexation. Il souligne que ces changements de paradigme offrent de nouvelles opportunités pour une nouvelle industrie dont, notamment, des experts de contenu (spécialistes en schémas de relations et de vocabulaire contrôlé), des courtiers en tags (fournissant grappes d’étiquettes reliées entre elles, outils d’automatisation, outils d’étiquetage sur la base d’abonnements) et des fournisseurs services de forages de données pourront tirer profit.


[1] Source : David Weinberger – Berkman Center. En ligne http://cyber.law.harvard.edu/people/dweinberger (consulté le 12 octobre 2008, page mise à jour le 27 mars 2008)

 

Hedden, Heather. 2008. Semantic tagging increases findability. EContent, vol. 31, no 8, octobre 2008 : p. 38-43.

Note sur l’auteur et la publication

Heather Hedden est spécialiste en taxonomie avec Viziant Corporation à Boston. Elle est également consultante, Hedden Information Management, et enseigne dans le cadre d’ateliers de formation continue au Simmons College School of Library and Information Science.

 Le magazine EContent se spécialise dans l’information concernant le contenu numérique : «essential reading for executives and professionals involved in content creation, management, acquisition, organization, and distribution in both commercial and enterprise environments

 Voir aussi :

Hedden, Heather. 2008. Taxonomy tool roundup. EContent, avril 2008 : p.40-44. Disponible en ligne via Maestro pour les étudiant de l’UdeM.

Hedden, Heather. 2008. Better living through taxonomies. Digital Web Magazine, 5 février 2008. En ligne <http://www.digital-web.com/articles/better_living_through_taxonomies >

 Résumé

Cet article nous présente l’émergence d’une nouvelle notion qui se répand dans l’industrie spécialisée dans les technologies de l’information le «semantic tagging». Plusieurs moyens aident à trouver l’information : l’indexation selon un vocabulaire contrôlé, l’architecture de l’information (navigabilité), moteurs de recherche, les signets et l’indexation sociale. Chacune de ces méthodes a ses propres limites. Issu de nouvelles techniques et outils développés dans le contexte très compétitif de l’industrie de l’information, le «semantic tagging» est compris selon plusieurs définitions. Ce concept est identifié dans trois secteurs : l’indexation, l’extraction de l’information et l’indexation sociale.. 

Pour certains, il n’y a rien de nouveau là : il s’agit d’attribuer des mots issus d’un vocabulaire contrôlé, par des professionnels, à certains contenu, l’aspect sémantique étant apporté par le fait que l’opération est effectuée par un être humain. Pour d’autres, ce qui distingue l’indexation sémantique de la forme traditionnelle de l’indexation par sujet, c’est que le processus se concentre sur les concepts à l’intérieur d’un document plutôt que sur le document en tant que globalité. Dans le monde de l’extraction de l’information, les nouvelles technologies telles que la catégorisation automatique ou l’analyse textuelle automatisée relèveraient du «semantic tagging» intégré aux moteurs de recherche. Enfin, du côté de l’indexation sociale, l’étiquetage distribué et relié en réseau à des synonymes ou à une carte standardisée de sujets constitue un service de «semantic tagging».

L’auteure conclut que le «semantic tagging» peut être défini comme l’indexation pour le web sémantique. Cela implique que les étiquettes (tags) sont reliées aux spécifications RDF (Resource Description Framework) ou au OWL (Web Ontology Language) du W3C. Bref, il ne s’agit pas simplement d’associer des sujets à des termes mais d’ajouter des métadonnées à propos des étiquettes apposées. Ceci donne une autre perspective à l’indexation sociale se résumant à traduire la popularité d’un terme et s’oriente davantage vers une facilitation du repérage de l’information (meilleure réponse possible).

  

Frendo, Ruth. 2007. Disembodied information : metadata, file plans, and the intellectual organisation of records. Records Management Journal, vol. 17, no 3 : p. 157-168

Note sur l’auteur et la publication

Ruth Frendo est une étudiante à l’Université de Glasgow où elle étudie dans le cadre d’un MSc en Information Management and Preservation.

 Le Records Management Journal traite de tous les aspects concernant la gestion des documents (dans le sens records management).

 Résumé

L’auteure fait un état de la question autour des pratiques contemporaines de gestion de l’information dans un contexte où cette dernière est de plus en plus isolée de son contexte et dématérialisée. La problématique se rapporte au traitement et à la circulation de l’information tout au long de son cycle de vie au sein d’une organisation. Alors qu’une entreprise a besoin de connaître le contexte de création de ses documents, de prouver qu’ils sont authentiques et non altérés, les métadonnées deviennent les témoins d’une traçabilité qui aide à établir ces faits dans un contexte numérique. Cependant, les métadonnées peuvent ne pas suffire pour établir le contexte de création puisque leur lien est fragile avec le document qu’elles décrivent ou qualifient. Mis à part l’avantage de pouvoir automatiser l’indexation, l’usage unique des métadonnées comporte des désavantages : la machine n’est pas aussi intelligente qu’on le souhaiterait (elle ne repère pas les ambiguïtés, ne comprend pas les concepts, ni les liens entre ceux-ci par elle-même) d’où la nécessité d’une taxonomie pour structurer les données et reconnaître le degré de profondeur d’un concept. Cependant, même une taxonomie ne s’avère pas suffisante pour révéler le contexte de création d’une information ce qui est nécessaire pour une information organique et l’est moins pour une information ayant fait l’objet d’une publication où le lien de propriété intellectuelle est plus facilement identifiable. Les métadonnées sont pertinentes quand l’information est un produit de consommation et un outil de marketing, mais le sont-elles pour la gestion de l’information ? En conclusion, les métadonnées sont pratiques d’usage et sans doute moins coûteuses à mettre en place. Leur implantation est viable à court terme. Mais, elles ne peuvent totalement remplacer le rôle d’un plan de classification dont l’objectif est d’aider à planifier le cycle de vie et mettre en contexte l’information reçue et créée par les entreprises dans le cadre de leurs activités : ce qui est important au présent comme au futur pour une saine gestion et préserver la signification de l’information.

 Conclusion

Les articles retenus présentaient des points de vue complémentaires et différents sur le concept de taxonomie.

 Les professionnels de l’information ont d’importants atouts pour prendre leur place dans le domaine de la taxonomie. En effet, cette dernière n’est pas simplement un outil technique de structuration de l’information ajouté aux commodités possibles d’un site web, tel que les professionnels en technologies de l’information ou les ergonomes ont tendance à l’utiliser ou le comprendre. Une taxonomie peut être essentielle pour aider l’utilisateur à trouver l’information dont il a besoin, même s’il ne sait pas exactement ce qu’il cherche. Exercé à organiser la complexité du savoir, à comprendre les questionnements et les attentes des utilisateurs, ainsi que l’ambiguïté des termes, les professionnels de l’information sont bien placés pour être les interlocuteurs privilégiés dans le cadre de la mise en place d’une taxonomie pour le système d’information d’une entreprise conjointement avec les autres professionnels et les utilisateurs.

 Outil de repérage aux multiples visages et toujours en évolution, la taxonomie peut également être un outil de marketing, comme nous l’a montré l’article sur la segmentation stratégique des marchés ou l’utilisation des étiquettes pour exprimer ou repérer la popularité d’un terme et donner plus de visibilité à certaines informations. Dans le mouvement de dématérialisation de l’information (contenu séparé du support mais aussi de plus en plus décontextualisé), la taxonomie permet de maintenir des liens entre différents concepts ou au sein d’un même concept et, donc, une meilleure compréhension de l’information et de sa validité.

 Cependant, en s’étendant en dehors du périmètre contrôlé d’un site web ou d’une interface utilisateur, l’usage d’une taxonomie seule n’est pas suffisant pour retracer l’authenticité, la validité ou témoigner de l’existence originelle et intentionnelle de cette information. Si appliquée à une information organique (créée dans le cadre des activité d’une entreprise), une taxonomie doit être accompagnée d’un plan de classification calqué sur les activités de l’entreprise concernée.

 Ce que nous retenons, c’est qu’il est nécessaire de rester conscient qu’aucune taxonomie n’est neutre, ni n’est destinée à être objective. Dans le cadre particulier d’une entreprise, nous ne nous inscrivons pas dans une perspective humaniste et universelle de l’organisation du savoir. Nous savons qu’une taxonomie révèle et doit refléter la culture de la société ou d’une organisation. Elle se doit de coller à la réalité qu’elle représente en répondant à des objectifs précis. L’information n’est pas organisée pour la beauté de l’exercice, une taxonomie répond à des fins qu’il est bon d’identifier.

 La taxonomie est un outils complémentaire à la recherche plein texte, puisqu’elle permet de plus rapidement identifier les concepts et d’éviter les ambiguïtés, ce que ne permet pas la recherche plein texte à elle seule. Une taxonomie qui mixte hiérarchie et facette semble le plus efficace pour permettre de naviguer du global au spécifique et inversement. Les relations entre différents «silos», c’est-à-dire une navigation horizontale et transversale, permet de compenser quelque peu le risque de rester dans une trop grande spécificité, laissant croire à l’utilisateur que l’information n’existe pas ou n’est pas disponible à tort s’il s’engage dans une branche qui ne contient finalement pas l’information qu’il cherche.

Si l’indexation sociale laisse entrevoir d’autres possibilités et permet aux utilisateurs de s’approprier un contenu, l’intervention d’un contrôle et d’un cadre de référence n’en est pas moins important pour assurer une cohérence globale et répondre au besoin de base pour lequel le concept de taxonomie est né : permettre d’avoir une vue d’ensemble et faciliter le repérage de l’information particulièrement quand il faut gérer la complexité. Complexité qui s’accroît d’ailleurs d’autant avec la diversité des interprétations possibles et l’accroissement exponentiel de la quantité d’information disponible.

 Enfin, étant donné qu’un système d’information corporatif ne se limite pas à son intranet (compris en tant qu’information rendue disponible et partagée via un navigateur) mais intègre également les informations créées par et nourrissant des activités administratives, financières, légales et spécifiques à une entreprise, il est important de voir et réfléchir à la question de savoir si une taxonomie peut être ou est un outil valable, efficace et pertinent, à lui seul et à quelles conditions, pour organiser l’information organique et baliser son traitement tout au long de son cycle de vie, de sa création à son élimination ou son versement aux archives définitives, donc dans une perspective de conservation pérenne et à long terme. L’information organique aussi peut être et devrait être considérée comme un intrant et une source de savoir dans le cadre d’une gestion des connaissances, pour ne citer que cet exemple. Les enjeux et les points de vue de la documentation (trouver l’information pertinente) et de gestion (organiser l’information pour répondre à des obligations administratives, légales et financières) ne sont pas en compétition mais bien en complémentarité, particulièrement dans un contexte corporatif, tout en ayant chacun leurs exigences spécifiques. Dans le contexte du numérique, il devient d’autant plus pertinent et important pour les professionnels de l’information de connaître à tout le moins les bases régissant ces différents aspects concernant l’information et les ressources informationnelles que l’on aura à gérer.


Recommandations

Dans notre exploration des articles, nous n’avons volontairement pas insisté sur les logiciels ou applications qui intègrent, aident à la création manuelle ou permettent l’automatisation ou l’importation d’une taxonomie. Il en existe plusieurs et l’industrie, comme le reste de l’industrie des technologies de l’information, est en constante évolution. Chaque application répond à des besoins et des objectifs différents (applications dédiées, portails, fournisseurs de services, etc.). L’évaluation de chaque logiciel ou service doit s’effectuer en fonction de besoins précis.

 Pour information, voici quelques joueurs et produits parmi les plus répandus pour développer des taxonomies personnalisées manuellement (Hedden, avril 2008) : MultiTes Pro (www.multites.com), Term Tree (www.termtree.com.au), TCS-10 (www.webchoir.com).

 Une taxonomie doit, entre autres, :

         Être collée à la réalité des besoins informationnels des utilisateurs et à la culture de l’entreprise où elle sera implantée .

         Être homogène et cohérente : il n’est pas idéal de mêler produits et fonctions par exemple. Dans ce cas, l’un peut être une des facettes de l’autre mais non se retrouver au même niveau.

         Être évolutive : l’information est comme un organisme vivant, elle évolue. Les grandes classes doivent être suffisamment larges pour permettre aux catégories inférieures de croître tout en évitant une trop grande profondeur, si possible (ergonomiquement, cela impliquerait trop de clics et découragerait le furetage).

-    Attention aux chevauchements d’une catégorie à l’autre, cela engendre un risque d’ambiguïté ;

         Correspondre au vocabulaire utilisé par les utilisateurs. Dans le cas d’un intranet, il faut repérer la terminologie utilisée et à mettre en valeur pour assurer que les employés parlent le même langage et se comprennent les uns les autres : si l’on arrive à déterminer une base commune la communication est facilitée d’un département à l’autre. D’un autre côté, identifier des experts de contenu, pour les unités qui utilisent un vocabulaire très spécifique, est indispensable pour s’entendre la définition d’un terme et valider s’il s’agit bien du concept tel que compris et utilisé. Cela permet, de plus, d’intégrer plus rapidement les nouveaux employés.

         Ne pas être utilisée comme seul moyen d’organisation (soit en tant que métadonnées, essentiellement de description et par sujet) de l’information au sein d’un système d’information corporatif. L’implantation d’une taxonomie ne dispense pas de la pertinence d’utiliser un cadre de classification en fonction des activités de l’entreprise afin d’assurer une gestion cohérente et permettre de faire une transition plus facile entre les besoins à court terme (décisions, compétitivité, production, etc.) et à long terme (patrimonial, scientifique et historique).

 En résumé, une taxonomie est bâtie sur la base d’un dialogue entre plusieurs interlocuteurs : utilisateurs, experts de contenus, professionnels des technologies de l’information et ergonomes avec l’appui des hauts responsables dans le respect de la vision, de la culture et des objectifs de l’entreprise.

 

Bibliographie

Côté, Jo Anne. 2005. Knowledge taxonomies. Information Outlook, vol.9, no 6, juin 2005 : p. 45-52

Frendo, Ruth. 2007. Disembodied information : metadata, file plans, and the intellectual organisation of records. Records Management Journal, vol. 17, no 3 : p. 157-168

Hedden, Heather. 2008. Semantic tagging increases findability. EContent, vol. 31, no 8, octobre 2008 : p. 38-43.Hedden, Heather. 2008. Taxonomy tool roundup. EContent, avril 2008 : p.40-44. Disponible en ligne via Maestro pour les étuidiants de l’UdeM.

Hedden, Heather. 2008. Better living through taxonomies. Digital Web Magazine, 5 février 2008. En ligne <http://www.digital-web.com/articles/better_living_through_taxonomies >

Weinberger, David. 2005. Taxonomies to tags : from trees to piles of leaves. Release 1.0, vol. 23, no 2, février 2005. En ligne < http://downloads.oreilly.com/radar/r1/02-05.pdf >


La notion de genre(s) : un outil transférable pour l’évaluation des documents numériques.

21 août 2009

J’ai fini par réaliser la suite de mon billet précédent Diplomatique et théorie des genres, complémentaires ?. Je me suis arrangée pour le faire dans le cadre d’un cours que j’ai suivi cet hiver (hiver 2009) à l’EBSI dans le cadre du cours blt6112- Évaluation des archives donné par Yvon Lemay.

Le résumé est le suivant :

Dans le contexte du numérique, un document ne se trouve plus être un objet fixe et stable. Les informations échangées via les technologies de l’information, avec l’usage de plus en plus répandu des outils collaboratifs et des réseaux sociaux, tendent à rapprocher les ressources produites, bien qu’inscrites sur un support, davantage de la tradition orale (non fixité apparente de la forme et du contenu), que de l’imprimé, qui a historiquement fixé les formes et le contenu en raison de l’héritage technique de la procédure d’impression. Après avoir rapidement parlé du concept de document, nous avons rapidement passé en revue quelques lectures sur le concept de genre. Nous avons ainsi constaté que les genres prenaient en compte le contenu mais aussi la structure rhétorique alliant forme et contenu selon une approche rappelant les bases de la diplomatique.

Référence bibliographique : Michel, Karin. 2009. La notion de genre(s) : un outil transférable pour l’évaluation des documents numériques. Travail réalisé dans le cadre du cours BLT6112 L’évaluation des archives. Montréal : Université de Montréal, École de bibliothéconomie et des sciences de l’information.

Vous trouverez le document complet sur le dépôt institutionnel de l’Université de Montréal, Papyrus, à l’adresse suivante : http://hdl.handle.net/1866/2938.

Et un des mes prochains thèmes  sera la taxonomie, d’autant plus qu’il s’agit de mon travail actuel : taxonomiste d’entreprise chez SNC-Lavalin.


Du rôle des archives et des archivistes [mis à jour]

25 juillet 2009

Mise à jour du 2009-07-25

Lien vers une pétition web contre la disparition de la Direction des archives de France par l’Association des Archivistes de France: http://www.petitionduweb.com/Disparition_de_la_Direction_des_archives_de_France-4434.html

——- Billet original 2008-08-02 ——-

Devant la tentative des archivistes français de mobiliser un débat autour de la disparition de la Direction des Archives de France, dans le cadre de la réforme générale des politiques publiques (RGPP) lancée par le gouvernement français actuel, je ne peux manquer de réagir.

Cependant, je ne veux pas mettre l’accent sur les enjeux avec les arguments traditionnels utilisés autour du patrimoine, de l’histoire, du maintien de la démocratie.

Je souhaite davantage souligner que :

- les archives sont collées au présent : il n’y a pas un seul jour où vous ne lisez pas, visionnez pas, n’écoutez pas de l’information issue des archives même si elle n’est pas présentée telle quelle.

Les archives nourrissent la créativité des écrivains, des cinéastes, des musiciens, des journalistes, etc. Sans archives, pas de rayonnement culturel à l’international ou même local. Elles alimentent les nouvelles, les débats de société, les documentaires riches en contenu, le discours des philosophes… et des politiques, eh oui.

- les archives servent l’avenir : que devient la recherche universitaire sans archives ?

Les archives ne sont pas que la matière première pour les historiens, mais aussi pour les sociologues, les psychologues et psychiatres, les chercheurs en médecine (avec la médecine généalogique mais aussi pour retracer les épidémies), les chercheurs scientifiques et les économistes (des chiffres hors contexte ne veulent rien dire), etc. N’a-t-on pas dernièrement soulevé le manque de compétitivité des universités françaises à l’international : comment voulez-vous qu’elles se positionnent sans corpus de recherche dûment accumulé ?

- les archives aident à l’efficacité administrative, que ce soit au niveau des entreprises privées que pour les organismes publics. Combien coûte un document qui n’est pas trouvé à temps en recherches vaines ? Combien de contrats manqués pour cause de manque de documentation ? ou de non respect des échéanciers ?

- les archives ou plutôt les réflexions sur le contenu des archives permettent de jeter les bases d’une cohésion sociale et de définir une identité. Les archives ne permettent pas seulement de contrôler la bonne gouvernance mais aussi à nourrir les semences de l’identité de demain. Ce qui est crucial dans cette époque de transition où les nationalismes hérités du 19e siècle, en occident, sont déchirés et tentent de se redéfinir dans le contexte de la mondialisation, de mobilité de la main-d’oeuvre et suite à la décolonisation.

- les archivistes peuvent apporter des réponses face aux nouvelles problématiques techniques et sociétales que posent les documents numériques. Les professionnels du document étudient depuis longtemps l’évolution des inscriptions du savoir et sont donc des vecteurs pour aider à définir une certaine stabilité dans ce tourbillon d’informations et de nouvelles technologies qui changent nos manières de voir et de faire.

Nous sommes donc loin des vieux papiers poussiéreux qui n’intéressent que quelques chercheurs et individus que certains s’imaginent excentriques. Réfléchissez-y.

À propos du débat :

Position officielle de l’Association des archivistes français (AAF), ici.

Texte de la pétition, ici. (format doc, ouvre une fenêtre de téléchagement). Version web (html), ici.


Ces super héros… les archivistes

9 mai 2009

Digital Preservation and Nuclear Disaster: An Animation


Rapport sur une stratégie de préservation et d’accès aux données scientifiques numériques

20 février 2009

Le groupe de travail sur les données numériques (Interagency Working Group on Digital Data- IWGDD) du comité du Conseil national en science et technologie des États-Unis (National Science and Technology Council’s (NSTC) Committee) a publié un rapport détaillant une stratégie pour promouvoir la conservation et l’accès aux données scientifiques numériques.

Texte du message original diffusé sur la liste ERECS-L par Mark Conrad (2009-02-20) :

«The Interagency Working Group on Digital Data (IWGDD) of the National Science and Technology Council’s (NSTC) Committee on Science has issued a report detailing a strategy to promote preservation of, and access to, digital scientific data. The National Archives and Records Administration (NARA) was one of the agencies that participated in the development of this report. Kenneth Thibodeau and Robert Chadduck of the Electronic Records Archives (ERA) Program Management Office served as NARA’s representatives to this group

Le rapport de l’Interagency Working Group on Digital Data (IWGDD) est intitulé :  Harnessing the Power of Digital Data for Science and Society.  Washington, janvier 2009. 

Pour y accéder : http://www.nitrd.gov/about/Harnessing_Power_Web.pdf


Suivre

Get every new post delivered to your Inbox.