Fil d'ariane

Icône

Se retrouver dans le dédale du savoir et de l'information – Pour une gestion structurée de l'information

Drawing a Blueprint for a Scalable Taxonomy

Article dans Information Management, numéro de mai/juin 2012 de l’ARMA sur les bases d’une taxonomie pour aider à déterminer les propriétés (donc métadonnées) du contenu dans un contexte de gestion des documents d’entreprise indépendamment de la plateforme technologique.

Voir illustration (fig. 2) d’une taxonomie axée sur le contenu lui-même inscrit sur un document générique dont la nature est de plus en plus précisée par rapport aux processus de la fonction d’entreprise qui ont amené à sa création.

L’important est effectivement de comprendre la relation entre une classe de documents et la nature  d’un document (type de document) – et d’éviter la confusion avec type de fichier qui constitue le support « physique » dans le domaine électronique. Réussir à comprendre et à jouer avec ces concepts de classe vs nature de document donne une grande flexibilité et la possibilité de beaucoup de variations tout en se rapportant à une structure sous contrôle et gérable.

L’héritage des caractéristiques est un atout majeur pour éviter le casse-tête d’une gestion trop granulaire d’une masse de contenu polymorphe.

Drawing a Blueprint for a Scalable Taxonomy

Publicités

Classé dans:Classification, Gestion de l'information, Métadonnées, Taxonomie

Architecture de l’information en marche

Il y a longtemps que je n’ai plus écrit sur ce blogue pour plusieurs raisons : dont l’apprentissage d’un métier et du fonctionnement d’une organisation assez complexe et particulière.

Mon rôle chez SNC-Lavalin me passionne. Ce n’est pas une situation « traditionnelle » pour quelqu’un qui a obtenu un diplôme en sciences de l’information, dans le sens de bibliothéconomie et archivistique, mais pas plus traditionnelle non plus, du point de vue des technologies de l’information.
Je suis entrée à l’emploi en tant que taxonomiste sans trop savoir ce que ça impliquait vraiment, pas plus que ceux qui m’ont embauché d’ailleurs. Ces circonstances aurait pu mener nulle part : pourquoi un département d’informatique embauche une taxonomiste alors qu’il n’y même pas encore de projet concret, et qu’en plus, les technologies de l’information gèrent certes les systèmes d’information, mais ne sont pas responsables de la qualité du contenu (l’information en tant que tellle) et en sont encore moins le propriétaire moral, administratif ou même légal.
J’ai d’ailleurs passé un certain temps à :
– essayer de trouver un moyen d’expliquer mon rôle à mes collègues alors même que j’avais moi-même besoin de le comprendre. J’avais saisi l’idée globale que je devais aider à trouver l’information. Là où ça devenait compliqué, c’était de donner un exemple concret et parlant parce qu’il n’y en avait pas encore. Le travail était encore à l’état de concept, d’hypothèses de mise en application, sans garantie d’obtenir les ressources, financières ou technologiques nécessaires pour la mise en pratique puisque, justement, comment obtenir un budget et une approbation pour quelque chose qui semble ésotérique et très peu relié aux affaires (puis ça change quoi dans la livraison de nos services ?). Donc, vous aurez compris que j’aussi dû…
– trouver un moyen d’expliquer mon rôle à des personnes, hors du département d’informatique, pour essayer de leur faire comprendre en quoi mon travail pourrait aider le leur et que j’avais besoin de leur collaboration, notamment m’aider à repérer le vocabulaire, le catégoriser et l’organiser de manière à aider à retrouver leur information et le savoir-faire inscrit, éparpillé et noyé dans une masse énorme d’information (une centaine de sites web de projets, presque une 10aine de millions de documents indexés par un moteur de recherche d’entreprise, dont des duplicatas obsolètes et non contrôlés, des fichiers temporaires non détruits, sans compter les répertoires réseaux de groupes ou personnels, les fichiers attachés dans les courriels, etc.). Si donc, la plupart saisissent l’idée, il leur est difficile de voir comment cela pourrait se concrétiser et surtout de savoir ce que ça implique… Et tant qu’on ne voit pas, on a des doutes. Je savais que ça marcherait potentiellement mais expliciter comment ça fonctionne et pourquoi ça fonctionne, sans pouvoir le démontrer concrètement, c’est autre chose.

Finissant par avoir moi-même besoin de voir concrètement comment cela pourrait se mettre en place, j’ai donc travaillé avec les moyens dont nous disposions, à savoir, en exploitant la technologie existante et les moyens du bord. Mon expérience passée en gestion de systèmes et mes connaissances en gestion de réseau m’ont permis d’avoir la crédibilité nécessaire pour obtenir la permission de faire des expérimentations avec le moteur de recherche, dans un environnement de développement (sans nuire pas au fonctionnement réel de tous les jours). J’ai ainsi pu apprendre à exploiter les fonctionnalités du moteur de recherche et commencer à utiliser, par exemple, la fonction thésaurus et les possibilités d’exploiter les métadonnées des documents pour fournir des résultats de recherche plus parlant et filtrables via des facettes… La taxonomie prenait une forme concrète. Il suffisait de montrer ce qu’il était possible de faire juste en exploitant ce qui existait déjà mais restait invisible.
Je suis ainsi devenue la spécialiste fonctionnelle du moteur de recherche. Le moteur de recherche plus utilisé et mieux perçu, mais ce n’est pas gagné… La masse informationnelle augmente très, très rapidement, donc se limiter à ce qui est fait spontanément n’est pas suffisant, il faut continuer à convaincre, à éduquer et … à faire ce qu’on peut avec les moyens du bord.

De fil en aiguille, le moteur de recherche ont été associé à moi. « On a de la difficulté à retrouver notre information, il paraît que vous pouvez nous aider… » Ces appels ont été de petites victoires qui m’ont aidé à avoir puis entretenir ma crédibilité, à me rassurer sur le fait de ne pas lâcher et que j’étais sur la bonne voie. Le moteur de recherche est devenu le moyen pour démontrer en quoi une information mieux gérée : catégorisée, décrite, filtrée, triée ou détruite quand nécessaire, facilite la trouvabilité.

Puis, environ six après mon embauche, le fonctionnement du département d’informatique a été revu et je me suis retrouvée dans une nouvelle équipe : l’architecture globale d’entreprise. Je ne me serais jamais trouvée au sein de cette équipe si je n’avais pas obtenu ces petites victoires, et, encore moins, si mon supérieur ne m’avait pas laissé faire, n’avait pas compris ce que j’essayais de faire et utilisé ces exemples lui-même dès qu’il en avait l’occasion pour démontrer qu’il était possible d’agir et que ce n’était pas seulement théorique.

De taxonomiste, je suis devenue spécialiste en architecture et je travaille en collaboration avec des architectes technologiques (ce que j’appelle la tuyauterie, la logistique de transport et de communication : le réseau de circulation des données et des informations), des architectes systèmes (la vue micro des systèmes : quels sont les processus pour réaliser une transaction, une action, quels sont les intrants et les extrants) et des architectes de données/information (comment les données passent d’un système à l’autre?, sont produites, par qui, quoi? contrôlées par qui, comment? y’en-a-t-elles qui sont communes entre les systèmes, ont-elles la même définition? etc.).

L’aventure est donc devenue collective et ensemble, particulièrement avec les architectes de système et de données, nous essayons de développer une pratique d’architecture de l’information d’entreprise, à savoir une architecture informatique qui intègre les données structurées (les bases de données, notamment) et les informations non structurées (les contenus web, les fichiers bureautiques, les dessins industriels – qui peuvent être des fichiers CAD mais sont de plus en plus des bases de données -).

Le travail du taxonomiste ou de l’architecte de l’information (pas dans le sens d’ergonome web) ne se limite donc pas au web mais pourrait trouver sa place en collaboration avec les architectes de données et de système. L’autre voie possible est d’aider à rendre les technologies sémantiques plus performantes : à titre d’analyste de résultats ou pour le développement de tels outils.
Le paradigme binaire 0-1 ou vrai-faux qu’offre l’informatique n’est plus suffisant. Les décideurs ne disposent que de peu de temps de réaction pour décider sur la base d’une masse d’information qui n’est humainement pas appréhendable aussi rapidement. L’environnement est complexe et change très vite, arriver avec un nombre limité d’options entre lesquelles il faut trancher n’est pas si évident, la réalité est bien plus dans les nuances que dans le noir et blanc. Les outils sémantiques sont donc une voie possible pour assister les prises de décisions et pour compléter les solutions traditionnelles de BI (business intelligence) qui fouillent des données structurées. Or ces outils sémantiques sont basés sur des modèles statistiques articulés sur des ontologies, des moyens qui restent donc mécaniques. Or rien n’est pertinent ou non pertinent en soi. Tout dépend du contexte et du sens. Une machine peut déterminer selon un modèle que cela est le plus probable, sans juger du résultat, mais cela ne veut pas dire que cela a du sens et est vrai… . L’humain reste l’élément capable de juger si cela est possible ou non. L’humain seul peut réintérroger le résultat et déterminer s’il est satisfaisant ou non. Ainsi, les taxonomistes qu’ils viennent de la linguistique, de l’informatique, l’ingénierie, des sciences pures ou de la bibliothéconomie ont donc une belle voie d’avenir devant eux.

Personnellement, j’aime mon travail parce que justement il n’y a pas de réponse toute prête et qu’il faut inventer. Les tâches que j’exécute se formulent au fur et à mesure que des besoins émergent ou des possibilités/obstacles se présentent.

Classé dans:Classification, Documents (accès, organisation, structuration), Métadonnées, Taxonomie, Web sémantique,

Taxonomie : petit dossier de lecture

Il y a quelques mois, je réalisais un dossier de lecture sur la taxonomie. Je ne savais pas alors que ce serait exactement ce que j’aurai comme métier… Ce sera intéressant de confronter mes premières impressions d’étudiantes avec mon expérience sur le terrain.

Voici donc le premier volet : le regard d’une étudiante.

Dossier : Taxonomie

Le but de ce dossier de lecture sur le concept de taxonomie est de faire un tour global sur le sujet pour comprendre son utilité, ses domaines d’applications et ses usages étendus au domaine de l’entreprise et dans l’univers numérique. Nous avons donc privilégié ici des articles qui apportaient des définitions et nous aidaient à cerner la variété possible de schémas et d’utilisation des taxonomies. Ceci nous a donné l’occasion de voir l’évolution de la terminologie mais également l’évolution interne à ce concept depuis quelques années avec notamment l’apparition de l’indexation sociale (ou folksonomie) et l’élargissement à partir du domaine de la gestion des publications à la gestion de l’information globale à l’intérieur des entreprises. C’est-à-dire que l’usage de la taxonomie s’étend au-delà du périmètre d’un centre de documentation, d’une bibliothèque, d’un catalogue ou même de la navigabilité au sein d’un site internet, elle peut s’appliquer aussi à l’ensemble de l’organisation des ressources informationnelles d’une entreprise (soit l’information créée à des fins de publication et de diffusion et l’information créée dans le cadre des activités d’une entreprise).

Le premier article : Knowledge taxonomies, écrit par Jo Anne Côté de l’Université McGill, en 2005, évoque le rôle des professionnels en information dans la création et l’usage des taxonomies.

Le deuxième : Taxonomies to tags : from tree to piles of leaves, de David Weinberger, nous parle des origines de la taxonomie jusqu’à l’usage des étiquettes (tags), de nos jours, pour organiser le savoir.

Le troisième : How semantic tagging increases findability, d’Heather Hedden, tout frais sorti de presse, évoque une évolution du vocabulaire pour désigner la taxonomie, l’extraction d’information et l’indexation au sein de l’industrie qui utilise et vend ce genre de services.

Enfin, le dernier article, mais non le moindre, Disembodied information, de Ruth Frendo, évoque la perspective de la taxonomie dans un contexte de gestion de l’information corporative dans sa globalité et de sa complémentarité avec les plans de classification (dans le sens archivistique du terme : organisation selon les fonctions de l’entreprise et non des sujets), ce à quoi et les archivistes, et les bibliothécaires devraient veiller de concert.


Côté, Jo Anne. 2005. Knowledge taxonomies. Information Outlook, vol.9, no 6, juin 2005 : p. 45-52

Note sur l’auteur et la publication

Jo Anne Côté possède une maîtrise en bibliothéconomie et sciences de l’information de l’Université McGill. Elle était bibliothécaire à la référence à la McGill Music Library et la Reginald J.P. Dawson Library à Montréal, au moment de la rédaction de cet article.

 Information Outlook est une publication de la Special Libraries Association (SLA).

Résumé

Dans cet article, l’auteure met en valeur les compétences des professionnels de l’information qui sont utiles et nécessaires pour établir une taxonomie au sein d’une organisation.

Après avoir défini ce qu’est la taxonomie, soit une aide au repérage de l’information qui établit le portrait de concepts abstraits, reflétant les différentes formes que peut prendre la connaissance, sous forme tangible ou intangible.

Elle développe son argument autour des compétences de base nécessaires pour mettre en place cette dernière : techniques d’analyse, de condensation, de recherche, connaissance du catalogage et des systèmes de classification, capacité de synthèse et connaissance des principes du vocabulaire contrôlé, des thésaurus et de l’indexation. Elle signale que les professionnels de l’information possèdent ces savoir-faire et qu’ils sont transférables dans le cadre de la création d’une taxonomie, quel que soit son type : taxonomie à plat (sans relation entre les catégories), taxonomie hiérarchique (architecture en arborescence), réseau de taxonomies (architecture complexe composée de nœuds ayant plus d’une relation parentale) ou taxonomie à facette (ex. : les métadonnées).

De plus, les professionnels de l’information possèdent des compétences interpersonnelles comme l’écoute, l’usage des entrevues et la capacité de s’exprimer efficacement à l’oral comme à l’écrit, qui sont indispensables.

Elle conclut que malgré des désavantages des méthodes traditionnelles en taxonomie, les professionnels de l’information ont leur place dans le domaine des taxonomies du savoir qui consiste à représenter la réalité de ce dernier au sein d’une organisation et à aider les clients à identifier et repérer l’information selon leurs besoins spécifiques.

 


Weinberger, David. 2005. Taxonomies to tags : from trees to piles of leaves. Release 1.0, vol. 23, no 2, février 2005. En ligne < http://downloads.oreilly.com/radar/r1/02-05.pdf >

 Note sur l’auteur et la publication

David Weinberger est un technologue spécialiste de l’Internet (il possède un doctorat en philosophie). Écrivain, chroniqueur, il enseigne The web difference à la faculté de droit de Harvard conjointement avec un autre professeur. Il s’intéresse particulièrement aux taxonomies, aux ontologies et aux métadonnées et comment les principes de base de l’organisation des choses du monde sont en train d’évoluer.[1]

 Release 1.0 est une publication numérique éditée par Esther Dyson depuis 1983, acquise par O’Reilly en 2006, le bulletin de nouvelles a été renommé Release 2.0 (http://radar.oreilly.com/r2/ ). Elle se spécialise dans l’observation de l’évolution des technologies de l’information.

 Résumé

Cet article d’une trentaine de pages évoque l’évolution du concept de taxonomie en tant qu’organisation du savoir depuis Aristote jusqu’à nos jours avec l’émergence de l’indexation sociale : «The idea that knowledge is shaped like a tree is perhaps our oldest knowledge about knowledge».

Il illustre les définitions, avantages, inconvénients de trois types de taxonomies : la hiérarchie, les facettes et les étiquettes (tags), par des exemples d’usage et de choix stratégiques de différents gros joueurs dans le monde Internet (fournisseurs de services ou de logiciels). Commençant par aborder la classification de Dewey, il présente le répertoire de Yahoo !, le choix de Corbis pour le vocabulaire contrôlé, l’automatisation de la catégorisation de ClearForest, l’OSA Foundation, Endeca et Siderean pour l’usage des facettes, del.icio.us, Flickr, Wikipedia, Frassle et Technorati sur l’usage des étiquettes (tags) et de l’indexation sociale (folksonomie).

Il conclut que l’utilisation des étiquettes (tags) est une révolution et force l’innovation en taxonomie. Par contre, il met en doute l’efficacité de l’usage de l’étiquetage à lui seul, sur le long terme, pour organiser le savoir et faciliter le repérage. L’étiquetage amène une perte du contexte qui nuit à la compréhension et au tri des concepts entre eux. Conscient, que l’on se trouve au début d’une transformation, il pose plusieurs questions sur l’avenir possible d’un usage conjoint des taxonomies telles qu’utilisées jusque là et cette nouvelle forme d’indexation. Il souligne que ces changements de paradigme offrent de nouvelles opportunités pour une nouvelle industrie dont, notamment, des experts de contenu (spécialistes en schémas de relations et de vocabulaire contrôlé), des courtiers en tags (fournissant grappes d’étiquettes reliées entre elles, outils d’automatisation, outils d’étiquetage sur la base d’abonnements) et des fournisseurs services de forages de données pourront tirer profit.


[1] Source : David Weinberger – Berkman Center. En ligne http://cyber.law.harvard.edu/people/dweinberger (consulté le 12 octobre 2008, page mise à jour le 27 mars 2008)

 

Hedden, Heather. 2008. Semantic tagging increases findability. EContent, vol. 31, no 8, octobre 2008 : p. 38-43.

Note sur l’auteur et la publication

Heather Hedden est spécialiste en taxonomie avec Viziant Corporation à Boston. Elle est également consultante, Hedden Information Management, et enseigne dans le cadre d’ateliers de formation continue au Simmons College School of Library and Information Science.

 Le magazine EContent se spécialise dans l’information concernant le contenu numérique : «essential reading for executives and professionals involved in content creation, management, acquisition, organization, and distribution in both commercial and enterprise environments

 Voir aussi :

Hedden, Heather. 2008. Taxonomy tool roundup. EContent, avril 2008 : p.40-44. Disponible en ligne via Maestro pour les étudiant de l’UdeM.

Hedden, Heather. 2008. Better living through taxonomies. Digital Web Magazine, 5 février 2008. En ligne <http://www.digital-web.com/articles/better_living_through_taxonomies >

 Résumé

Cet article nous présente l’émergence d’une nouvelle notion qui se répand dans l’industrie spécialisée dans les technologies de l’information le «semantic tagging». Plusieurs moyens aident à trouver l’information : l’indexation selon un vocabulaire contrôlé, l’architecture de l’information (navigabilité), moteurs de recherche, les signets et l’indexation sociale. Chacune de ces méthodes a ses propres limites. Issu de nouvelles techniques et outils développés dans le contexte très compétitif de l’industrie de l’information, le «semantic tagging» est compris selon plusieurs définitions. Ce concept est identifié dans trois secteurs : l’indexation, l’extraction de l’information et l’indexation sociale.. 

Pour certains, il n’y a rien de nouveau là : il s’agit d’attribuer des mots issus d’un vocabulaire contrôlé, par des professionnels, à certains contenu, l’aspect sémantique étant apporté par le fait que l’opération est effectuée par un être humain. Pour d’autres, ce qui distingue l’indexation sémantique de la forme traditionnelle de l’indexation par sujet, c’est que le processus se concentre sur les concepts à l’intérieur d’un document plutôt que sur le document en tant que globalité. Dans le monde de l’extraction de l’information, les nouvelles technologies telles que la catégorisation automatique ou l’analyse textuelle automatisée relèveraient du «semantic tagging» intégré aux moteurs de recherche. Enfin, du côté de l’indexation sociale, l’étiquetage distribué et relié en réseau à des synonymes ou à une carte standardisée de sujets constitue un service de «semantic tagging».

L’auteure conclut que le «semantic tagging» peut être défini comme l’indexation pour le web sémantique. Cela implique que les étiquettes (tags) sont reliées aux spécifications RDF (Resource Description Framework) ou au OWL (Web Ontology Language) du W3C. Bref, il ne s’agit pas simplement d’associer des sujets à des termes mais d’ajouter des métadonnées à propos des étiquettes apposées. Ceci donne une autre perspective à l’indexation sociale se résumant à traduire la popularité d’un terme et s’oriente davantage vers une facilitation du repérage de l’information (meilleure réponse possible).

  

Frendo, Ruth. 2007. Disembodied information : metadata, file plans, and the intellectual organisation of records. Records Management Journal, vol. 17, no 3 : p. 157-168

Note sur l’auteur et la publication

Ruth Frendo est une étudiante à l’Université de Glasgow où elle étudie dans le cadre d’un MSc en Information Management and Preservation.

 Le Records Management Journal traite de tous les aspects concernant la gestion des documents (dans le sens records management).

 Résumé

L’auteure fait un état de la question autour des pratiques contemporaines de gestion de l’information dans un contexte où cette dernière est de plus en plus isolée de son contexte et dématérialisée. La problématique se rapporte au traitement et à la circulation de l’information tout au long de son cycle de vie au sein d’une organisation. Alors qu’une entreprise a besoin de connaître le contexte de création de ses documents, de prouver qu’ils sont authentiques et non altérés, les métadonnées deviennent les témoins d’une traçabilité qui aide à établir ces faits dans un contexte numérique. Cependant, les métadonnées peuvent ne pas suffire pour établir le contexte de création puisque leur lien est fragile avec le document qu’elles décrivent ou qualifient. Mis à part l’avantage de pouvoir automatiser l’indexation, l’usage unique des métadonnées comporte des désavantages : la machine n’est pas aussi intelligente qu’on le souhaiterait (elle ne repère pas les ambiguïtés, ne comprend pas les concepts, ni les liens entre ceux-ci par elle-même) d’où la nécessité d’une taxonomie pour structurer les données et reconnaître le degré de profondeur d’un concept. Cependant, même une taxonomie ne s’avère pas suffisante pour révéler le contexte de création d’une information ce qui est nécessaire pour une information organique et l’est moins pour une information ayant fait l’objet d’une publication où le lien de propriété intellectuelle est plus facilement identifiable. Les métadonnées sont pertinentes quand l’information est un produit de consommation et un outil de marketing, mais le sont-elles pour la gestion de l’information ? En conclusion, les métadonnées sont pratiques d’usage et sans doute moins coûteuses à mettre en place. Leur implantation est viable à court terme. Mais, elles ne peuvent totalement remplacer le rôle d’un plan de classification dont l’objectif est d’aider à planifier le cycle de vie et mettre en contexte l’information reçue et créée par les entreprises dans le cadre de leurs activités : ce qui est important au présent comme au futur pour une saine gestion et préserver la signification de l’information.

 Conclusion

Les articles retenus présentaient des points de vue complémentaires et différents sur le concept de taxonomie.

 Les professionnels de l’information ont d’importants atouts pour prendre leur place dans le domaine de la taxonomie. En effet, cette dernière n’est pas simplement un outil technique de structuration de l’information ajouté aux commodités possibles d’un site web, tel que les professionnels en technologies de l’information ou les ergonomes ont tendance à l’utiliser ou le comprendre. Une taxonomie peut être essentielle pour aider l’utilisateur à trouver l’information dont il a besoin, même s’il ne sait pas exactement ce qu’il cherche. Exercé à organiser la complexité du savoir, à comprendre les questionnements et les attentes des utilisateurs, ainsi que l’ambiguïté des termes, les professionnels de l’information sont bien placés pour être les interlocuteurs privilégiés dans le cadre de la mise en place d’une taxonomie pour le système d’information d’une entreprise conjointement avec les autres professionnels et les utilisateurs.

 Outil de repérage aux multiples visages et toujours en évolution, la taxonomie peut également être un outil de marketing, comme nous l’a montré l’article sur la segmentation stratégique des marchés ou l’utilisation des étiquettes pour exprimer ou repérer la popularité d’un terme et donner plus de visibilité à certaines informations. Dans le mouvement de dématérialisation de l’information (contenu séparé du support mais aussi de plus en plus décontextualisé), la taxonomie permet de maintenir des liens entre différents concepts ou au sein d’un même concept et, donc, une meilleure compréhension de l’information et de sa validité.

 Cependant, en s’étendant en dehors du périmètre contrôlé d’un site web ou d’une interface utilisateur, l’usage d’une taxonomie seule n’est pas suffisant pour retracer l’authenticité, la validité ou témoigner de l’existence originelle et intentionnelle de cette information. Si appliquée à une information organique (créée dans le cadre des activité d’une entreprise), une taxonomie doit être accompagnée d’un plan de classification calqué sur les activités de l’entreprise concernée.

 Ce que nous retenons, c’est qu’il est nécessaire de rester conscient qu’aucune taxonomie n’est neutre, ni n’est destinée à être objective. Dans le cadre particulier d’une entreprise, nous ne nous inscrivons pas dans une perspective humaniste et universelle de l’organisation du savoir. Nous savons qu’une taxonomie révèle et doit refléter la culture de la société ou d’une organisation. Elle se doit de coller à la réalité qu’elle représente en répondant à des objectifs précis. L’information n’est pas organisée pour la beauté de l’exercice, une taxonomie répond à des fins qu’il est bon d’identifier.

 La taxonomie est un outils complémentaire à la recherche plein texte, puisqu’elle permet de plus rapidement identifier les concepts et d’éviter les ambiguïtés, ce que ne permet pas la recherche plein texte à elle seule. Une taxonomie qui mixte hiérarchie et facette semble le plus efficace pour permettre de naviguer du global au spécifique et inversement. Les relations entre différents «silos», c’est-à-dire une navigation horizontale et transversale, permet de compenser quelque peu le risque de rester dans une trop grande spécificité, laissant croire à l’utilisateur que l’information n’existe pas ou n’est pas disponible à tort s’il s’engage dans une branche qui ne contient finalement pas l’information qu’il cherche.

Si l’indexation sociale laisse entrevoir d’autres possibilités et permet aux utilisateurs de s’approprier un contenu, l’intervention d’un contrôle et d’un cadre de référence n’en est pas moins important pour assurer une cohérence globale et répondre au besoin de base pour lequel le concept de taxonomie est né : permettre d’avoir une vue d’ensemble et faciliter le repérage de l’information particulièrement quand il faut gérer la complexité. Complexité qui s’accroît d’ailleurs d’autant avec la diversité des interprétations possibles et l’accroissement exponentiel de la quantité d’information disponible.

 Enfin, étant donné qu’un système d’information corporatif ne se limite pas à son intranet (compris en tant qu’information rendue disponible et partagée via un navigateur) mais intègre également les informations créées par et nourrissant des activités administratives, financières, légales et spécifiques à une entreprise, il est important de voir et réfléchir à la question de savoir si une taxonomie peut être ou est un outil valable, efficace et pertinent, à lui seul et à quelles conditions, pour organiser l’information organique et baliser son traitement tout au long de son cycle de vie, de sa création à son élimination ou son versement aux archives définitives, donc dans une perspective de conservation pérenne et à long terme. L’information organique aussi peut être et devrait être considérée comme un intrant et une source de savoir dans le cadre d’une gestion des connaissances, pour ne citer que cet exemple. Les enjeux et les points de vue de la documentation (trouver l’information pertinente) et de gestion (organiser l’information pour répondre à des obligations administratives, légales et financières) ne sont pas en compétition mais bien en complémentarité, particulièrement dans un contexte corporatif, tout en ayant chacun leurs exigences spécifiques. Dans le contexte du numérique, il devient d’autant plus pertinent et important pour les professionnels de l’information de connaître à tout le moins les bases régissant ces différents aspects concernant l’information et les ressources informationnelles que l’on aura à gérer.


Recommandations

Dans notre exploration des articles, nous n’avons volontairement pas insisté sur les logiciels ou applications qui intègrent, aident à la création manuelle ou permettent l’automatisation ou l’importation d’une taxonomie. Il en existe plusieurs et l’industrie, comme le reste de l’industrie des technologies de l’information, est en constante évolution. Chaque application répond à des besoins et des objectifs différents (applications dédiées, portails, fournisseurs de services, etc.). L’évaluation de chaque logiciel ou service doit s’effectuer en fonction de besoins précis.

 Pour information, voici quelques joueurs et produits parmi les plus répandus pour développer des taxonomies personnalisées manuellement (Hedden, avril 2008) : MultiTes Pro (www.multites.com), Term Tree (www.termtree.com.au), TCS-10 (www.webchoir.com).

 Une taxonomie doit, entre autres, :

         Être collée à la réalité des besoins informationnels des utilisateurs et à la culture de l’entreprise où elle sera implantée .

         Être homogène et cohérente : il n’est pas idéal de mêler produits et fonctions par exemple. Dans ce cas, l’un peut être une des facettes de l’autre mais non se retrouver au même niveau.

         Être évolutive : l’information est comme un organisme vivant, elle évolue. Les grandes classes doivent être suffisamment larges pour permettre aux catégories inférieures de croître tout en évitant une trop grande profondeur, si possible (ergonomiquement, cela impliquerait trop de clics et découragerait le furetage).

–    Attention aux chevauchements d’une catégorie à l’autre, cela engendre un risque d’ambiguïté ;

         Correspondre au vocabulaire utilisé par les utilisateurs. Dans le cas d’un intranet, il faut repérer la terminologie utilisée et à mettre en valeur pour assurer que les employés parlent le même langage et se comprennent les uns les autres : si l’on arrive à déterminer une base commune la communication est facilitée d’un département à l’autre. D’un autre côté, identifier des experts de contenu, pour les unités qui utilisent un vocabulaire très spécifique, est indispensable pour s’entendre la définition d’un terme et valider s’il s’agit bien du concept tel que compris et utilisé. Cela permet, de plus, d’intégrer plus rapidement les nouveaux employés.

         Ne pas être utilisée comme seul moyen d’organisation (soit en tant que métadonnées, essentiellement de description et par sujet) de l’information au sein d’un système d’information corporatif. L’implantation d’une taxonomie ne dispense pas de la pertinence d’utiliser un cadre de classification en fonction des activités de l’entreprise afin d’assurer une gestion cohérente et permettre de faire une transition plus facile entre les besoins à court terme (décisions, compétitivité, production, etc.) et à long terme (patrimonial, scientifique et historique).

 En résumé, une taxonomie est bâtie sur la base d’un dialogue entre plusieurs interlocuteurs : utilisateurs, experts de contenus, professionnels des technologies de l’information et ergonomes avec l’appui des hauts responsables dans le respect de la vision, de la culture et des objectifs de l’entreprise.

 

Bibliographie

Côté, Jo Anne. 2005. Knowledge taxonomies. Information Outlook, vol.9, no 6, juin 2005 : p. 45-52

Frendo, Ruth. 2007. Disembodied information : metadata, file plans, and the intellectual organisation of records. Records Management Journal, vol. 17, no 3 : p. 157-168

Hedden, Heather. 2008. Semantic tagging increases findability. EContent, vol. 31, no 8, octobre 2008 : p. 38-43.Hedden, Heather. 2008. Taxonomy tool roundup. EContent, avril 2008 : p.40-44. Disponible en ligne via Maestro pour les étuidiants de l’UdeM.

Hedden, Heather. 2008. Better living through taxonomies. Digital Web Magazine, 5 février 2008. En ligne <http://www.digital-web.com/articles/better_living_through_taxonomies >

Weinberger, David. 2005. Taxonomies to tags : from trees to piles of leaves. Release 1.0, vol. 23, no 2, février 2005. En ligne < http://downloads.oreilly.com/radar/r1/02-05.pdf >

Classé dans:Documents (accès, organisation, structuration), Folksonomie, Métadonnées,

Les promesses de la gestion des archives audiovisuelles

Alors qu’il y a deux mois j’ignorais encore tout, ou presque, du monde audiovisuel, je me vois maintenant plongée dans un monde de progrès et réflexions prometteurs.

Je commencerai par mes impressions, toutes personnelles, et peut-être encore candides. Avec l’ère du numérique, je vois les documents audiovisuels passer du statut de documents à part, au statut de documents comme les autres. Non seulement les documents audiovisuels rentrent dans la famille de l’information à titre de document «comme un autre», mais ils y rentrent à titre d’objet de recherche inter et multidisciplinaire. Ceci est un atout. Il me semble à la lecture des écrits que j’ai lus jusque là, que les problématiques liées aux archives audiovisuelles vont permettre en retour d’alimenter les recherches en information textuelles dans un contexte numérique. C’est encore flou dans ma tête, mais c’est une intuition. Actuellement, les questions sur la gestion des archives audiovisuelles sont nourries par et adaptées des techniques traditionnelles de la bibliothéconomie mais aussi de l’archivistique et de l’informatique, et ce, tant au niveau conceptuel que technique.

Mais pour revenir sur des bases plus solides, je vous propose une synthèse de quelques lectures que j’ai faites dernièrement dans le cadre du projet de recherche sur réseau e-inclusion.

Qu’est-ce que des archives audiovisuelles ?

Les archives audiovisuelles, c’est un ensemble de documents et produits, publiés ou non, inscrits sur divers supports, de divers formats, tant au niveau analogique que numérique, qui ont évolué durant le temps et sont plus ou moins stables. Parmi les particularités de ces documents, on trouve :

  • Leur temporalité : à savoir qu’ils ne sont accessibles ou presque que selon leur rythme intrinsèque, on ne s’y repère pas par page mais en fonction d’un pointeur de temps. (voir Bachimont, 1998, à ce sujet).
  • Il s’agit d’une suite d’images fixes couplées avec du son, d’où le terme audio-visuel.

Comme le disent Olwen Terris — «[f]ilm and television archives are […] rich repositories of individual images» (Terris 1998, 54) — et Jorge Caldera-Serrano — «the moving image does not actually exist in television or film, but it is an optical effect called “retinal persistence” […], these images are actually still images. » (Caldero 2008, 18 ) — , ce qui permet d’espérer arriver à une reconnaissance des images ayant un haut niveau de complexité plus rapidement. L’impact sera de potentiellement obtenir de meilleurs outils pour l’indexation automatique au niveau descriptif du contenu.

Les images en mouvement font partie des documents qui permettent de témoigner de l’existence de certains faits et gestes. Mais il s’agit également d’un témoignage de l’interaction avec la société et ses influences (tant au niveau mental que sociétal) (Andreano 2007, 83).

D’ailleurs, l’UNESCO, en 1980, a officiellement reconnu que les films constituaient des documents qui avaient une valeur historique et qu’ils témoignaient d’une expression culturelle des peuples (Andreano 2007, 83) . Le jour officiel dédié à l’héritage audiovisuel a été lancé le 27 octobre 2007.

Pour le moment, il semblerait que les archives audiovisuelles sont une source de documentation sous-exploitée. Parmi les freins que l’on peut identifier à l’utilisation des images en mouvement en tant que source, on compte :

  • Le manque de crédibilité auprès de la communauté des historiens, notamment, mais ce serait en train de changer.
  • L’accessibilité difficile. Dans le monde des documents analogiques, les difficultés d’accès étaient indéniables (cela demande de posséder les matériel adéquat, par exemple) et donner accès à des images en mouvement reste souvent un exercice qui demande beaucoup de travail et de ressources matérielles, et donc d’argent. Le numérique est en passe de changer ça.
    Également point de vue accessibilité : il est impossible ou presque pour le moment de fureter et de naviguer librement à travers le contenu des films ou tout simplement des collections de films. Il y a très peu de description de contenu pour des raisons comme le temps et l’argent, encore une fois. Ce temps qui n’est pas investi dans la description retombe sur les épaules des chercheurs, ce qui freine eencore leur intérêt pour ce type de document (Andreano 2007, 84) .
    Ensuite, comme l’a écrit Bruno Bachimont dans plusieurs de ses écrits (1998, 2007), les images en mouvements sont des documents temporels linéaires qui forcent un rythme de lecture contrairement à un livre. Mais encore une fois, le numérique ouvre à de nouvelles possibilités (Bachimont 2007, Andreano 2007, Caldera-Serrano 2008).
    Et il existe encore d’autres freins qui ne me viennent pas à l’esprit maintenant, qui font obstacle l’accès à ces sources d’information.

Une des solutions pour les questions d’accessibilité sont l’indexation et la description. Sans être le seul à l’affirmer (je ne pourrais lister tout le monde), Andreano (2007) insiste sur le fait que la description est un lien essentiel pour l’accès, c’est d’ailleurs vrai pour tout type de document.

Décrire quoi et comment

Il faut une description et une indexation, mais à quel niveau ?
La première distinction se fait entre la manifestation du document dans son entièreté et sa globalité, et de son contenu. Actuellement, dans les catalogues, les films sont représentés par une description de type bibliographique associée à des sujets concernant l’ensemble de la production, et non d’une description détaillée plan par plan, ni par chapitre, comme on peut le trouver dans les DVD. Pour en apprendre plus sur le catalogage des images en mouvement, il est bon de se référer à Martha Yee (2007).

Cependant, tout comme il est possible maintenant de faire des recherches en plein texte dans les documents textuels, l’accessibilité aux documents audiovisuels plan par plan, dont le concept n’est pas nouveau et faisait partie de la mission et des objectifs d’origine de la National Film and Television Archive (NFTVA) à Londres en 1935, devrait pouvoir être davantage envisageable.

Les avantages de la description plan par plan sont les suivants (Terris 1998,54-55):

  • Cela évite au chercheur d’avoir à visionner le film en entier si à partir de la description on sait que ce type de séquence n’est pas dans ce film.
  • Les chercheurs sont plus intéressés à ce qu’ils entendent plutôt qu’à ce qu’ils verraient. Et Caldero (2008 ) de rajouter «[…] particulary for television material, most of the time sound can provide a higher informative content than audio-visual information.» (Caldero 2008, 17)
  • Cela ajoute de l’information utile pour documenter la production d’un film.
  • Cela augmente le nombre de points d’accès.
  • Terris indique que le «[s]hotlisting is largely a service provided by cataloguers for users who don’t know exactly what they want. (Terris, 1998 )»

    Quant à la profondeur ou le détail de la description, tout dépend des besoins des utilisateurs, donc de la collection et du fonds. De plus, «[g]iving a fuller description of content and providing in-depth indexing will “sell’ the film to a wider audience.» (Terris 1998, 57). Donc, cela augmente la valeur commerciale de la collection. Andreano souligne quant à lui qu’une image individuelle dans un film peut avoir plus de valeur que le film au complet (Andreano 2007, 85).
    Les deux auteurs signalent qu’un des désavantages majeur de la description plan par plan, c’est le temps, le manque de catalogueurs qualifiés et bien sûr l’argent (Terris 1998, Andreano 2007).

    Plusieurs moyens sont maintenant disponibles pour rendre l’indexation plus efficace et donc l’extraction d’information plus facile et rapide pour l’utilisateur (Andreano 2007, 85) :

  • l’automatisation à l’aide des nouvelles technologies, ce qui permet d’augmenter la productivité;
  • la folksonomie (participation des utilisateurs) et les descriptions en vocabulaire libre;
  • le vocabulaire contrôlé pour aider soutenir et guider indexeur et par conséquent, l’usager dans ses recherches;
  • la conjonction de la recherche plein texte, de l’indexation en vocabulaire libre par les catalogueurs professionnels comme le public, du vocabulaire contrôlé et des technologies en intelligence artificielle (reconnaissance vocale et d’images), elles-mêmes nourries et améliorées par le vocabulaire utilisé et produit dans une relation rétroactive différée.

Les promesses du numérique concernant l’indexation, les descriptions et l’extraction d’information

Les possibilités offertes par les progrès technologiques en extraction automatique d’information et en intelligence artificielle ne manqueront pas d’aider les gestionnaires de l’information à mieux répondre aux besoins des utilisateurs. La technologie ne remplacera pas l’intervention humaine nécessaire pour indexer ou décrire des choses et relations que les machines ne peuvent détecter correctement, notamment tout ce qui est conceptuel et symbolique. S’assurer de bien comprendre et de répondre adéquatement aux besoins des utilisateurs, seuls les humains peuvent le faire, car nous avons la capacité cognitive de faire des liens, particulièrement concernant les questions futures non prédictibles. Comme le dit Terris, fort de son expérience, «[…] human indexing intervention would be needed to make retrieval possible under the unspoken, sought after, terms.» (Terris 2001, 42)

À court-moyen terme, l’extraction automatique de contenu, la reconnaissance vocale, les recherches en biométrie et en reconnaissance d’image, sont autant de technologies qui iront et pourront supporter le travail des gestionnaires de l’information, en augmentant la productivité et l’efficacité au niveau descriptif du contenu. Le niveau contextuel, conceptuel et parfois plus subjectif dont certains utilisateurs ont besoin, demandera nécessairement une intervention humaine et plus souple, que ce soit pour faire évoluer les relations sémantiques en fonction de l’évolution de la société et des connaissances (une pré-coordonination, la création de thésaurus, d’ontologies, etc.) ou en fonction d’une demande toute nouvelle, qui vient d’émerger, donc dans le soutien à l’utilisateur «avec les moyens du bord» et l’aide de méthodes d’heuristiques acquises de par le savoir-faire et développées en fonction de sa propre expérience et en interaction directe avec l’utilisateur (davantage en post-coordination) .

Bibliographie

Andreano, K. 2007. The Missing Link : Content indexing, User Created Metadata, and Improving Scholarly Access to Moving Image Archives. The Moving Image 7-2 (Fall), p. 82-99

Ce texte est un bon article pour avoir un point de vue d’ensemble de la question des archives audiovisuelles concernant l’indexation et sur les avantages et inconvénients de chaque pratique : indexation automatique, indexation par les utilisateurs (folksonomie), indexation ou description en vocabulaire libre ou contrôlé, etc.

Caldera-Serrano, J. 2008. Changes in the management of information in audio-visual archives following digitization : Current and future outlook. Journal of Librarianship and Information Science 40-1 (March), p.13-20

Bachimont, B. 1998. Bibliothèques numériques audiovisuelles : des enjeux scientifiques et techniques. Document numérique 2, no 3-4.

Bachimont, B. 2007. Ingénierie des connaissances et des contenus : le numérique entre ontologies et documents. Paris: Hermès science publications.

Terris, O. 1998.There was this film about… The Case for the Shotlist. Journal of film preservation 56, p.54-57

Terris, O. 2001.What you Don’t See and Don’t Hear : Subject Indexing Moving Images. Journal of film preservation 62, p.40-43

Yee, M. M. 2007. Moving image cataloging : how to create and how to use a moving image catalog. Westport, Conn.: Libraries Unlimited. xiv, 273

Classé dans:Ère du numérique, Catalogage, Documents audiovisuels, Documents numériques, Folksonomie, Métadonnées, Web 2.0,

Application du Dublin Core aux images

Cataloguer les images fixes ou en mouvement est tout un défi en raison de leur particularité. Une image vaut mille mots… mais justement c’est trop…

Les recherches sont de plus en plus nombreuses sur ce sujet. En voici une dernièrement publiée par Logo Ariadne pour ceux qui s’intéressent aux images et aux métadonnées. «Towards an Application Profile for Images», Ariadne no 55, Avril 2008 : «Mick Eadie describes the development of the Dublin Core Images Application Profile Project recently funded through the JISC

Je ne commente pas, je n’ai pas eu (pris) le temps de le lire… ;-( …, mais je suis dans le dédale de la réflexion sur ce large, particulier et passionant domaine.

Classé dans:Images, Métadonnées, , , , ,

La Library of Congress et Flickr collaborent sur un même projet

Il s’agit de demander au public d’indexer des photos des années 1930-40 et 1910, tombées dans le domaine public, afin de nourir les métadonnées de ces mêmes photos dans la collection de la LoC.  

Une série d’articles traite du lancement de ce projet :

Flickr brings tagging to vintage images
Pilot project puts hundreds of public-domain pictures on photo-sharing site. In return, Library of Congress asks for tagging help.
Photos: Library of Congress uploads
By Daniel Terdiman, Staff Writer, CNET News.com. Published: January 17, 2008, 1:34 PM PST

Library of Congress Blog. My Friend Flickr: A Match Made in Photo Heaven
Posted on: January 16th, 2008 by Matt Raymond

Flickr to host Library of Congress photos
Posted by Stephen Shankland, CNET. January 16, 2008 1:57 PM PST

L’accès au projet lui-même sur Flickr : Le Projet pilote de la Bibliothèque du Congrès
Les albums de la LoC : photos de The Library of Congress

Classé dans:Documents numériques, Folksonomie, Images, Métadonnées, Utilisateurs

Collaborative tagging, folksonomies, distributed classification… Revue de la littérature

 Il n’y a pas à dire, mais c’est bien malgré moi que mes yeux s’arrêtent souvent sur des articles concernant l’indexation sociale, la folksonomie et autres synonymes dont je ne suis pas encore familière, faute d’avoir eu le temps de m’arrêter sur la question. Ainsi, je garde ces références pour consultation ultérieure et pour partager aussi avec ceux qui y portent intérêt.

Rien de mieux pour commencer une recherche que de faire une revue de la littérature. Et pourquoi partir de zéro quand une partie du travail a déjà été entamé…

Ainsi, le Library Student Journal, revue internationale basée à Buffalo (NY), dans son édition de février 2007, a publié l’article d’Edith Speller, intitulé Collaborative tagging, folksonomies, distributed classification or ethnoclassification: a literature review

dont voici le résumé original :

Tagging, folksonomy, distributed classification, ethnoclassification—however it is labelled, the concept of users creating and aggregating their own metadata is gaining ground on the internet. This literature review briefly defines the topic at hand, looking at current implementations and summarizing key advantages and disadvantages of distributed classification systems with reference to prominent folksonomy commentators.

After considering whether distributed classification can replace expert catalogers entirely, it concludes that distributed classification can make an important contribution to digital information organisation, but that it may need to be integrated with more traditional organisation tools to overcome its current weaknesses.

De plus, il sera intéressant de lire les commentaires qu’aura suscité l’article ici.

                             =================================

Dans le même ordre d’idée, j’ai affiché sur le blogue des étudiants de l’EBSI,  pour information, un billet sur l’initiave du Musée McCord, à Montréal, qui offre la possibilité aux visiteurs du site web, de créer leur propre indexation des collections selon des thématiques individuelles (circuits publics).

Classé dans:Classification, Folksonomie, Métadonnées, Web 2.0

Acquérir des archives originellement créées sur support numérique

C’est un des rôles qu’a ajouté la bibliothèque de Wellcome (Londres, Royaume-Uni) à son mandat.

 publie des articles, rédigés par les acteurs, eux-mêmes, de cette expérience:

1. Hilton, thompson. Collecting Born Digital Archives at the Wellcome Library. Ariadne 50 (janvier 2007).

2. Hilton, thompson. Further Experience in Collecting Borne Digital Archives at the Wellcome Library. Ariadne 53 (octobre 2007).

Ils parlent de comment ils se sont organisés, de quelles adaptions (au niveau de la culture d’entreprise et au niveau technologique) cela leur a demandé, avec quels outils ils ont fonctionné, du défi des métadonnées, des problèmes concrets qu’ils ont rencontré, etc.

Nous avons là leur point de vue au démarrage de l’expérience, puis après quelques mois de pratique. Un partage intéressant…

Classé dans:Acquisition, Archivistique, Documents numériques, Métadonnées, Préservation information numérique

Création d’un « Fichier d’Autorité International Virtuel » (VIAF).

La Bibliothèque nationale de France, la Bibliothèque du Congrès (USA) et la Bibliothèque nationale d’Allemagne, en collaboration avec OCLC, ont signés un accord afin de mettre en commun leurs fichiers d’autorité respectifs pour créer, un « Fichier d’Autorité International Virtuel » (VIAF).

Ce fichier constituera un guichet unique, sur le Web, libre d’accès et gratuit, pour les notices de référence sur les personnes, les collectivités, les lieux (notices dites « d’autorité »). D’autres partenaires seront appelés à rejoindre ce programme international.
Comme la Bibliothèque du Congrès et la Bibliothèque nationale d’Allemagne l’ont déjà fait, la BnF s’engage à fournir toutes les notices d’autorité de son catalogue BN-OPALE PLUS et à mettre à disposition les ressources humaines nécessaires à la bonne exécution du projet.

Cet accord est une reconnaissance internationale de la qualité du travail de tous les catalogueurs de la BnF. Il constitue une avancée de la francophonie dans le web sémantique. Ce fichier virtuel sera multilingue et pourra être utilisé par les moteurs de recherche du web comme un référentiel.

Fondé en 1967, OCLC (Online Computer Library Center) est un organisme de recherche à but non lucratif qui offre des services aux bibliothèques afin qu’elles puissent accroître leur accès à l’information mondiale tout en réduisant leurs coûts.

Source : communiqué de presse BNF du 4 octobre 2007

Classé dans:Catalogage, Métadonnées, Moteurs de recherche, Web sémantique

Karin Michel, M.S.I.
Architecte d’information et de données, Gouvernance de l’information et des données

M.S.I obtenue à l'École de bibliothéconomie et des sciences de l'information
Université de Montréal
Québec - Canada

Les propos tenus sur ce blogue sont des réflexions personnelles et n'engagent en rien mon employeur ou quelque personne que ce soit avec laquelle je travaille.

Intérêt en
gouvernance des données, architecture d'entreprise, modélisation de données, knowledge management, RIM, GID / GED, architecture de l'information et de données, ..., analyses de besoins, etc.
Logo AIIM SharePoint Practioner

Pages