Fil d'ariane

Icône

Se retrouver dans le dédale du savoir et de l'information – Pour une gestion structurée de l'information

L’intelligence artificielle et l’apprentissage machine sont les instruments d’un processus de curation et d’édition de sources d’information sélectionnées pour un but donné

Avec la grande excitation actuelle autour de l’apprentissage machine et de l’intelligence artificielle, il faut se rappeler que les algorithmes ne doivent pas se résumer pas à de l’analyse probabiliste mais qu’ils doivent être également orchestrés à l’aide de référentiels gérés et gouvernés pour structurer, extraire correctement l’information et y donner accès de façon contextualisée – je préfère cette notion à celle d’intelligente – : c’est l’humain qui prend des décisions intelligentes, l’information n’est pas intelligente en soi, ni la gestion automatisée de celle-ci – pas encore.

L’humain a la responsabilité de contrôler les biais de la quantité. Des éléments qualitatifs (qui ne s’assimilent pas au ‘sentiment analysis’) et extrinsèques aux algorithmes doivent aussi contribuer à la construction du contexte, et de là au savoir et/ou à la décision.

L’apprentissage machine et les analytiques textuelles sont avant tout des instruments pour aider à traiter la masse de données et d’informations disponibles, mais ne sont certainement pas un remplacement du jugement de l’humain pour en tirer de l’intelligence. Le but est d’accélérer le traitement des flux et des stocks d’information, l’humain doit apprendre à comprendre et utiliser correctement cet outil, être vigilant face aux promesses de « vérité », et veiller à ne pas se décharger de son rôle moral: c’est le résultat de la machine et des procédures donc je ne suis pas responsable… L’histoire pas si lointaine (ex: certains, selon des critères pré-établis, sont plus humains que d’autres, donc on peut les écarter, voire les exterminer…) nous a montré où l’instrumentalisation peut mener, que cela implique des machines ou non.

Pour le moment, l’intelligence artificielle ne peut que reproduire les schémas humains (voir *1) puisque le corpus qui est traité est un sous-ensemble de ce que l’humain a lui-même créé, sélectionné pour traitement, selon des modèles dessinés par ceux-ci en fonction d’un objectif soit scientifique, soit commercial, soit de surveillance.
Tout est toujours question de perspective. Le travail entourant les algorithmes, que ce soit dès l’entrée de données, la sélections des sources de données, le traitement et le nettoyage des données, est avant tout un travail d’édition et de curation parce que cela implique de privilégier certains scénarios et certaines hypothèses plutôt que d’autres. C’est le travail d’équipe d’individus de profils différents mais complémentaires.

Parmi les rôles requis ne se trouvent pas uniquement les scientifiques de données (les statisticiens, les actuaires, les économétristes, etc.)
mais aussi ceux qui participent également à la sélection des référentiels utiles, jugent de leur validité intrinsèque et extrinsèque, orchestrent les liens entre les sources d’information pour l’exploration, modélisent des structures de base pour que l’algorithme normalise et nettoie les entités structurelles,

d’où viennent ceux qui ont ces compétences?
Certains penseront informatique: gestion des bases de données, développeurs ETL, etc.
D’autres penseront intelligence d’affaire (BI).
Pourtant, il s’agit plus d’un état d’esprit que de compétences issues d’une formation académique.
Vous trouverez aussi d’excellents candidats auprès des métiers financiers (à la fin de chaque année financière une armada de champions Excel sont mobilisés pour nettoyer et arranger des sources financières pour consolider les comptes et compenser pour ce qui semble être des incohérences au moment de cet exercice), du développement des affaires …
ET des sciences de l’information
Aux États-Unis et dans le Canada anglophone, cette reconnaissance de compétence pour ces derniers est présente, mais l’est beaucoup moins au Québec par les francophones…

…. et ainsi permettre aux scientifiques de données de passer moins de temps à nettoyer les données et plus à les analyser et à bâtir des visualisations efficaces.

À ce jour, la machine n’est pas intelligente, elle respecte des scénarios scriptés par des humains, il ne faut pas l’oublier. Cela n’empêche pas de constater et d’apprécier sa puissance.

Il y a effectivement de quoi s’inquiéter (voir *2) si l’opacité concernant les scénarios privilégiés, justifiée au nom de la propriété intellectuelle, nuit à la compréhension des résultats et à la transparence des décisions, et empêche de connaître la portée des morceaux d’information qui sont jugés ‘pertinents’ d’être exposés ou non dans différents contextes et quelles sont les hypothèses retenues. Cependant, l’exclusion du droit d’accès au financement, aux assurances et autres profilages a précédé l’existence de l’intelligence artificielle; ce qui change, c’est la rapidité, le volume et l’automatisation (décision assistée par ordinateur) et le risque (cité plus haut) de désengagement moral et d’accentuation de la déshumanisation, via la rarification à l’extrême de la compassion, face à des situations qui entrainent l’exclusion et le déni d’accès à certains services sous prétexte de critères arbitraires qui classent les uns et les autres dans une catégorie ou une autre. L’arbitraire précède les algorithmes et est la source analogique de ces algorithmes, seulement maintenant cet arbitraire est traité automatiquement et en masse par des machines. Des mécanismes d’appel aux décisions devront être plus accessibles et facilités pour compenser l’absence de compassion. L’humain peut avoir de la compassion, pas la machine.

*1- http://ici.radio-canada.ca/nouvelle/1028772/intelligence-artificielle-assimilent-nos-prejuges-biais-langue-langage-humain

*2 – http://www.ledevoir.com/societe/science-et-technologie/492029/le-pouvoir-des-codes-la-main-invisible-des-algorithmes

Classé dans:Ère du numérique, Classification, Gestion de l'information, Knowledge Management

Moteurs de recherche : outils sous-exploités en entreprise (3)

Satisfaction vis à vis des moteurs de recherche d’entreprise

Plusieurs enquêtes auprès des entreprises (les sondages annuels de Findiwse, les sondages du Worldwide Intranet Challenge, et autres analyses effectuées par Forrester, Gilbane, etc.) indiquent des taux d’insatisfaction similaires (plus de 50% sont peu ou pas satisfaits de la fonctionnalité de recherche), peu importe la technologie de moteur de recherche implantée.

Les utilisateurs éprouvent les difficultés suivantes (selon l’enquête Findwise 2013):
– Où chercher et quoi chercher (difficulté à définir leur besoin de recherche et à savoir où se trouve l’information), ils n’ont même aucune idée si cette information est indexée ou non par le moteur de recherche ou s’ils se trouvent dans le bon système : pourquoi devraient-ils le savoir ?
=> cette difficulté pourrait être gérée par l’aggrégation d’informations issues de divers systèmes et de sources mixtes d’information (documentaire et transactionnelle aggrégée), technique qui serait valable pour certains processus. Une autre technique serait l' »accès unifié à l’information » dont la définition reste assez ambigüe (tendances identifiées et confirmées par Gartner* et Forrester* dans leurs analyses).

– Difficultés à identifier si les résultats de recherche sont pertinents étant donné que les métadonnées sont mal ou non gérées
=> Gestion de contenu, processus de publication, cadre de gouvernance des métadonnées sous frome de taxonomie ou de classification

– trop d’information, particulièrement, trop d’information redondante et non qualifiée (le contenu est-il validé par une quelconque autorité)
=> Gouvernance de l’information + processus de publication

Note : nous parlerons des moyens possibles (évoqués ci-haut) pour gérer ces problématiques dans des articles ultérieurs.

Pourquoi les utilisateurs ont-ils tant de mal à trouver l’information?

L’univers technologique toujours plus complexe et intriqué a particulièrement un impact en entreprise, notamment sur la localisation de l’information (où elle est stockée), son traitement et sa circulation. Les silos sont à la fois organisationnels et technologiques. Quand bien même, des efforts sont mis pour réduire les silos organisationnels non justifiés, il reste des barrières technologiques non négligeables, et ce, malgré l’évolution des connaissances en informatique. Les cycles commerciaux agressifs dont font l’objet les technologies ne font qu’exacerber les silos au lieu de les amoindrir. Chaque vendeur technologique cherche à s’attacher (dans le sens propre : rendre dépendante) sa part de marché.

Contexte numérique - Les silos technologiques

L’intégration entre les systèmes est loin d’être simple et peu coûteuse à réaliser malgré l’exitence de normes mondiales et de bonne pratiques reconnues. L’écosystème informationnel des entreprises se trouve donc aussi dispersé pour des raisons technologiques, et non uniquement en raison de la culture ou de la croissance (ex. par acquisition) d’une entreprise:
– Multiples applications
– Multiples dépôts d’information
– Interfaces non connectées, pas de cohésion de l’expérience utilisateur d’un espace à l’autre
– Terminologies différentes, dans l’interface (comme la navigation) mais aussi au niveau du contenu.

Il en résulte des frustrations, des pertes de temps, une augmentation des risques de décisions prises sur la base d’informations non mises à jour, non conformes, non fiables ou complètement oubliées (elles existent mais on ne le sait pas).

Ce que les travailleurs veulent, ce serait un accès unifié à l’information, tel qu’illustré ci-dessous. Les utilisateurs se moquent dans quelle technologie l’information est encapsulée, il veulent la trouver quand ils en ont besoin.

Contexte numérique - Accès unifié à l'information

Malgré une prise de conscience sur la nécessité d’avoir une stratégie globale de gestion de l’information pour améliorer les expériences utilisateurs concernant la capacité de trouver la bonne information au bon moment et la connaissance de l’impact sur la perte de productivité, très peu d’entreprises mettent cette activité dans leur liste de priorité. La raison principale étant la difficulté de prouver statistiquement et de manière comptable l’impact direct en terme de perte de contrat, perte de temps, hausse des coûts opérationnels, coûts liés aux contentieux, etc.

* Les entreprises comme IDC, Gartner et Forrester sont en somme comme les « Standard & Poors » ou autres organismes de notation des cotes de crédits des pays et entreprises dont les analyses influencent les prises de décisions dans le domaine des investissements dans les technologies de l’information et les bonnes pratiques en gestion de l’information avec une lecture très TI de la pratique de gestion de l’information. Cependant, au lieu de prendre cela comme une menace, autant savoir en tirer les bénéfices, puisque les décideurs sont habitués au vocabulaire de ces firmes, lorsque l’on veut défendre son dossier.

Bibliographie

– IDC. 2013. Unified Information Access: The Evolution of Search, Analytics and Business Intelligence. Webinaire diffusé le 2013-02-12
– Findwise. 2013. Enterprise Search & Findability Report 2013.
– Jane McConnell. 202. The Digital Workplace Trends.
– Gartner, Forrester : analyses sur les stratégies et les pratiques de gestion de l’information, etc.

Classé dans:Accès à l'information, Moteurs de recherche, ,

Moteurs de recherche : outils sous-exploités en entreprise (2)

… et méconnus ou pourquoi ça ne fonctionne pas comme Google sur Internet ?

L’illustration ci-dessous permet de comparer le contexte des moteurs de recherche pour Internet avec le contexte des moteurs de recherches implantés au sein des entreprises. Il s’agit d’une comparaison haut niveau qui démontre que les enjeux sont différents. Cependant, des stratégies mises en place pour le monde internet peuvent être transférables à l’interne pour obtenir de meilleurs résultats. Il y a également bien d’autres détails à prendre en compte dont nous parlerons dans d’autres billets.

La réalité des moteurs de recherche web comparée à celle des intranets.

Bibliographie

À titre indicatif, voici quelques sources qui ont fourni quelques éléments permettant cette synthèse, vous en trouverez d’autres sur le web ou via des groupes d’intérêts spécialisés. Cependant, l’essentiel de mes propos est basé sur mon expérience depuis les 3 ou 4 dernières années:

Kehoe, Miles. 2011?. Overview of Search Platform Vendors or Which Search Technology is Right for You? Présenté lors des ateliers pré-congrès du KMWorld 2011 / Enterprise Search Summit Fall 2011 à Washington (selon mes souvenirs).
Findwise. 2013. Enterprise Search and Findability Survey 2012.
– n.d. 2012. Improving Search Findability at Ernst & Young. Présenté à l’Enterprise Search Summit – Spring 2012.

Classé dans:Accès à l'information, Moteurs de recherche, ,

Moteurs de recherche : outils sous-exploités en entreprise (1)

Cet article ouvre une série d’articles qui auront pour sujet l’usage des moteurs de recherche en entreprise. La documentation sur ce sujet uniquement, et en français particulièrement, est rarissime. Le point de vue ne sera pas technologique (bien qu’il soit inévitable de l’aborder) mais du point de vue des besoins d’affaires dans un contexte d’intranet : Que veut-on réaliser au juste? Pour quel processus d’affaire?

Intranet est ici compris dans un sens large. Il ne s’agit pas seulement du site web interne de publication d’une entreprise, destiné à joindre ses employés. J’inclus dans la notion d' »intranet » (réseau interne de l’entreprise) tous les éléments de circulation de l’information numérique d’une entreprise. Il ne s’agit donc pas de la compréhension répandue de l’intranet. Cela comprend:
– les répertoires réseaux,
– les sites web ou systèmes de gestion documentaire/de contenu internes,
– les sites web d’équipe (souvent nés avec l’apparition de SharePoint et qui était au départ une vue web des traditionnels répertoires réseaux),
– les services de courriel,
– les systèmes transactionnels,
– tout espace de stockage qu’il soit sur site de l’entreprise (physiquement dans son réseau, derrière le parefeu) ou hébergé à l’extérieur, ce qu’on appelle aujourd’hui l’infonuagique, qui elle-même peut se décliner en services applicatifs (l’application est hébergée et gérée par une tierce partie – SaaS, en privé ou en colocation) ou en externalisation de l’infrastructure informatique (l’infrastructure n’est plus dans les locaux de l’entreprise mais elle est offerte et maintenue par un fournisseur mais l’entreprise gère elle-même ses propres applications – IaaS),
– les systèmes de réseautage social internes, etc.

Tout cela démontre la complexité avec laquelle il faut compter à l’intérieur d’une entreprise. Personne n’est satisfait des résultats de recherche à l’intérieur d’une entreprise, s’attendant à une expérience « à la Google », mythique et sur-valorisée, alors que les besoins, et surtout les attentes, sont en fait totalement différents entre ce que l’on s’attend à trouver sur le web et à l’interne. Pourtant, rare sont les entreprises qui investissent dans la pratique de gestion du ou des moteurs de recherche dans le(s)quel(s) ils ont pourtant investit un montant non négligeable, en se lamentant ensuite de l’absence de retour sur investissement. Chacun cherche le « Saint Graal » DU bon moteur de recherche qui fera des miracles. Or, celui-ci n’existe pas sans qu’il y ait du personnel qualifié qui s’en occupe à plein temps, et surtout sans gestion de l’information.

Qu’est-ce qu’un moteur de recherche d’entreprise?

De manière générale, un moteur de recherche est un système qui donne accès à des sources d’informations multiples et hétérogènes à des utilisateurs dont les attentes et les besoins sont divers et variés.

Il sagit de la traduction libre d’une phrase tirée d’un livre blanc publié par des consultants spécialisés dans le domaine, Search Technologies, intitulé Enterprise Search Fundamentals datant de 2012 (si on se fie aux métadonnées). Je trouve qu’elle résume bien l’usage primaire d’un moteur de recherche et comprend tous les concepts de bases importants sans trop entrer dans les spécicificités technologiques.

Ces concepts de base sont :

Système : un moteur de recherche est un système d’information mais surtout un système tout court qui doit être configuré et géré pour fonctionner correctement. Installer un moteur de recherche n’est pas suffisant pour en tirer toute la richesse de fonctionnalités et d’expérience utilisateur possible.
Accès : un moteur de recherche est une porte d’accès à de l’information, tout en respectant, comme il se doit les prérogatives de sécurité. Un utilisateur ne peut voir et lire que ce à quoi il a accès.
Information hétérogène et de sources multiples : un moteur de recherche peut contribuer à applanir les silos des systèmes d’information.
Attentes et besoins sont divers et variés : même si avec différentes techniques il est possible de déterminer les traits principaux des besoins d’un groupe d’utilisateurs, et donc, de catégoriser ces utilisateurs dans des ensembles partageant des caractéristiques communes, la perception de pertinence ou non des résultats de recherche reste très individuelle, ainsi que les stratégies de recherche et les attentes.

Classé dans:Accès à l'information, Moteurs de recherche, ,

Drawing a Blueprint for a Scalable Taxonomy

Article dans Information Management, numéro de mai/juin 2012 de l’ARMA sur les bases d’une taxonomie pour aider à déterminer les propriétés (donc métadonnées) du contenu dans un contexte de gestion des documents d’entreprise indépendamment de la plateforme technologique.

Voir illustration (fig. 2) d’une taxonomie axée sur le contenu lui-même inscrit sur un document générique dont la nature est de plus en plus précisée par rapport aux processus de la fonction d’entreprise qui ont amené à sa création.

L’important est effectivement de comprendre la relation entre une classe de documents et la nature  d’un document (type de document) – et d’éviter la confusion avec type de fichier qui constitue le support « physique » dans le domaine électronique. Réussir à comprendre et à jouer avec ces concepts de classe vs nature de document donne une grande flexibilité et la possibilité de beaucoup de variations tout en se rapportant à une structure sous contrôle et gérable.

L’héritage des caractéristiques est un atout majeur pour éviter le casse-tête d’une gestion trop granulaire d’une masse de contenu polymorphe.

Drawing a Blueprint for a Scalable Taxonomy

Classé dans:Classification, Gestion de l'information, Métadonnées, Taxonomie

Ressources pour créer et maintenir une taxonomie d’entreprise

Comme je constate que plusieurs personnes pourraient avoir besoin de cette information, voici les ressources qui m’ont été le plus utiles dans mon propre parcours. Malheureusement, c’est en anglais.

Bibliographie

  • Lambe, P. 2007. Organising knowledge : Taxonomies, Knowledge and organisational effectiveness. Chandos Publishing : p. 277. [mon préféré]
  • Maish Nichani. 2012. Organizing digital information for others.  [gratuit – un bon ouvrage pour démarrer] Nouveau  [ajouté 2012-03-12]
  • Milton, N. 2005. Knowledge Management for Teams and Projects. Chandos Publishing : 153 p.
  • Picot, Arnold, Ralf Reichwald et Rolf T. Wigand. 2008. Information, organization and management.. Springer : 536 p.
  • Stewart, DL. 2008. Building enterprise taxonomies. Mokita Press : .
  • Wyllie, J. 2003. Taxonomies : frameworks for corporate knowledge : the shape of things to come?. Ark Group : 83 p.
  • Young, T. 2008. Knowledge Management for Services, Operations and Manufacturing. Chandos Publishing : 191 p.

Ressources en ligne et gurus

Formation

Classé dans:Taxonomie

Données, transactions, documents… Cycle de vie de l’information

En échos à la réflexion que Jean-Daniel Zeller a commencé ici, je me propose de partager mes propres réflexions et observations par rapport à mon expérience. Il s’agit en effet de concepts avec lesquels nous devons jongler tous les jours dans le contexte du numérique.

Quand j’ai lu la 1ere fois l’article de M. Zeller, je ne pensais pas avoir quoi que ce soit à apporter comme commentaire aux postulats énoncés. J’y ai même trouvé d’éventuelles confirmations dans l’ouvrage suivant : Enterprise Ontology : Theory and Methodology de Jan Dietz. 

En effet, les systèmes d’information des entreprises doivent coller aux processus de création (invention, design, etc.), production et distribution de produits ou services. Le travail des informaticiens est de commencer par modéliser des processus. Les processus les plus « faciles » à modéliser, parce qu’ils sont découpables en actions simples et automatisables, sont les transactions. Un système est donc calibré pour gérer certaines transactions. Quand il s’agit d’échange de données discrètes, l’opération reste simple. La nécessité d’une intervention humaine reste limitée. Le système peut « interpréter » en fonction des possibilités prédéterminées identifiées lors de l’analyse des processus. L’informatique maîtrise ce type d’échange qui reste au niveau applicatif.

Par contre, cela devient beaucoup plus complexe au niveau du document (- rappelons que nous sommes le monde dématérialisé du numérique – un ou plusieurs fichiers, de format différents et/ou des informations composites de sources différentes). L’application ne sait plus alors qu’est-ce qui est quoi à moins qu’on l’explicite via des métadonnées, par exemple. L’être humain devient alors la véritable interface d’interprétation et de rétroaction (autre que de prendre connaissance). C’est là que l’interaction humain-machine prend son importance.

Mon point de vue s’est nuancé – ou plutôt complexifié – quand j’ai reçu le mandat d’aider l’équipe à retrouver, mieux partager et gérer ses documents de travail, à savoir tous ces fichiers qui sont le support de nos réflexions, de nos interactions, prises de position, modèles d’informations mais qui ne sont pas encore ou ne serons jamais des produits finis ou destinés à être utilisés tels quels. Ce rôle m’a permis de (re)prendre conscience de quelque chose qui ne semble pas pris en compte dans l’article de Jean-Daniel Zeller : dans le monde moderne, un document/fichier n’est pas nécessairement le résultat d’une transaction ou une trace officielle de quelque décision. Il contient de l’information pour mémoire, des notes pour plus tard, l’embryon de nouvelles idées, d’idées reformulées, etc. Cela ne veut pas dire que les postulats énoncés sont erronés, il s’agirait en fait  d’expliciter le cadre de validité qui semble implicite: quand les documents sont des preuves/traces de transaction, l’arrêt sur image de données, de sources différentes ou identiques,  mises ensemble  à un temps t, et contextualisées pour un événement X. Le « records » management s’intéresse à ce qui a valeur administrative, financière ou légale, mais le monde numérique a cette particularité que les brouillons ne sont plus des feuilles volantes que l’on jette au bac à recyclage, mais bien du matériel qu’on recycle intellectuellement et techniquement parlant, et qui nous évite de recommencer un modèle, un texte, une présentation de zéro. D’où une meilleure productivité. Par contre, plus personne ne veut jeter ces fichiers qui prolifèrent, si faciles à manipuler, mais si difficiles à retrouver, puisqu’on n’a pas pris la peine de mettre un titre, de les classer ou les trier… et que leur quantité croît à une vitesse phénoménale.

Donc, le document est plus que la trace de données ou de transactions, et le document n’a pas seulement valeur de preuve ou n’est pas nécessairement une publication mais est une sorte support pour connaissance explicitée que l’on veut garder pour soi ou pour partager, maintenant ou plus tard, pour ne pas recommencer de zéro, pour pouvoir le réutiliser.

Le records et le document management sont des outils qui peuvent aider à gérer les documents qui sont identifiés et identifiables avec  une valeur explicitée, ces derniers restent donc associés à une typologie assez traditionnelle et identique à ce qui existe dans le monde analogique. Par contre, les « work in progress » (wip) ne sont que très rarement gérés et encore moins catégorisables selon une typologie. Or il s’agit de la partie invisible de l’iceberg informationnel parce que les usagers s’attendent à ce que ces fichiers/documents soient trouvables – donc indexés – mais il ne sont que rarement correctement repérables parce que :

  • non définis et encore moins décrits : quel type de document ? quel type d’information ? combien de temps est-ce valide, est-ce seulement valide ?
  • et surtout non structurés, et
  • incroyablement nombreux et dupliqués ou avec très, très peu d’éléments de différenciation.

Donc, de nos jours, un document ne peut plus se définir seulement en tant que trace dans le sens de preuve, ni même en tant que publication. Et un fichier  informatique qui porte de l’information, n’est sans doute techniquement pas un document, mais reste néammoins un dépôt d’information structurée ou non qui peut avoir une valeur informationnelle en soi et avoir une utilité qui dépasse les raisons originales de sa création, à tout le moins au regard des utilisateurs.

On aura remarqué que j’ai beaucoup utilisé les termes document/fichier. C’est un fait que dans la vie de tous les jours, le langage courant confond fichier et document.  Ce n’est que lorsque l’on a besoin de définir qu’est-ce qui est quoi pour fin de modélisation ou de conceptualisation que l’on y réfléchit, et encore… Bref, il y a encore du pain sur la planche pour arriver à « apprivoiser » tous ces fichiers dont la durée de vie n’est pas statuée ou difficile à établir quand on n’est pas capable de qualifier vraiment de quel type d’information il s’agit. Mais le plus gros du travail reste l’éducation et la sensibilisation : réussir à faire comprendre qu’on a davantage un problème de sur disponibilité de l’information, ce qui nous freine dans la prise de décision, qu’un problème de non disponiblité de l’information.

Classé dans:Cycle de vie, Documents (accès, organisation, structuration), Documents numériques, Gestion de l'information

Architecture de l’information en marche

Il y a longtemps que je n’ai plus écrit sur ce blogue pour plusieurs raisons : dont l’apprentissage d’un métier et du fonctionnement d’une organisation assez complexe et particulière.

Mon rôle chez SNC-Lavalin me passionne. Ce n’est pas une situation « traditionnelle » pour quelqu’un qui a obtenu un diplôme en sciences de l’information, dans le sens de bibliothéconomie et archivistique, mais pas plus traditionnelle non plus, du point de vue des technologies de l’information.
Je suis entrée à l’emploi en tant que taxonomiste sans trop savoir ce que ça impliquait vraiment, pas plus que ceux qui m’ont embauché d’ailleurs. Ces circonstances aurait pu mener nulle part : pourquoi un département d’informatique embauche une taxonomiste alors qu’il n’y même pas encore de projet concret, et qu’en plus, les technologies de l’information gèrent certes les systèmes d’information, mais ne sont pas responsables de la qualité du contenu (l’information en tant que tellle) et en sont encore moins le propriétaire moral, administratif ou même légal.
J’ai d’ailleurs passé un certain temps à :
– essayer de trouver un moyen d’expliquer mon rôle à mes collègues alors même que j’avais moi-même besoin de le comprendre. J’avais saisi l’idée globale que je devais aider à trouver l’information. Là où ça devenait compliqué, c’était de donner un exemple concret et parlant parce qu’il n’y en avait pas encore. Le travail était encore à l’état de concept, d’hypothèses de mise en application, sans garantie d’obtenir les ressources, financières ou technologiques nécessaires pour la mise en pratique puisque, justement, comment obtenir un budget et une approbation pour quelque chose qui semble ésotérique et très peu relié aux affaires (puis ça change quoi dans la livraison de nos services ?). Donc, vous aurez compris que j’aussi dû…
– trouver un moyen d’expliquer mon rôle à des personnes, hors du département d’informatique, pour essayer de leur faire comprendre en quoi mon travail pourrait aider le leur et que j’avais besoin de leur collaboration, notamment m’aider à repérer le vocabulaire, le catégoriser et l’organiser de manière à aider à retrouver leur information et le savoir-faire inscrit, éparpillé et noyé dans une masse énorme d’information (une centaine de sites web de projets, presque une 10aine de millions de documents indexés par un moteur de recherche d’entreprise, dont des duplicatas obsolètes et non contrôlés, des fichiers temporaires non détruits, sans compter les répertoires réseaux de groupes ou personnels, les fichiers attachés dans les courriels, etc.). Si donc, la plupart saisissent l’idée, il leur est difficile de voir comment cela pourrait se concrétiser et surtout de savoir ce que ça implique… Et tant qu’on ne voit pas, on a des doutes. Je savais que ça marcherait potentiellement mais expliciter comment ça fonctionne et pourquoi ça fonctionne, sans pouvoir le démontrer concrètement, c’est autre chose.

Finissant par avoir moi-même besoin de voir concrètement comment cela pourrait se mettre en place, j’ai donc travaillé avec les moyens dont nous disposions, à savoir, en exploitant la technologie existante et les moyens du bord. Mon expérience passée en gestion de systèmes et mes connaissances en gestion de réseau m’ont permis d’avoir la crédibilité nécessaire pour obtenir la permission de faire des expérimentations avec le moteur de recherche, dans un environnement de développement (sans nuire pas au fonctionnement réel de tous les jours). J’ai ainsi pu apprendre à exploiter les fonctionnalités du moteur de recherche et commencer à utiliser, par exemple, la fonction thésaurus et les possibilités d’exploiter les métadonnées des documents pour fournir des résultats de recherche plus parlant et filtrables via des facettes… La taxonomie prenait une forme concrète. Il suffisait de montrer ce qu’il était possible de faire juste en exploitant ce qui existait déjà mais restait invisible.
Je suis ainsi devenue la spécialiste fonctionnelle du moteur de recherche. Le moteur de recherche plus utilisé et mieux perçu, mais ce n’est pas gagné… La masse informationnelle augmente très, très rapidement, donc se limiter à ce qui est fait spontanément n’est pas suffisant, il faut continuer à convaincre, à éduquer et … à faire ce qu’on peut avec les moyens du bord.

De fil en aiguille, le moteur de recherche ont été associé à moi. « On a de la difficulté à retrouver notre information, il paraît que vous pouvez nous aider… » Ces appels ont été de petites victoires qui m’ont aidé à avoir puis entretenir ma crédibilité, à me rassurer sur le fait de ne pas lâcher et que j’étais sur la bonne voie. Le moteur de recherche est devenu le moyen pour démontrer en quoi une information mieux gérée : catégorisée, décrite, filtrée, triée ou détruite quand nécessaire, facilite la trouvabilité.

Puis, environ six après mon embauche, le fonctionnement du département d’informatique a été revu et je me suis retrouvée dans une nouvelle équipe : l’architecture globale d’entreprise. Je ne me serais jamais trouvée au sein de cette équipe si je n’avais pas obtenu ces petites victoires, et, encore moins, si mon supérieur ne m’avait pas laissé faire, n’avait pas compris ce que j’essayais de faire et utilisé ces exemples lui-même dès qu’il en avait l’occasion pour démontrer qu’il était possible d’agir et que ce n’était pas seulement théorique.

De taxonomiste, je suis devenue spécialiste en architecture et je travaille en collaboration avec des architectes technologiques (ce que j’appelle la tuyauterie, la logistique de transport et de communication : le réseau de circulation des données et des informations), des architectes systèmes (la vue micro des systèmes : quels sont les processus pour réaliser une transaction, une action, quels sont les intrants et les extrants) et des architectes de données/information (comment les données passent d’un système à l’autre?, sont produites, par qui, quoi? contrôlées par qui, comment? y’en-a-t-elles qui sont communes entre les systèmes, ont-elles la même définition? etc.).

L’aventure est donc devenue collective et ensemble, particulièrement avec les architectes de système et de données, nous essayons de développer une pratique d’architecture de l’information d’entreprise, à savoir une architecture informatique qui intègre les données structurées (les bases de données, notamment) et les informations non structurées (les contenus web, les fichiers bureautiques, les dessins industriels – qui peuvent être des fichiers CAD mais sont de plus en plus des bases de données -).

Le travail du taxonomiste ou de l’architecte de l’information (pas dans le sens d’ergonome web) ne se limite donc pas au web mais pourrait trouver sa place en collaboration avec les architectes de données et de système. L’autre voie possible est d’aider à rendre les technologies sémantiques plus performantes : à titre d’analyste de résultats ou pour le développement de tels outils.
Le paradigme binaire 0-1 ou vrai-faux qu’offre l’informatique n’est plus suffisant. Les décideurs ne disposent que de peu de temps de réaction pour décider sur la base d’une masse d’information qui n’est humainement pas appréhendable aussi rapidement. L’environnement est complexe et change très vite, arriver avec un nombre limité d’options entre lesquelles il faut trancher n’est pas si évident, la réalité est bien plus dans les nuances que dans le noir et blanc. Les outils sémantiques sont donc une voie possible pour assister les prises de décisions et pour compléter les solutions traditionnelles de BI (business intelligence) qui fouillent des données structurées. Or ces outils sémantiques sont basés sur des modèles statistiques articulés sur des ontologies, des moyens qui restent donc mécaniques. Or rien n’est pertinent ou non pertinent en soi. Tout dépend du contexte et du sens. Une machine peut déterminer selon un modèle que cela est le plus probable, sans juger du résultat, mais cela ne veut pas dire que cela a du sens et est vrai… . L’humain reste l’élément capable de juger si cela est possible ou non. L’humain seul peut réintérroger le résultat et déterminer s’il est satisfaisant ou non. Ainsi, les taxonomistes qu’ils viennent de la linguistique, de l’informatique, l’ingénierie, des sciences pures ou de la bibliothéconomie ont donc une belle voie d’avenir devant eux.

Personnellement, j’aime mon travail parce que justement il n’y a pas de réponse toute prête et qu’il faut inventer. Les tâches que j’exécute se formulent au fur et à mesure que des besoins émergent ou des possibilités/obstacles se présentent.

Classé dans:Classification, Documents (accès, organisation, structuration), Métadonnées, Taxonomie, Web sémantique,

Taxonomy Governance Through Metrics

Classé dans:Taxonomie

Test et validation d’une taxonomie : ressources pour le Card Sorting

Articles et présentations

Analyse des résultats

  • «When performing analysis on larger numbers of cards, we suggest using a spreadsheet. Enter the results into a spreadsheet, making sure to capture the title and number on each card. »(Maurer (Spencer), D. & Warfel, T. 2004)
  • «Another technique for analyzing data can be found in “Analyzing Card Sort Results with a Spreadsheet Template”; by Joe Lamantia.» (Maurer (Spencer), D. & Warfel, T. 2004)

Outils

Classé dans:Documents (accès, organisation, structuration), Documents numériques, Taxonomie, Utilisateurs

Karin Michel, M.S.I.
Architecte d’information et de données, Gouvernance de l’information et des données

M.S.I obtenue à l'École de bibliothéconomie et des sciences de l'information
Université de Montréal
Québec - Canada

Les propos tenus sur ce blogue sont des réflexions personnelles et n'engagent en rien mon employeur ou quelque personne que ce soit avec laquelle je travaille.

Intérêt en
gouvernance des données, architecture d'entreprise, modélisation de données, knowledge management, RIM, GID / GED, architecture de l'information et de données, ..., analyses de besoins, etc.
Logo AIIM SharePoint Practioner

Pages