Fil d'ariane

Icône

Se retrouver dans le dédale du savoir et de l'information – Pour une gestion structurée de l'information

L’intelligence artificielle et l’apprentissage machine sont les instruments d’un processus de curation et d’édition de sources d’information sélectionnées pour un but donné

Avec la grande excitation actuelle autour de l’apprentissage machine et de l’intelligence artificielle, il faut se rappeler que les algorithmes ne doivent pas se résumer pas à de l’analyse probabiliste mais qu’ils doivent être également orchestrés à l’aide de référentiels gérés et gouvernés pour structurer, extraire correctement l’information et y donner accès de façon contextualisée – je préfère cette notion à celle d’intelligente – : c’est l’humain qui prend des décisions intelligentes, l’information n’est pas intelligente en soi, ni la gestion automatisée de celle-ci – pas encore.

L’humain a la responsabilité de contrôler les biais de la quantité. Des éléments qualitatifs (qui ne s’assimilent pas au ‘sentiment analysis’) et extrinsèques aux algorithmes doivent aussi contribuer à la construction du contexte, et de là au savoir et/ou à la décision.

L’apprentissage machine et les analytiques textuelles sont avant tout des instruments pour aider à traiter la masse de données et d’informations disponibles, mais ne sont certainement pas un remplacement du jugement de l’humain pour en tirer de l’intelligence. Le but est d’accélérer le traitement des flux et des stocks d’information, l’humain doit apprendre à comprendre et utiliser correctement cet outil, être vigilant face aux promesses de « vérité », et veiller à ne pas se décharger de son rôle moral: c’est le résultat de la machine et des procédures donc je ne suis pas responsable… L’histoire pas si lointaine (ex: certains, selon des critères pré-établis, sont plus humains que d’autres, donc on peut les écarter, voire les exterminer…) nous a montré où l’instrumentalisation peut mener, que cela implique des machines ou non.

Pour le moment, l’intelligence artificielle ne peut que reproduire les schémas humains (voir *1) puisque le corpus qui est traité est un sous-ensemble de ce que l’humain a lui-même créé, sélectionné pour traitement, selon des modèles dessinés par ceux-ci en fonction d’un objectif soit scientifique, soit commercial, soit de surveillance.
Tout est toujours question de perspective. Le travail entourant les algorithmes, que ce soit dès l’entrée de données, la sélections des sources de données, le traitement et le nettoyage des données, est avant tout un travail d’édition et de curation parce que cela implique de privilégier certains scénarios et certaines hypothèses plutôt que d’autres. C’est le travail d’équipe d’individus de profils différents mais complémentaires.

Parmi les rôles requis ne se trouvent pas uniquement les scientifiques de données (les statisticiens, les actuaires, les économétristes, etc.)
mais aussi ceux qui participent également à la sélection des référentiels utiles, jugent de leur validité intrinsèque et extrinsèque, orchestrent les liens entre les sources d’information pour l’exploration, modélisent des structures de base pour que l’algorithme normalise et nettoie les entités structurelles,

d’où viennent ceux qui ont ces compétences?
Certains penseront informatique: gestion des bases de données, développeurs ETL, etc.
D’autres penseront intelligence d’affaire (BI).
Pourtant, il s’agit plus d’un état d’esprit que de compétences issues d’une formation académique.
Vous trouverez aussi d’excellents candidats auprès des métiers financiers (à la fin de chaque année financière une armada de champions Excel sont mobilisés pour nettoyer et arranger des sources financières pour consolider les comptes et compenser pour ce qui semble être des incohérences au moment de cet exercice), du développement des affaires …
ET des sciences de l’information
Aux États-Unis et dans le Canada anglophone, cette reconnaissance de compétence pour ces derniers est présente, mais l’est beaucoup moins au Québec par les francophones…

…. et ainsi permettre aux scientifiques de données de passer moins de temps à nettoyer les données et plus à les analyser et à bâtir des visualisations efficaces.

À ce jour, la machine n’est pas intelligente, elle respecte des scénarios scriptés par des humains, il ne faut pas l’oublier. Cela n’empêche pas de constater et d’apprécier sa puissance.

Il y a effectivement de quoi s’inquiéter (voir *2) si l’opacité concernant les scénarios privilégiés, justifiée au nom de la propriété intellectuelle, nuit à la compréhension des résultats et à la transparence des décisions, et empêche de connaître la portée des morceaux d’information qui sont jugés ‘pertinents’ d’être exposés ou non dans différents contextes et quelles sont les hypothèses retenues. Cependant, l’exclusion du droit d’accès au financement, aux assurances et autres profilages a précédé l’existence de l’intelligence artificielle; ce qui change, c’est la rapidité, le volume et l’automatisation (décision assistée par ordinateur) et le risque (cité plus haut) de désengagement moral et d’accentuation de la déshumanisation, via la rarification à l’extrême de la compassion, face à des situations qui entrainent l’exclusion et le déni d’accès à certains services sous prétexte de critères arbitraires qui classent les uns et les autres dans une catégorie ou une autre. L’arbitraire précède les algorithmes et est la source analogique de ces algorithmes, seulement maintenant cet arbitraire est traité automatiquement et en masse par des machines. Des mécanismes d’appel aux décisions devront être plus accessibles et facilités pour compenser l’absence de compassion. L’humain peut avoir de la compassion, pas la machine.

*1- http://ici.radio-canada.ca/nouvelle/1028772/intelligence-artificielle-assimilent-nos-prejuges-biais-langue-langage-humain

*2 – http://www.ledevoir.com/societe/science-et-technologie/492029/le-pouvoir-des-codes-la-main-invisible-des-algorithmes

Classé dans:Ère du numérique, Classification, Gestion de l'information, Knowledge Management

Drawing a Blueprint for a Scalable Taxonomy

Article dans Information Management, numéro de mai/juin 2012 de l’ARMA sur les bases d’une taxonomie pour aider à déterminer les propriétés (donc métadonnées) du contenu dans un contexte de gestion des documents d’entreprise indépendamment de la plateforme technologique.

Voir illustration (fig. 2) d’une taxonomie axée sur le contenu lui-même inscrit sur un document générique dont la nature est de plus en plus précisée par rapport aux processus de la fonction d’entreprise qui ont amené à sa création.

L’important est effectivement de comprendre la relation entre une classe de documents et la nature  d’un document (type de document) – et d’éviter la confusion avec type de fichier qui constitue le support « physique » dans le domaine électronique. Réussir à comprendre et à jouer avec ces concepts de classe vs nature de document donne une grande flexibilité et la possibilité de beaucoup de variations tout en se rapportant à une structure sous contrôle et gérable.

L’héritage des caractéristiques est un atout majeur pour éviter le casse-tête d’une gestion trop granulaire d’une masse de contenu polymorphe.

Drawing a Blueprint for a Scalable Taxonomy

Classé dans:Classification, Gestion de l'information, Métadonnées, Taxonomie

Architecture de l’information en marche

Il y a longtemps que je n’ai plus écrit sur ce blogue pour plusieurs raisons : dont l’apprentissage d’un métier et du fonctionnement d’une organisation assez complexe et particulière.

Mon rôle chez SNC-Lavalin me passionne. Ce n’est pas une situation « traditionnelle » pour quelqu’un qui a obtenu un diplôme en sciences de l’information, dans le sens de bibliothéconomie et archivistique, mais pas plus traditionnelle non plus, du point de vue des technologies de l’information.
Je suis entrée à l’emploi en tant que taxonomiste sans trop savoir ce que ça impliquait vraiment, pas plus que ceux qui m’ont embauché d’ailleurs. Ces circonstances aurait pu mener nulle part : pourquoi un département d’informatique embauche une taxonomiste alors qu’il n’y même pas encore de projet concret, et qu’en plus, les technologies de l’information gèrent certes les systèmes d’information, mais ne sont pas responsables de la qualité du contenu (l’information en tant que tellle) et en sont encore moins le propriétaire moral, administratif ou même légal.
J’ai d’ailleurs passé un certain temps à :
– essayer de trouver un moyen d’expliquer mon rôle à mes collègues alors même que j’avais moi-même besoin de le comprendre. J’avais saisi l’idée globale que je devais aider à trouver l’information. Là où ça devenait compliqué, c’était de donner un exemple concret et parlant parce qu’il n’y en avait pas encore. Le travail était encore à l’état de concept, d’hypothèses de mise en application, sans garantie d’obtenir les ressources, financières ou technologiques nécessaires pour la mise en pratique puisque, justement, comment obtenir un budget et une approbation pour quelque chose qui semble ésotérique et très peu relié aux affaires (puis ça change quoi dans la livraison de nos services ?). Donc, vous aurez compris que j’aussi dû…
– trouver un moyen d’expliquer mon rôle à des personnes, hors du département d’informatique, pour essayer de leur faire comprendre en quoi mon travail pourrait aider le leur et que j’avais besoin de leur collaboration, notamment m’aider à repérer le vocabulaire, le catégoriser et l’organiser de manière à aider à retrouver leur information et le savoir-faire inscrit, éparpillé et noyé dans une masse énorme d’information (une centaine de sites web de projets, presque une 10aine de millions de documents indexés par un moteur de recherche d’entreprise, dont des duplicatas obsolètes et non contrôlés, des fichiers temporaires non détruits, sans compter les répertoires réseaux de groupes ou personnels, les fichiers attachés dans les courriels, etc.). Si donc, la plupart saisissent l’idée, il leur est difficile de voir comment cela pourrait se concrétiser et surtout de savoir ce que ça implique… Et tant qu’on ne voit pas, on a des doutes. Je savais que ça marcherait potentiellement mais expliciter comment ça fonctionne et pourquoi ça fonctionne, sans pouvoir le démontrer concrètement, c’est autre chose.

Finissant par avoir moi-même besoin de voir concrètement comment cela pourrait se mettre en place, j’ai donc travaillé avec les moyens dont nous disposions, à savoir, en exploitant la technologie existante et les moyens du bord. Mon expérience passée en gestion de systèmes et mes connaissances en gestion de réseau m’ont permis d’avoir la crédibilité nécessaire pour obtenir la permission de faire des expérimentations avec le moteur de recherche, dans un environnement de développement (sans nuire pas au fonctionnement réel de tous les jours). J’ai ainsi pu apprendre à exploiter les fonctionnalités du moteur de recherche et commencer à utiliser, par exemple, la fonction thésaurus et les possibilités d’exploiter les métadonnées des documents pour fournir des résultats de recherche plus parlant et filtrables via des facettes… La taxonomie prenait une forme concrète. Il suffisait de montrer ce qu’il était possible de faire juste en exploitant ce qui existait déjà mais restait invisible.
Je suis ainsi devenue la spécialiste fonctionnelle du moteur de recherche. Le moteur de recherche plus utilisé et mieux perçu, mais ce n’est pas gagné… La masse informationnelle augmente très, très rapidement, donc se limiter à ce qui est fait spontanément n’est pas suffisant, il faut continuer à convaincre, à éduquer et … à faire ce qu’on peut avec les moyens du bord.

De fil en aiguille, le moteur de recherche ont été associé à moi. « On a de la difficulté à retrouver notre information, il paraît que vous pouvez nous aider… » Ces appels ont été de petites victoires qui m’ont aidé à avoir puis entretenir ma crédibilité, à me rassurer sur le fait de ne pas lâcher et que j’étais sur la bonne voie. Le moteur de recherche est devenu le moyen pour démontrer en quoi une information mieux gérée : catégorisée, décrite, filtrée, triée ou détruite quand nécessaire, facilite la trouvabilité.

Puis, environ six après mon embauche, le fonctionnement du département d’informatique a été revu et je me suis retrouvée dans une nouvelle équipe : l’architecture globale d’entreprise. Je ne me serais jamais trouvée au sein de cette équipe si je n’avais pas obtenu ces petites victoires, et, encore moins, si mon supérieur ne m’avait pas laissé faire, n’avait pas compris ce que j’essayais de faire et utilisé ces exemples lui-même dès qu’il en avait l’occasion pour démontrer qu’il était possible d’agir et que ce n’était pas seulement théorique.

De taxonomiste, je suis devenue spécialiste en architecture et je travaille en collaboration avec des architectes technologiques (ce que j’appelle la tuyauterie, la logistique de transport et de communication : le réseau de circulation des données et des informations), des architectes systèmes (la vue micro des systèmes : quels sont les processus pour réaliser une transaction, une action, quels sont les intrants et les extrants) et des architectes de données/information (comment les données passent d’un système à l’autre?, sont produites, par qui, quoi? contrôlées par qui, comment? y’en-a-t-elles qui sont communes entre les systèmes, ont-elles la même définition? etc.).

L’aventure est donc devenue collective et ensemble, particulièrement avec les architectes de système et de données, nous essayons de développer une pratique d’architecture de l’information d’entreprise, à savoir une architecture informatique qui intègre les données structurées (les bases de données, notamment) et les informations non structurées (les contenus web, les fichiers bureautiques, les dessins industriels – qui peuvent être des fichiers CAD mais sont de plus en plus des bases de données -).

Le travail du taxonomiste ou de l’architecte de l’information (pas dans le sens d’ergonome web) ne se limite donc pas au web mais pourrait trouver sa place en collaboration avec les architectes de données et de système. L’autre voie possible est d’aider à rendre les technologies sémantiques plus performantes : à titre d’analyste de résultats ou pour le développement de tels outils.
Le paradigme binaire 0-1 ou vrai-faux qu’offre l’informatique n’est plus suffisant. Les décideurs ne disposent que de peu de temps de réaction pour décider sur la base d’une masse d’information qui n’est humainement pas appréhendable aussi rapidement. L’environnement est complexe et change très vite, arriver avec un nombre limité d’options entre lesquelles il faut trancher n’est pas si évident, la réalité est bien plus dans les nuances que dans le noir et blanc. Les outils sémantiques sont donc une voie possible pour assister les prises de décisions et pour compléter les solutions traditionnelles de BI (business intelligence) qui fouillent des données structurées. Or ces outils sémantiques sont basés sur des modèles statistiques articulés sur des ontologies, des moyens qui restent donc mécaniques. Or rien n’est pertinent ou non pertinent en soi. Tout dépend du contexte et du sens. Une machine peut déterminer selon un modèle que cela est le plus probable, sans juger du résultat, mais cela ne veut pas dire que cela a du sens et est vrai… . L’humain reste l’élément capable de juger si cela est possible ou non. L’humain seul peut réintérroger le résultat et déterminer s’il est satisfaisant ou non. Ainsi, les taxonomistes qu’ils viennent de la linguistique, de l’informatique, l’ingénierie, des sciences pures ou de la bibliothéconomie ont donc une belle voie d’avenir devant eux.

Personnellement, j’aime mon travail parce que justement il n’y a pas de réponse toute prête et qu’il faut inventer. Les tâches que j’exécute se formulent au fur et à mesure que des besoins émergent ou des possibilités/obstacles se présentent.

Classé dans:Classification, Documents (accès, organisation, structuration), Métadonnées, Taxonomie, Web sémantique,

NASA et Internet Archive : projet d’archives audio et visuelles sur Internet

En 2007, la NASA et Internet Archive ont signé un accord pour la numérisation et la mise en valeur du patrimoine audiovisuel accumulé par la NASA.

« NASA and Internet Archive of San Francisco are partnering to scan, archive and manage the agency’s vast collection of photographs, historic film and video. The imagery will be available through the Internet and free to the public, historians, scholars, students, and researchers. » Communiqué du 27 août 2007, ici.

Le 24 juillet 2008, le site web est lancé pour donner accès à 144.000 documents : http://www.nasaimages.org

Simple remarque, ce qui est intéressant, c’est que le site permet à l’utilisateur de resserrer la recherche selon certaines facettes : What, Where, Who, When qui sont des index que le visiteur peut parcourir ou des facettes dans lesquelles il peut rechercher par mots clés. L’approche conceptuelle de Shatford (1986) fait donc son chemin dans la pratique …

http://www.nasaimages.org/luna/servlet/view/search?search=Search&q=astronaut&pgs=50&res=1&cic=nasaNAS%7E10%7E10%2CnasaNAS%7E12%7E12%2CnasaNAS%7E13%7E13%2CnasaNAS%7E16%7E16%2CnasaNAS%7E20%7E20%2CnasaNAS%7E22%7E22%2CnasaNAS%7E2%7E2%2CnasaNAS%7E4%7E4%2CnasaNAS%7E5%7E5%2CnasaNAS%7E6%7E6%2CnasaNAS%7E7%7E7%2CnasaNAS%7E8%7E8%2CnasaNAS%7E9%7E9%2CNSVS%7E3%7E3%2CNVA2%7E13%7E13%2CNVA2%7E1%7E1%2CNVA2%7E4%7E4%2CNVA2%7E8%7E8%2CNVA2%7E9%7E9

NASA Images – Thumbnail View

 

C’est ici un des exemples les plus évidents. D’autres catalogues d’images sont organisés de la même façon (le what, where, who, when étant un standard dans la description des images) sans que ces facettes soient ainsi ouvertement explicitées auprès du public.

Shatford, S. 1986. Analyzing the Subject of a Picture : A Theorical Approach. Cataloging & Classification Quarterly 6, no 3: 39-62.

Classé dans:Classification, Documents audiovisuels, Images, Numérisation, ,

Collaborative tagging, folksonomies, distributed classification… Revue de la littérature

 Il n’y a pas à dire, mais c’est bien malgré moi que mes yeux s’arrêtent souvent sur des articles concernant l’indexation sociale, la folksonomie et autres synonymes dont je ne suis pas encore familière, faute d’avoir eu le temps de m’arrêter sur la question. Ainsi, je garde ces références pour consultation ultérieure et pour partager aussi avec ceux qui y portent intérêt.

Rien de mieux pour commencer une recherche que de faire une revue de la littérature. Et pourquoi partir de zéro quand une partie du travail a déjà été entamé…

Ainsi, le Library Student Journal, revue internationale basée à Buffalo (NY), dans son édition de février 2007, a publié l’article d’Edith Speller, intitulé Collaborative tagging, folksonomies, distributed classification or ethnoclassification: a literature review

dont voici le résumé original :

Tagging, folksonomy, distributed classification, ethnoclassification—however it is labelled, the concept of users creating and aggregating their own metadata is gaining ground on the internet. This literature review briefly defines the topic at hand, looking at current implementations and summarizing key advantages and disadvantages of distributed classification systems with reference to prominent folksonomy commentators.

After considering whether distributed classification can replace expert catalogers entirely, it concludes that distributed classification can make an important contribution to digital information organisation, but that it may need to be integrated with more traditional organisation tools to overcome its current weaknesses.

De plus, il sera intéressant de lire les commentaires qu’aura suscité l’article ici.

                             =================================

Dans le même ordre d’idée, j’ai affiché sur le blogue des étudiants de l’EBSI,  pour information, un billet sur l’initiave du Musée McCord, à Montréal, qui offre la possibilité aux visiteurs du site web, de créer leur propre indexation des collections selon des thématiques individuelles (circuits publics).

Classé dans:Classification, Folksonomie, Métadonnées, Web 2.0

Karin Michel, M.S.I.
Architecte d’information et de données, Gouvernance de l’information et des données

M.S.I obtenue à l'École de bibliothéconomie et des sciences de l'information
Université de Montréal
Québec - Canada

Les propos tenus sur ce blogue sont des réflexions personnelles et n'engagent en rien mon employeur ou quelque personne que ce soit avec laquelle je travaille.

Intérêt en
gouvernance des données, architecture d'entreprise, modélisation de données, knowledge management, RIM, GID / GED, architecture de l'information et de données, ..., analyses de besoins, etc.
Logo AIIM SharePoint Practioner

Pages