Les éditeurs de sites

Sont des propriétaires qui ont investi dans des moyens de production : outils, situation, marché... ce qui revient à dire, ramené au secteur internet : un CMS WordPress ou un forum PhpBB est installé sur un site, avec un super nom de domaine, sur un marché porteur, probablement une niche sectorielle sur laquelle il est encore possible de percer et de générer quelques revenus.

Les webmasters éditeurs de site web sont confrontés au problème de la production de contenus. Or bien souvent, il est difficile d'être spécialiste en tout : un bon webmaster ayant configuré un CMS attractif, visuellement agréable et optimisé pour le référencement, ne sera pas toujours expert en domaining, ni expert en webmarketing tout court : trouver les marchés porteurs n'est pas forcément à la portée du premier venu.

Il en va de même de la rédaction web : inutile de continuer à chercher une offre de rédacteur discount, car les textes produits vont aller directement remplir les indexes secondaires de la base de Google : peu ou pas de valeur ajoutée signifie dorénavant la relégation en seconde voire troisième (noindex) zone...

Vers une recherche de rédacteur SEO + SMO

Dorénavant les articles doivent répondre à des critères qualitatifs techniquement (SEO inside) et sur le plan éditorial : titres accrocheurs, paragraphes adaptés à la cible et à la thématique, recherche et insertion de médias afin d'illustrer et d'enrichir le sujet...

Avec l'apparition (ou le renouveau) de certains concepts propres au référencement naturel, comme l'écriture en silo sémantique ou en cocon, le secteur de la rédaction pour internet continue son évolution. Il est désormais possible (et recommandé si l'on souhaite qualifier ses textes au regard des algorithmes de tri des moteurs de recherche) de travailler sur les n-grams et la lemmatisation.

Ce nouvel axe de recherche et d'analyse sémantique repose en grande partie sur une discipline appelée Traitement Automatique du Langage (TAL).

Peut-on dire pour autant que les référenceurs d'hier sont amenés à monter en compétence et à devenir les ingénieurs linguistiques de demain ?

Il est difficile de s'improviser ingénieur ou même simple technicien en méthodes stochastiques ou probabilistes.

La peur du robot journaliste


Pourtant, à tous les niveaux, l'exploration de la big data dans le domaine sémantique est en pleine essor, comme le prouve la conférence "SEMANTICS and BIG DATA (1), WEB MINING" du 14 avril 2016 lors de la conférence internationale du web (programme disponible sur http://www2016.ca/program-at-a-glance.html)

L'avenir semble donc assuré pour les Data Scientists.

Voici ci-après quelques exemples de thèmes liés à la recherche sur le web (sémantique, lien hypertexte, n-grams, entités nommées...) traités lors de cet événement mondial :

  • Automatic Entity Recognition and Typing in Massive Text Corpora
  • A robust framework for estimating linguistic alignment in social media conversations
  • Language Models for Long Documents and Queries in Information Retrieval
  • What links Alice and Bob? Matching and Ranking Semantic Patterns in Heterogeneous Networks
  • Probabilistic Bag-of-Hyperlinks Model for Entity Linking
  • N-gram over Context
  • Unsupervised, Efficient and Semantic Expertise Retrieval
  • Using Metafeatures to increase the Effectiveness of Latent Semantic Models in Web Search
  • Entity Disambiguation with Linkless Knowledge Bases
  • From Freebase to Wikidata: The Great Migration
  • Knowledge extraction in Web media: at the frontier of NLP, Machine Learning and Semantics
  • NERank: Ranking Named Entities in Document Collections
  • Predicting the link strength of "newborn" links

Il apparaît donc comme une évidence que le futur du web va en grande partie dépendre de la capacité de toujours plus précisément classer, organiser et catégoriser l'information.

Et ce, avec ou sans lien établissant une relation entre objets et entités, selon ou indépendamment d'un contexte, indépendamment de critères aisément falsifiables comme la popularité...

Constat : les machines (équipement matériel et algorithmes logiciels) permettent donc de fouiller parmi les milliards de milliards de données disponibles, et d'en extraire des informations précises.

Partant de ce constat, est-il possible d'inverser le processus (reverse-engineering) pour PRODUIRE une information qui répondra avec le plus de pertinence possible aux requêtes ?

L'intelligence Artificielle, le Deep Learning, les réseaux neuronaux... utilise-t-ils une méthodologie d'audit et d'analyse afin d'isoler les éléments recherchés et augmenter l'indice de pertinence en complétant les corpus rédigés ?

Beaucoup de questions soulevées par une inquiétude diffuse vis-à-vis de l'automatisation des tâches (et donc la disparition annoncée de la plupart des métiers) d'une part, et du risque croissant d'usurpation d'autre part. En effet, plus que la disparition de l'emploi, la plus grande terreur de l'humanité ne serait-elle pas de perdre son ascendant ? Si le robot est capable d'imiter l'homme, et de se faire passer pour tel, évoquera-t-on la duperie ? Lira t-on demain "Réalisé par un robot" sur les descriptions de service ou de produits qui seront proposés ? Les prix seront-ils baissés pour autant ? La qualité sera-t-elle garantie ? Et surtout, cet affichage sera-t-il rendu obligatoire et puni en cas de manquement (car il y aura alors tromperie sur les moyens déployés pour produire : coût de la main d’œuvre, coûts de production... et la concurrence déloyale ?)

Pour terminer cet article qui lance des pistes de réflexion, vous pouvez lire ces avis très éclairants sur les notions de journalisme robotisé :

http://assises.journalisme.epjt.fr/leresume-robots-et-journalistes-vers-le-grand-remplacement