Peut-être ce billet est-il l’occasion de rappeler qu’il existe pour la langue française un très gros corpus permettant depuis des lustres la fabrication de choses de ce genre… avec un inconvénient : un accès restreint (quoiqu’il soit à la BNF, dans bien trop peu d’institutions françaises, par méconnaissance sans doute, et pas trop cher à acheter individuellement).
Et un inconvénient qui est aussi un avantage énorme par rapport à GoogleBooks (ou à l’extrait utilisé ici) : un corpus fermé mais clairement défini. On sait donc dans quoi on cherche. Car de ce point de vue, entre la construction serendipitique et le renseignement très inégal des métadonnées, en particulier la date de publication, je m’interroge vraiment sur ce qu’on pourrait faire dire à GoogleBooks…
Au contraire, Frantext, puisque c’est de lui qu’il s’agit, a résolument choisi le “canon” : des textes principalement littéraires et quelques excursions dans les essais politiques, philosophiques, et autres. Mais des milliers de textes, proprement indexés, OCRisés, sans doublons, permettant de rechercher dans un sous-corpus, etc.
Pour en savoir plus, voir http://www.frantext.fr/
et deux articles d’histoire en libre accès l’ayant utilisé : http://www.persee.fr/web/revues/home/prescript/article/genes_1155-3219_1995_num_20_1_1305 et http://www.persee.fr/showPage.do?urn=hism_0982-1783_1991_num_6_3_1401
↧
Par : Claire Lemercier
↧