Lingüística computacional: hacia una herramienta libre de gestión de corpus

Muestra de la herramienta de visualización MarcoPolo sobre datos de SketchEngine

QUÉ ES

Este proyecto pretende dotar a la comunidad de una herramienta libre y adecuada para el tratamiento de corpus lingüísticos.

La lingüística computacional, por encuadrar, es un campo interdisciplinario que se ocupa del desarrollo de formalismos descriptivos del funcionamiento del lenguaje natural.

METODOLOGÍA

La metodología está aún por definir.

Se puede identificar fácilmente varias fases:

  1. Análisis de las herramientas existentes y las...
2 colaboradores
4 comentarios

Equipo

Coordinadores:

Colaboradores:

Estado del proyecto
Activo
Licencia
Por definir; CC, GPL, ...
Laboratorio
Valoración conjunta

Timeline

Steps to prepare a text corpus for Sketch Engine (and NoSketch Engine)

  1. Prepare the source data, including both
  2. Prepare the corpus configuration file
  3. (optionally) Prepare the subcorpus configuration file
    This step is needed if you wish to compile subcorpora which can be shared by multiple users
  4. (optionally) Prepare or reuse a word sketch definition file
    This step is needed if you requireword sketches orthesaurus (the thesaurus takes the word sketch database as input).
  5. Compile (index) the corpus
  6. Verify corpus consistency, integrity and completeness

--

I think this steps are carried out in Manatee backend, but somehow I don't know currently how to access Manatee from Bonito interface.

Componentes de SketchEngine que nos haría falta implementar: GDEX

Segmentadores o tokenizadores

A menudo son particulares de cada lengua, aunque también existen segmentadores universales o tokenizadores universales.

Se ha creado una instalación de NoSketch Engine en nosketch.mooo.com/bonito/

De momento solo tiene el corpus de ejemplo «Susanne».

Ya aparecen necesidades básicas que NoSketch Engine no provee:

  • Herramientas de creación de corpus: segmentación-tokenización, lematización, marcado de PoS
  • Tendencias
  • N-gramas
  • Tesauro
  • Terminología
  • Colocaciones y Word Sketches

Voy a investigar maneras de crear los corpus, de manera manual primero. Queda por ver si este proceso puede ser más o menos automático como para programar una interfaz CGI en python que realice la segmentación, lematización y marcado de PoS... ¿mediante las herramientas que propone NoSketch Engine o mediante NLTK?