Objetivo

textflow Este proyecto pretende el desarrollo de una plataforma para el análisis de textos, preferentemente para el español.

Niveles de integración (techtiers)

Biblioteca
Scripts para uso desde terminal
API REST
Componentes front-end no-code (podemos usar Streamlit)
SaaS

Módulos

Análisis de estructura: volumetría y tipos de datos (estructura de datos numéricos y no numéricos...)
Análisis de calidad: duplicados, valores perdidos, outliers, información errónea o mal formateada, idioma inadecuado, longitud insuficiente...
Análisis de contenido:
- A nivel de token: valores más frecuentes,
- A nivel de oración
- A nivel de texto
- A nivel de subgrupo (por categoría o clases)
Análisis de contraste:
- Comparación entre subgrupos
- Características salientes

Características

Las secuencias se identifican con:

Nivel
Esquema

Toda colección pasa por un segmentador donde, para el flujo global, segmenta en niveles jerárquicos y asigna etiquetas a cada segmento. Por ejemplo, un segmentador simple genera, a partir de una colección, segmentos que son documentos y cuya etiqueta es el ID del documento. Otro segmentador puede actuar a nivel de documento y segmentar por párrafos, sin indicar etiqueta a esos segmentos (tendría un ID de posición y ya está) o por secciones en un artículo científico, y la etiqueta sería el título de la sección, etc.

A nivel de token
- Etiquetado:
  - NER
  - POS_content
  - POS_no_content
  - POS_punkt
  - Token especial (hashtag, URL, emoticonos y emojis gráficos o tradicionales)
  - + cualquier otro (a partir de un lexicón u otro sistema)
- N-gramas de caracteres
- Longitud
- Lema
A niveles superiores
- Longitud
- Perplejidad
- Complejidad
- Codificación
- Estilometría
- N-gramas (palabras, lemas, n-gramas) y etiquetas (las etiquetas pueden verse como una nueva secuencia)
- Skip-grams de palabras
- Longitud de elementos en niveles inferiores (se puede elegir tipo de secuencia)
- Agregado sobre uno de cualquiera de los niveles inferiores o sobre nivel+etiqueta:
  - Longitud: max, min, avg, mode, std
- Frecuencias de cada posible elemento inferior (según secuencia): n-gramas de palabras, de caracteres, skipgrams, POS_content, etc.
- Frecuencias inversas a un nivel inferior (ejem: nivel de documento), para ese nivel, de cada posible elemento inferior (según secuencia): palabras, n-gramas de palabras, de caracteres, skipgrams, POS_content, etc.
- Semántica:
  - Análisis de emociones
  - Análisis de sentimientos

Referencias

https://medium.com/epfl-extension-school/advanced-exploratory-data-analysis-eda-with-python-536fa83c578a

Jaime Collado / textflow

Home

Objetivo

Niveles de integración (techtiers)

Módulos

Características

Referencias

Home

Objetivo

Niveles de integración (techtiers)

Módulos

Características

Referencias

New Wiki Page