linguistic-datasets-portuguese

Linguistic Datasets for Portuguese: conjuntos de dados linguísticos para português (pt-AO, pt-BR pt-MZ e pt-PT)

Lista de conjuntos de dados linguísticos para português com licenças flexíveis: banco de dados, lista de palavras, sinônimos, antônimos, dicionário temático, tesauro, linked data, semântica, ontologia e representação de conhecimento.

(English description) List of linguistic datasets for Portuguese with flexible licenses: database, wordlist, synonyms, antonyms, thematic dictionaries, thesaurus, linked data, semantic, ontology and knowledge representation.

O objetivo desse projeto, inspirado pelo espírito de FOSS, é listar fontes de representações de conhecimento que, ao depender da língua e das culturas locais, não podem ser importadas. Requerem atenção especial, de caráter multidisciplinar, e que idealmente já deveria estar prontas e aceitavelmente validadas: quando não existem, na melhor das hipóteses, podem forçar serem feitas por não especialista e prejudicar qualidade, e na pior, até impedir a produção de tecnologias inovadoras.


Lista

Conjuntos de dados linguísticos requerem muito mais atenção e trabalho humano especializado do que tradicionalmente se vê em dados abertos. Pense em megabytes, não gigabytes. Boa parte dos conjuntos de dados listados são praticamente engenharia reversa da representação de conhecimento e que, mesmo sem usar licença específica mais para datasets (PDDL, CDLA, ODC, …) tem uma licença em que você pode usar.

Conjunto de dados Data Licença Etiquetas Descrição
languagetool-org: regras PT ativo LGPLv2.1 (muitas-tags), pt-AO, pt-BR pt-MZ e pt-PT languagetool-org é verificador de estilo e gramática para mais de 25 idiomas
languagetool-org: falsos cognatos ativo LGPLv2.1 falsos-cognatos, traducao Falsos cognatos (Inglês: false friends) são termos que parecem uma coisa, mas na verdade, são outra. Muito pertinente na tradução de textos
openWordnet-PT ativo CC-BY-4.0 wordnet, owl, rdf, sparql, pt-BR OpenWordnet-PT: an open Brazilian Wordnet
Stopwords Portuguese (PT) 2016-10-10 Várias stopwords, palavras-vazias Lista de listas de palavras-vazias com 560 termos únicos
VERO-pt-BR 2013-12-17 LGPLv3, MPL verificacao-ortografica, verificacao-gramatical, hifenizacao, libreoffice, openoffice, pt-BR Espelho não-oficial da base de dados do VERO (VERificador Ortografico do LibreOffice)
DicSin pt-BR 2010-05-28 GPLv2? dicionario, sinonimo, antonimo, pt-BR DicSin: Dicionário de sinônimos e antônimos no idioma português brasileiro
br.ispell 2003-03-25 GPLv2 dicionario, verificacao-ortografica, ispell, aspell, myspell, pt-BR Espelho não-oficial dos dados de br.ispell

Pergunta em aberto: sabendo que conjunto de dados linguísticos são úteis para todos (principalmente o próprio governo e pequenas e médias empresas e organizações) o que pode ser feito com os que nem existem ou os que o uso mais comum implica em pirataria?

Lista de desejos

Aviso: a lista a seguir não foi revisada quanto a utilidade e viabilidade.

Etiquetas Inspirações Descrição
afinn-111, analise-de-sentimento AFINN-111, EN Uma lista de palavras etiquetada com uma valência positiva ou negativa adaptada a um ou mais dialetos da língua portuguesa, que use como inspiração (não necessariamente uma tradução) do artigo A new ANEW: Evaluation of a word list for sentiment analysis in microblogs
analise-de-sentimento, sarcasmo MIT, emojis, bullying Considerar a possibilidade de estimular análise de sentimento (ou padrões para identificar sarcasmo) considerando emojis e outros estilos de escrita muito específicos. Potencialmente útil em pesquisas futuras para reduzir falsos positivos de linguagem ofensiva ou discurso de ódio. Um projeto internacional é deepmoji.mit.edu / GitHub do DeepMoji
termos-ofensivos, palavrao Wikipedia, HateBase PT Palavrões, Palavra de baixo calão, termos ofensivos: <ul><li>Preferencialmente com classificações adicionais (por região, tipo de palavrão, intensidade)</li><li>Permitir exportação para lista de palavras simples (útil em filtros de spam)</li><li>Pode exibir uma abordagem colaborativa, atualizável por usuários finais</li><li>Muito útil para gerar outros conjuntos de dados</li></ul>
termos-ofensivos, discurso-de-odio Wikipedia, HateBase PT Conjunto de dados que ajudem a identificar especificamente discurso de ódio possui interesse especial dentro de termos ofensivos
weasel-word languagetool weasel words Lista de palavras com termos evasivos. Pode ser interessante interessante até para análise de discursos políticos. Veja: Finding Hedges by Chasing Weasels: Hedge Detection Using Wikipedia Tags and Shallow Linguistic Features

Justificativa

Uma forma de classificar conjunto de dados que se provam úteis separar em duas categorias:

  1. Validados o suficiente para uso como ferramenta em pesquisa acadêmica nível internacional
  2. Os aceitáveis para uso no dia a dia pela indústria

A coexistência de ambos é boa para sociedade. Como podemos estimular mais ainda? Um problema a nível internacional é que há baixa interação, mesmo dentro de universidades, das áreas de computação com as de estudo da língua, psicologia, sociologia e afins. Será que podemos estimular uma abordagem diferente em nossos países?

TODO: adicionar mais informação da justificativa (fititnt, 2018-05-21 03:08 BRT)

Contato

Licença

Public Domain

Na medida do possível sob a lei, Emerson Rocha renunciou todos os direitos autorais e direitos conexos ou vizinhos a este trabalho para o domínio público.