Introdução
Processamento de Linguagem Natural (PLN) é um campo da linguística e da aprendizagem de máquina focada em entender a linguagem humana. O objetivo das tarefas de PLN não é apenas entender palavras soltas individualmente, mas ser capaz de entender o contexto dessas palavras.
A seguir uma lista de tarefas comuns de NLP, com alguns exemplos.
Classificação de sentenças completas
- Capturar o sentimento de uma sentenca, relacionado por exemplo a revisão de determinado produto;
- Detectar se um email é spam ou não;
- Determinar se uma sentença é gramaticalmente correta;
- Determinar se duas sentencas são logicamente relacionadas ou não.
Classificação de cada palavra em uma sentença
- Identificar os componentes gramaticais de uma sentença, por exemplo, substantivo, verbo, adjetivo;
- Identificar as entidades nomeadas, por exemplo, pessoa, local, organização;
Geração de conteúdo textual
- completar um trecho com autogeração textual, preenchendo as lacunas em um texto com palavas mascaradas
Extrair uma resposta de um texto
- Dada uma pergunta e um contexto, extrair a resposta baseada na informação passada no contexto.
Gerar uma nova sentença a partir de uma entrada de texto
- Traduzir a sentença para outro idioma
- resumir um texto
PLN não se limita ao texto escrito. Também engloba desafios complexos nos campos de reconhecimento de discurso e visão computacional, tal como a geração de transcrição de uma amostra de áudio ou a descrição de uma imagem.
Por que isso é desafiador?
Os computadores não processam a informação da mesma forma que os seres humanos. Por exemplo, quando nós lemos a sentença "estou com fome", nós podemos facilmente entender seu significado. Similarmente, dada duas sentenças como "Estou com fome" e "Estou triste", nós somos capazes de facilmente determinar quão similares elas são. Para modelos de Aprendizagem de Máquina (ML), tarefas como essas são mais difíceis. O texto precisa ser processado de um modo que possibilite ao modelo aprender. E porque a linguagem é complexa, nós precisamos pensar cuidadosamente como esse processamento tem que ser feito. Várias formas de representação de texto existem. Iremos observar alguns desses métodos no próximo capítulo.