Skip to content

Instantly share code, notes, and snippets.

@JonasLopesdoO
Last active May 13, 2019 02:49
Show Gist options
  • Save JonasLopesdoO/ab4d2159a7e9aae227055ed1a1fcfc4c to your computer and use it in GitHub Desktop.
Save JonasLopesdoO/ab4d2159a7e9aae227055ed1a1fcfc4c to your computer and use it in GitHub Desktop.
Trabalho Final Machine Learning etapa 2
Display the source blob
Display the rendered blob
Raw
{
"cells": [
{
"cell_type": "markdown",
"metadata": {},
"source": [
"# Final Work of Machine Learning Discipline"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Tipo de problema\n",
"NER - Named Entity Recognition.\n",
"\n",
"Neste tipo de problema um modelo de predição para textos tentará predizer da melhor maneira possível quais são as entidades em um texto. Os problemas de NER surgem devido diversas maneiras de expressar uma determinada coisa e também onde uma coisa pode significar várias outras.\n",
"A língua Portuguesa por exemplo possui muitos tempos verbais e maneiras de conjugação de verbos.\n",
"\n",
"Ex: conjugar, conjugado, conjugaria, conjugarei, conjugaríamos, conjugaríeis, conjugaste, conjugou, conjuguemos...\n",
"\n",
"Tente explicar por exemplo para um extrangeiro a diferença entre \"bota a calça e calça a bota\"."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": []
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Problema\n",
"O problema a ser resolvido com a resolução deste trabalho é utilizar um dataset com milhares de textos e palavras rotulados e a partir de um modelo de predições de texto realizar o ranqueamento das melhores classificações. "
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": []
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Datasets\n",
"Será utilizado um dataset amplamente difundido que foi utilizado primariamente na Conference on Computational Natural Language Learning (CoNLL-2003) acessível a partir do seguinte link: https://www.clips.uantwerpen.be/conll2003/ner/"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": []
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Divisão do dataset\n",
"O primeiro item de cada linha é uma palavra. O segundo é um Part-of-Speech (POS) tag. O terceiro é uma tag de fragmento sintático. A quarta é a tag de entidade nomeada.\n",
"\n",
"As tags de fragmento e os nomes de entidades tem o formato I-TYPE que significa que a palavra está dentro de uma frase do tipo TYPE.\n",
"\n",
" Uma palavra com a tag O não é parte de uma frase."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": []
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Divisão do dataset - rows\n",
"Os arquivos de dados de tarefas compartilhadas CoNLL-2003 contêm quatro colunas separadas por um único espaço.\n",
"\n",
"- O primeiro item de cada linha no dataset é uma palavra. \n",
"- O segundo é um Part-of-Speech (POS) tag. \n",
"- O terceiro é uma tag de fragmento sintático. \n",
"- A quarta é a tag de entidade nomeada.\n",
"\n",
"As tags de fragmento e os nomes de entidades tem o formato I-TYPE que significa que a palavra está dentro de uma frase do tipo TYPE.\n",
"\n",
" Uma palavra com a tag O não é parte de uma frase."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": []
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Ferramenta\n",
"Será utilizado o Spacy que é uma ferramenta para o emprego de técnicas de Processamento de Linguagem Natural - PLN. Será utilizado voltado ao NER - Named Entity Recognition.\n",
"\n",
"O Spacy é uma ferramenta de código aberto muito poderosa que já possui diversos modelos prontos para uso para diversos idiomas.\n",
"\n",
"Será utilizado o modelo para classificação de textos em inglês.\n",
"\n",
"Algumas funções do spacy estão definidas mais abaixo no documento."
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": []
},
{
"cell_type": "code",
"execution_count": 10,
"metadata": {},
"outputs": [],
"source": [
"#U.N. NNP I-NP I-ORG \n",
"#official NN I-NP O \n",
"#Ekeus NNP I-NP I-PER \n",
"#heads VBZ I-VP O \n",
"#for IN I-PP O \n",
"#Baghdad NNP I-NP I-LOC \n",
"#. . O O "
]
},
{
"cell_type": "code",
"execution_count": 11,
"metadata": {
"scrolled": true
},
"outputs": [
{
"data": {
"text/plain": [
"'noun, proper singular'"
]
},
"execution_count": 11,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"# mostra o que significa cada saída do token\n",
"spacy.explain(\"NNP\")"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": []
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Divisão dos arquivos de dados\n",
"A divisão dos arquivos do dataset se dão da seguinte forma:\n",
" - Consiste de 3 arquivos por linguagem\n",
" - Um arquivo de treino\n",
" - Dois arquivos de teste, testeA e testeB\n",
" - O primeiro arquivo de teste será usado em produção para encontrar os melhores parametros\n",
" - O segundo arquivo de teste será usado para a avaliação final\n",
" - Os dados estão disponíveis em dois datasets, um em Inglês e também em Alemão. Para o propósito deste trabalho será usado apenas a versão em inglês.\n",
" "
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": []
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Arquivos\n",
"- eng.raw.tar - 13,930 MB - Conjunto de dados em inglês\n",
"- ner.tgz - 3,374 MB - Contém o software para fazer o build dos dados\n",
"- 000README.txt - 8 KB - Instruções para descompactação\n",
"\n",
"Os dados em inflês são uma coleção de artigos de notícias do Reuters Corpus."
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": []
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Métricas de Avaliação\n",
"A competição utiliza três métricas principais que são:\n",
"- Precision\n",
"- Recall\n",
"- F-Score\n",
"\n",
"Precision é a porcentagem de named entities encontradas pelo sistema de aprendizado que estão corretas.\n",
"\n",
"Recall é a porcentagem de named entities presentes no Corpus que são encontradas pelo sistema.\n",
"\n",
"Uma named entity só está correta se for uma correspondência exata da entidade correspondente no\n",
"arquivo de dados."
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": []
},
{
"cell_type": "code",
"execution_count": 4,
"metadata": {},
"outputs": [],
"source": [
"import spacy\n",
"from spacy import displacy"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"nlp = spacy.load(\"en_core_web_sm\")"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"doc = nlp(u\"Apple is looking at buying U.K. startup for $1 billion\")\n",
"\n",
"for token in doc:\n",
" print(token.text, token.pos_, token.dep_)"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {
"scrolled": true
},
"outputs": [],
"source": [
"for token in doc:\n",
" print(token.text, token.lemma_, token.pos_, token.tag_, token.dep_,\n",
" token.shape_, token.is_alpha, token.is_stop)"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Separando cada parte do texto como string"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"doc2 = nlp(u'You finded the book that I told you, Carla?')"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {
"scrolled": true
},
"outputs": [],
"source": [
"doc2.text.split()"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Pegando cada token e mostrando"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {
"scrolled": true
},
"outputs": [],
"source": [
"[token for token in doc2]"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Pegando os tokens como strings"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {
"scrolled": true
},
"outputs": [],
"source": [
"[token.orth_ for token in doc2]"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Pegando apenas as palavras de um texto"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"[token.orth_ for token in doc2 if not token.is_punct]"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"[token.orth_ for token in doc2 if token.is_punct]"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Similaridade"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"tokens = [token for token in doc2]"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"# you | I\n",
"tokens[0].similarity(tokens[5])"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"# you | book\n",
"tokens[0].similarity(tokens[3])"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Análise de classes gramaticais"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"[(token.orth_, token.pos_) for token in doc2]"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Fazendo a lematização \n",
"Isso funciona para textos que podem ter diversas conjufações e tempos verbais, assim ele somente pega a raíz da palavra"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"[token.lemma_ for token in doc2 if token.pos_ == 'VERB']"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"doc2 = nlp(u'knew, know')"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"[token.lemma_ for token in doc2 if token.pos_ == 'VERB']"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"# verifica se uma palavra é ancestral de outra\n",
"doc2 = nlp(u'find finded')\n",
"tokens = [token for token in doc2]\n",
"tokens[0].is_ancestor(tokens[1])"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"## Entidades!"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"doc = nlp(u'Levi Carneiro one of the best writers in Brazil, was an president of the Brasilian Academy of Letters')"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {
"scrolled": true
},
"outputs": [],
"source": [
"[(entity, entity.label_) for entity in doc.ents]"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {
"scrolled": true
},
"outputs": [],
"source": [
"# Exemplo maior\n",
"wiki_obama = \"\"\"Barack Obama is an American politician who served as\n",
"the 44th President of the United States from 2009 to 2017. He is the first\n",
"African American to have served as president,\n",
"as well as the first born outside the contiguous United States.\"\"\"\n",
"nlp_obama = nlp(wiki_obama)\n",
"[(entity, entity.label_) for entity in nlp_obama.ents]"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Mostrando informações sobre cada entidade"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {
"scrolled": false
},
"outputs": [],
"source": [
"doc = nlp(u\"Apple is looking at buying U.K. startup for $1 billion\")\n",
"\n",
"for ent in doc.ents:\n",
" print(ent.text, ent.start_char, ent.end_char, ent.label_)"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {
"scrolled": true
},
"outputs": [],
"source": [
"doc = nlp(u\"Apple is looking at buying U.K. startup for $1 billion\")\n",
"spacy.displacy.render(doc, style='ent', jupyter=True)"
]
},
{
"cell_type": "code",
"execution_count": null,
"metadata": {},
"outputs": [],
"source": [
"#doc = nlp(u\"Apple is looking at buying U.K. startup for $1 billion\")\n",
"#spacy.displacy.serve(doc, style='dep', options={'distance' : 140})"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### Training data: Examples and their annotations.\n",
"\n",
"### Text: The input text the model should predict a label for.\n",
"\n",
"### Label: The label the model should predict.\n",
"\n",
"### Gradient: Gradient of the loss function calculating the difference between input and expected output."
]
},
{
"cell_type": "code",
"execution_count": 2,
"metadata": {},
"outputs": [
{
"data": {
"image/png": "\n",
"text/plain": [
"<IPython.core.display.Image object>"
]
},
"execution_count": 2,
"metadata": {},
"output_type": "execute_result"
}
],
"source": [
"from IPython.display import Image\n",
"Image(filename=\"training model.png\")"
]
}
],
"metadata": {
"kernelspec": {
"display_name": "Python 3",
"language": "python",
"name": "python3"
},
"language_info": {
"codemirror_mode": {
"name": "ipython",
"version": 3
},
"file_extension": ".py",
"mimetype": "text/x-python",
"name": "python",
"nbconvert_exporter": "python",
"pygments_lexer": "ipython3",
"version": "3.7.1"
}
},
"nbformat": 4,
"nbformat_minor": 2
}
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment