Classe di caratteri un insieme di caratteri tra parentesi quadre è una RE che definisce una classe di

caratteri disgiunti.

Definizione

Esempi di “matching”

r’[st]’

il carattere ‘s’ o il carattere ‘t’

“la sintassi”

“il tempo”

r’[1234567890]’

qualsiasi cifra

“2 parole”

r’[Ll]inguistica’

‘linguistica’ o ‘Linguistica’

“la Linguistica Computazionale”

“la linguistica computazionale”

ATTENZIONE! Una classe di caratteri corrisponde sempre ad un solo carattere

‘[st]’ il carattere ‘s’ o ‘t’ “la sintassi” “il tema”

‘st’ la stringa ‘st’ “la sintassi” “il tema”

‘[123]’ il carattere ‘1’ o ‘2’ o ‘3’ “715.478”

‘123’ la stringa di caratteri ‘123’ “715.478” “674.123”

Dentro una classe di caratteri è possibile specificare un intervallo di caratteri in una scala usando ‘-‘:

Definizione

Esempi di “matching”

r’[a-z]’

qualsiasi lettera minuscola

“la sintassi”

“il Tempo”

r’[0-9]’

qualsiasi cifra

“2 parole”

r’[a-zA-Z]’

qualsiasi lettera minuscola o

maiuscola

“la Linguistica”

“la linguistica”

Dentro una classe di caratteri è possibile specificare che un pattern non deve contenere un certo

carattere usando il segno ‘^’:

Definizione

Esempi di “matching

r’[^a-z]’

qualsiasi carattere diverso da

una lettera minuscola

“la Sintassi” “il 25%”

“il_tempo”

r’[^st]’

qualsiasi carattere che non sia

ne’ ‘s’ ne’ ‘t’

“2 parole”

“ssss”

ATTENZIONE! ‘^’ ha valore negativo solo quando compare subito dopo la ‘[‘

‘[2^]’ il carattere ‘2’ o ‘^’ “3^5”

Alcune utili abbreviazioni per classi di caratteri

Classe di caratteri equivalente

r’\d’

r’[0-9]’

r’\w’

r’[a-zA-Z0-9_]’

r’\s’

r’[ \t\n]’

r’\D’

r’[^0-9]’

r’\W’

r’[^a-zA-Z0-9_]’

r’\S’

r’[^ \t\n] ’

Caratteri particolari:

\t tabulazione

\n a capo

Alternativa

L’operatore “|” esprime la disgiunzione tra due RE (operatore di alternativa)

Definizione

Esempi di “matching”

r’cane|gatto’

la stringa ‘cane” oppure la

stringa “gatto”

“il cane abbaia”

“il gatto miagola”

ATTENZIONE!

‘[..]’ esprime solo la disgiunzione tra caratteri singoli

‘[abc’] il carattere ‘à o ‘b’ o ‘c’

La disgiunzione tra stringhe deve essere espressa con l’operatore di alternativa

‘ab|c’ la stringa ‘ab’ o il carattere ‘c’

Esercitazioni linguistica computazionale, Dispense di Linguistica

Documenti correlati

Anteprima parziale del testo

Scarica Esercitazioni linguistica computazionale e più Dispense in PDF di Linguistica solo su Docsity!

Alphabetical list of part-of-speech tags used in the Penn Treebank Project:

Number Tag Description

1. CC Coordinating conjunction

2. CD Cardinal number

3. DT Determiner

4. EX Existential there

5. FW Foreign word

6. IN Preposition or subordinating conjunction

7. JJ Adjective

8. JJR Adjective, comparative

9. JJS Adjective, superlative

10. LS List item marker

11. MD Modal

12. NN Noun, singular or mass

13. NNS Noun, plural

14. NNP Proper noun, singular

15. NNPS Proper noun, plural

16. PDT Predeterminer

17. POS Possessive ending

18. PRP Personal pronoun

19. PRP$ Possessive pronoun

20. RB Adverb

21. RBR Adverb, comparative

22. RBS Adverb, superlative

23. RP Particle

24. SYM Symbol

25. TO to

26. UH Interjection

27. VB Verb, base form

28. VBD Verb, past tense

29. VBG Verb, gerund or present participle

30. VBN Verb, past participle

31. VBP Verb, non-3rd person singular present

32. VBZ Verb, 3rd person singular present

33. WDT Wh-determiner

34. WP Wh-pronoun

35. WP$ Possessive wh-pronoun

36. WRB Wh-adverb

37.. punctuation mark, sentence closer

38. , punctuation mark, comma

39. : unctuation mark, colon

40. ( contextual separator, left paren

41. ) contextual separator, right paren