Esame informatica-progetto

- corpus.concordance (“ “)  (esaminare il contesto di un testo).

concordance ci mostra ogni occorrenza di una data parola, insieme ad un

contesto.

- corpus.similar (“ “)  ci permette di vedere quali altre parole appaiono in una gamma simili di contesti.

- corpus.common_contexts ([x])  ci permette di esaminare solo i contesti che sono condivisi da due o più

parole.

- corpus.dispersion_plot ([x,x,x])  determinare la posizione di una parola nel testo, utilizzando un grafico

di dispersione.

quante parole ogni striscia rappresenta un’istanza di una parola

dall’inizio appare e ogni riga l’intero testo.

- corpus.generate ()  ogni volta che si esegue si genera un testo di output diverso.

 generare del testo casuale.

- len (corpus)  lunghezza di un testo dall’inizio alla fine (parole + simboli e punteggiatura).

(in numeri)

- token = termine tecnico per una sequenza di caratteri che vogliamo trattare come gruppo.

- set (coprus)  ottenere gli elementi del vocabolario del testo.

- sorted (set(corpus))  elenco ordinato di voci di vocabolario.

(da puntegg. a parole alfab.)

maiuscolo prima di minuscolo.

- word type = parola considerata elemento unico del vocabolario.

- types invece di word type.

- len (set(corpus))  numero di elementi nell’insieme.

- from_ _future_ _import division

len (corpus/len (set(corpus))  calcolare una misura della ricchezza lessicale del testo.

- corpus.count (“ “)  contare la frequenza con cui una parola ricorre in un testo.

(quanto viene usata in media ogni parola).

- 100*corpus.count (“ “)/len (corpus)  percentuale del testo occupata da parola specifica.

- def media_parola (corpus):

return len (corpus)/len (set(corpus))  si può inventare il proprio nome per un’attività ed associarlo ad

un blocco di codice (function/funzione).

definiamo un nome breve per la funziona con la parola chiave def.

- list  materiale tra parentesi e tra virgolette e virgole con un nome che abbiamo inventato.

- text1 = [“x”,”x”,”x”]

Le parentesi servono a separare il nome di un’attività dai dati su cui deve essere eseguita l’attività.

Il valore all’interno è un argomento della funzione.

- concatenation  combinare delle liste in una unica.

possiamo concatenare delle sentenze per costruire un testo.

- append ()

- text1.append (“punto”)

- index  il numero che rappresenta una determinata posizione.

- text1[4] oppure text1.index (“sono”)

- slicing  accedere a sottoelenchi, estraendo pezzi gestibili di linguaggio da testi di grandi dimensioni.

- text1[2:5]  possiamo omettere il primo numero se il “pezzo/fetta” comincia all’inizio della lista e

possiamo omettere l’ultimo numero se il “pezzo/fetta” va fino alla fine.

- text1[0]=”ciao”  modificare un elemento della lista assegnando un nuovo valore index.

- text1[2:5]=[“x”,”x”]  possiamo anche modificare un intero pezzo con nuovo materiale.

- variable=expression  Python valuterà l’espressione e salverà il suo risultato nella variabile.

- assignment non genera nessun output.

(incarico). si deve digitare la variabile su una linea a sé stante per controllare il suo contenuto.

Si può dare qualsiasi nome alle variabili tranne le parole riservate di Python. (def, mat, if, import).

Anteprima parziale del testo

Scarica Comandi per il progetto di informatica e più Appunti in PDF di Fondamenti di informatica solo su Docsity!

Esame informatica-progetto

corpus.concordance (“ “)  (esaminare il contesto di un testo). concordance ci mostra ogni occorrenza di una data parola, insieme ad un contesto.
corpus.similar (“ “)  ci permette di vedere quali altre parole appaiono in una gamma simili di contesti.
corpus.common_contexts ([x])  ci permette di esaminare solo i contesti che sono condivisi da due o più parole.
corpus.dispersion_plot ([x,x,x])  determinare la posizione di una parola nel testo, utilizzando un grafico di dispersione. quante parole ogni striscia rappresenta un’istanza di una parola dall’inizio appare e ogni riga l’intero testo.
corpus.generate ()  ogni volta che si esegue si genera un testo di output diverso.  generare del testo casuale.
len (corpus)  lunghezza di un testo dall’inizio alla fine (parole + simboli e punteggiatura). (in numeri)
token = termine tecnico per una sequenza di caratteri che vogliamo trattare come gruppo.
set (coprus)  ottenere gli elementi del vocabolario del testo.
sorted (set(corpus))  elenco ordinato di voci di vocabolario. (da puntegg. a parole alfab.) maiuscolo prima di minuscolo.
word type = parola considerata elemento unico del vocabolario.
types invece di word type.
len (set(corpus))  numero di elementi nell’insieme.
from_ future _import division len (corpus/len (set(corpus))  calcolare una misura della ricchezza lessicale del testo.
corpus.count (“ “)  contare la frequenza con cui una parola ricorre in un testo. (quanto viene usata in media ogni parola).
100*corpus.count (“ “)/len (corpus)  percentuale del testo occupata da parola specifica.
def media_parola (corpus): return len (corpus)/len (set(corpus))  si può inventare il proprio nome per un’attività ed associarlo ad un blocco di codice (function/funzione). definiamo un nome breve per la funziona con la parola chiave def.
list  materiale tra parentesi e tra virgolette e virgole con un nome che abbiamo inventato.
- text1 = [“x”,”x”,”x”] Le parentesi servono a separare il nome di un’attività dai dati su cui deve essere eseguita l’attività. Il valore all’interno è un argomento della funzione.
concatenation  combinare delle liste in una unica. possiamo concatenare delle sentenze per costruire un testo.
append ()
text1.append (“punto”)
index  il numero che rappresenta una determinata posizione.
text1[4] oppure text1.index (“sono”)
slicing  accedere a sottoelenchi, estraendo pezzi gestibili di linguaggio da testi di grandi dimensioni.
text1[2:5]  possiamo omettere il primo numero se il “pezzo/fetta” comincia all’inizio della lista e possiamo omettere l’ultimo numero se il “pezzo/fetta” va fino alla fine.
text1[0]=”ciao”  modificare un elemento della lista assegnando un nuovo valore index.
text1[2:5]=[“x”,”x”]  possiamo anche modificare un intero pezzo con nuovo materiale.
variable=expression  Python valuterà l’espressione e salverà il suo risultato nella variabile.
- assignment non genera nessun output. (incarico). si deve digitare la variabile su una linea a sé stante per controllare il suo contenuto. Si può dare qualsiasi nome alle variabili tranne le parole riservate di Python. (def, mat, if, import).

len (set(text1))  si può scrivere anche: - vocab=set (text1)
- vocab_size=len (vocab)
- vocab_size
stringhe = parole individuali  possiamo eseguire con esse addizioni e moltiplicazioni. (alcuni metodi utilizzati prima possiamo unire le parole di una lista per fare una singola stringa o dividere funzionano anche con le stringhe) una stringa in una lista.

frequency distribution  dice la frequenza di ogni vocabolo nel testo.
- from nltk import freqdist
- fdist = freqdist (corpus)
- fdist
- fdist1[“ “]
- fdist1.most_common (40)
fdist1.plot (40,comulative=true)  genera un grafico di frequenza comulativa per delle parole.
fdist1.hapaxes ()  per trovare parole che ricorrono una volta sola.
[w for w in v if p (w)]  “l’insieme di tutti i w tali che w è un elemento di V (vocabolario) e w ha la proprietà P”. proprietà P (w) vera se e solo se w è più lunga di un tot. di caratteri.
V = set (corpus)
long_words=[w for w in v if len (w)>]  trovare le parole del vocabolario che sono più lunghe di 10 o 15
sorted (long_words) caratteri.
fdist1 = freqdist (corpus) sorted ([w for w in set (corpus) if len (w)>5 and fdist1[w]>5])  (w)>5 -> parole più lunghe di 5 lettere.  [w]>5 -> parole che ricorrono più di 5 volte.
bigrams () bigrams ([“x”,”x”,”x”])  lista di coppie di parole. se non funziona scrivere: -list(bigrams ([“x”,”x”,…])))

Comandi per il progetto di informatica, Appunti di Fondamenti di informatica

Documenti correlati

Anteprima parziale del testo

Scarica Comandi per il progetto di informatica e più Appunti in PDF di Fondamenti di informatica solo su Docsity!

Esame informatica-progetto