Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli


Comandi per il progetto di informatica, Appunti di Fondamenti di informatica

Comandi per il progetto di informatica

Tipologia: Appunti

2020/2021

Caricato il 19/02/2022

Lavi8
Lavi8 🇮🇹

4.5

(155)

290 documenti

1 / 2

Toggle sidebar

Questa pagina non è visibile nell’anteprima

Non perderti parti importanti!

bg1
Esame informatica-progetto
- corpus.concordance (“ “) (esaminare il contesto di un testo).
concordance ci mostra ogni occorrenza di una data parola, insieme ad un
contesto.
- corpus.similar (“ “) ci permette di vedere quali altre parole appaiono in una gamma simili di contesti.
- corpus.common_contexts ([x]) ci permette di esaminare solo i contesti che sono condivisi da due o più
parole.
- corpus.dispersion_plot ([x,x,x]) determinare la posizione di una parola nel testo, utilizzando un grafico
di dispersione.
quante parole ogni striscia rappresenta un’istanza di una parola
dall’inizio appare e ogni riga l’intero testo.
- corpus.generate () ogni volta che si esegue si genera un testo di output diverso.
generare del testo casuale.
- len (corpus) lunghezza di un testo dall’inizio alla fine (parole + simboli e punteggiatura).
(in numeri)
- token = termine tecnico per una sequenza di caratteri che vogliamo trattare come gruppo.
- set (coprus) ottenere gli elementi del vocabolario del testo.
- sorted (set(corpus)) elenco ordinato di voci di vocabolario.
(da puntegg. a parole alfab.)
maiuscolo prima di minuscolo.
- word type = parola considerata elemento unico del vocabolario.
- types invece di word type.
- len (set(corpus)) numero di elementi nell’insieme.
- from_ _future_ _import division
len (corpus/len (set(corpus)) calcolare una misura della ricchezza lessicale del testo.
- corpus.count (“ “) contare la frequenza con cui una parola ricorre in un testo.
(quanto viene usata in media ogni parola).
- 100*corpus.count (“ “)/len (corpus) percentuale del testo occupata da parola specifica.
- def media_parola (corpus):
return len (corpus)/len (set(corpus)) si può inventare il proprio nome per un’attività ed associarlo ad
un blocco di codice (function/funzione).
definiamo un nome breve per la funziona con la parola chiave def.
- list materiale tra parentesi e tra virgolette e virgole con un nome che abbiamo inventato.
- text1 = [“x”,”x”,”x”]
Le parentesi servono a separare il nome di un’attività dai dati su cui deve essere eseguita l’attività.
Il valore all’interno è un argomento della funzione.
- concatenation combinare delle liste in una unica.
possiamo concatenare delle sentenze per costruire un testo.
- append ()
- text1.append (“punto”)
- index il numero che rappresenta una determinata posizione.
- text1[4] oppure text1.index (“sono”)
- slicing accedere a sottoelenchi, estraendo pezzi gestibili di linguaggio da testi di grandi dimensioni.
- text1[2:5] possiamo omettere il primo numero se il “pezzo/fetta” comincia all’inizio della lista e
possiamo omettere l’ultimo numero se il “pezzo/fetta” va fino alla fine.
- text1[0]=”ciao” modificare un elemento della lista assegnando un nuovo valore index.
- text1[2:5]=[“x”,”x”] possiamo anche modificare un intero pezzo con nuovo materiale.
- variable=expression Python valuterà l’espressione e salverà il suo risultato nella variabile.
- assignment non genera nessun output.
(incarico). si deve digitare la variabile su una linea a sé stante per controllare il suo contenuto.
Si può dare qualsiasi nome alle variabili tranne le parole riservate di Python. (def, mat, if, import).
pf2

Anteprima parziale del testo

Scarica Comandi per il progetto di informatica e più Appunti in PDF di Fondamenti di informatica solo su Docsity!

Esame informatica-progetto

  • corpus.concordance (“ “)  (esaminare il contesto di un testo). concordance ci mostra ogni occorrenza di una data parola, insieme ad un contesto.
  • corpus.similar (“ “)  ci permette di vedere quali altre parole appaiono in una gamma simili di contesti.
  • corpus.common_contexts ([x])  ci permette di esaminare solo i contesti che sono condivisi da due o più parole.
  • corpus.dispersion_plot ([x,x,x])  determinare la posizione di una parola nel testo, utilizzando un grafico di dispersione. quante parole ogni striscia rappresenta un’istanza di una parola dall’inizio appare e ogni riga l’intero testo.
  • corpus.generate ()  ogni volta che si esegue si genera un testo di output diverso.  generare del testo casuale.
  • len (corpus)  lunghezza di un testo dall’inizio alla fine (parole + simboli e punteggiatura). (in numeri)
  • token = termine tecnico per una sequenza di caratteri che vogliamo trattare come gruppo.
  • set (coprus)  ottenere gli elementi del vocabolario del testo.
  • sorted (set(corpus))  elenco ordinato di voci di vocabolario. (da puntegg. a parole alfab.) maiuscolo prima di minuscolo.
  • word type = parola considerata elemento unico del vocabolario.
  • types invece di word type.
  • len (set(corpus))  numero di elementi nell’insieme.
  • from_ future _import division len (corpus/len (set(corpus))  calcolare una misura della ricchezza lessicale del testo.
  • corpus.count (“ “)  contare la frequenza con cui una parola ricorre in un testo. (quanto viene usata in media ogni parola).
  • 100*corpus.count (“ “)/len (corpus)  percentuale del testo occupata da parola specifica.
  • def media_parola (corpus): return len (corpus)/len (set(corpus))  si può inventare il proprio nome per un’attività ed associarlo ad un blocco di codice (function/funzione). definiamo un nome breve per la funziona con la parola chiave def.
  • list  materiale tra parentesi e tra virgolette e virgole con un nome che abbiamo inventato.
    • text1 = [“x”,”x”,”x”] Le parentesi servono a separare il nome di un’attività dai dati su cui deve essere eseguita l’attività. Il valore all’interno è un argomento della funzione.
  • concatenation  combinare delle liste in una unica. possiamo concatenare delle sentenze per costruire un testo.
  • append ()
  • text1.append (“punto”)
  • index  il numero che rappresenta una determinata posizione.
  • text1[4] oppure text1.index (“sono”)
  • slicing  accedere a sottoelenchi, estraendo pezzi gestibili di linguaggio da testi di grandi dimensioni.
  • text1[2:5]  possiamo omettere il primo numero se il “pezzo/fetta” comincia all’inizio della lista e possiamo omettere l’ultimo numero se il “pezzo/fetta” va fino alla fine.
  • text1[0]=”ciao”  modificare un elemento della lista assegnando un nuovo valore index.
  • text1[2:5]=[“x”,”x”]  possiamo anche modificare un intero pezzo con nuovo materiale.
  • variable=expression  Python valuterà l’espressione e salverà il suo risultato nella variabile.
    • assignment non genera nessun output. (incarico). si deve digitare la variabile su una linea a sé stante per controllare il suo contenuto. Si può dare qualsiasi nome alle variabili tranne le parole riservate di Python. (def, mat, if, import).
  • len (set(text1))  si può scrivere anche: - vocab=set (text1)
    • vocab_size=len (vocab)
    • vocab_size
  • stringhe = parole individuali  possiamo eseguire con esse addizioni e moltiplicazioni. (alcuni metodi utilizzati prima possiamo unire le parole di una lista per fare una singola stringa o dividere funzionano anche con le stringhe) una stringa in una lista.
  • frequency distribution  dice la frequenza di ogni vocabolo nel testo.
    • from nltk import freqdist
    • fdist = freqdist (corpus)
    • fdist
    • fdist1[“ “]
    • fdist1.most_common (40)
  • fdist1.plot (40,comulative=true)  genera un grafico di frequenza comulativa per delle parole.
  • fdist1.hapaxes ()  per trovare parole che ricorrono una volta sola.
  • [w for w in v if p (w)]  “l’insieme di tutti i w tali che w è un elemento di V (vocabolario) e w ha la proprietà P”. proprietà P (w) vera se e solo se w è più lunga di un tot. di caratteri.
  • V = set (corpus)
  • long_words=[w for w in v if len (w)>]  trovare le parole del vocabolario che sono più lunghe di 10 o 15
  • sorted (long_words) caratteri.
  • fdist1 = freqdist (corpus) sorted ([w for w in set (corpus) if len (w)>5 and fdist1[w]>5])  (w)>5 -> parole più lunghe di 5 lettere.  [w]>5 -> parole che ricorrono più di 5 volte.
  • bigrams () bigrams ([“x”,”x”,”x”])  lista di coppie di parole. se non funziona scrivere: -list(bigrams ([“x”,”x”,…])))