






























Studia grazie alle numerose risorse presenti su Docsity
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
Prepara i tuoi esami
Studia grazie alle numerose risorse presenti su Docsity
Prepara i tuoi esami con i documenti condivisi da studenti come te su Docsity
Trova i documenti specifici per gli esami della tua università
Preparati con lezioni e prove svolte basate sui programmi universitari!
Rispondi a reali domande d’esame e scopri la tua preparazione
Riassumi i tuoi documenti, fagli domande, convertili in quiz e mappe concettuali
Studia con prove svolte, tesine e consigli utili
Togliti ogni dubbio leggendo le risposte alle domande fatte da altri studenti come te
Esplora i documenti più scaricati per gli argomenti di studio più popolari
Ottieni i punti per scaricare
Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium
linguistica computazionale e regex tokenizzazione
Tipologia: Slide
1 / 38
Questa pagina non è visibile nell’anteprima
Non perderti parti importanti!































Cosa sono i «token»; cos’è la «tokenizzazione» 01 Esploriamo la tokenizzazione contando le parole in Harry Potter e la camera dei segreti!
03 Introduzione generale 02
È una verità universalmente riconosciuta che uno scapolo in possesso di una discreta fortuna debba essere in cerca di una moglie. Per quanto poco noti siano i sentimenti e i gusti di un simile uomo nel momento in cui entra a far parte di una comunità, tale convinzione è così ben radicata nelle menti delle famiglie del vicinato che il giovane finisce per essere ritenuto legittima proprietà di una o dell’altra delle loro figlie.
Ecco una prima differenza!
fondamentali, senza quasi pensarci. Per noi è un’operazione triviale. Un computer non possiede queste nozioni e non è in grado da solo di svolgere questa operazione.
Per analizzare un testo, partiamo dall’analisi del suo lessico Parole Dobbiamo segmentare questo continuum di caratteri in unità da analizzare Unità Per un computer un testo è una sequenza di caratteri (spazi e «a capo» compresi) Caratteri
L’ unità di base in cui scomponiamo il testo per svolgere le operazioni di elaborazione successive (analisi, lettura, calcolo…)
Token
I criteri dipendono dal tipo di analisi che intendiamo svolgere (e.g.: glielo). Spesso, tuttavia, si seguono pratiche standardizzate
Possiamo avere approcci diversi a seconda dello scopo. Ma ogni futuro lavoro di elaborazione partirà dal testo tokenizzato come input
姚姚姚姚姚姚姚 “ Yao Ming reaches the finals” 3 token? 姚姚 姚姚 姚姚姚 YaoMing reaches finals 5 token? 姚 姚 姚姚 姚 姚姚 Yao Ming reaches overall finals 7 token? (solo segni ideografici): 姚 姚 姚 姚 姚 姚 姚 Yao Ming enter enter overall decision game Da Jurafsky and Martin
Anche la punteggiatura (nelle lingue dove è usata) ha le sue ambiguità: Buongiorno. Le presento il Sig. Rossi.
Un «linguaggio» per definire pattern di stringhe
Espressioni regolari