[successivo] [precedente] [inizio] [fine] [indice generale] [indice ridotto] [indice analitico] [volume] [parte]


Capitolo 640.   Concetti generali sui formati audio digitali

Esistono alcuni concetti generali che riguardano i vari formati audio digitali, da conoscere, almeno superficialmente, per poter comprendere il significato delle funzioni dei programmi che generano o elaborano tali formati.

640.1   Composizione del suono

Si può considerare ogni tipo di suono come la somma di vibrazioni, ognuna con una propria frequenza di oscillazione e ampiezza. Per gestire il suono in modo elettrico, questo viene trasformato (analogicamente) in un segnale elettrico che oscilla riproducendo le stesse frequenze e un'ampiezza proporzionale tra le varie vibrazioni. Un suono si può rappresentare in un piano cartesiano, mettendo normalmente nell'asse orizzontale il tempo e in quello verticale la variazione di ciò che ne rappresenta il mezzo trasmissivo: la pressione dell'aria o il livello del segnale elettrico.

Figura 640.1. Se l'asse orizzontale rappresenta il tempo in millesimi di secondo (simbolo: «ms»), il disegno rappresenta un'oscillazione alla frequenza di 2 000 cicli al secondo, ovvero 2 000 Hz.

sin(2*x*2*pi)

Figura 640.2. Comparazione tra due vibrazioni: la prima alla frequenza di 2 000 Hz, la seconda alla frequenza di 7 000 Hz, con un'ampiezza pari alla metà del prima.

sin(2*x*2*pi) 0.5*sin(7*x*2*pi)

Figura 640.3. Suono composto da due vibrazioni: la prima alla frequenza di 2 000 Hz, la seconda alla frequenza di 7 000 Hz, con un'ampiezza pari alla metà del prima.

sin(2*x*2*pi)+0.5*sin(7*x*2*pi)

640.2   Rappresentazione digitale del suono

Per poter rappresentare il suono in forma digitale (ovvero in forma numerica), occorre fare una semplificazione, che comporta la suddivisione del tempo in segmenti abbastanza piccoli, all'interno dei quali si va a misurare il livello dell'intensità di ciò che trasmette il suono (di solito si tratta del livello del segnale elettrico). In pratica, è come ridurre un diagramma continuo, in un istogramma che ne approssima la forma. Questo procedimento è la campionatura (sampling).

La campionatura digitale si misura in quantità di campioni prelevati al secondo, pertanto si misura in hertz (simbolo: «Hz»).

Si comprende intuitivamente che la riproduzione di un suono digitalizzato comporta la ricostruzione di una vibrazione ottenuta per interpolazione dei valori dei vari campioni; di conseguenza: maggiore è la frequenza di campionamento (sampling rate), migliore è la qualità della riproduzione che si può ottenere; inoltre, maggiore è la precisione del campione, migliore è la qualità del suono.

Sul piano teorico, si afferma che la frequenza massima che si vuole poter riprodurre richiede una frequenza di campionamento maggiore del doppio di questa. Per esempio, per riprodurre vibrazioni fino a 20 000 Hz occorre una frequenza di campionamento superiore a 40 000 Hz.

Figura 640.4. A sinistra: campionatura con valori numerici che possono essere sia positivi, sia negativi. A destra: campionatura con valori numerici che possono essere solo positivi.

campionatura campionatura

640.3   Formati audio non compressi

I formati dei file audio non compressi, sono di tanti tipi, dove in particolare vanno considerate le caratteristiche dei campioni stessi. La tabella 640.5 descrive brevemente le caratteristiche di un file del genere.

Tabella 640.5. Caratteristiche di un file audio.

Caratteristica Descrizione
dimensione del campione La grandezza del campione, che di solito è in multipli di byte. Maggiore è la grandezza del campione, migliore è la qualità del suono memorizzato.
ordine dei byte Il contenuto del campione va interpretato tenendo conto dell'ordine in cui vanno presi i byte, che possono essere nella sequenza normale (big endian) o a coppie scambiate (little endian).
codifica Ogni campione rappresenta un numero, che può essere intero o a virgola mobile, da intendersi linearmente o come argomento di una funzione non lineare.
frequenza di campionamento Il campionamento avviene a una frequenza regolare: maggiore è questa frequenza, migliore è la qualità del suono memorizzato.
numero di canali Generalmente si memorizzano uno o due canali, per una registrazione monofonica o stereofonica, tuttavia questi possono essere anche di più. Per ogni canale viene memorizzato un campione separato a ogni ciclo della frequenza di campionamento.
intestazione Un file audio può essere grezzo o con intestazione, a seconda che contenga semplicemente la sequenza dei campioni o che prima di questa contenga la descrizione del suo formato.

Una registrazione audio di qualità equivalente a quella dei CD audio è fatta a campioni di 16 bit, a una frequenza di 44 100 Hz; per arrivare al livello di un DAT (Digital audio tape) si passa a una frequenza di campionamento di 48 000 Hz. Pertanto, un secondo di registrazione a qualità CD, in stereofonia, comporta l'utilizzo di 2·16·44 100 = 1 411 200 bit, pari a 176 400 byte; così, un secondo di registrazione a qualità DAT, in stereofonia, comporta l'impiego di 192 000 byte.

È importante sottolineare la differenza che c'è tra un file audio con intestazione, rispetto a quello che non ne è provvisto: quando si passa un file audio grezzo a un programma che deve eseguirlo o elaborarlo, occorre specificare al programma tutte le caratteristiche del file, perché non può determinarle automaticamente. In particolare, occorre fare attenzione quando si trasferisce un file del genere da un'architettura a un'altra, dove nel passaggio può cambiare l'ordine dei byte.

640.4   Formati audio compressi

Dopo la campionatura di un'informazione sonora, è possibile applicare delle tecniche per ridurre le dimensioni dei dati, ovvero per ottenerne la compressione. Si distinguono due situazioni: la compressione senza perdita che consente la ricostruzione dei campioni originali, rispetto a una compressione con perdita di informazioni. I formati audio compressi sono diversi e si distinguono per l'algoritmo di compressione.

Nella realizzazione di un file audio compresso si stabilisce un parametro in più rispetto ai file non compressi: il flusso massimo di dati per unità di tempo, noto come bit rate. Naturalmente, maggiore è questo valore, migliore è la qualità del suono riprodotto. Generalmente, si ottiene una buona qualità di registrazione stereofonica con un tasso del flusso di dati di 128 kbit/s. In fase di creazione di un file audio di questo tipo, si può stabilire che il tasso del flusso di dati sia costante o variabile (nel secondo caso si parla di variable bit rate e si usa la sigla «VBR»); in particolare, in caso di tasso variabile potrebbe essere stabilito un valore medio o un intervallo di valori da rispettare.

Un file audio compresso, può limitarsi a contenere l'informazione sonora per la quale è stato realizzato, oppure può essere inserito in un «contenitore» (container), che consente l'inserimento di informazioni addizionali. Per esempio, il formato compresso Vorbis è contenuto normalmente in un formato Ogg, da cui il nome Ogg Vorbis. Per la stessa ragione, esiste un formato FLAC (normale) e un formato Ogg FLAC (FLAC contenuto in Ogg. Nel caso di MP3, il nome è ambiguo, perché può fare riferimento al contenitore o al contenuto audio compresso.

640.4.1   Informazioni di un contenitore MP3

Un file MP3 può includere delle informazioni importanti sul suo contenuto, oltre a ciò che è indispensabile per la riproduzione (come per esempio l'informazione sulla frequenza di campionamento). In generale, conviene stabilire questi dati nella fase di codifica del file stesso, mentre una parte di questi può essere modificata anche dopo.

Tabella 640.6. Informazioni comuni che possono essere inserite in un file MP3.

Informazione Tipo Significato
originale booleano Indica se il contenuto è originale.
copyright booleano Indica se il contenuto è coperto da copyright.
titolo testo Titolo della canzone o di ciò che è contenuto nel file.
artista testo Nome dell'artista o degli artisti.
album testo Nome dell'album di cui fa parte il contenuto del file.
anno testo Anno di edizione.
commento testo Commento aggiuntivo.
traccia numero Numero della traccia nel CD a cui si fa riferimento.
genere numero Genere, definito da un codice numerico prestabilito.

Tabella 640.7. Genere, secondo lo standard ID3.

Genere Definizione Genere Definizione
0 Blues 1 Classic Rock
2 Country 3 Dance
4 Disco 5 Funk
6 Grunge 7 Hip-Hop
8 Jazz 9 Metal
10 New Age 11 Oldies
12 Other 13 Pop
14 R&B 15 Rap
16 Reggae 17 Rock
18 Techno 19 Industrial
20 Alternative 21 Ska
22 Death Metal 23 Pranks
24 Soundtrack 25 Euro-Techno
26 Ambient 27 Trip-Hop
28 Vocal 29 Jazz+Funk
30 Fusion 31 Trance
32 Classical 33 Instrumental
34 Acid 35 House
36 Game 37 Sound Clip
38 Gospel 39 Noise
40 Alt. Rock 41 Bass
42 Soul 43 Punk
44 Space 45 Meditative
46 Instrumental Pop 47 Instrumental Rock
48 Ethnic 49 Gothic
50 Darkwave 51 Techno-Industrial
52 Electronic 53 Pop-Folk
54 Eurodance 55 Dream
56 Southern Rock 57 Comedy
58 Cult 59 Gangsta Rap
60 Top 40 61 Christian Rap
62 Pop/Funk 63 Jungle
64 Native American 65 Cabaret
66 New Wave 67 Psychedelic
68 Rave 69 Showtunes
70 Trailer 71 Lo-Fi
72 Tribal 73 Acid Punk
74 Acid Jazz 75 Polka
76 Retro 77 Musical
78 Rock & Roll 79 Hard Rock
80 Folk 81 Folk/Rock
82 National Folk 83 Swing
84 Fast-Fusion 85 Bebob
86 Latin 87 Revival
88 Celtic 89 Bluegrass
90 Avantgarde 91 Gothic Rock
92 Progressive Rock 93 Psychedelic Rock
94 Symphonic Rock 95 Slow Rock
96 Big Band 97 Chorus
98 Easy Listening 99 Acoustic
100 Humour 101 Speech
102 Chanson 103 Opera
104 Chamber Music 105 Sonata
106 Symphony 107 Booty Bass
108 Primus 109 Porn Groove
110 Satire 111 Slow Jam
112 Club 113 Tango
114 Samba 115 Folklore
116 Ballad 117 Power Ballad
118 Rhythmic Soul 119 Freestyle
120 Duet 121 Punk Rock
122 Drum Solo 123 A Cappella
124 Euro-House 125 Dance Hall
126 Goa 127 Drum & Bass
128 Club-House 129 Hardcore
130 Terror 131 Indie
132 BritPop 133 Negerpunk
134 Polsk Punk 135 Beat
136 Christian Gangsta Rap 137 Heavy Metal
138 Black Metal 139 Crossover
140 Contemporary Christian 141 Christian Rock
142 Merengue 143 Salsa
144 Thrash Metal 145 Anime
146 JPop 147 Synthpop

Le informazioni più voluminose, come il titolo e le altre stringhe di testo, vanno aggiunte in coda al file MP3. Il modo in cui questi dati vengono segnalati nel file dipende da standard differenti che nel tempo sono stati aggiornati. In questo senso, alcuni programmi non aggiornati potrebbero anche non essere in grado di leggere ciò che viene scritto con standard più recenti.

640.5   Informazioni di un contenitore Ogg

Anche il contenitore Ogg consente l'inserimento di informazioni addizionali; in particolare un'intestazione composta da campi individuati da nomi. Non esistono campi descrittivi obbligatori e campi con lo stesso nome possono apparire più di una volta (per esempio nel caso dell'indicazione di più di un autore). La documentazione di Ogg propone uno standard nell'utilizzo dei campi descrittivi e in particolare vale la pena di considerare quelli seguenti:

Campo Utilizzo
TITLE
titolo della traccia o dell'opera;
ALBUM
titolo della raccolta a cui appartiene la traccia;
TRACKNUMBER
numero della traccia, se si tratta di una raccolta;
ARTIST
artista esecutore o compositore dell'opera;
COPYRIGHT
informazioni sul diritto di autore relativo all'opera;
LICENSE
condizioni di utilizzo dell'opera;
GENRE
descrizione del genere dell'opera;
ISRC
numero ISRC di identificazione dell'opera (sezione 639.1).

Si può osservare in questo caso che non è stata prevista una classificazione preliminare dei generi.

Appunti di informatica libera 2007.02 --- Copyright © 2000-2007 Daniele Giacomini -- <daniele (ad) swlibero·org>


Dovrebbe essere possibile fare riferimento a questa pagina anche con il nome concetti_generali_sui_formati_audio_digitali.htm

[successivo] [precedente] [inizio] [fine] [indice generale] [indice ridotto] [indice analitico]

Valid ISO-HTML!

CSS validator!