Audiollibre

Differences between revisions 5 and 48 (spanning 43 versions)
Revision 5 as of 2008-06-08 20:24:27
Size: 2299
Editor: 25
Comment:
Revision 48 as of 2009-07-31 15:31:17
Size: 8980
Editor: 182
Comment:
Deletions are marked like this. Additions are marked like this.
Line 1: Line 1:
[[Include(CatalanTeam/Capçalera)]] <<Include(CatalanTeam/Capçalera)>>
Line 5: Line 5:
'''Resum:''' Indiquem com fer un audiollibre en català, amb les Ubuntu, Festival i les [https://wiki.ubuntu.com/CatalanTeam/Tutorials/SíntesiDeVeu/ veus catalanes] del Festcat. '''Resum:''' Indiquem com fer, a partir d'un arxiu de text, un [[http://ca.wikipedia.org/wiki/Audiollibre|audiollibre]] en català, amb Ubuntu, Festival i les [[https://wiki.ubuntu.com/CatalanTeam/Tutorials/SíntesiDeVeu/|veus catalanes]] del Festcat. Això amb una senzilla ordre (''bash audiollibre.sh arxiu.txt [autor]'') i que genera un arxiu mp3 (o bé ogg) per cada capítol, amb les etiquetes ID3 del títol, autor, àlbum, any, pista i gènere ben posades per al nostre reproductor de mp3.
Line 7: Line 7:
||<tablestyle="float:center; font-size: 0.9em; width:95%; background:#F1F1ED; margin: 0 0 1em 1em;" style="padding:0.5em; ">'''Índex'''[[BR]][[TableOfContents]]|| ||<tablestyle="float:center; font-size: 0.9em; width:95%; background:#F1F1ED; margin: 0 0 1em 1em;" style="padding:0.5em; ">'''Índex'''<<BR>><<TableOfContents>>||
Line 10: Line 10:
Primer cal instal·lar les [https://wiki.ubuntu.com/CatalanTeam/Tutorials/SíntesiDeVeu/ veus catalanes del Festcat com s'indica aquí]. ||<rowbgcolor="#FF0000">'''Si feu servir Ubuntu Hardy 8.04, o posterior, [[https://wiki.ubuntu.com/CatalanTeam/Tutorials/S%C3%ADntesiDeVeu#Tinc%20Ubuntu%20Hardy%208.04%20i%20Festival%20no%20em%20funciona|veieu això]].'''||

Primer cal instal·lar les [[https://wiki.ubuntu.com/CatalanTeam/Tutorials/SíntesiDeVeu/|veus catalanes del Festcat com s'indica aquí]].
Line 14: Line 16:
attachement:audiollibre.sh [[attachment:audiollibre.sh]] Que converteix un arxiu de text a mp3, separant els capítols i llegint-los amb Festival
Line 16: Line 18:
attachement:divcapitols.sh [[attachment:divcapitols.sh]] Que separa un arxiu.txt en els seu capítols
Line 18: Line 20:
[https://wiki.ubuntu.com/CatalanTeam/Tutorials/S%c3%adntesiDeVeu/Scripts?action=AttachFile&do=get&target=text2mp3.sh text2mp3] [[https://wiki.ubuntu.com/CatalanTeam/Tutorials/S%c3%adntesiDeVeu/Scripts?action=AttachFile&do=get&target=text2mp3.sh|text2mp3.sh]] Que converteix un arxiu de text a mp3 llegint-lo amb Festival (veieu a les notes com fer-ho en ogg).
Line 22: Line 24:
{{{$ chmod 755 audiollibre.sh {{{
$ chmod 755 audiollibre.sh
Line 29: Line 32:
 # Els dos primers scripts només són necessaris per a dividir un llibre en capítols i transformar aquests capítols amb un arxiu (pista) d'àudio per a cada capítols. Si només volem fer un arxiu d'àudio, només cal el tercer script.  * Els dos primers scripts només són necessaris per a dividir un llibre en capítols i transformar aquests capítols amb un arxiu (pista) d'àudio per a cada capítols. Si només volem fer un arxiu d'àudio, només cal el tercer script.
Line 31: Line 34:
 # Si volem fer l'audiollibre en el format lliure ogg, enlloc de text2mp3, podem fer servir aquest altre script: https://wiki.ubuntu.com/CatalanTeam/Tutorials/S%c3%adntesiDeVeu/Scripts?action=AttachFile&do=get&target=text2ogg.sh i n'hi haurpa prou amb uns canvis a audiollibre.sh, per tal que cridi a text2ogg en lloc d'a text2mp3.sh  * Si volem fer l'audiollibre en el format lliure ogg, enlloc del mp3, podem fer servir aquest altre script: [[https://wiki.ubuntu.com/CatalanTeam/Tutorials/S%c3%adntesiDeVeu/Scripts?action=AttachFile&do=get&target=text2ogg.sh|text2ogg.sh]] i n'hi haurà prou amb uns canvis a audiollibre.sh, per tal que cridi a ''text2ogg.sh'' en lloc de ''text2mp3.sh''

== Ús ==
Suposant que els capítols del llibre comencin amb una línia del tipus "XX" (en números romans, com els llibres del Projecte Gutemberg), farem:

{{{
$ bash audiollibre.sh arxiu.txt [autor]
}}}

Si conté espais, el nom de l'autor ha d'anar entre cometes.

Convé que el nom de l'arxiu.txt coincideixi amb el títol del llibre, amb caràcters de subratllat ("_") per al espais, ja que s'utilitzarà com a etiqueta del títol de tots els arxius (eliminant la extensió). Ha d'estar codificat amb latin-1.

I si tot es correcte, es crearan dos arxius per a cada capítol XX del llibre, que es diran:

{{{
Titol_del_llibre_-_Capitol_XX.txt
Titol_del_llibre_-_Capitol_XX.mp3
}}}

=== Exemple ===
Volem fer un audiollibre.sh amb l'obra Arran del Cingle de Josep Morató i Grau, del [[http://www.gutenberg.org/browse/languages/ca|Projecte Gutemberg]]:

Anem a [[http://manybooks.net/titles/grauj2544325443-8.html|Manybooks aquí]], i ho baixem en format RTF. L'obrim i copiem tot el contingut (Ctrl-C) a l'editor de text (gedit) i ho desem amb el nom Arran_del_Cingle.txt en format txt, (veieu més endavant ''Problemes coneguts'')

Un cop seguides les instruccions anteriors (Instal·lació), fem:

{{{
bash audiollibre.sh Arran_del_Cingle.txt "Josep Morató i Grau"
}}}

esperem una bona estona i obtindrem 23 arxius de text i 23 arxius mp3, un per cada capítol, amb les etiquetes ID3 del títol, autor, àlbum, any, pista i gènere ben posades per al nostre reproductor de mp3. Al terminal anirem rebent informació del progrés i dels eventuals problemes.

Nota: Al Projecte Gutemberg hi ha una còpia del mateix llibre en format txt, i ens podriem estalviar un pas, però per alguna raó, els capítols llavors no es separen bé. Si ho descobriu, digueu-nos'ho.

== Sobre els noms del capítols ==

Si els noms del capítols no venen en números romans, caldrà adaptar l'script ''divcapitols.sh''. Per exemple si són del tipus "Capítol 99", caldrà posar un caràcter "#" a línia que conté la ordre csplit (amb la qual cosa la convertim en un comentari):

{{{# csplit -s -f "${1%.txt}_-_Capítol_" $1 "/^[IVX]*[IVX]*[IVX]$/" "{*}"
}}}
I treurem el primer caràcter ("#") de la línia següent, que quedarà així:

{{{csplit -s -f "${1%.txt}_-_Capítol_" $1 "/Capítol /" "{*}"
}}}
que era un comentari i ara sí que s'executarà.

Les opcions i paràmetres signifiquen:

{{{"-f ${1%.txt}_-_Capítol_"}}} que els noms del capítols començaran per arxiu sense extensió (1%.txt) seguit de _-_Capítol_ i el número del capítol.

{{{$1}}} El nom de l'arxiu que volem dividir

{{{"/^[IVX]*[IVX]*[IVX]$/"}}} L'expressió regular que es cerca per separar els capítols

{{{"{*}"}}} Indica que es separin tots els capítols que es trobin.

Espero que aquests dos exemples ens permetin adaptar-lo a les nostres necessitats. (Veieu les referències sobre expressions regulars).
Line 36: Line 96:
 # El Projecte Gutemberg (conté obres en format txt)
 # Viquillibres
 # Cultura Lliure
 # La Universitat Oberta de Catalunya (Molts textos són en format pdf
==== Biblioteques ====
Line 41: Line 98:
== Ús ==
Suposant que els capítols del llibre comencin amb una línia del tipus "Capítol XX", farem:
 * [[http://www.bnc.cat/fons/coldigital.php|Biblioteca de Catalunya]]
Line 44: Line 100:
{{{$ bash audiollibre.sh arxiu.txt [autor]  * [[http://www.cbuc.es/cbuc/programes_i_serveis/bdc/|Biblioteca Digital de Catalunya]]

 * [[http://bv2.gva.es/default.php|Biblioteca Valenciana Digital]]

 * [[http://www.lluisvives.com/index.jsp|Biblioteca Virtual Joan Lluís Vives]]

 * [[http://www.culturalliure.org/|Cultura Lliure]]

 * [[http://www.cervantesvirtual.com/Buscar.html?titulo=&opTitulo=and&autor=&opAutor=and&materia=&opMateria=and&otrosCampos=catalan&opOtrosCampos=and&periodo=&enviar=Buscar|Biblioteca Miguel de Carvantes]]

==== Universitats ====

 * [[http://www.uoc.edu/masters/cat/web/materials_lliures.html|La Universitat Oberta de Catalunya]] (Molts textos són en format pdf)

 * [[http://www.uoc.edu/lletra/especials/folch/|Selecció de Poesia Catalana]]

 * [[http://gclub.ourproject.org/tiki-list_file_gallery.php?galleryId=6|Grup de Coneixement lliure de la UB]]

 * [[http://upcommons.upc.edu/|UPC Commons]]

 * [[http://bibliotecnica.upc.es/gratuits/inici.asp?lletra=I|Llibres de lliure accés d'interès politècnic]]

 * [[http://www.ub.edu/stitc/|UB Servei de tractament informatitzat de textos catalans]]

 * [[http://www.rialc.unina.it/|RIALC]] Repertorio infomatizzato dell'antica letteratura catalana

==== Internacionals ====

 * [[http://www.gutenberg.org/browse/languages/ca|El Projecte Gutemberg]] (conté obres en format txt)

 * [[http://manybooks.net/language.php?code=ca|Manybooks]] Els mateixos llibres del Projecte Gutemberg, disponibles en molts formats

 * [[http://ca.wikibooks.org/wiki/Portada|Viquillibres]]

 * [[http://books.google.es/books?hl=ca|Google Llibres]]

Si en trobeu més, afegiu-los aquí.

== Problemes coneguts ==
Degut a un problema de la versió actual de les veus Festcat (veu la pàgina corresponent) els caràcters "¡" i "¿" que per altra banda no són necessaris en el català actual, però que es troben en llibres antics com el proposat a l'exemple, fan que el motor de veu doni errors. La solució es eliminar-los del llibre abans de la seva conversió, la qual cosa es por fer en dos simples substitucions amb ''Reemplaça'' (Control+H).

 * Veieu també l'apartat "Problemes coneguts del [[https://wiki.ubuntu.com/CatalanTeam/Tutorials/SíntesiDeVeu/Scripts|scripts]]

== Veieu també ==

 * Com instal·lar instal·lar les [[https://wiki.ubuntu.com/CatalanTeam/Tutorials/SíntesiDeVeu/|veus catalanes del Festcat a Ubuntu]]

 * Scripts per a les [[https://wiki.ubuntu.com/CatalanTeam/Tutorials/SíntesiDeVeu/Scripts|veus catalanes del Festcat a Ubuntu]]

 * [[http://en.wikipedia.org/wiki/Pdftotext|Conversió de fitxers pdf a txt]] (en anglès)
{{{
 $ sudo apt-get install pdftotext
 $ pdftotext -enc Latin1 arxiu.pdf arxiu.txt
Line 46: Line 154:
== Registre de canvis ==
2008-6-9 A la [[attachment:SintesiDeVeuV0.1.tar.gz|primera versió]] l'etiqueta del número de la pista no sempre es desava bé. Solucionat en aquesta versió.
Line 47: Line 157:
Convé que el nom de l'arxiu.txt coincideixi amb el títol del llibre, amb caràcters de subratllat ("_") per al espais. 2008-6-10 Ara tots els arxius es desen en una carpeta.
Line 49: Line 159:
I si tot es correcte, es crearan dos arxius per a cada capítol XX del llibre, que es diran: == Referències ==
Sobre l'ús d'expressions regulars:
Line 51: Line 162:
{{{Titol_del_llibre_-_Capitol_XX.txt
Titol_del_llibre_-_Capitol_XX.mp3
}}}
http://www.ncsa.uiuc.edu/UserInfo/Resources/Hardware/IBMp690/IBM/usr/share/man/info/en_US/a_doc_lib/cmds/aixcmds1/csplit.htm (en anglès)

http://www.opengroup.org/onlinepubs/000095399/utilities/csplit.html (en anglès)

http://gnosis.cx/publish/programming/text_utils.html (en anglès)

Crèdits: PacoRivière http://pacoriviere.cat/ http://galindaines.blogspot.com/
----
CategoryTutorialsEnCatala

Com fer un audiollibre en català, amb Ubuntu

Resum: Indiquem com fer, a partir d'un arxiu de text, un audiollibre en català, amb Ubuntu, Festival i les veus catalanes del Festcat. Això amb una senzilla ordre (bash audiollibre.sh arxiu.txt [autor]) i que genera un arxiu mp3 (o bé ogg) per cada capítol, amb les etiquetes ID3 del títol, autor, àlbum, any, pista i gènere ben posades per al nostre reproductor de mp3.

Instal·lació

Si feu servir Ubuntu Hardy 8.04, o posterior, veieu això.

Primer cal instal·lar les veus catalanes del Festcat com s'indica aquí.

Baixem aquests tres scripts i els desem en una carpeta:

audiollibre.sh Que converteix un arxiu de text a mp3, separant els capítols i llegint-los amb Festival

divcapitols.sh Que separa un arxiu.txt en els seu capítols

text2mp3.sh Que converteix un arxiu de text a mp3 llegint-lo amb Festival (veieu a les notes com fer-ho en ogg).

I els hi donem permisos d'execució fent, en un terminal:

$ chmod 755 audiollibre.sh 
$ chmod 755 divcapitols.sh 
$ chmod 755 text2mp3.sh

Notes:

  • Els dos primers scripts només són necessaris per a dividir un llibre en capítols i transformar aquests capítols amb un arxiu (pista) d'àudio per a cada capítols. Si només volem fer un arxiu d'àudio, només cal el tercer script.
  • Si volem fer l'audiollibre en el format lliure ogg, enlloc del mp3, podem fer servir aquest altre script: text2ogg.sh i n'hi haurà prou amb uns canvis a audiollibre.sh, per tal que cridi a text2ogg.sh en lloc de text2mp3.sh

Ús

Suposant que els capítols del llibre comencin amb una línia del tipus "XX" (en números romans, com els llibres del Projecte Gutemberg), farem:

$ bash audiollibre.sh arxiu.txt [autor] 

Si conté espais, el nom de l'autor ha d'anar entre cometes.

Convé que el nom de l'arxiu.txt coincideixi amb el títol del llibre, amb caràcters de subratllat ("_") per al espais, ja que s'utilitzarà com a etiqueta del títol de tots els arxius (eliminant la extensió). Ha d'estar codificat amb latin-1.

I si tot es correcte, es crearan dos arxius per a cada capítol XX del llibre, que es diran:

Titol_del_llibre_-_Capitol_XX.txt
Titol_del_llibre_-_Capitol_XX.mp3

Exemple

Volem fer un audiollibre.sh amb l'obra Arran del Cingle de Josep Morató i Grau, del Projecte Gutemberg:

Anem a Manybooks aquí, i ho baixem en format RTF. L'obrim i copiem tot el contingut (Ctrl-C) a l'editor de text (gedit) i ho desem amb el nom Arran_del_Cingle.txt en format txt, (veieu més endavant Problemes coneguts)

Un cop seguides les instruccions anteriors (Instal·lació), fem:

bash audiollibre.sh Arran_del_Cingle.txt "Josep Morató i Grau"

esperem una bona estona i obtindrem 23 arxius de text i 23 arxius mp3, un per cada capítol, amb les etiquetes ID3 del títol, autor, àlbum, any, pista i gènere ben posades per al nostre reproductor de mp3. Al terminal anirem rebent informació del progrés i dels eventuals problemes.

Nota: Al Projecte Gutemberg hi ha una còpia del mateix llibre en format txt, i ens podriem estalviar un pas, però per alguna raó, els capítols llavors no es separen bé. Si ho descobriu, digueu-nos'ho.

Sobre els noms del capítols

Si els noms del capítols no venen en números romans, caldrà adaptar l'script divcapitols.sh. Per exemple si són del tipus "Capítol 99", caldrà posar un caràcter "#" a línia que conté la ordre csplit (amb la qual cosa la convertim en un comentari):

{{{# csplit -s -f "${1%.txt}_-_Capítol_" $1 "/^[IVX]*[IVX]*[IVX]$/" "{*}" }}} I treurem el primer caràcter ("#") de la línia següent, que quedarà així:

{{{csplit -s -f "${1%.txt}_-_Capítol_" $1 "/Capítol /" "{*}" }}} que era un comentari i ara sí que s'executarà.

Les opcions i paràmetres signifiquen:

"-f ${1%.txt}_-_Capítol_" que els noms del capítols començaran per arxiu sense extensió (1%.txt) seguit de _-_Capítol_ i el número del capítol.

$1 El nom de l'arxiu que volem dividir

"/^[IVX]*[IVX]*[IVX]$/" L'expressió regular que es cerca per separar els capítols

"{*}" Indica que es separin tots els capítols que es trobin.

Espero que aquests dos exemples ens permetin adaptar-lo a les nostres necessitats. (Veieu les referències sobre expressions regulars).

On trobar llibres de text en català

Hi ha molts llocs, com ara:

Biblioteques

Universitats

Internacionals

Si en trobeu més, afegiu-los aquí.

Problemes coneguts

Degut a un problema de la versió actual de les veus Festcat (veu la pàgina corresponent) els caràcters "¡" i "¿" que per altra banda no són necessaris en el català actual, però que es troben en llibres antics com el proposat a l'exemple, fan que el motor de veu doni errors. La solució es eliminar-los del llibre abans de la seva conversió, la qual cosa es por fer en dos simples substitucions amb Reemplaça (Control+H).

  • Veieu també l'apartat "Problemes coneguts del scripts

Veieu també

 $ sudo apt-get install pdftotext
 $ pdftotext -enc Latin1 arxiu.pdf arxiu.txt

Registre de canvis

2008-6-9 A la primera versió l'etiqueta del número de la pista no sempre es desava bé. Solucionat en aquesta versió.

2008-6-10 Ara tots els arxius es desen en una carpeta.

Referències

Sobre l'ús d'expressions regulars:

http://www.ncsa.uiuc.edu/UserInfo/Resources/Hardware/IBMp690/IBM/usr/share/man/info/en_US/a_doc_lib/cmds/aixcmds1/csplit.htm (en anglès)

http://www.opengroup.org/onlinepubs/000095399/utilities/csplit.html (en anglès)

http://gnosis.cx/publish/programming/text_utils.html (en anglès)

Crèdits: PacoRivière http://pacoriviere.cat/ http://galindaines.blogspot.com/


CategoryTutorialsEnCatala

CatalanTeam/Tutorials/SíntesiDeVeu/Audiollibre (last edited 2010-02-21 14:21:48 by 73)