Un archivio di documenti digitali non comprende
spesso solo immagini ma anche parti testuali. In questo caso si può o fare una fotocopia digitale, o trascriverlo interamente o usare un programma di riconoscimento ottico dei caratteri (OCR, Optical Character Recognition): ovviamente, quest'ultima possibilità è la più semplice e la più economica ma anche la meno flessibile. È, infatti, possibile utilizzare l'OCR solo per pagine scritte a macchina e certo non per i manoscritti; inoltre la sua attendibilità decade quanto più il testo è complesso: alla fine, infatti, risulta spesso più costoso in termini di tempo correggere una pagina acquisita con l'OCR che trascriverla.
Il formato testuale oggi più utilizzato è il PDF (Portable Document Format): è stato messo a punto dalla Adobe Systems, la società che ha introdotto il PostScript, ed è visualizzabile tramite il software Acrobat, distribuito gratuitamente. È un linguaggio di grafica generale che preserva la particolare presentazione di una pagina. A differenza di linguaggi come SGML o HTML, il PostScript e il PDF non permettono all'utente di decidere come vorrebbe far apparire la pagina per cui il controllo della presentazione è gestito dall'autore: questa minore flessibilità consente l'inserimento e la visualizzazione dei documenti più semplice. Per le schede di catalogazione solitamente si ripiega sui sistemi di codifica ASCII o ISO o sui linguaggi di markup come HTML o SGML o come l'XML.