Distribuerede korrekturlæsere

Distribuerede korrekturlæsere (logo) .png
Skærmbillede

Distribuerede korrekturlæsere ( DP eller PGDP ) er et webbaseret projekt til støtte for det internationale projekt Gutenberg og blev lanceret i 2000 af Charles Franks. Det handler om korrekturlæsning af de bøger, der er scannet af Project Gutenberg af frivillige. Indtil videre er cirka 33.500 tekster korrekturlæst.

Man prøver at holde arbejdsbelastningen for en enkelt korrekturlæser så lav som muligt ved at opdele de scannede bøger i individuelle sider og i henhold til brute force-metoden (her: så stort som muligt af redaktører læser kun en bogside af de tusinder, der er beregnet til korrekturlæsning) ) for at opnå en så stor arbejdsbelastning som muligt.

Her er det samme princip som i distribueret computing ( distribueret computing fortsætter). Den afgørende forskel er, at det her ikke er et meget stort antal computere, der er forbundet til hinanden via Internettet, men at et vilkårligt stort antal mennesker leverer deres samarbejde via Internettet og dermed digitaliserer hundredvis af bøger gennem korrekturlæsning i en kort tid.

De i øjeblikket omkring 1400 aktive deltagere organiserer sig i teams på frivillig basis efter oprindelse eller interesser; Team Tyskland har for eksempel allerede næsten 500 medlemmer, der arbejder på alle niveauer af DP.

Process med global bogdigitalisering

Grundlæggende kan der skelnes mellem tre faser i processen.

Initialiseringsfase

  • I initialiseringsfasen vælges en bog af en erfaren korrekturlæser, der har været involveret i lang tid. Den valgte bog skal være fri for ophavsret . Det oprindelige projekt er baseret på amerikansk lov om ophavsret (tekster offentliggjort frem til 1922), mens Distribuerede korrekturlæsere Europa bruger den stort set ensartede regel i Europa om, at forfatteren af ​​bogen skal være død for mere end 70 år siden.
  • Initiativtageren scanner først hver side i bogen. Scanningerne dækker hele bogen, dvs. omslagsark, indholdsfortegnelse, tekster og billeder.
  • Siden analyseres derefter ved hjælp af OCR- software. Den første, men stadig ekstremt fejlbehæftede, rå tekst er derefter tilgængelig.
  • Derefter uploades mængden af ​​data til den distribuerede korrekturlæsers hjemmeside og sættes til diskussion i forummet som et yderligere projektforslag. Efter en positiv afstemning aktiveres projektet til korrekturlæsning. Det er derefter tilgængeligt for adgang via hjemmesiden sammen med andre projekter rundt om i verden.

Korrekturlæsningsfaser

Runde 1 til 3 i korrekturlæsning ("Korrektur")

Efter indkaldelse af projektet vises en side af bogen. Den scannede originalside (som grafik) vises i den øverste halvdel af skærmen, og den genkendte OCR-tekst vises i den nederste halvdel af skærmen. Korrekturlæseren læser nu teksten på den originale side og sammenligner den med OCR-teksten (rå tekst). Scanningsfejl rettes, og der tilføjes specialtegn.

Denne faktiske korrekturlæsning finder sted i to eller tre runder, hvor hver side arbejdes på af to forskellige deltagere. Kun erfarne korrekturlæsere er optaget til de højere runder.

Runde 4 og 5 ("formatering")

I den fjerde og femte runde tilføjes formatering (f.eks. Kursiv, overskrifter, fodnoter). Mens adgangsbarrierer til den fjerde runde er relativt lave, er det kun erfarne deltagere, der har adgang til den femte runde (den anden af ​​formateringen).

Efterbehandling

De tidligere ikke-tilsluttede sider i den rå tekst kombineres automatisk til et tekstdokument. En erfaren korrekturlæser, der har opnået status som en "postprocessor", udfylder layoutet med grafikken, dvs. han tilpasser dem, forbedrer dem eller tilføjer eventuelle huller i teksten. Han kontrollerer dokumentet for fuldstændig overensstemmelse med det originale værk. Endelig kan han udover det obligatoriske tekstformat også generere andre formater, frem for alt HTML.

offentliggørelse

Projektet er afsluttet. De digitaliserede værker findes på serveren fra Project Gutenberg (ikke at forveksle med de kommercielle udbydere Project Gutenberg-DE ) frigivet. Hver internetbruger kan nu downloade og læse dette arbejde. Planten er således tilgængelig for hele verden.

Betydning af distribuerede korrekturlæsere

Over tid blev Distribueret korrekturlæsning (DP) den største kilde til e-tekster til Project Gutenberg, så Distribuerede korrekturlæsere blev en officiel del af Project Gutenberg i 2002 . Indtil videre (marts 2017) er omkring 33.500 tekster blevet genudgivet af Distribuerede korrekturlæsere, i januar 2011 var der 19.500 tekster. Teksterne stammer ikke fra nogen specielle fagområder; der er z. B. repræsenterede litteratur, videnskab, noder, magasiner og populære fagbøger for at nævne nogle få.

DP 10K

Den 9. marts 2007 annoncerede Distribuerede korrekturlæsere færdiggørelsen og udgivelsen af ​​de første 10.000 tekster. For at fejre dette og vise mangfoldigheden af ​​de bøger, der er redigeret i DP, blev der udgivet et udvalg af 15 titler sammen:

af Work Projects Administration (engelsk)
af Powell, John Wesley (engelsk)
af Caldecott, Randolph [Illustrator] (engelsk)
af Serpa Pinto (portugisisk)
af Smith, EE ("Doc") (engelsk)
af Spyri, Johanna (engelsk)
af Spyri, Johanna (tysk)
af Punch
af Evelyn, John (engelsk)
af Thérèse de Dillmont (engelsk)
af Francisco Ernantez Arana (fl. 1582), overs. af og redigering. af Daniel G. Brinton (1837–1899) (engelsk med centralamerikansk indianer)
af Richard Runciman Terry (1864–1938) (engelsk)
af William Shakespeare , trans François Guizot (fransk)
af Burkett, Charles William (engelsk)
af Carolus Linnaeus (Carl von Linné) (latin)

Weblinks

Individuelle beviser

  1. DP: Velkommen. Hentet 10. marts 2017 .
  2. Team Tyskland . Hentet 25. januar 2017.
  3. Distribuerede korrekturlæsere . Hentet 10. marts 2017.