You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
alto-xml budou vznikat při procesu tvorby OCR a budou časem generovány při uploadu dokumentu (resp. asynchronně po jeho uložení) pomocí externí služby. Ostatní formáty (ker, udpipe a nametag) budou vznikat odesláním alto-xml do příslušných externích služeb a uložením výsledku. Dokud nebude dostupná OCR služba alto-xml budeme nahrávat dávkově přes administraci podle potřeby. Služby pro zpracování alto-xml do dalších formátů budou volány též přes administraci a časem zapojeny do celkové workflow.
Co je nutné:
Připravit v administraci v rámci části Správa repozitáře nástroj pro import alto-xml do Fedory.
-- Vstupem bude CSV či XLSX soubor se seznamem souborů ve formátu soub-[soubor.id] (např. soub-374053). Ten načte data z k tomu určené složky na FTP (/var/fcrepo/data-import).
-- Jednotlivé ALTO soubory se budou na importu jmenovat např. soub-374053.xml. Při uložení do Fedory je přejmenovat na [soubor.nazev].xml (např. CTX202400166.pdf.xml)
-- Uložení bude v kontejneru alto-xml, podřazeném danému souboru.
-- mime-type bude application/xml
-- Zaznamenat do historie souboru, a to jako typ změny SBR-ALTO.
UDPipe
-- Vytvořit službu pro odeslání alto-xml na základě seznamu v tabulce (princip zpracování jako v prvním bodě)
-- Odešle se na https://lindat.mff.cuni.cz/services/udpipe/ s parametry: !!!DOPLNIT!!!
-- Výsledek se uloží do kontejneru udpipe, podřazeném danému souboru.
-- mime-type bude application/json
-- Zaznamenat do historie souboru, a to jako typ změny SBR-UDPipe.
KER - Keyword Extractor
-- Vytvořit službu pro odeslání alto-xml na základě seznamu v tabulce (princip zpracování jako v prvním bodě)
-- Odešle se na https://lindat.mff.cuni.cz/services/ker/ s parametry: !!!DOPLNIT!!!
-- Výsledek se uloží do kontejneru csv-ker, podřazeném danému souboru.
-- mime-type bude application/json
-- Zaznamenat do historie souboru, a to jako typ změny SBR-KER.
NameTag
-- Vytvořit službu pro odeslání alto-xml na základě seznamu v tabulce (princip zpracování jako v prvním bodě)
-- Odešle se na https://lindat.mff.cuni.cz/services/nametag/ s parametry: !!!DOPLNIT!!!
-- Výsledek se uloží do kontejneru csv-nametag, podřazeném danému souboru.
-- mime-type bude application/json
-- Zaznamenat do historie souboru, a to jako typ změny SBR-NameTag.
Podobně jako u aktualizace metadat je třeba ve všech případech počítat s velkým množstvím souborů, tj. zajistit postupné zpracování seznamu s jasnou odezvou pro uživatele a možností proces zastavit.
Nástroje v administraci budou dostupné jen pro superadminy.
(nutno prověřit - u všech případů doplnit případný sběr paradat, pokud nejsou přímo součástí výstupu (lze dát do poznámky v historii))
The text was updated successfully, but these errors were encountered:
motyc
changed the title
ATRIUM - nástroj pro odesílání a ukládání textových dat dat
ATRIUM - nástroj pro odesílání a ukládání textových dat
Nov 12, 2024
Do AMČR postupně plánujeme implementovat nástroje pro strojové zpracování textu. Jejich ukládání bude řešeno podobně, jako např. náhledy, tj.:
https://fedora-test.aiscr.cz/rest/AMCR/record/C-TX-202400166/file/6d78321d-3050-4c44-a2d5-3802435fe43b/alto-xml
https://fedora-test.aiscr.cz/rest/AMCR/record/C-TX-202400166/file/6d78321d-3050-4c44-a2d5-3802435fe43b/ker
https://fedora-test.aiscr.cz/rest/AMCR/record/C-TX-202400166/file/6d78321d-3050-4c44-a2d5-3802435fe43b/udpipe
https://fedora-test.aiscr.cz/rest/AMCR/record/C-TX-202400166/file/6d78321d-3050-4c44-a2d5-3802435fe43b/nametag
alto-xml
budou vznikat při procesu tvorby OCR a budou časem generovány při uploadu dokumentu (resp. asynchronně po jeho uložení) pomocí externí služby. Ostatní formáty (ker
,udpipe
anametag
) budou vznikat odeslánímalto-xml
do příslušných externích služeb a uložením výsledku. Dokud nebude dostupná OCR službaalto-xml
budeme nahrávat dávkově přes administraci podle potřeby. Služby pro zpracováníalto-xml
do dalších formátů budou volány též přes administraci a časem zapojeny do celkové workflow.Co je nutné:
alto-xml
do Fedory.-- Vstupem bude CSV či XLSX soubor se seznamem souborů ve formátu
soub-[soubor.id]
(např.soub-374053
). Ten načte data z k tomu určené složky na FTP (/var/fcrepo/data-import
).-- Jednotlivé ALTO soubory se budou na importu jmenovat např.
soub-374053.xml
. Při uložení do Fedory je přejmenovat na[soubor.nazev].xml
(např.CTX202400166.pdf.xml
)-- Uložení bude v kontejneru
alto-xml
, podřazeném danému souboru.-- mime-type bude
application/xml
-- Zaznamenat do historie souboru, a to jako typ změny
SBR-ALTO
.-- Vytvořit službu pro odeslání
alto-xml
na základě seznamu v tabulce (princip zpracování jako v prvním bodě)-- Odešle se na https://lindat.mff.cuni.cz/services/udpipe/ s parametry: !!!DOPLNIT!!!
-- Výsledek se uloží do kontejneru
udpipe
, podřazeném danému souboru.-- mime-type bude
application/json
-- Zaznamenat do historie souboru, a to jako typ změny
SBR-UDPipe
.-- Vytvořit službu pro odeslání
alto-xml
na základě seznamu v tabulce (princip zpracování jako v prvním bodě)-- Odešle se na https://lindat.mff.cuni.cz/services/ker/ s parametry: !!!DOPLNIT!!!
-- Výsledek se uloží do kontejneru
csv-ker
, podřazeném danému souboru.-- mime-type bude
application/json
-- Zaznamenat do historie souboru, a to jako typ změny
SBR-KER
.-- Vytvořit službu pro odeslání
alto-xml
na základě seznamu v tabulce (princip zpracování jako v prvním bodě)-- Odešle se na https://lindat.mff.cuni.cz/services/nametag/ s parametry: !!!DOPLNIT!!!
-- Výsledek se uloží do kontejneru
csv-nametag
, podřazeném danému souboru.-- mime-type bude
application/json
-- Zaznamenat do historie souboru, a to jako typ změny
SBR-NameTag
.(nutno prověřit - u všech případů doplnit případný sběr paradat, pokud nejsou přímo součástí výstupu (lze dát do poznámky v historii))
The text was updated successfully, but these errors were encountered: