Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

ATRIUM - nástroj pro odesílání a ukládání textových dat #2590

Open
6 tasks
motyc opened this issue Nov 12, 2024 · 0 comments
Open
6 tasks

ATRIUM - nástroj pro odesílání a ukládání textových dat #2590

motyc opened this issue Nov 12, 2024 · 0 comments
Assignees
Labels
enhancement New feature or request Fedora Related to the Fedora repository.
Milestone

Comments

@motyc
Copy link
Member

motyc commented Nov 12, 2024

Do AMČR postupně plánujeme implementovat nástroje pro strojové zpracování textu. Jejich ukládání bude řešeno podobně, jako např. náhledy, tj.:
https://fedora-test.aiscr.cz/rest/AMCR/record/C-TX-202400166/file/6d78321d-3050-4c44-a2d5-3802435fe43b/alto-xml
https://fedora-test.aiscr.cz/rest/AMCR/record/C-TX-202400166/file/6d78321d-3050-4c44-a2d5-3802435fe43b/ker
https://fedora-test.aiscr.cz/rest/AMCR/record/C-TX-202400166/file/6d78321d-3050-4c44-a2d5-3802435fe43b/udpipe
https://fedora-test.aiscr.cz/rest/AMCR/record/C-TX-202400166/file/6d78321d-3050-4c44-a2d5-3802435fe43b/nametag

alto-xml budou vznikat při procesu tvorby OCR a budou časem generovány při uploadu dokumentu (resp. asynchronně po jeho uložení) pomocí externí služby. Ostatní formáty (ker, udpipe a nametag) budou vznikat odesláním alto-xml do příslušných externích služeb a uložením výsledku. Dokud nebude dostupná OCR služba alto-xml budeme nahrávat dávkově přes administraci podle potřeby. Služby pro zpracování alto-xml do dalších formátů budou volány též přes administraci a časem zapojeny do celkové workflow.

Co je nutné:

  • Připravit v administraci v rámci části Správa repozitáře nástroj pro import alto-xml do Fedory.
    -- Vstupem bude CSV či XLSX soubor se seznamem souborů ve formátu soub-[soubor.id] (např. soub-374053). Ten načte data z k tomu určené složky na FTP (/var/fcrepo/data-import).
    -- Jednotlivé ALTO soubory se budou na importu jmenovat např. soub-374053.xml. Při uložení do Fedory je přejmenovat na [soubor.nazev].xml (např. CTX202400166.pdf.xml)
    -- Uložení bude v kontejneru alto-xml, podřazeném danému souboru.
    -- mime-type bude application/xml
    -- Zaznamenat do historie souboru, a to jako typ změny SBR-ALTO.
  • UDPipe
    -- Vytvořit službu pro odeslání alto-xml na základě seznamu v tabulce (princip zpracování jako v prvním bodě)
    -- Odešle se na https://lindat.mff.cuni.cz/services/udpipe/ s parametry: !!!DOPLNIT!!!
    -- Výsledek se uloží do kontejneru udpipe, podřazeném danému souboru.
    -- mime-type bude application/json
    -- Zaznamenat do historie souboru, a to jako typ změny SBR-UDPipe.
  • KER - Keyword Extractor
    -- Vytvořit službu pro odeslání alto-xml na základě seznamu v tabulce (princip zpracování jako v prvním bodě)
    -- Odešle se na https://lindat.mff.cuni.cz/services/ker/ s parametry: !!!DOPLNIT!!!
    -- Výsledek se uloží do kontejneru csv-ker, podřazeném danému souboru.
    -- mime-type bude application/json
    -- Zaznamenat do historie souboru, a to jako typ změny SBR-KER.
  • NameTag
    -- Vytvořit službu pro odeslání alto-xml na základě seznamu v tabulce (princip zpracování jako v prvním bodě)
    -- Odešle se na https://lindat.mff.cuni.cz/services/nametag/ s parametry: !!!DOPLNIT!!!
    -- Výsledek se uloží do kontejneru csv-nametag, podřazeném danému souboru.
    -- mime-type bude application/json
    -- Zaznamenat do historie souboru, a to jako typ změny SBR-NameTag.
  • Podobně jako u aktualizace metadat je třeba ve všech případech počítat s velkým množstvím souborů, tj. zajistit postupné zpracování seznamu s jasnou odezvou pro uživatele a možností proces zastavit.
  • Nástroje v administraci budou dostupné jen pro superadminy.

(nutno prověřit - u všech případů doplnit případný sběr paradat, pokud nejsou přímo součástí výstupu (lze dát do poznámky v historii))

@motyc motyc added enhancement New feature or request Fedora Related to the Fedora repository. labels Nov 12, 2024
@motyc motyc added this to the To do milestone Nov 12, 2024
@motyc motyc self-assigned this Nov 12, 2024
@motyc motyc changed the title ATRIUM - nástroj pro odesílání a ukládání textových dat dat ATRIUM - nástroj pro odesílání a ukládání textových dat Nov 12, 2024
@motyc motyc modified the milestones: To do, v1.2.0 Nov 18, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
enhancement New feature or request Fedora Related to the Fedora repository.
Projects
None yet
Development

No branches or pull requests

3 participants