This repository contains my work for the Advanced Information Retrieval Course at the University of Indonesia
- Python 3.7 or above
- Library:
- Pyterrier
- pandas
- BM25 is ranking function which calculates score to represent a document's relevance with respect to query.
- Dirichlet Language Model (DLM) is retrieval model yields longer sentences than using BM25.
- Melakukan querying menggunakan scoring function BM25 dengan hanya mengambil top 10 documents untuk setiap query
- Melakukan evaluasi hasil retrieval BM25 seluruh query dengan metric evaluasi precision@10, recall@10, dan MRR
- Melakukan evaluasi hasil retrieval BM25 per query dengan metric evaluasi precision@10, recall@10, dan MRR
- Melakukan querying menggunakan scoring function Dirichlet Language Model (DLM) dengan hanya mengambil top 10 documents untuk setiap query
- Melakukan evaluasi hasil retrieval DLM seluruh query dengan metric evaluasi precision@10, recall@10, dan MRR
- Melakukan evaluasi hasil retrieval DLM per query dengan metric evaluasi precision@10, recall@10, dan MRR
- Manakah metode yang memiliki efektivitas lebih baik antara BM25 dan LM? Apakah perbedaan skor yang diperoleh sinifikan secara statistik?
- Pada query mana saja BM25 lebih unggul, dan pada query mana saja LM lebih unggul? Berikan analisis Anda mengapa hal ini bisa terjadi
- Query ID berapa yang memiliki nilai evaluasi terbaik dengan metode BM25? Query ID berapa yang memiliki nilai evaluasi terbaik dengan metode LM? Berikan analisis Anda mengapa hal ini bisa terjadi.
- Query ID berapa yang memiliki nilai evaluasi terburuk dengan metode BM25? Query ID berapa yang memiliki nilai evaluasi terburuk dengan metode LM? Berikan analisis Anda mengapa hal ini bisa terjadi.
- https://pyterrier.readthedocs.io/_/downloads/en/latest/pdf/
- https://nlp.stanford.edu/IR-book/essir2011/pdf/12model.pdf
- Bennett, Graham & Scholer, Falk & Uitdenbogerd, Alexandra. (2008). A Comparative Study of Probabalistic and Language Models for Information Retrieval. 65-74.