LLMFactCheck

KoslickiLab · Feb 27, 2024 · b8eb9e2 · b8eb9e2
1 parent 360071a
commit b8eb9e2
Show file tree

Hide file tree

Showing 6 changed files with 2,524 additions and 1,603 deletions.
diff --git a/data/1.csv b/data/1.csv
diff --git a/false_labeled_records.csv b/false_labeled_records.csv
diff --git a/false_sentence_data.csv b/false_sentence_data.csv
diff --git a/false_triple_data.csv b/false_triple_data.csv
diff --git a/src/get_result.py b/src/get_result.py
@@ -25,7 +25,7 @@ def get_result(model_info, prompt, model_type):
             model = model_info
             full_prompt = prompt
         prompt = full_prompt
-        prompt_template=f'''SYSTEM: You are scientist. Read carefully and answer only yes or no.            
+        prompt_template=f'''SYSTEM: You are computational biologist. Read carefully and please start your answer with 'Yes' or 'No' followed by a justification of why you chose that answer.            
 
         USER: {prompt}
 

diff --git a/util/chembl/convert.py b/util/chembl/convert.py
@@ -20,7 +20,8 @@ def create_csvs(json_path: str, name: str):
                           "OBJECT_CUI", "OBJECT_NAME", "OBJECT_SEMTYPE", "OBJECT_NOVELTY",
                           "Column", "Column", "Column"]
         triple_records = []
-        sentence_id = 1000
+        sentence_id = 0
+        n=100
         for item in data:
             segments = item['p3']['segments'][0]
 
@@ -37,14 +38,15 @@ def create_csvs(json_path: str, name: str):
             print(sentence)
             sentence_id = sentence_id+1
             predicate_id = predicate_data['id']
+
 
             labeled_records.append({
                 "Predicate ID": predicate_id,
                 "Triple": f"{subject_name} {predicate} {object_name}",
-                "Sentence ID": sentence_id,
+                "Sentence ID": sentence_id+n,
                 "Sentence": sentence,
                 "Question": f"Is the triple \"{subject_name} {predicate} {object_name}\" supported by the sentence: \"{sentence}\"?",
-                "Label": True,
+                "Label": False,
                 "Reference": None
             })
             sentence_records.append({
@@ -62,7 +64,7 @@ def create_csvs(json_path: str, name: str):
 
             triple_records.append({
                 "PREDICATION_ID": predicate_id,
-                "SENTENCE_ID": sentence_id,
+                "SENTENCE_ID": sentence_id+n,
                 "PMID": None,
                 "PREDICATE": predicate,
                 "SUBJECT_CUI": None,
@@ -77,13 +79,15 @@ def create_csvs(json_path: str, name: str):
                 "Column": None,
                 "Column": None
             })
+            if sentence_id==400: 
+             n=-400
         labeled_records_df=pd.DataFrame(labeled_records, columns=labeled_columns)
         sentence_df = pd.DataFrame(sentence_records, columns=sentence_columns)
         triple_df = pd.DataFrame(triple_records, columns=triple_columns)
 
         labeled_records_df.to_csv(f"{name}_labeled_records.csv", index=False)
         sentence_df.to_csv(f"{name}_sentence_data.csv", index=False)
         triple_df.to_csv(f"{name}_triple_data.csv", index=False)
+
 
-
-create_csvs('json/neo4j.json', 'true')
+create_csvs('json/neo4j_false.json', 'false')