Spaces:

eaglelandsonce
/

Lokahi_data

Sleeping

App Files Files Community

eaglelandsonce commited on 16 days ago

Commit

2d31353

•

1 Parent(s): ad9022b

Update app.py

Browse files

Files changed (1) hide show

app.py +140 -95

app.py CHANGED Viewed

@@ -5,52 +5,145 @@ import numpy as np
 # Seed for reproducibility
 np.random.seed(42)
-# Function to generate synthetic Enrollments
-def generate_enrollments(num_members):
-    primary_keys = [f"PPK_{i+1:05d}" for i in range(num_members)]
-    enrollments_data = {
-        "MEM_AGE": np.random.randint(18, 80, num_members),
-        "MEM_MSA_NAME": np.random.choice(["DETROIT", "HONOLULU", "LOS ANGELES"], num_members),
-        "MEM_STAT": np.random.choice(["ACTIVE", "INACTIVE"], num_members),
-        "MEMBER_ID": primary_keys,
-        "PRIMARY_PERSON_KEY": primary_keys,
-        "PAYER_LOB": np.random.choice(["MEDICAID", "COMMERCIAL", "MEDICARE"], num_members),
-        "PAYER_TYPE": np.random.choice(["PPO", "HMO"], num_members),
-        "PRIMARY_CHRONIC_CONDITION_ROLLUP_DESC": np.random.choice(["Cancer", "Diabetes", "Hypertension"], num_members),
-        "Count of PRIMARY_CHRONIC_CONDITION_ROLLUP_ID": np.random.randint(1, 5, num_members),
-        "PROD_TYPE": np.random.choice(["DENTAL", "VISION", "MEDICAL"], num_members),
-        "RELATION": np.random.choice(["SUBSCRIBER", "DEPENDENT"], num_members),
-        "YEARMO": np.random.randint(202201, 202412, num_members),
     }
-    return pd.DataFrame(enrollments_data)
 # Function to generate synthetic Members
-def generate_members(num_members):
-    primary_keys = [f"PPK_{i+1:05d}" for i in range(num_members)]
     members_data = {
-        "MEM_ETHNICITY": np.random.choice(["Hispanic", "Non-Hispanic", None], num_members),
-        "MEM_GENDER": ["F"] * num_members,  # All members are female
-        "MEM_MSA_NAME": np.random.choice(["DETROIT", "HONOLULU", "LOS ANGELES"], num_members),
-        "MEM_RACE": np.random.choice(["White", "Black", "Asian", None], num_members),
-        "MEM_STATE": np.random.choice(["MI", "HI", "CA"], num_members),
-        "MEM_ZIP3": np.random.randint(100, 999, num_members),
-        "MEMBER_ID": primary_keys,
-        "PRIMARY_PERSON_KEY": primary_keys,
     }
     return pd.DataFrame(members_data)
-# Function to generate synthetic Providers
-def generate_providers(num_providers):
-    providers_data = {
-        "PROV_CLINIC_STATE": np.random.choice(["MI", "HI", "CA"], num_providers),
-        "PROV_CLINIC_ZIP": np.random.randint(10000, 99999, num_providers),
-        "PROV_KEY": [f"PK_{i+1:05d}" for i in range(num_providers)],
-        "Sum of PROV_NPI_ORG": np.random.randint(1, 50, num_providers),
-        "PROV_TAXONOMY": np.random.choice(["208100000X", "207RE0101X"], num_providers),
-        "PROV_TYPE": np.random.choice(["Type1", "Type2"], num_providers),
-    }
-    return pd.DataFrame(providers_data)
 # Function to generate synthetic Services
 def generate_services(num_services, primary_keys):
     services_data = {
@@ -58,79 +151,31 @@ def generate_services(num_services, primary_keys):
         "Sum of AMT_ALLOWED": np.random.uniform(1000, 10000, num_services),
         "Sum of AMT_BILLED": np.random.uniform(1000, 15000, num_services),
         "Count of AMT_PAID": np.random.randint(1, 5, num_services),
-        "ATT_PROV_KEY": [f"PK_{i+1:05d}" for i in np.random.randint(1, len(primary_keys), num_services)],
-        "BILL_PROV_KEY": [f"PK_{i+1:05d}" for i in np.random.randint(1, len(primary_keys), num_services)],
-        "CLAIM_IN_NETWORK": np.random.choice(["Y", "N", None], num_services),
-        "RELATION": np.random.choice(["SUBSCRIBER", "DEPENDENT"], num_services),
         "SERVICE_SETTING": np.random.choice(["OUTPATIENT", "INPATIENT"], num_services),
-        "Sum of SERVICE_LINE": np.random.randint(1, 10, num_services),
-        "Sum of SV_UNITS": np.random.randint(1, 100, num_services),
-        "YEARMO": np.random.randint(202201, 202412, num_services),
     }
     return pd.DataFrame(services_data)
-# Function to generate synthetic BreastCancer data
-def generate_breast_cancer_data(members_df, num_patients):
-    # Randomly sample from PRIMARY_PERSON_KEY in Members
-    patient_ids = np.random.choice(members_df["PRIMARY_PERSON_KEY"], num_patients, replace=False)
-    breast_cancer_data = {
-        "Patient ID": patient_ids,
-        "Age": np.random.randint(30, 80, num_patients),
-        "Menopausal Status": np.random.choice(["Post-menopausal", "Pre-menopausal"], num_patients),
-        "Tumor Size (cm)": np.round(np.random.lognormal(mean=0.7, sigma=0.5, size=num_patients), 2),
-        "Lymph Node Involvement": np.random.choice(["Positive", "Negative"], num_patients),
-        "Tumor Grade": np.random.choice([1, 2, 3], num_patients),
-        "Tumor Stage": np.random.choice(["I", "II", "III", "IV"], num_patients),
-        "ER Status": np.random.choice(["Positive", "Negative"], num_patients),
-        "PR Status": np.random.choice(["Positive", "Negative"], num_patients),
-        "HER2 Status": np.random.choice(["Positive", "Negative"], num_patients),
-        "Ki-67 Level": np.random.choice(["High", "Low"], num_patients),
-        "TNBC Status": np.random.choice(["Positive", "Negative"], num_patients),
-        "BRCA Mutation": np.random.choice(["Positive", "Negative"], num_patients),
-        "Overall Health": np.random.choice(["Good", "Poor"], num_patients),
-        "Genomic Recurrence Score": np.random.choice(["Low", "Intermediate", "High", "N/A"], num_patients),
-        "Treatment": np.random.choice(["Surgery", "Chemotherapy", "Radiation Therapy"], num_patients),
-    }
-    return pd.DataFrame(breast_cancer_data)
 # Main Streamlit App
 st.title("Synthetic Medical Data Generator")
-# Input parameters
-num_members = st.slider("Number of Members to Generate", 10, 1000, 100)
-num_providers = st.slider("Number of Providers to Generate", 10, 500, 100)
 num_services = st.slider("Number of Services to Generate", 10, 2000, 500)
-num_patients = st.slider("Number of Breast Cancer Patients to Generate", 10, 500, 100)
 if st.button("Generate Data"):
-    # Generate data
-    enrollments_df = generate_enrollments(num_members)
-    members_df = generate_members(num_members)
-    providers_df = generate_providers(num_providers)
-    services_df = generate_services(num_services, enrollments_df["PRIMARY_PERSON_KEY"].tolist())
-    # Adjust Breast Cancer Patients to not exceed Members
-    max_breast_cancer_patients = min(num_patients, num_members)
-    breast_cancer_df = generate_breast_cancer_data(members_df, max_breast_cancer_patients)
     # Display and download data
-    st.subheader("Enrollments Data")
-    st.dataframe(enrollments_df.head())
-    st.download_button("Download Enrollments", enrollments_df.to_csv(index=False), "enrollments.csv")
     st.subheader("Members Data")
     st.dataframe(members_df.head())
     st.download_button("Download Members", members_df.to_csv(index=False), "members.csv")
-    st.subheader("Providers Data")
-    st.dataframe(providers_df.head())
-    st.download_button("Download Providers", providers_df.to_csv(index=False), "providers.csv")
     st.subheader("Services Data")
     st.dataframe(services_df.head())
     st.download_button("Download Services", services_df.to_csv(index=False), "services.csv")
-    st.subheader("Breast Cancer Data")
-    st.dataframe(breast_cancer_df.head())
-    st.download_button("Download Breast Cancer Data", breast_cancer_df.to_csv(index=False), "breast_cancer.csv")

 # Seed for reproducibility
 np.random.seed(42)
+# Function to generate synthetic BreastCancer data
+def generate_breast_cancer_data(num_patients):
+    primary_keys = [f"PPK_{i+1:05d}" for i in range(num_patients)]
+    ages = []
+    menopausal_status = []
+    tumor_sizes = []
+    lymph_nodes = []
+    grades = []
+    stages = []
+    er_status = []
+    pr_status = []
+    her2_status = []
+    ki67_level = []
+    tnbc_status = []
+    brca_mutation = []
+    overall_health = []
+    genomic_score = []
+    treatment = []
+    for i in range(num_patients):
+        age = int(np.random.normal(60, 10))
+        age = max(30, min(age, 80))
+        ages.append(age)
+        menopausal = "Post-menopausal" if age >= 50 else "Pre-menopausal"
+        menopausal_status.append(menopausal)
+        tumor_size = round(np.random.lognormal(mean=0.7, sigma=0.5), 2)
+        tumor_sizes.append(tumor_size)
+        lymph_node = (
+            "Positive"
+            if (tumor_size > 2.0 and np.random.rand() < 0.6)
+            or (tumor_size <= 2.0 and np.random.rand() < 0.3)
+            else "Negative"
+        )
+        lymph_nodes.append(lymph_node)
+        grade = np.random.choice([1, 2, 3], p=[0.1, 0.4, 0.5] if tumor_size > 2.0 else [0.3, 0.5, 0.2])
+        grades.append(grade)
+        if tumor_size <= 2.0 and lymph_node == "Negative":
+            stage = "I"
+        elif (tumor_size > 2.0 and tumor_size <= 5.0) and lymph_node == "Negative":
+            stage = "II"
+        elif lymph_node == "Positive" or tumor_size > 5.0:
+            stage = "III"
+        else:
+            stage = "II"
+        if np.random.rand() < 0.05:
+            stage = "IV"
+        stages.append(stage)
+        er = np.random.choice(["Positive", "Negative"], p=[0.75, 0.25])
+        pr = "Positive" if er == "Positive" and np.random.rand() > 0.1 else "Negative"
+        er_status.append(er)
+        pr_status.append(pr)
+        her2 = np.random.choice(["Positive", "Negative"], p=[0.3, 0.7] if grade == 3 else [0.15, 0.85])
+        her2_status.append(her2)
+        ki67 = "High" if grade == 3 and np.random.rand() < 0.8 else "Low"
+        ki67_level.append(ki67)
+        tnbc = "Positive" if er == "Negative" and pr == "Negative" and her2 == "Negative" else "Negative"
+        tnbc_status.append(tnbc)
+        brca = "Positive" if (tnbc == "Positive" or age < 40) and np.random.rand() < 0.2 else "Negative"
+        brca_mutation.append(brca)
+        health = "Good" if age < 65 and np.random.rand() < 0.9 else "Poor"
+        overall_health.append(health)
+        recurrence_score = (
+            np.random.choice(["Low", "Intermediate", "High"], p=[0.6, 0.3, 0.1])
+            if er == "Positive" and her2 == "Negative"
+            else "N/A"
+        )
+        genomic_score.append(recurrence_score)
+        if stage in ["I", "II"]:
+            if tnbc == "Positive":
+                treat = "Surgery, Chemotherapy, and Radiation Therapy"
+            elif er == "Positive" and recurrence_score != "N/A":
+                if recurrence_score == "High":
+                    treat = "Surgery, Chemotherapy, Hormone Therapy, and Radiation Therapy"
+                elif recurrence_score == "Intermediate":
+                    treat = "Surgery, Consider Chemotherapy, Hormone Therapy, and Radiation Therapy"
+                else:
+                    treat = "Surgery, Hormone Therapy, and Radiation Therapy"
+            elif her2 == "Positive":
+                treat = "Surgery, HER2-Targeted Therapy, Chemotherapy, and Radiation Therapy"
+            else:
+                treat = "Surgery, Chemotherapy, and Radiation Therapy"
+        elif stage == "III":
+            treat = (
+                "Neoadjuvant Chemotherapy, Surgery, Radiation Therapy"
+                + (", HER2-Targeted Therapy" if her2 == "Positive" else "")
+                + (", Hormone Therapy" if er == "Positive" else "")
+            )
+        else:
+            treat = "Systemic Therapy (Palliative Care)"
+        treatment.append(treat)
+    breast_cancer_data = {
+        "Patient ID": primary_keys,
+        "Age": ages,
+        "Menopausal Status": menopausal_status,
+        "Tumor Size (cm)": tumor_sizes,
+        "Lymph Node Involvement": lymph_nodes,
+        "Tumor Grade": grades,
+        "Tumor Stage": stages,
+        "ER Status": er_status,
+        "PR Status": pr_status,
+        "HER2 Status": her2_status,
+        "Ki-67 Level": ki67_level,
+        "TNBC Status": tnbc_status,
+        "BRCA Mutation": brca_mutation,
+        "Overall Health": overall_health,
+        "Genomic Recurrence Score": genomic_score,
+        "Treatment": treatment,
     }
+    return pd.DataFrame(breast_cancer_data)
 # Function to generate synthetic Members
+def generate_members_from_breast_cancer(breast_cancer_df):
     members_data = {
+        "MEMBER_ID": breast_cancer_df["Patient ID"],
+        "PRIMARY_PERSON_KEY": breast_cancer_df["Patient ID"],
+        "MEM_GENDER": ["F"] * len(breast_cancer_df),
+        "MEM_ETHNICITY": np.random.choice(["Hispanic", "Non-Hispanic", None], len(breast_cancer_df)),
+        "MEM_RACE": np.random.choice(["White", "Black", "Asian", None], len(breast_cancer_df)),
+        "MEM_STATE": np.random.choice(["MI", "HI", "CA"], len(breast_cancer_df)),
+        "MEM_ZIP3": np.random.randint(100, 999, len(breast_cancer_df)),
     }
     return pd.DataFrame(members_data)
 # Function to generate synthetic Services
 def generate_services(num_services, primary_keys):
     services_data = {
         "Sum of AMT_ALLOWED": np.random.uniform(1000, 10000, num_services),
         "Sum of AMT_BILLED": np.random.uniform(1000, 15000, num_services),
         "Count of AMT_PAID": np.random.randint(1, 5, num_services),
         "SERVICE_SETTING": np.random.choice(["OUTPATIENT", "INPATIENT"], num_services),
     }
     return pd.DataFrame(services_data)
 # Main Streamlit App
 st.title("Synthetic Medical Data Generator")
+# Slider for breast cancer patients
+num_patients = st.slider("Number of Breast Cancer Patients to Generate", 10, 1000, 100)
 num_services = st.slider("Number of Services to Generate", 10, 2000, 500)
 if st.button("Generate Data"):
+    breast_cancer_df = generate_breast_cancer_data(num_patients)
+    members_df = generate_members_from_breast_cancer(breast_cancer_df)
+    services_df = generate_services(num_services, breast_cancer_df["Patient ID"].tolist())
     # Display and download data
+    st.subheader("Breast Cancer Data")
+    st.dataframe(breast_cancer_df.head())
+    st.download_button("Download Breast Cancer Data", breast_cancer_df.to_csv(index=False), "breast_cancer.csv")
     st.subheader("Members Data")
     st.dataframe(members_df.head())
     st.download_button("Download Members", members_df.to_csv(index=False), "members.csv")
     st.subheader("Services Data")
     st.dataframe(services_df.head())
     st.download_button("Download Services", services_df.to_csv(index=False), "services.csv")