omwdataset

Runtime error

App Files Files Community

victormiller commited on Oct 1, 2024

Commit

b9f2fad

verified ·

1 Parent(s): 2e40103

Update curated.py

Browse files

Files changed (1) hide show

curated.py +33 -631

curated.py CHANGED Viewed

@@ -57,638 +57,40 @@ fig = px.treemap(treemap_data, path=['Category', 'Source'], values='Count', hove
 # Display treemap if you want to update the size.update_layout(width=800, height=600)
 treemap_chart = fig
-data = {
-    'Filter': ['Downloaded Lines', 'Language Filter', 'Min Word Count', 'Unigram Log Probability'],
-    'Wikipedia': [61614907, 61614907, 60468491, 60468491]
-}
-# Creating a dataframe
-df = pd.DataFrame(data)
-# Creating the stacked bar chart
-fig = go.Figure()
-# Add trace for each dataset
-for dataset in df.columns[1:]:
-    fig.add_trace(go.Bar(
-        name=dataset,
-        x=df['Filter'],
-        y=df[dataset]
-    ))
-# Update the layout
-fig.update_layout(
-    barmode='group',
-    title='Wikipedia Bar Chart of Line Reductions by Filter for Each Dataset',
-    xaxis_title='Filter',
-    yaxis_title='Number of Lines',
-    legend_title='Dataset',
-    height=600,
-    width=1000
-)
-# Show the plot
-wikipedia_bar = fig
-data = {
-    'Filter': ['Downloaded Lines', 'Language Filter', 'Min Word Count', 'Unigram Log Probability'],
-    'Wikipedia': [61614907, 61614907, 60468491, 60468491],
-    'Freelaw': [75971288, 73690766, 68171834, 68123174],
-    'DM Maths': [112559888, 112559888, 112559888, 112559888],
-    'USPTO': [6880276, 6878964, 6749922, 6749389],
-    'PG19': [28752, 28683, 28682, 28632],
-    'Hackernews': [2064931, 2010802, 2010488, 2003636],
-    'Ubuntu IRC': [37966, 23501, 23468, 23205],
-    'Europarl': [69814, 69814, 69814, 69814],
-    'StackExchange': [23246548, 23246548, 23246352, 23246352],
-    'Arxiv': [1911867, 1869441, 1763840, 1762661],
-    'S2ORC': [12963563, 12963563, 12963563, 12963563],
-    'S2ORC Abstract': [102324176, 83867601, 82889293, 82777912],
-    'Pubmed Central': [5230932, 4830486, 4768310, 4767474],
-    'Pubmed Abstract': [25787474, 25784374, 25747955, 25746724],
-    'Phil Papers': [49389, 39175, 39175, 39128]
-}
-# Creating a dataframe
-df = pd.DataFrame(data)
-# Creating the stacked bar chart
-fig = go.Figure()
-# Add trace for each dataset
-for dataset in df.columns[1:]:
-    fig.add_trace(go.Bar(
-        name=dataset,
-        x=df['Filter'],
-        y=df[dataset]
-    ))
-# Update the layout
-fig.update_layout(
-    barmode='group',
-    title='Stacked Bar Chart of Line Reductions by Filter for Each Dataset',
-    xaxis_title='Filter',
-    yaxis_title='Number of Lines',
-    legend_title='Dataset',
-    height=600,
-    width=1000
-)
-# Show the plot
-freelaw_bar = fig
-data = {
-    'Filter': ['Downloaded Lines', 'Language Filter', 'Min Word Count', 'Unigram Log Probability'],
-    'Wikipedia': [61614907, 61614907, 60468491, 60468491],
-    'Freelaw': [75971288, 73690766, 68171834, 68123174],
-    'DM Maths': [112559888, 112559888, 112559888, 112559888],
-    'USPTO': [6880276, 6878964, 6749922, 6749389],
-    'PG19': [28752, 28683, 28682, 28632],
-    'Hackernews': [2064931, 2010802, 2010488, 2003636],
-    'Ubuntu IRC': [37966, 23501, 23468, 23205],
-    'Europarl': [69814, 69814, 69814, 69814],
-    'StackExchange': [23246548, 23246548, 23246352, 23246352],
-    'Arxiv': [1911867, 1869441, 1763840, 1762661],
-    'S2ORC': [12963563, 12963563, 12963563, 12963563],
-    'S2ORC Abstract': [102324176, 83867601, 82889293, 82777912],
-    'Pubmed Central': [5230932, 4830486, 4768310, 4767474],
-    'Pubmed Abstract': [25787474, 25784374, 25747955, 25746724],
-    'Phil Papers': [49389, 39175, 39175, 39128]
-}
-# Creating a dataframe
-df = pd.DataFrame(data)
-# Creating the stacked bar chart
-fig = go.Figure()
-# Add trace for each dataset
-for dataset in df.columns[1:]:
-    fig.add_trace(go.Bar(
-        name=dataset,
-        x=df['Filter'],
-        y=df[dataset]
-    ))
-# Update the layout
-fig.update_layout(
-    barmode='stack',
-    title='Stacked Bar Chart of Line Reductions by Filter for Each Dataset',
-    xaxis_title='Filter',
-    yaxis_title='Number of Lines',
-    legend_title='Dataset',
-    height=600,
-    width=1000
-)
-# Show the plot
-diff2_stacked_bar = fig
-data = {
-    'Filter': ['Downloaded Lines', 'Language Filter', 'Min Word Count', 'Unigram Log Probability'],
-    'Wikipedia': [61614907, 61614907, 60468491, 60468491],
-    'Freelaw': [75971288, 73690766, 68171834, 68123174],
-    'DM Maths': [112559888, 112559888, 112559888, 112559888],
-    'USPTO': [6880276, 6878964, 6749922, 6749389],
-    'PG19': [28752, 28683, 28682, 28632],
-    'Hackernews': [2064931, 2010802, 2010488, 2003636],
-    'Ubuntu IRC': [37966, 23501, 23468, 23205],
-    'Europarl': [69814, 69814, 69814, 69814],
-    'StackExchange': [23246548, 23246548, 23246352, 23246352],
-    'Arxiv': [1911867, 1869441, 1763840, 1762661],
-    'S2ORC': [12963563, 12963563, 12963563, 12963563],
-    'S2ORC Abstract': [102324176, 83867601, 82889293, 82777912],
-    'Pubmed Central': [5230932, 4830486, 4768310, 4767474],
-    'Pubmed Abstract': [25787474, 25784374, 25747955, 25746724],
-    'Phil Papers': [49389, 39175, 39175, 39128]
-}
-# Creating a dataframe
-df = pd.DataFrame(data)
-# Creating the stacked bar chart
-fig = go.Figure()
-# Add trace for each dataset
-for dataset in df.columns[1:]:
-    fig.add_trace(go.Bar(
-        name=dataset,
-        x=df['Filter'],
-        y=df[dataset]
-    ))
-# Update the layout
-fig.update_layout(
-    barmode='stack',
-    title='Stacked Bar Chart of Line Reductions by Filter for Each Dataset',
-    xaxis_title='Filter',
-    yaxis_title='Number of Lines',
-    legend_title='Dataset',
-    height=600,
-    width=1000
-)
-# Show the plot
-diff2_stacked_bar = fig
-data = {
-    'Filter': ['Downloaded Lines', 'Language Filter', 'Min Word Count', 'Unigram Log Probability'],
-    'Wikipedia': [61614907, 61614907, 60468491, 60468491],
-    'Freelaw': [75971288, 73690766, 68171834, 68123174],
-    'DM Maths': [112559888, 112559888, 112559888, 112559888],
-    'USPTO': [6880276, 6878964, 6749922, 6749389],
-    'PG19': [28752, 28683, 28682, 28632],
-    'Hackernews': [2064931, 2010802, 2010488, 2003636],
-    'Ubuntu IRC': [37966, 23501, 23468, 23205],
-    'Europarl': [69814, 69814, 69814, 69814],
-    'StackExchange': [23246548, 23246548, 23246352, 23246352],
-    'Arxiv': [1911867, 1869441, 1763840, 1762661],
-    'S2ORC': [12963563, 12963563, 12963563, 12963563],
-    'S2ORC Abstract': [102324176, 83867601, 82889293, 82777912],
-    'Pubmed Central': [5230932, 4830486, 4768310, 4767474],
-    'Pubmed Abstract': [25787474, 25784374, 25747955, 25746724],
-    'Phil Papers': [49389, 39175, 39175, 39128]
-}
-# Creating a dataframe
-df = pd.DataFrame(data)
-# Creating the stacked bar chart
-fig = go.Figure()
-# Add trace for each dataset
-for dataset in df.columns[1:]:
-    fig.add_trace(go.Bar(
-        name=dataset,
-        x=df['Filter'],
-        y=df[dataset]
-    ))
-# Update the layout
-fig.update_layout(
-    barmode='stack',
-    title='Stacked Bar Chart of Line Reductions by Filter for Each Dataset',
-    xaxis_title='Filter',
-    yaxis_title='Number of Lines',
-    legend_title='Dataset',
-    height=600,
-    width=1000
-)
-# Show the plot
-diff2_stacked_bar = fig
-data = {
-    'Filter': ['Downloaded Lines', 'Language Filter', 'Min Word Count', 'Unigram Log Probability'],
-    'Wikipedia': [61614907, 61614907, 60468491, 60468491],
-    'Freelaw': [75971288, 73690766, 68171834, 68123174],
-    'DM Maths': [112559888, 112559888, 112559888, 112559888],
-    'USPTO': [6880276, 6878964, 6749922, 6749389],
-    'PG19': [28752, 28683, 28682, 28632],
-    'Hackernews': [2064931, 2010802, 2010488, 2003636],
-    'Ubuntu IRC': [37966, 23501, 23468, 23205],
-    'Europarl': [69814, 69814, 69814, 69814],
-    'StackExchange': [23246548, 23246548, 23246352, 23246352],
-    'Arxiv': [1911867, 1869441, 1763840, 1762661],
-    'S2ORC': [12963563, 12963563, 12963563, 12963563],
-    'S2ORC Abstract': [102324176, 83867601, 82889293, 82777912],
-    'Pubmed Central': [5230932, 4830486, 4768310, 4767474],
-    'Pubmed Abstract': [25787474, 25784374, 25747955, 25746724],
-    'Phil Papers': [49389, 39175, 39175, 39128]
-}
-# Creating a dataframe
-df = pd.DataFrame(data)
-# Creating the stacked bar chart
-fig = go.Figure()
-# Add trace for each dataset
-for dataset in df.columns[1:]:
-    fig.add_trace(go.Bar(
-        name=dataset,
-        x=df['Filter'],
-        y=df[dataset]
-    ))
-# Update the layout
-fig.update_layout(
-    barmode='stack',
-    title='Stacked Bar Chart of Line Reductions by Filter for Each Dataset',
-    xaxis_title='Filter',
-    yaxis_title='Number of Lines',
-    legend_title='Dataset',
-    height=600,
-    width=1000
-)
-# Show the plot
-diff2_stacked_bar = fig
-data = {
-    'Filter': ['Downloaded Lines', 'Language Filter', 'Min Word Count', 'Unigram Log Probability'],
-    'Wikipedia': [61614907, 61614907, 60468491, 60468491],
-    'Freelaw': [75971288, 73690766, 68171834, 68123174],
-    'DM Maths': [112559888, 112559888, 112559888, 112559888],
-    'USPTO': [6880276, 6878964, 6749922, 6749389],
-    'PG19': [28752, 28683, 28682, 28632],
-    'Hackernews': [2064931, 2010802, 2010488, 2003636],
-    'Ubuntu IRC': [37966, 23501, 23468, 23205],
-    'Europarl': [69814, 69814, 69814, 69814],
-    'StackExchange': [23246548, 23246548, 23246352, 23246352],
-    'Arxiv': [1911867, 1869441, 1763840, 1762661],
-    'S2ORC': [12963563, 12963563, 12963563, 12963563],
-    'S2ORC Abstract': [102324176, 83867601, 82889293, 82777912],
-    'Pubmed Central': [5230932, 4830486, 4768310, 4767474],
-    'Pubmed Abstract': [25787474, 25784374, 25747955, 25746724],
-    'Phil Papers': [49389, 39175, 39175, 39128]
-}
-# Creating a dataframe
-df = pd.DataFrame(data)
-# Creating the stacked bar chart
-fig = go.Figure()
-# Add trace for each dataset
-for dataset in df.columns[1:]:
-    fig.add_trace(go.Bar(
-        name=dataset,
-        x=df['Filter'],
-        y=df[dataset]
-    ))
-# Update the layout
-fig.update_layout(
-    barmode='stack',
-    title='Stacked Bar Chart of Line Reductions by Filter for Each Dataset',
-    xaxis_title='Filter',
-    yaxis_title='Number of Lines',
-    legend_title='Dataset',
-    height=600,
-    width=1000
-)
-# Show the plot
-diff2_stacked_bar = fig
-data = {
-    'Filter': ['Downloaded Lines', 'Language Filter', 'Min Word Count', 'Unigram Log Probability'],
-    'Wikipedia': [61614907, 61614907, 60468491, 60468491],
-    'Freelaw': [75971288, 73690766, 68171834, 68123174],
-    'DM Maths': [112559888, 112559888, 112559888, 112559888],
-    'USPTO': [6880276, 6878964, 6749922, 6749389],
-    'PG19': [28752, 28683, 28682, 28632],
-    'Hackernews': [2064931, 2010802, 2010488, 2003636],
-    'Ubuntu IRC': [37966, 23501, 23468, 23205],
-    'Europarl': [69814, 69814, 69814, 69814],
-    'StackExchange': [23246548, 23246548, 23246352, 23246352],
-    'Arxiv': [1911867, 1869441, 1763840, 1762661],
-    'S2ORC': [12963563, 12963563, 12963563, 12963563],
-    'S2ORC Abstract': [102324176, 83867601, 82889293, 82777912],
-    'Pubmed Central': [5230932, 4830486, 4768310, 4767474],
-    'Pubmed Abstract': [25787474, 25784374, 25747955, 25746724],
-    'Phil Papers': [49389, 39175, 39175, 39128]
-}
-# Creating a dataframe
-df = pd.DataFrame(data)
-# Creating the stacked bar chart
-fig = go.Figure()
-# Add trace for each dataset
-for dataset in df.columns[1:]:
-    fig.add_trace(go.Bar(
-        name=dataset,
-        x=df['Filter'],
-        y=df[dataset]
-    ))
-# Update the layout
-fig.update_layout(
-    barmode='stack',
-    title='Stacked Bar Chart of Line Reductions by Filter for Each Dataset',
-    xaxis_title='Filter',
-    yaxis_title='Number of Lines',
-    legend_title='Dataset',
-    height=600,
-    width=1000
-)
-# Show the plot
-diff2_stacked_bar = fig
-data = {
-    'Filter': ['Downloaded Lines', 'Language Filter', 'Min Word Count', 'Unigram Log Probability'],
-    'Wikipedia': [61614907, 61614907, 60468491, 60468491],
-    'Freelaw': [75971288, 73690766, 68171834, 68123174],
-    'DM Maths': [112559888, 112559888, 112559888, 112559888],
-    'USPTO': [6880276, 6878964, 6749922, 6749389],
-    'PG19': [28752, 28683, 28682, 28632],
-    'Hackernews': [2064931, 2010802, 2010488, 2003636],
-    'Ubuntu IRC': [37966, 23501, 23468, 23205],
-    'Europarl': [69814, 69814, 69814, 69814],
-    'StackExchange': [23246548, 23246548, 23246352, 23246352],
-    'Arxiv': [1911867, 1869441, 1763840, 1762661],
-    'S2ORC': [12963563, 12963563, 12963563, 12963563],
-    'S2ORC Abstract': [102324176, 83867601, 82889293, 82777912],
-    'Pubmed Central': [5230932, 4830486, 4768310, 4767474],
-    'Pubmed Abstract': [25787474, 25784374, 25747955, 25746724],
-    'Phil Papers': [49389, 39175, 39175, 39128]
-}
-# Creating a dataframe
-df = pd.DataFrame(data)
-# Creating the stacked bar chart
-fig = go.Figure()
-# Add trace for each dataset
-for dataset in df.columns[1:]:
-    fig.add_trace(go.Bar(
-        name=dataset,
-        x=df['Filter'],
-        y=df[dataset]
-    ))
-# Update the layout
-fig.update_layout(
-    barmode='stack',
-    title='Stacked Bar Chart of Line Reductions by Filter for Each Dataset',
-    xaxis_title='Filter',
-    yaxis_title='Number of Lines',
-    legend_title='Dataset',
-    height=600,
-    width=1000
-)
-# Show the plot
-diff2_stacked_bar = fig
-data = {
-    'Filter': ['Downloaded Lines', 'Language Filter', 'Min Word Count', 'Unigram Log Probability'],
-    'Wikipedia': [61614907, 61614907, 60468491, 60468491],
-    'Freelaw': [75971288, 73690766, 68171834, 68123174],
-    'DM Maths': [112559888, 112559888, 112559888, 112559888],
-    'USPTO': [6880276, 6878964, 6749922, 6749389],
-    'PG19': [28752, 28683, 28682, 28632],
-    'Hackernews': [2064931, 2010802, 2010488, 2003636],
-    'Ubuntu IRC': [37966, 23501, 23468, 23205],
-    'Europarl': [69814, 69814, 69814, 69814],
-    'StackExchange': [23246548, 23246548, 23246352, 23246352],
-    'Arxiv': [1911867, 1869441, 1763840, 1762661],
-    'S2ORC': [12963563, 12963563, 12963563, 12963563],
-    'S2ORC Abstract': [102324176, 83867601, 82889293, 82777912],
-    'Pubmed Central': [5230932, 4830486, 4768310, 4767474],
-    'Pubmed Abstract': [25787474, 25784374, 25747955, 25746724],
-    'Phil Papers': [49389, 39175, 39175, 39128]
-}
-# Creating a dataframe
-df = pd.DataFrame(data)
-# Creating the stacked bar chart
-fig = go.Figure()
-# Add trace for each dataset
-for dataset in df.columns[1:]:
-    fig.add_trace(go.Bar(
-        name=dataset,
-        x=df['Filter'],
-        y=df[dataset]
-    ))
-# Update the layout
-fig.update_layout(
-    barmode='stack',
-    title='Stacked Bar Chart of Line Reductions by Filter for Each Dataset',
-    xaxis_title='Filter',
-    yaxis_title='Number of Lines',
-    legend_title='Dataset',
-    height=600,
-    width=1000
-)
-# Show the plot
-diff2_stacked_bar = fig
-data = {
-    'Filter': ['Downloaded Lines', 'Language Filter', 'Min Word Count', 'Unigram Log Probability'],
-    'Wikipedia': [61614907, 61614907, 60468491, 60468491],
-    'Freelaw': [75971288, 73690766, 68171834, 68123174],
-    'DM Maths': [112559888, 112559888, 112559888, 112559888],
-    'USPTO': [6880276, 6878964, 6749922, 6749389],
-    'PG19': [28752, 28683, 28682, 28632],
-    'Hackernews': [2064931, 2010802, 2010488, 2003636],
-    'Ubuntu IRC': [37966, 23501, 23468, 23205],
-    'Europarl': [69814, 69814, 69814, 69814],
-    'StackExchange': [23246548, 23246548, 23246352, 23246352],
-    'Arxiv': [1911867, 1869441, 1763840, 1762661],
-    'S2ORC': [12963563, 12963563, 12963563, 12963563],
-    'S2ORC Abstract': [102324176, 83867601, 82889293, 82777912],
-    'Pubmed Central': [5230932, 4830486, 4768310, 4767474],
-    'Pubmed Abstract': [25787474, 25784374, 25747955, 25746724],
-    'Phil Papers': [49389, 39175, 39175, 39128]
-}
-# Creating a dataframe
-df = pd.DataFrame(data)
-# Creating the stacked bar chart
-fig = go.Figure()
-# Add trace for each dataset
-for dataset in df.columns[1:]:
-    fig.add_trace(go.Bar(
-        name=dataset,
-        x=df['Filter'],
-        y=df[dataset]
-    ))
-# Update the layout
-fig.update_layout(
-    barmode='stack',
-    title='Stacked Bar Chart of Line Reductions by Filter for Each Dataset',
-    xaxis_title='Filter',
-    yaxis_title='Number of Lines',
-    legend_title='Dataset',
-    height=600,
-    width=1000
-)
-# Show the plot
-diff2_stacked_bar = fig
-data = {
-    'Filter': ['Downloaded Lines', 'Language Filter', 'Min Word Count', 'Unigram Log Probability'],
-    'Wikipedia': [61614907, 61614907, 60468491, 60468491],
-    'Freelaw': [75971288, 73690766, 68171834, 68123174],
-    'DM Maths': [112559888, 112559888, 112559888, 112559888],
-    'USPTO': [6880276, 6878964, 6749922, 6749389],
-    'PG19': [28752, 28683, 28682, 28632],
-    'Hackernews': [2064931, 2010802, 2010488, 2003636],
-    'Ubuntu IRC': [37966, 23501, 23468, 23205],
-    'Europarl': [69814, 69814, 69814, 69814],
-    'StackExchange': [23246548, 23246548, 23246352, 23246352],
-    'Arxiv': [1911867, 1869441, 1763840, 1762661],
-    'S2ORC': [12963563, 12963563, 12963563, 12963563],
-    'S2ORC Abstract': [102324176, 83867601, 82889293, 82777912],
-    'Pubmed Central': [5230932, 4830486, 4768310, 4767474],
-    'Pubmed Abstract': [25787474, 25784374, 25747955, 25746724],
-    'Phil Papers': [49389, 39175, 39175, 39128]
-}
-# Creating a dataframe
-df = pd.DataFrame(data)
-# Creating the stacked bar chart
-fig = go.Figure()
-# Add trace for each dataset
-for dataset in df.columns[1:]:
-    fig.add_trace(go.Bar(
-        name=dataset,
-        x=df['Filter'],
-        y=df[dataset]
-    ))
-# Update the layout
-fig.update_layout(
-    barmode='stack',
-    title='Stacked Bar Chart of Line Reductions by Filter for Each Dataset',
-    xaxis_title='Filter',
-    yaxis_title='Number of Lines',
-    legend_title='Dataset',
-    height=600,
-    width=1000
-)
-# Show the plot
-diff2_stacked_bar = fig
-data = {
-    'Filter': ['Downloaded Lines', 'Language Filter', 'Min Word Count', 'Unigram Log Probability'],
-    'Wikipedia': [61614907, 61614907, 60468491, 60468491],
-    'Freelaw': [75971288, 73690766, 68171834, 68123174],
-    'DM Maths': [112559888, 112559888, 112559888, 112559888],
-    'USPTO': [6880276, 6878964, 6749922, 6749389],
-    'PG19': [28752, 28683, 28682, 28632],
-    'Hackernews': [2064931, 2010802, 2010488, 2003636],
-    'Ubuntu IRC': [37966, 23501, 23468, 23205],
-    'Europarl': [69814, 69814, 69814, 69814],
-    'StackExchange': [23246548, 23246548, 23246352, 23246352],
-    'Arxiv': [1911867, 1869441, 1763840, 1762661],
-    'S2ORC': [12963563, 12963563, 12963563, 12963563],
-    'S2ORC Abstract': [102324176, 83867601, 82889293, 82777912],
-    'Pubmed Central': [5230932, 4830486, 4768310, 4767474],
-    'Pubmed Abstract': [25787474, 25784374, 25747955, 25746724],
-    'Phil Papers': [49389, 39175, 39175, 39128]
-}
-# Creating a dataframe
-df = pd.DataFrame(data)
-# Creating the stacked bar chart
-fig = go.Figure()
-# Add trace for each dataset
-for dataset in df.columns[1:]:
-    fig.add_trace(go.Bar(
-        name=dataset,
-        x=df['Filter'],
-        y=df[dataset]
-    ))
-# Update the layout
-fig.update_layout(
-    barmode='stack',
-    title='Stacked Bar Chart of Line Reductions by Filter for Each Dataset',
-    xaxis_title='Filter',
-    yaxis_title='Number of Lines',
-    legend_title='Dataset',
-    height=600,
-    width=1000
-)
-# Show the plot
-diff2_stacked_bar = fig
-data = {
-    'Filter': ['Downloaded Lines', 'Language Filter', 'Min Word Count', 'Unigram Log Probability'],
-    'Wikipedia': [61614907, 61614907, 60468491, 60468491],
-    'Freelaw': [75971288, 73690766, 68171834, 68123174],
-    'DM Maths': [112559888, 112559888, 112559888, 112559888],
-    'USPTO': [6880276, 6878964, 6749922, 6749389],
-    'PG19': [28752, 28683, 28682, 28632],
-    'Hackernews': [2064931, 2010802, 2010488, 2003636],
-    'Ubuntu IRC': [37966, 23501, 23468, 23205],
-    'Europarl': [69814, 69814, 69814, 69814],
-    'StackExchange': [23246548, 23246548, 23246352, 23246352],
-    'Arxiv': [1911867, 1869441, 1763840, 1762661],
-    'S2ORC': [12963563, 12963563, 12963563, 12963563],
-    'S2ORC Abstract': [102324176, 83867601, 82889293, 82777912],
-    'Pubmed Central': [5230932, 4830486, 4768310, 4767474],
-    'Pubmed Abstract': [25787474, 25784374, 25747955, 25746724],
-    'Phil Papers': [49389, 39175, 39175, 39128]
-}
-# Creating a dataframe
-df = pd.DataFrame(data)
-# Creating the stacked bar chart
-fig = go.Figure()
-# Add trace for each dataset
-for dataset in df.columns[1:]:
-    fig.add_trace(go.Bar(
-        name=dataset,
-        x=df['Filter'],
-        y=df[dataset]
-    ))
-# Update the layout
-fig.update_layout(
-    barmode='stack',
-    title='Stacked Bar Chart of Line Reductions by Filter for Each Dataset',
-    xaxis_title='Filter',
-    yaxis_title='Number of Lines',
-    legend_title='Dataset',
-    height=600,
-    width=1000
-)
-# Show the plot
-diff2_stacked_bar = fig
 filtering_process = Div(

 # Display treemap if you want to update the size.update_layout(width=800, height=600)
 treemap_chart = fig
+wikipedia_filter = pd.DataFrame(
+        {
+            "Dataset": [
+                "Wikipedia",
+            ],
+            "Lines Downloaded": [
+                "",
+            ],
+            "Lines Remaining After Language Filter": [
+                "",
+            ],
+            "Percent Removed": [
+                "0.00%",
+            ],
+            "Lines Remaining After Min Word Count Filter": [
+                "",
+            ],
+            "Percent Removed": [
+                "1.86%",
+            ],
+            "Lines Remaining After Unigram Probability Filter": [
+                "",
+            ],
+            "Percent Removed": [
+                "0.00%",
+            ],
+            "Total Percentage Remaining": [
+                "98.14%",
+            ],
+        }
+    )
+table_html_wikipedia = dataset_comparison.to_html(index=False, border=0)
+table_div_wikipedia = Div(NotStr(table_html_wikipedia), style="margin: 40px;")
 filtering_process = Div(