Spaces:

MilesCranmer
/

PySR

Running

File size: 10,116 Bytes

9a7c989
2f38c9c
eae8f9c
bed9614
af14165
 
05cf610
6a4fa2c
1adfa85
bed9614
7d4300a
2f38c9c
 
9a7c989
 
c200074
 
 
a39e08e
 
 
14e9a4b
cdf9a75
14e9a4b
a39e08e
14e9a4b
ed35c4e
 
7d4300a
2f38c9c
 
af14165
 
 
 
10ff16a
8e088d6
6146f6b
af14165
 
 
 
6146f6b
e0e2933
7d4300a
af14165
1b17efe
 
af14165
e0e2933
7d4300a
 
 
af14165
 
2f38c9c
69fc6d0
af14165
 
ddb4d52
d9913e3
 
 
 
 
 
 
 
 
7a792a8
 
 
 
d85c1a5
ae0b11e
 
ed35c4e
6a4fa2c
 
 
 
5af6354
6a4fa2c
 
af14165
7d4300a
 
932dcf5
7d4300a
 
4c67c21
d85c1a5
7d4300a
ae0b11e
6a4fa2c
 
ae0b11e
7d4300a
6a4fa2c
ae0b11e
7d4300a
6a4fa2c
aa16a1e
ed35c4e
a232b56
58834e8
a232b56
 
 
 
0020398
58834e8
0020398
 
7d4300a
e274713
faa83d3
8cfda07
aa16a1e
32c64f7
aa16a1e
 
 
 
 
0fba777
 
 
 
 
 
5750d1a
 
ed35c4e
af14165
ffd9cd1
 
 
932dcf5
5750d1a
 
 
 
af14165
 
 
5750d1a
ffd9cd1
 
 
ed35c4e
 
 
ffd9cd1
 
 
 
ed35c4e
ffd9cd1
ad8332d
 
ffd9cd1
 
 
ed35c4e
 
 
ffd9cd1
 
af14165
ffd9cd1
 
561e614
ffd9cd1
 
 
 
af14165
 
 
 
45d2b5f
1662e82
ffd9cd1
 
 
ed35c4e
 
 
ffd9cd1
 
45d2b5f
 
ffd9cd1
1adfa85
 
 
7d4300a
 
ec8124e
 
 
7d4300a
 
1adfa85
ec8124e
7d4300a
 
1adfa85
e274713
 
03ba6dc
7d4300a
 
cdf9a75
7d4300a
e274713
 
 
ed35c4e
f59f827
1adfa85
f59f827
1adfa85
a55fec0
 
 
 
 
1adfa85
 
f59f827
1adfa85
 
ed35c4e
7d4300a
1662e82
51a6b05
97e6589
 
 
51a6b05
ed35c4e
51a6b05
 
ed35c4e
7d4300a
97e6589
 
 
 
ed35c4e
7d4300a
 
5fac847
7d4300a
 
5af6354
7d4300a
 
c96b30c
ef7a292
7d4300a
97e6589
7d4300a
1662e82
912de01
 
 
 
042b27f
912de01
 
 
3dafb8f
912de01
 
 
 
042b27f

import inspect
import unittest
from unittest.mock import patch
import numpy as np
from pysr import PySRRegressor
from pysr.sr import run_feature_selection, _handle_feature_selection
import sympy
from sympy import lambdify
import pandas as pd


class TestPipeline(unittest.TestCase):
    def setUp(self):
        # Using inspect,
        # get default niterations from PySRRegressor, and double them:
        default_niterations = (
            inspect.signature(PySRRegressor.__init__).parameters["niterations"].default
        )
        default_populations = (
            inspect.signature(PySRRegressor.__init__).parameters["populations"].default
        )
        self.default_test_kwargs = dict(
            model_selection="accuracy",
            niterations=default_niterations * 2,
            populations=default_populations * 2,
        )
        self.rstate = np.random.RandomState(0)
        self.X = self.rstate.randn(100, 5)

    def test_linear_relation(self):
        y = self.X[:, 0]
        model = PySRRegressor(**self.default_test_kwargs)
        model.fit(self.X, y)
        print(model.equations)
        self.assertLessEqual(model.get_best()["loss"], 1e-4)

    def test_multiprocessing(self):
        y = self.X[:, 0]
        model = PySRRegressor(**self.default_test_kwargs, procs=2, multithreading=False)
        model.fit(self.X, y)
        print(model.equations)
        self.assertLessEqual(model.equations.iloc[-1]["loss"], 1e-4)

    def test_multioutput_custom_operator_quiet(self):
        y = self.X[:, [0, 1]] ** 2
        model = PySRRegressor(
            unary_operators=["square_op(x) = x^2"],
            extra_sympy_mappings={"square_op": lambda x: x**2},
            binary_operators=["plus"],
            verbosity=0,
            **self.default_test_kwargs,
            procs=0,
        )
        model.fit(self.X, y)
        equations = model.equations
        print(equations)
        self.assertIn("square_op", model.equations[0].iloc[-1]["equation"])
        self.assertLessEqual(equations[0].iloc[-1]["loss"], 1e-4)
        self.assertLessEqual(equations[1].iloc[-1]["loss"], 1e-4)

        test_y1 = model.predict(self.X)
        test_y2 = model.predict(self.X, index=[-1, -1])

        mse1 = np.average((test_y1 - y) ** 2)
        mse2 = np.average((test_y2 - y) ** 2)

        self.assertLessEqual(mse1, 1e-4)
        self.assertLessEqual(mse2, 1e-4)

        bad_y = model.predict(self.X, index=[0, 0])
        bad_mse = np.average((bad_y - y) ** 2)
        self.assertGreater(bad_mse, 1e-4)

    def test_multioutput_weighted_with_callable_temp_equation(self):
        X = self.X.copy()
        y = X[:, [0, 1]] ** 2
        w = self.rstate.rand(*y.shape)
        w[w < 0.5] = 0.0
        w[w >= 0.5] = 1.0

        # Double equation when weights are 0:
        y = (2 - w) * y
        # Thus, pysr needs to use the weights to find the right equation!

        model = PySRRegressor(
            unary_operators=["sq(x) = x^2"],
            binary_operators=["plus"],
            extra_sympy_mappings={"sq": lambda x: x**2},
            **self.default_test_kwargs,
            procs=0,
            temp_equation_file=True,
            delete_tempfiles=False,
        )
        model.fit(X.copy(), y, weights=w)

        np.testing.assert_almost_equal(
            model.predict(X.copy())[:, 0], X[:, 0] ** 2, decimal=4
        )
        np.testing.assert_almost_equal(
            model.predict(X.copy())[:, 1], X[:, 1] ** 2, decimal=4
        )

    def test_empty_operators_single_input_multirun(self):
        X = self.rstate.randn(100, 1)
        y = X[:, 0] + 3.0
        regressor = PySRRegressor(
            unary_operators=[],
            binary_operators=["plus"],
            **self.default_test_kwargs,
        )
        self.assertTrue("None" in regressor.__repr__())
        regressor.fit(X, y)
        self.assertTrue("None" not in regressor.__repr__())
        self.assertTrue(">>>>" in regressor.__repr__())

        self.assertLessEqual(regressor.equations.iloc[-1]["loss"], 1e-4)
        np.testing.assert_almost_equal(regressor.predict(X), y, decimal=1)

        # Test if repeated fit works:
        regressor.set_params(niterations=0)
        regressor.fit(X, y)

        self.assertLessEqual(regressor.equations.iloc[-1]["loss"], 1e-4)
        np.testing.assert_almost_equal(regressor.predict(X), y, decimal=1)

        # Tweak model selection:
        regressor.set_params(model_selection="best")
        self.assertEqual(regressor.get_params()["model_selection"], "best")
        self.assertTrue("None" not in regressor.__repr__())
        self.assertTrue(">>>>" in regressor.__repr__())

    def test_noisy(self):

        y = self.X[:, [0, 1]] ** 2 + self.rstate.randn(self.X.shape[0], 1) * 0.05
        model = PySRRegressor(
            # Test that passing a single operator works:
            unary_operators="sq(x) = x^2",
            binary_operators="plus",
            extra_sympy_mappings={"sq": lambda x: x**2},
            **self.default_test_kwargs,
            procs=0,
            denoise=True,
        )
        model.fit(self.X, y)
        self.assertLessEqual(model.get_best()[1]["loss"], 1e-2)
        self.assertLessEqual(model.get_best()[1]["loss"], 1e-2)

    def test_pandas_resample(self):
        X = pd.DataFrame(
            {
                "T": self.rstate.randn(500),
                "x": self.rstate.randn(500),
                "unused_feature": self.rstate.randn(500),
            }
        )
        true_fn = lambda x: np.array(x["T"] + x["x"] ** 2 + 1.323837)
        y = true_fn(X)
        noise = self.rstate.randn(500) * 0.01
        y = y + noise
        # We also test y as a pandas array:
        y = pd.Series(y)
        # Resampled array is a different order of features:
        Xresampled = pd.DataFrame(
            {
                "unused_feature": self.rstate.randn(100),
                "x": self.rstate.randn(100),
                "T": self.rstate.randn(100),
            }
        )
        model = PySRRegressor(
            unary_operators=[],
            binary_operators=["+", "*", "/", "-"],
            **self.default_test_kwargs,
            Xresampled=Xresampled,
            denoise=True,
            select_k_features=2,
        )
        model.fit(X, y)
        self.assertNotIn("unused_feature", model.latex())
        self.assertIn("T", model.latex())
        self.assertIn("x", model.latex())
        self.assertLessEqual(model.get_best()["loss"], 1e-1)
        fn = model.get_best()["lambda_format"]
        self.assertListEqual(list(sorted(fn._selection)), [0, 1])
        X2 = pd.DataFrame(
            {
                "T": self.rstate.randn(100),
                "unused_feature": self.rstate.randn(100),
                "x": self.rstate.randn(100),
            }
        )
        self.assertLess(np.average((fn(X2) - true_fn(X2)) ** 2), 1e-1)
        self.assertLess(np.average((model.predict(X2) - true_fn(X2)) ** 2), 1e-1)


class TestBest(unittest.TestCase):
    def setUp(self):
        equations = pd.DataFrame(
            {
                "equation": ["1.0", "cos(x0)", "square(cos(x0))"],
                "loss": [1.0, 0.1, 1e-5],
                "complexity": [1, 2, 3],
            }
        )

        equations["complexity loss equation".split(" ")].to_csv(
            "equation_file.csv.bkup", sep="|"
        )

        self.model = PySRRegressor(
            equation_file="equation_file.csv",
            variable_names="x0 x1".split(" "),
            extra_sympy_mappings={},
            output_jax_format=False,
            model_selection="accuracy",
        )
        self.model.n_features = 2
        self.model.refresh()
        self.equations = self.model.equations
        self.rstate = np.random.RandomState(0)

    def test_best(self):
        self.assertEqual(self.model.sympy(), sympy.cos(sympy.Symbol("x0")) ** 2)

    def test_index_selection(self):
        self.assertEqual(self.model.sympy(-1), sympy.cos(sympy.Symbol("x0")) ** 2)
        self.assertEqual(self.model.sympy(2), sympy.cos(sympy.Symbol("x0")) ** 2)
        self.assertEqual(self.model.sympy(1), sympy.cos(sympy.Symbol("x0")))
        self.assertEqual(self.model.sympy(0), 1.0)

    def test_best_tex(self):
        self.assertEqual(self.model.latex(), "\\cos^{2}{\\left(x_{0} \\right)}")

    def test_best_lambda(self):
        X = self.rstate.randn(10, 2)
        y = np.cos(X[:, 0]) ** 2
        for f in [self.model.predict, self.equations.iloc[-1]["lambda_format"]]:
            np.testing.assert_almost_equal(f(X), y, decimal=4)


class TestFeatureSelection(unittest.TestCase):
    def setUp(self):
        self.rstate = np.random.RandomState(0)

    def test_feature_selection(self):
        X = self.rstate.randn(20000, 5)
        y = X[:, 2] ** 2 + X[:, 3] ** 2
        selected = run_feature_selection(X, y, select_k_features=2)
        self.assertEqual(sorted(selected), [2, 3])

    def test_feature_selection_handler(self):
        X = self.rstate.randn(20000, 5)
        y = X[:, 2] ** 2 + X[:, 3] ** 2
        var_names = [f"x{i}" for i in range(5)]
        selected_X, selection = _handle_feature_selection(
            X,
            select_k_features=2,
            variable_names=var_names,
            y=y,
        )
        self.assertTrue((2 in selection) and (3 in selection))
        selected_var_names = [var_names[i] for i in selection]
        self.assertEqual(set(selected_var_names), set("x2 x3".split(" ")))
        np.testing.assert_array_equal(
            np.sort(selected_X, axis=1), np.sort(X[:, [2, 3]], axis=1)
        )


class TestMiscellaneous(unittest.TestCase):
    """Test miscellaneous functions."""

    def test_deprecation(self):
        # Ensure that deprecation works as expected, with a warning,
        # and sets the correct value.
        with self.assertWarns(UserWarning):
            model = PySRRegressor(fractionReplaced=0.2)
        # This is a deprecated parameter, so we should get a warning.

        # The correct value should be set:
        self.assertEqual(model.params["fraction_replaced"], 0.2)