Refactors AbsMaxQuantizer to accept axis in __call__ (#21931)

JyotinderSingh · web-flow · commit ca23fceb51f7 · 2025-12-17T12:59:56.000-08:00
diff --git a/keras/src/layers/core/dense.py b/keras/src/layers/core/dense.py
@@ -413,7 +413,7 @@ def quantized_build(self, kernel_shape, mode, config=None):
     def _int8_build(self, kernel_shape, config=None):
         self.inputs_quantizer = (
             QuantizationConfig.activation_quantizer_or_default(
-                config, quantizers.AbsMaxQuantizer(axis=-1)
+                config, quantizers.AbsMaxQuantizer()
             )
         )
 
@@ -526,7 +526,7 @@ def _int4_build(self, kernel_shape, config=None):
         # Per-channel int8 quantizer for the last axis (features).
         self.inputs_quantizer = (
             QuantizationConfig.activation_quantizer_or_default(
-                config, quantizers.AbsMaxQuantizer(axis=-1)
+                config, quantizers.AbsMaxQuantizer()
             )
         )
         input_dim, output_dim = kernel_shape
@@ -618,7 +618,7 @@ def grad_fn(*args, upstream=None):
 
             output_scale = kernel_scale
             if self.inputs_quantizer:
-                inputs, inputs_scale = self.inputs_quantizer(inputs)
+                inputs, inputs_scale = self.inputs_quantizer(inputs, axis=-1)
                 output_scale = ops.multiply(output_scale, inputs_scale)
 
             x = ops.matmul(inputs, kernel)
@@ -674,7 +674,7 @@ def grad_fn(*args, upstream=None):
             output_scale = kernel_scale
 
             if self.inputs_quantizer:
-                inputs, inputs_scale = self.inputs_quantizer(inputs)
+                inputs, inputs_scale = self.inputs_quantizer(inputs, axis=-1)
                 output_scale = ops.multiply(output_scale, inputs_scale)
 
             x = ops.matmul(inputs, unpacked_kernel)
diff --git a/keras/src/layers/core/dense_test.py b/keras/src/layers/core/dense_test.py
@@ -24,7 +24,7 @@
 
 class DenseTest(testing.TestCase):
     @parameterized.named_parameters(
-        ("int8", "int8", {"axis": 0}, {"axis": -1}),
+        ("int8", "int8", {"axis": 0}, {}),
         (
             "int4",
             "int4",
@@ -62,7 +62,6 @@ def test_dense_quantize_config(
         if activation_quantizer_args is not None:
             # Verify inputs_quantizer is set correctly
             self.assertIsInstance(layer.inputs_quantizer, AbsMaxQuantizer)
-            self.assertEqual(layer.inputs_quantizer.axis, (-1,))
         else:
             # Verify inputs_quantizer is None
             self.assertIsNone(layer.inputs_quantizer)
diff --git a/keras/src/layers/core/einsum_dense.py b/keras/src/layers/core/einsum_dense.py
@@ -479,13 +479,12 @@ def _int8_build(self, kernel_shape, config=None):
         self.inputs_quantizer = (
             QuantizationConfig.activation_quantizer_or_default(
                 config,
-                quantizers.AbsMaxQuantizer(axis=self._input_reduced_axes),
+                quantizers.AbsMaxQuantizer(),
             )
         )
         # If the config provided a default AbsMaxQuantizer, we need to
         # override the axis to match the equation's reduction axes.
-        if isinstance(self.inputs_quantizer, quantizers.AbsMaxQuantizer):
-            self.inputs_quantizer.axis = tuple(self._input_reduced_axes)
+        self.quantization_axis = tuple(self._input_reduced_axes)
         self._kernel = self.add_weight(
             name="kernel",
             shape=kernel_shape,
@@ -632,13 +631,12 @@ def _int4_build(self, kernel_shape, config=None):
         self.inputs_quantizer = (
             QuantizationConfig.activation_quantizer_or_default(
                 config,
-                quantizers.AbsMaxQuantizer(axis=self._input_reduced_axes),
+                quantizers.AbsMaxQuantizer(),
             )
         )
         # If the config provided a default AbsMaxQuantizer, we need to
         # override the axis to match the equation's reduction axes.
-        if isinstance(self.inputs_quantizer, quantizers.AbsMaxQuantizer):
-            self.inputs_quantizer.axis = tuple(self._input_reduced_axes)
+        self.quantization_axis = tuple(self._input_reduced_axes)
 
         # Choose the axis to perform int4 packing - use the first reduced axis
         # for the kernel (analogous to the input dimension of a Dense layer).
@@ -761,7 +759,9 @@ def grad_fn(*args, upstream=None):
                 return (inputs_grad, None, None)
 
             if self.inputs_quantizer:
-                inputs, inputs_scale = self.inputs_quantizer(inputs)
+                inputs, inputs_scale = self.inputs_quantizer(
+                    inputs, axis=self.quantization_axis
+                )
                 # Align `inputs_scale` axes with the output
                 # for correct broadcasting
                 inputs_scale = self._adjust_scale_for_quant(
@@ -858,7 +858,9 @@ def grad_fn(*args, upstream=None):
 
             # Quantize inputs per `self.inputs_quantizer`.
             if self.inputs_quantizer:
-                inputs_q, inputs_scale = self.inputs_quantizer(inputs)
+                inputs_q, inputs_scale = self.inputs_quantizer(
+                    inputs, axis=self.quantization_axis
+                )
                 # Align `inputs_scale` axes with the output
                 # for correct broadcasting
                 inputs_scale = self._adjust_scale_for_quant(
diff --git a/keras/src/layers/core/einsum_dense_test.py b/keras/src/layers/core/einsum_dense_test.py
@@ -71,7 +71,6 @@ def test_einsum_dense_quantize(
         if activation_quantizer_args is not None:
             # Verify inputs_quantizer is set correctly
             self.assertIsInstance(layer.inputs_quantizer, AbsMaxQuantizer)
-            self.assertEqual(layer.inputs_quantizer.axis, (1,))
         else:
             # Verify inputs_quantizer is None
             self.assertIsNone(layer.inputs_quantizer)
diff --git a/keras/src/layers/core/reversible_embedding_test.py b/keras/src/layers/core/reversible_embedding_test.py
@@ -258,5 +258,4 @@ def test_reversible_embedding_int8_custom_quantizer(self):
         )
         quantizer = new_layer.quantization_config.weight_quantizer
         self.assertIsInstance(quantizer, AbsMaxQuantizer)
-        self.assertEqual(quantizer.axis, (-1,))
         self.assertAllEqual(quantizer.value_range, weight_range)
diff --git a/keras/src/quantizers/quantization_config.py b/keras/src/quantizers/quantization_config.py
@@ -76,7 +76,7 @@ def __init__(self, weight_quantizer=None, activation_quantizer="default"):
         from keras.src.quantizers.quantizers import AbsMaxQuantizer
 
         if activation_quantizer == "default":
-            activation_quantizer = AbsMaxQuantizer(axis=-1)
+            activation_quantizer = AbsMaxQuantizer()
         super().__init__(weight_quantizer, activation_quantizer)
         if self.weight_quantizer is not None:
             if self.weight_quantizer.output_dtype != "int8":
@@ -105,7 +105,7 @@ def __init__(self, weight_quantizer=None, activation_quantizer="default"):
         from keras.src.quantizers.quantizers import AbsMaxQuantizer
 
         if activation_quantizer == "default":
-            activation_quantizer = AbsMaxQuantizer(axis=-1)
+            activation_quantizer = AbsMaxQuantizer()
         super().__init__(weight_quantizer, activation_quantizer)
         if self.weight_quantizer is not None:
             if self.weight_quantizer.value_range != (-8, 7):
diff --git a/keras/src/quantizers/quantizers.py b/keras/src/quantizers/quantizers.py
@@ -73,6 +73,23 @@ def abs_max_quantize(
     epsilon=backend.epsilon(),
     to_numpy=False,
 ):
+    """
+    Quantizes the input tensor using the absolute maximum quantization scheme.
+
+    Args:
+        inputs: Input tensor to quantize.
+        axis: Axis along which to compute the quantization range.
+        value_range: Tuple of the minimum and maximum values of the quantization
+            range.
+        dtype: Data type of the quantized output.
+        epsilon: Small value to avoid division by zero.
+        to_numpy: Whether to perform the quantization in numpy. This performs
+            the computation on the host CPU and can be useful for saving memory
+            on the device. If False, the computation is performed on the device.
+
+    Returns:
+        A tuple of the quantized tensor and the scale.
+    """
     if to_numpy:
         # Save memory on the device using numpy
         original_dtype = backend.standardize_dtype(inputs.dtype)
@@ -105,15 +122,18 @@ def abs_max_quantize(
 class AbsMaxQuantizer(Quantizer):
     def __init__(
         self,
-        axis,
+        axis=None,  # Deprecated, provide axis in __call__ instead.
         value_range=(-127, 127),
         epsilon=backend.epsilon(),
         output_dtype="int8",
     ):
         Quantizer.__init__(self, output_dtype=output_dtype)
-        if isinstance(axis, int):
-            axis = (axis,)
-        self.axis = tuple(axis)
+        if axis is not None:
+            if isinstance(axis, int):
+                axis = (axis,)
+            self.axis = tuple(axis)
+        else:
+            self.axis = None
         self.value_range = value_range
         self.epsilon = epsilon
         if output_dtype == "int8":
@@ -124,10 +144,31 @@ def __init__(
                     f"value_range={value_range}"
                 )
 
-    def __call__(self, x, to_numpy=False):
+    def __call__(self, x, axis=None, to_numpy=False):
+        """
+        Quantizes the input tensor.
+
+        Args:
+            x: Input tensor to quantize.
+            axis: Axis along which to compute the quantization range. If None,
+                uses the axis specified in the constructor. If None and no axis
+                was specified in the constructor, defaults to -1.
+            to_numpy: Whether to perform the quantization in numpy. This
+                performs the computation on the host CPU and can be useful for
+                saving memory on the device. If False, the computation is
+                performed on the device.
+
+        Returns:
+            A tuple of the quantized tensor and the scale.
+        """
+        if axis is None:
+            axis = self.axis
+        if axis is None:
+            # Default to -1 if no axis is specified
+            axis = -1
         quantized_x, scale = abs_max_quantize(
             x,
-            self.axis,
+            axis,
             self.value_range,
             self.output_dtype,
             self.epsilon,
@@ -136,12 +177,14 @@ def __call__(self, x, to_numpy=False):
         return quantized_x, scale
 
     def get_config(self):
-        return {
-            "axis": self.axis,
+        config = {
             "value_range": self.value_range,
             "epsilon": self.epsilon,
             "output_dtype": self.output_dtype,
         }
+        if self.axis is not None:
+            config["axis"] = self.axis
+        return config
 
 
 def adjust_and_nudge(min_range, max_range, num_bits, narrow_range):
diff --git a/keras/src/quantizers/quantizers_test.py b/keras/src/quantizers/quantizers_test.py
@@ -17,7 +17,7 @@
 
 class QuantizersTest(testing.TestCase):
     def test_get_method(self):
-        quantizer = quantizers.get("abs_max_quantizer", axis=-1)
+        quantizer = quantizers.get("abs_max_quantizer")
         self.assertTrue(quantizer, quantizers.AbsMaxQuantizer)
 
         quantizer = quantizers.get(None)
@@ -28,10 +28,10 @@ def test_get_method(self):
 
     def test_abs_max_quantizer(self):
         values = random.uniform([3, 4, 5], minval=-1, maxval=1, dtype="float32")
-        quantizer = quantizers.AbsMaxQuantizer(axis=-1)
+        quantizer = quantizers.AbsMaxQuantizer()
 
         # Test quantizing
-        quantized_values, scale = quantizer(values)
+        quantized_values, scale = quantizer(values, axis=-1)
         self.assertDType(quantized_values, "int8")
         self.assertDType(scale, "float32")
         self.assertEqual(tuple(quantized_values.shape), (3, 4, 5))
@@ -53,11 +53,11 @@ def test_abs_max_quantizer(self):
         values = random.uniform(
             [3, 4, 5], minval=-1, maxval=1, dtype="bfloat16"
         )
-        quantized_values, scale = quantizer(values)
+        quantized_values, scale = quantizer(values, axis=-1)
         self.assertDType(quantized_values, "int8")
         self.assertDType(scale, "bfloat16")
         values = random.uniform([3, 4, 5], minval=-1, maxval=1, dtype="float16")
-        quantized_values, scale = quantizer(values)
+        quantized_values, scale = quantizer(values, axis=-1)
         self.assertDType(quantized_values, "int8")
         self.assertDType(scale, "float16")
 

Original file line number	Diff line number	Diff line change
`@@ -258,5 +258,4 @@ def test_reversible_embedding_int8_custom_quantizer(self):`
`258`	`258`	`)`
`259`	`259`	`quantizer = new_layer.quantization_config.weight_quantizer`
`260`	`260`	`self.assertIsInstance(quantizer, AbsMaxQuantizer)`
`261`		`- self.assertEqual(quantizer.axis, (-1,))`
`262`	`261`	`self.assertAllEqual(quantizer.value_range, weight_range)`