头条文章

Stream流是什么？如何用它高效处理数据？何时用更合适？

时间：2025-03-05 分类：资料浏览：29

Stream 教程入门

Stream 是什么？

Stream 是一种强大的数据处理抽象概念，它源自函数式编程范式，为开发者提供了一种声明式处理集合数据的方式。通过 Stream，可以简化集合数据的过滤、转换、聚合等复杂操作，显著提升代码的可读性和可维护性。从本质上讲，Stream 可以被视为一个元素序列的抽象表示，开发者可以对这个序列执行一系列操作流水线，最终获得期望的结果。

与传统的集合数据结构不同，Stream 本身并不存储数据。相反，它提供了一种访问数据源的机制，例如集合、数组或 I/O 通道。Stream 通过提供一系列的中间操作（Intermediate Operations）和终端操作（Terminal Operations），实现了高效且灵活的数据处理流水线。中间操作对 Stream 进行转换，返回一个新的 Stream，允许链式调用多个操作。而终端操作则触发 Stream 的处理流程，产生最终的结果，并关闭 Stream。这种设计使得 Stream 可以延迟执行，只有在需要结果时才真正进行计算，从而优化性能。

Stream 的优势

相较于传统的循环迭代方式，Java Stream API 在数据处理方面提供了显著的优势。它不仅简化了代码，还提升了执行效率，特别是在处理大规模数据集时表现出色。Stream API 的优势体现在以下几个关键方面：

简洁性： 使用 Stream 可以用更少的代码完成复杂的数据处理任务，代码更易于理解和维护。Stream API 提供的链式调用风格，使得代码逻辑更加紧凑，减少了冗余代码的编写，提高了开发效率。例如，使用 Stream 可以一行代码完成对集合的过滤、映射和排序等操作，而传统方式可能需要多行代码才能实现。
可读性： Stream 的链式操作风格使代码更具可读性，能够清晰地表达数据处理的意图。每个 Stream 操作都代表一个明确的数据处理步骤，通过链式调用将这些步骤连接起来，形成一个清晰的数据处理管道。开发者可以轻松地理解代码的执行流程，从而降低了维护成本。
高效性： Stream 内部可以进行优化，例如延迟执行和并行处理，从而提高数据处理的效率。特别是处理大数据集时，Stream的优势更加明显。Stream 的延迟执行特性意味着只有在需要结果时才会执行数据处理操作，避免了不必要的计算。Stream API 还支持并行处理，可以将数据分割成多个部分并行处理，充分利用多核 CPU 的优势，显著提升数据处理速度。
声明式： Stream 采用声明式编程风格，开发者只需要描述“做什么”，而无需关心“怎么做”，从而降低了编程的复杂性。与命令式编程风格不同，声明式编程更加关注数据的转换和处理逻辑，而无需编写繁琐的循环和条件判断语句。这使得开发者可以将更多精力放在业务逻辑的实现上，提高开发效率。
可复用性： Stream 的中间操作可以组合成复杂的数据处理流程，方便代码的复用。Stream API 提供了丰富的中间操作，例如 filter、map、sorted 等，这些操作可以组合成复杂的数据处理管道。开发者可以将常用的数据处理流程封装成独立的 Stream 操作，并在不同的场景中复用，从而提高代码的复用性和可维护性。

Stream 的基本概念

在计算机科学和区块链技术领域，Stream 代表一种处理数据的方式，它允许以连续的数据流形式处理数据，而不是将其视为静态数据集。Stream 的操作是构建高效数据处理管道的核心，尤其是在处理大量数据或实时数据时。Stream API 的设计目标是提供一种声明式的方法来处理数据集合，它允许开发者专注于描述“做什么”，而不是“怎么做”，从而简化了代码并提高了可读性。

Stream 的操作可以分为三个关键类别，每个类别在数据处理流程中扮演着不同的角色：

创建 Stream： 这是 Stream 操作的起点，涉及从各种数据源创建 Stream 实例。常见的数据源包括集合（例如 List、Set）、数组、IO 通道（用于文件或网络数据）、生成器函数或甚至其他 Stream。创建 Stream 的目的是将数据源转换为可供 Stream API 处理的形式。不同的数据源可能需要不同的创建方法，例如，使用 `stream()` 方法从集合创建 Stream，或使用 `Arrays.stream()` 方法从数组创建 Stream。
中间操作： 中间操作是 Stream 处理管道的核心，用于对 Stream 中的数据进行转换、过滤和操作。每个中间操作都会返回一个新的 Stream 实例，允许将多个操作链接在一起形成一个处理流水线。中间操作是惰性的，这意味着它们只有在遇到终端操作时才会被执行。这种惰性求值机制可以优化性能，避免不必要的计算。
终端操作： 终端操作是 Stream 处理管道的终点，用于触发 Stream 的计算并产生最终结果。终端操作会遍历 Stream 中的数据，执行所有已定义的中间操作，并将结果收集起来。终端操作是及时的，这意味着它们会立即执行计算。一个 Stream 只能执行一个终端操作，执行后 Stream 将被关闭，不能再进行任何操作。

一些常见的中间操作包括：

filter()： `filter()` 操作用于过滤 Stream 中的元素，只保留满足指定条件的元素。它接收一个 Predicate 函数作为参数，该函数对每个元素进行测试，返回 true 则保留该元素，返回 false 则丢弃该元素。`filter()` 操作可以用于从 Stream 中筛选出符合特定条件的数据。
map()： `map()` 操作用于将 Stream 中的每个元素转换为另一个元素。它接收一个 Function 函数作为参数，该函数将每个元素映射到另一个值。`map()` 操作可以用于对 Stream 中的数据进行类型转换、属性提取或计算等操作。
flatMap()： `flatMap()` 操作是一种特殊的映射操作，它将 Stream 中的每个元素转换为一个 Stream，然后将所有 Stream 连接成一个 Stream。它接收一个 Function 函数作为参数，该函数将每个元素映射到一个 Stream。`flatMap()` 操作可以用于处理嵌套的数据结构，例如，将一个包含列表的列表转换为一个包含所有元素的 Stream。
distinct()： `distinct()` 操作用于去除 Stream 中重复的元素。它基于元素的 `equals()` 方法来判断元素是否重复。`distinct()` 操作可以用于确保 Stream 中的数据是唯一的。
sorted()： `sorted()` 操作用于对 Stream 中的元素进行排序。它可以按照自然顺序或自定义的 Comparator 进行排序。`sorted()` 操作会创建一个新的 Stream，其中元素按照指定的顺序排列。
peek()： `peek()` 操作用于对 Stream 中的每个元素执行一个操作，但不改变 Stream 的内容。它接收一个 Consumer 函数作为参数，该函数对每个元素执行一些操作，例如，打印日志或更新状态。`peek()` 操作主要用于调试或监控 Stream 的处理过程。

一些常见的终端操作包括：

forEach()： `forEach()` 操作用于对 Stream 中的每个元素执行一个操作。它接收一个 Consumer 函数作为参数，该函数对每个元素执行一些操作。`forEach()` 操作通常用于迭代 Stream 中的元素并执行一些副作用操作，例如，打印输出或更新外部状态。
toArray()： `toArray()` 操作用于将 Stream 中的元素转换为一个数组。它可以转换为 Object 数组或指定类型的数组。`toArray()` 操作可以将 Stream 中的数据收集到一个数组中，方便后续的访问和处理。
collect()： `collect()` 操作是一种通用的终端操作，用于将 Stream 中的元素收集到一个集合中。它接收一个 Collector 对象作为参数，该对象定义了如何收集元素。Collector 可以用于将元素收集到 List、Set、Map 等不同的集合中，也可以用于执行更复杂的数据聚合操作。
reduce()： `reduce()` 操作用于将 Stream 中的元素聚合为一个值。它接收一个 BinaryOperator 函数作为参数，该函数将两个元素合并为一个值。`reduce()` 操作可以用于计算 Stream 中元素的总和、最大值、最小值等。
count()： `count()` 操作用于计算 Stream 中元素的个数。它返回一个 long 类型的值，表示 Stream 中元素的数量。`count()` 操作是一种简单而常用的终端操作。
min()： `min()` 操作用于查找 Stream 中最小的元素。它接收一个 Comparator 对象作为参数，用于比较元素的大小。`min()` 操作返回一个 Optional 对象，表示 Stream 中可能存在最小的元素。
max()： `max()` 操作用于查找 Stream 中最大的元素。它接收一个 Comparator 对象作为参数，用于比较元素的大小。`max()` 操作返回一个 Optional 对象，表示 Stream 中可能存在最大的元素。
anyMatch()： `anyMatch()` 操作用于判断 Stream 中是否存在满足条件的元素。它接收一个 Predicate 函数作为参数，该函数对每个元素进行测试，如果存在任何一个元素满足条件，则返回 true，否则返回 false。`anyMatch()` 操作在找到第一个满足条件的元素后会立即停止计算。
allMatch()： `allMatch()` 操作用于判断 Stream 中是否所有元素都满足条件。它接收一个 Predicate 函数作为参数，该函数对每个元素进行测试，如果所有元素都满足条件，则返回 true，否则返回 false。`allMatch()` 操作在找到第一个不满足条件的元素后会立即停止计算。
noneMatch()： `noneMatch()` 操作用于判断 Stream 中是否没有元素满足条件。它接收一个 Predicate 函数作为参数，该函数对每个元素进行测试，如果没有元素满足条件，则返回 true，否则返回 false。`noneMatch()` 操作在找到第一个满足条件的元素后会立即停止计算。
findFirst()： `findFirst()` 操作用于查找 Stream 中第一个元素。它返回一个 Optional 对象，表示 Stream 中可能存在第一个元素。`findFirst()` 操作在并行 Stream 中可能会受到数据顺序的影响。
findAny()： `findAny()` 操作用于查找 Stream 中任意一个元素。它返回一个 Optional 对象，表示 Stream 中可能存在任意一个元素。`findAny()` 操作在并行 Stream 中可以获得更好的性能，因为它不需要保证返回第一个元素。

Stream 的使用示例

以 Java 为例，演示 Stream 的使用。 Stream API 提供了一种声明式的方式来处理数据集合，允许开发者以更简洁、更易读的方式进行数据转换和聚合。

示例代码：

import java.util.Arrays;
import java.util.List;
import java.util.stream.Collectors;

public class StreamExample {

    public static void main(String[] args) {
        List numbers = Arrays.asList(1, 2, 3, 4, 5, 6, 7, 8, 9, 10);

        // 过滤偶数
        List evenNumbers = numbers.stream()
                .filter(number -> number % 2 == 0)
                .collect(Collectors.toList());
        System.out.println("偶数: " + evenNumbers); // 输出: 偶数: [2, 4, 6, 8, 10]

        // 将偶数乘以 2
        List doubledEvenNumbers = numbers.stream()
                .filter(number -> number % 2 == 0)
                .map(number -> number * 2)
                .collect(Collectors.toList());
        System.out.println("偶数乘以2: " + doubledEvenNumbers); // 输出: 偶数乘以2: [4, 8, 12, 16, 20]

        // 计算所有偶数的和
        int sumOfEvenNumbers = numbers.stream()
                .filter(number -> number % 2 == 0)
                .reduce(0, Integer::sum);
        System.out.println("偶数之和: " + sumOfEvenNumbers); // 输出: 偶数之和: 30

        // 找到第一个大于 5 的偶数
        numbers.stream()
                .filter(number -> number % 2 == 0 && number > 5)
                .findFirst()
                .ifPresent(number -> System.out.println("第一个大于 5 的偶数: " + number)); // 输出: 第一个大于 5 的偶数: 6
    }
}

在这个示例中，我们演示了 Stream 的几个常用操作：

filter() : 过滤操作，接受一个 Predicate 函数式接口作为参数，用于筛选出满足特定条件的元素。本例中使用 number -> number % 2 == 0 来筛选偶数。
map() : 映射操作，接受一个 Function 函数式接口作为参数，用于将 Stream 中的每个元素转换为另一种形式。本例中使用 number -> number * 2 将偶数乘以 2。
reduce() : 归约操作，接受一个初始值和一个 BinaryOperator 函数式接口作为参数，用于将 Stream 中的所有元素聚合为一个值。本例中使用 Integer::sum 来计算偶数之和。初始值为 0。
findFirst() : 查找操作，用于查找 Stream 中第一个满足条件的元素。本例中结合 filter 查找第一个大于 5 的偶数。返回一个 Optional 对象，表示可能存在也可能不存在。
collect() : 收集操作，将 Stream 处理后的元素收集到一个集合中。这里使用了 Collectors.toList() 将结果收集到一个 List 中。

Stream 的核心优势在于其链式调用和延迟执行特性。中间操作（如 filter 和 map ）不会立即执行，而是形成一个操作流水线。只有当遇到终端操作（如 collect , reduce , findFirst ）时，才会触发整个流水线的执行。这种延迟执行的特性可以提高程序的性能，避免不必要的计算。

Stream API 还支持并行处理，可以通过调用 parallelStream() 方法将顺序流转换为并行流，从而充分利用多核 CPU 的性能。使用并行流时需要注意线程安全问题。

Stream 的并行处理

Stream 提供了并行处理数据的能力，能够显著提升大数据集处理的效率。通过将数据分割成多个块，并在多个线程上同时处理，并行 Stream 可以充分利用多核处理器的优势。要启用并行处理，只需在创建 Stream 时调用 parallelStream() 方法，或者对于已有的顺序 Stream 调用 parallel() 方法即可。

例如，以下代码展示了如何使用并行 Stream 计算一个整数列表中所有偶数的和：


List numbers = Arrays.asList(1, 2, 3, 4, 5, 6, 7, 8, 9, 10);

// 并行计算所有偶数的和
int sumOfEvenNumbers = numbers.parallelStream()
          .filter(number -> number % 2 == 0)
          .reduce(0, Integer::sum);
System.out.println("并行计算偶数之和: " + sumOfEvenNumbers);  // 输出: 并行计算偶数之和: 30

在这个例子中， parallelStream() 方法将整数列表转换为一个并行 Stream。 filter() 操作过滤出所有的偶数， reduce() 操作将所有偶数加总。由于使用了并行 Stream，这些操作将在多个线程上同时执行，从而加快计算速度。 Integer::sum 是一个方法引用，等价于 (a, b) -> a + b ，用于将两个整数相加。

并行处理并非银弹，存在一些需要考虑的因素。并行处理可能会引入线程安全问题。当多个线程同时访问和修改共享数据时，可能会导致数据竞争和不一致性。因此，在使用并行 Stream 时，务必确保操作是线程安全的，例如使用原子类或锁来保护共享数据。并非所有操作都适合并行处理。例如，有状态的操作（例如 sorted() 、 distinct() ）依赖于元素之间的顺序，在并行处理时可能会产生非预期的结果。数据量较小时，并行处理的开销（例如线程创建和上下文切换）可能会超过其带来的性能提升。因此，在选择使用并行 Stream 时，需要仔细评估其适用性和潜在的风险。对于有状态的操作，可以考虑先进行并行处理，再使用顺序 Stream 进行有状态的操作，以获得最佳性能。

Stream 的注意事项

Stream 只能被消费一次。 一旦 Stream 执行了终端操作（如 collect() 、 forEach() 、 reduce() 等），它就完成了其生命周期，不能再被用于任何其他操作。尝试再次使用已消费的 Stream 将会导致 IllegalStateException 。请务必在每次需要处理数据时创建一个新的 Stream。
Stream 的操作是延迟执行的。 中间操作（如 filter() 、 map() 、 sorted() 等）不会立即执行，而是形成一个操作流水线。只有当终端操作被调用时，整个 Stream 的计算才会真正启动，并对流水线上的所有操作进行处理。这种延迟执行的特性允许 Stream 进行优化，例如合并操作和避免不必要的计算。
Stream 不会改变原始数据源。 Stream 的所有操作，包括中间操作和终端操作，都不会修改原始的数据集合。Stream 操作会产生一个新的 Stream 或者一个最终的结果，而原始数据源保持不变。这保证了数据的一致性和可预测性。
使用 Stream 时需要注意线程安全问题，特别是并行 Stream。 当使用并行 Stream ( parallelStream() ) 时，多个线程可能会同时访问和处理 Stream 中的数据。因此，必须确保 Stream 操作是线程安全的，避免出现竞态条件和数据不一致的情况。特别是当 Stream 操作涉及到共享的可变状态时，需要使用适当的同步机制，如锁或原子变量，来保证线程安全。在使用并行Stream的时候需要特别注意这一点。

Stream 是一种强大的数据处理抽象概念，可以简化集合数据的过滤、转换和聚合操作，提高代码的可读性和可维护性。通过理解 Stream 的基本概念和操作，开发者可以更高效地处理数据，编写更简洁、更可读的代码。 Stream 提供了声明式编程风格，让开发者专注于数据的处理逻辑，而无需关心底层的实现细节。在处理大数据集时，Stream 的并行处理能力可以显著提高数据处理的效率。虽然使用 Stream 需要注意一些线程安全问题，但它仍然是一种非常有价值的工具，值得开发者掌握和使用。