联结表

SQL

什么是联结，为什么使用联结，如何编写使用联结的SELECT 语句。

作者

Davon

发布于

2020年7月30日

修改于

2026年4月12日

12.1 联结

SQL最强大的功能之一就是能在数据查询的执行中联结（join）表。联结是利用 SQL的 SELECT 能执行的最重要的操作，很好地理解联结及其语法是学习 SQL的极为重要的部分。

在能够有效地使用联结前，必须了解关系表以及关系数据库设计的一些基础知识。下面的介绍并不能涵盖这一主题的所有内容，但作为入门已经够了。

12.1.1 关系表

理解关系表，最好是来看个例子。

有一个包含产品目录的数据库表，其中每类物品占一行。对于每一种物品，要存储的信息包括产品描述、价格，以及生产该产品的供应商。

现在有同一供应商生产的多种物品，那么在何处存储供应商名、地址、

联系方法等供应商信息呢？将这些数据与产品信息分开存储的理由是：

 同一供应商生产的每个产品，其供应商信息都是相同的，对每个产品重复此信息既浪费时间又浪费存储空间；

 如果供应商信息发生变化，例如供应商迁址或电话号码变动，只需修改一次即可；

 如果有重复数据（即每种产品都存储供应商信息），则很难保证每次输入该数据的方式都相同。不一致的数据在报表中就很难利用。

关键是，相同的数据出现多次决不是一件好事，这是关系数据库设计的基础。关系表的设计就是要把信息分解成多个表，一类数据一个表。各表通过某些共同的值互相关联（所以才叫关系数据库）。

在这个例子中可建立两个表：一个存储供应商信息，另一个存储产品信息。Vendors 表包含所有供应商信息，每个供应商占一行，具有唯一的标识。此标识称为主键（primary key），可以是供应商 ID 或任何其他唯一值。

Products 表只存储产品信息，除了存储供应商 ID（Vendors 表的主键）外，它不存储其他有关供应商的信息。Vendors 表的主键将 Vendors 表与 Products 表关联，利用供应商 ID能从 Vendors 表中找出相应供应商的详细信息。

这样做的好处是：

 供应商信息不重复，不会浪费时间和空间；

 如果供应商信息变动，可以只更新 Vendors 表中的单个记录，相关表中的数据不用改动；

 由于数据不重复，数据显然是一致的，使得处理数据和生成报表更简单。

总之，关系数据可以有效地存储，方便地处理。因此，关系数据库的可伸缩性远比非关系数据库要好。

可伸缩（scale）

能够适应不断增加的工作量而不失败。设计良好的数据库或应用程序称为可伸缩性好（scale well）。

12.1.2 为什么使用联结

如前所述，将数据分解为多个表能更有效地存储，更方便地处理，并且可伸缩性更好。但这些好处是有代价的。

如果数据存储在多个表中，怎样用一条 SELECT 语句就检索出数据呢？

答案是使用联结。简单说，联结是一种机制，用来在一条 SELECT 语句中关联表，因此称为联结。使用特殊的语法，可以联结多个表返回一组输出，联结在运行时关联表中正确的行。

说明：使用交互式 DBMS工具

重要的是，要理解联结不是物理实体。换句话说，它在实际的数据库表中并不存在。DBMS会根据需要建立联结，它在查询执行期间一直存在。

许多 DBMS提供图形界面，用来交互式地定义表关系。这些工具极其有助于维护引用完整性。在使用关系表时，仅在关系列中插入合法数据是非常重要的。回到这里的例子，如果 Products 表中存储了无效的供应商 ID，则相应的产品不可访问，因为它们没有关联到某个供应商。为避免这种情况发生，可指示数据库只允许在 Products 表的供应商 ID列中出现合法值（即出现在 Vendors 表中的供应商）。引用完整性表示 DBMS强制实施数据完整性规则。这些规则一般由提供了界面的 DBMS管理。

12.2 创建联结

创建联结非常简单，指定要联结的所有表以及关联它们的方式即可。请看下面的例子：

SELECT vend_name, prod_name, prod_price FROM Vendors, Products WHERE Vendors.vend_id = Products.vend_id;

我们来看这段代码。SELECT 语句与前面所有语句一样指定要检索的列。这里最大的差别是所指定的两列（prod_name 和 prod_price）在一个表中，而第一列（vend_name）在另一个表中。

现在来看 FROM 子句。与以前的 SELECT 语句不一样，这条语句的 FROM子句列出了两个表：Vendors 和 Products。它们就是这条 SELECT 语句联结的两个表的名字。这两个表用 WHERE 子句正确地联结，WHERE 子句指示 DBMS 将 Vendors 表中的 vend_id 与 Products 表中的 vend_id 匹

配起来。

可以看到，要匹配的两列指定为 Vendors.vend_id 和 Products.vend_id。这里需要这种完全限定列名，如果只给出 vend_id，DBMS就不知道指的是哪一个（每个表中有一个）。从前面的输出可以看到，一条SELECT语句返回了两个不同表中的数据。

警告：完全限定列名

就像前一课提到的，在引用的列可能出现歧义时，必须使用完全限定列名（用一个句点分隔表名和列名）。如果引用一个没有用表名限制的具有歧义的列名，大多数 DBMS会返回错误。

12.2.1 WHERE子句的重要性

使用 WHERE 子句建立联结关系似乎有点奇怪，但实际上是有个很充分的理由的。要记住，在一条 SELECT 语句中联结几个表时，相应的关系是在运行中构造的。在数据库表的定义中没有指示 DBMS如何对表进行联结的内容。你必须自己做这件事情。在联结两个表时，实际要做的是将第一个表中的每一行与第二个表中的每一行配对。WHERE 子句作为过滤条件，只包含那些匹配给定条件（这里是联结条件）的行。没有 WHERE子句，第一个表中的每一行将与第二个表中的每一行配对，而不管它们逻辑上是否能配在一起。

笛卡儿积（cartesian product）

由没有联结条件的表关系返回的结果为笛卡儿积。检索出的行的数目将是第一个表中的行数乘以第二个表中的行数。

理解这一点，请看下面的 SELECT 语句及其输出：

SELECT vend_name, prod_name, prod_price 

FROM Vendors, Products;

从上面的输出可以看到，相应的笛卡儿积不是我们想要的。这里返回的数据用每个供应商匹配了每个产品，包括了供应商不正确的产品（即使供应商根本就没有产品）。

注意：不要忘了 WHERE 子句

要保证所有联结都有 WHERE 子句，否则DBMS将返回比想要的数据多得多的数据。同理，要保证 WHERE 子句的正确性。不正确的过滤条件会导致 DBMS返回不正确的数据。

提示：叉联结

有时，返回笛卡儿积的联结，也称叉联结（cross join）。

12.2.2 内联结

目前为止使用的联结称为等值联结（equijoin），它基于两个表之间的相等测试。这种联结也称为内联结（inner join）。其实，可以对这种联结使用稍微不同的语法，明确指定联结的类型。下面的 SELECT 语句返回与前面例子完全相同的数据：

SELECT vend_name, prod_name, prod_price  
FROM Vendors  
INNER JOIN Products ON Vendors.vend_id = Products.vend_id;

此语句中的 SELECT 与前面的 SELECT 语句相同，但 FROM 子句不同。这里，两个表之间的关系是以 INNER JOIN 指定的部分FROM 子句。在使用这种语法时，联结条件用特定的 ON 子句而不是 WHERE 子句给出。传递给 ON 的实际条件与传递给 WHERE 的相同。

至于选用哪种语法，请参阅具体的 DBMS文档。

说明：“正确的”语法

ANSI SQL 规范首选 INNER JOIN 语法，之前使用的是简单的等值语法。其实，SQL语言纯正论者是用鄙视的眼光看待简单语法的。这就是说，DBMS的确支持简单格式和标准格式，我建议你要理解这两种格式，具体使用就看你用哪个更顺手了。

12.2.3 联结多个表

SQL 不限制一条 SELECT 语句中可以联结的表的数目。创建联结的基本规则也相同。首先列出所有表，然后定义表之间的关系。例如：

SELECT prod_name, vend_name, prod_price, quantity  
FROM Products, Products, Vendors  
WHERE Products.vend_id = Vendors.vend_id  
AND Products.prod_id = Products.prod_id  
AND order_num = 20007;

这个例子显示订单 20007 中的物品。订单物品存储在 OrderItems 表中。每个产品按其产品 ID存储，它引用 Products 表中的产品。这些产品通过供应商 ID联结到 Vendors 表中相应的供应商，供应商 ID存储在每个产品的记录中。这里的 FROM 子句列出三个表，WHERE 子句定义这两个联结条件，而第三个联结条件用来过滤出订单 20007 中的物品。

注意：性能考虑

DBMS在运行时关联指定的每个表，以处理联结。这种处理可能非常耗费资源，因此应该注意，不要联结不必要的表。联结的表越多，性能下降越厉害。

注意：联结中表的最大数目

虽然 SQL本身不限制每个联结约束中表的数目，但实际上许多 DBMS都有限制。请参阅具体的 DBMS文档以了解其限制。

现在回顾一下第11课中的例子，如下的SELECT 语句返回订购产品RGAN01的顾客列表：

SELECT cust_name, cust_contact  
FROM Customers  
WHERE cust_id IN (SELECT cust_id FROM Orders WHERE order_num IN (SELECT order_num FROM OrderItems WHERE prod_id = 'RGAN01'));

子查询并不总是执行复杂 SELECT 操作的最有效方法，下面是使用联结的相同查询：

SELECT cust_name, cust_contact  
FROM Customers, Orders, OrderItems  
WHERE Customers.cust_id = Orders.cust_id  
AND OrderItems.order_num = Orders.order_num  
AND prod_id = 'RGAN01';

如第11课所述，这个查询中的返回数据需要使用3个表。但在这里，我们没有在嵌套子查询中使用它们，而是使用了两个联结来连接表。这里有三个 WHERE 子句条件。前两个关联联结中的表，后一个过滤产品 RGAN01 的数据。

提示：多做实验

可以看到，执行任一给定的 SQL操作一般不止一种方法。很少有绝对正确或绝对错误的方法。性能可能会受操作类型、所使用的 DBMS、表中数据量、是否存在索引或键等条件的影响。因此，有必要试验不同的选择机制，找出最适合具体情况的方法。

说明：联结的列名

上述所有例子里，联结的几个列的名字都是一样的（例如 Customers和 Orders 表里的列都叫 cust_id）。列名相同并不是必需的，而且你经常会遇到命名规范不同的数据库。我这样建表只是为了简单起见。

12.4 挑战题

编写 SQL 语句，返回 Customers 表中的顾客名称（cust_name）和Orders 表中的相关订单号（order_num），并按顾客名称再按订单号对结果进行排序。实际上是尝试两次，一次使用简单的等联结语法，一次使用 INNER JOIN。
我们来让上一题变得更有用些。除了返回顾客名称和订单号，添加第三列 OrderTotal，其中包含每个订单的总价。有两种方法可以执行此操作：使用 OrderItems 表的子查询来创建 OrderTotal 列，或者将 OrderItems 表与现有表联结并使用聚合函数。提示：请注意需要使用完全限定列名的地方。
我们重新看一下第 11 课的挑战题 2。编写 SQL 语句，检索订购产品BR01 的日期，这一次使用联结和简单的等联结语法。输出应该与第11 课的输出相同。
很有趣，我们再试一次。重新创建为第 11 课挑战题 3 编写的 SQL 语句，这次使用 ANSI 的 INNER JOIN 语法。在之前编写的代码中使用了两个嵌套的子查询。要重新创建它，需要两个 INNER JOIN 语句，每个语句的格式类似于本课讲到的 INNER JOIN 示例，而且不要忘记WHERE 子句可以通过 prod_id 进行过滤。
再让事情变得更加有趣些，我们将混合使用联结、聚合函数和分组。准备好了吗？回到第10课，当时的挑战是要求查找值等于或大于1000的所有订单号。这些结果很有用，但更有用的是订单数量至少达到这个数的顾客名称。因此，编写 SQL 语句，使用联结从 Customers表返回顾客名称（cust_name），并从 OrderItems 表返回所有订单的总价。

提示：要联结这些表，还需要包括 Orders 表（因为 Customers 表与 OrderItems 表不直接相关，Customers 表与 Orders 表相关，而Orders 表与 OrderItems 表相关）。不要忘记 GROUP BY 和 HAVING，并按顾客名称对结果进行排序。你可以使用简单的等联结或 ANSI的INNER JOIN 语法。或者，如果你很勇敢，请尝试使用两种方式编写。