如何生成全局唯一的分布式ID ？

分库分表面试考题 1 168

参考回答

生成全局唯一的分布式 ID 是分布式系统中常见的需求，尤其是在多节点、多机器环境下，需要保证每个生成的 ID 都是唯一且按一定规则递增。常见的生成全局唯一分布式 ID 的方法有以下几种：

UUID（通用唯一标识符）
Twitter Snowflake算法
基于数据库的自增ID
Zookeeper分布式ID生成器
Redis 自增 ID

详细讲解与拓展

1. UUID（通用唯一标识符）

UUID 是一种 128 位的唯一标识符，通常用于标识对象。在分布式系统中，UUID 是一种常用的生成全局唯一 ID 的方式，它保证了在不同的机器、不同的时间生成的 ID 不会重复。

优点：
- 简单、易于实现。
- 不依赖于中心化的服务，可以在每个节点独立生成 ID。
- 不需要分布式协调，避免了性能瓶颈。
缺点：
- 不具备递增性，UUID 是随机生成的，不适合需要按照顺序生成的 ID。
- 长度较长，性能上可能不如其他方法（如数字型ID）。
使用场景：
- 适用于对顺序没有特别要求的场景，尤其是需要快速生成唯一 ID 的场合。

生成示例：

import uuid
unique_id = uuid.uuid4()
print(unique_id)

2. Twitter Snowflake算法

Snowflake 算法是 Twitter 提出的分布式 ID 生成算法，它生成的 ID 是 64 位的整数，由以下几个部分组成：
– 符号位（1位）：表示ID的正负数，固定为0。
– 时间戳（41位）：当前时间与某个自定义的起始时间之间的毫秒数。
– 机器 ID（10位）：用于标识不同机器或节点，通常与服务器的 IP 或机器标识相关。
– 序列号（12位）：同一毫秒内生成的多个 ID 之间的序列号，确保在同一毫秒内的多个 ID 唯一。

优点：
- 能生成递增的 ID，符合大多数需要按时间顺序生成 ID 的需求。
- 高效，能够在分布式环境中生成高吞吐量的唯一 ID。
- 时间戳部分确保生成的 ID 是有序的。
缺点：
- 对时钟漂移敏感，如果系统的时钟发生回退，可能会导致 ID 冲突。
- 需要为每个节点分配唯一的机器 ID。
使用场景：
- 广泛应用于分布式系统中，尤其是需要高并发、高性能、递增的 ID。

生成示例：
可以使用开源的 Snowflake 实现库（如 Snowflake-Id）来生成分布式 ID。

3. 基于数据库的自增ID

使用数据库中的自增字段生成唯一 ID。通常通过数据库表的自增字段来生成 ID，确保每次插入时都会生成一个唯一的 ID。

优点：
- 简单易用，系统中已有的数据库表可以直接生成 ID。
- 数据库通常会自动保证 ID 的唯一性。
缺点：
- 性能瓶颈：数据库表中的自增 ID 通常是集中生成的，当并发量高时，可能会造成性能问题。
- 不适合分布式环境中的多节点并发生成 ID，容易引发数据库锁竞争。
使用场景：
- 适用于小规模、低并发的场景，或者对于一些本地服务生成 ID 的场景。

生成示例：

CREATE TABLE user (
    id BIGINT AUTO_INCREMENT PRIMARY KEY,
    name VARCHAR(255)
);

4. Zookeeper分布式ID生成器

Zookeeper 是一个分布式协调工具，可以通过 Zookeeper 实现全局唯一的 ID 生成器。通常是通过 Zookeeper 的 临时顺序节点来生成唯一 ID，每次客户端在 Zookeeper 中创建一个临时顺序节点，Zookeeper 会自动为节点分配唯一的序号。

优点：
- 能保证全局唯一性。
- 可以避免中心化生成的单点瓶颈。
缺点：
- 性能较低，相较于其他方法，Zookeeper 创建节点的速度较慢，生成 ID 的吞吐量较低。
- 需要依赖 Zookeeper 集群，系统复杂度较高。
使用场景：
- 适用于需要全局唯一的 ID 生成，且对性能要求不是非常高的场景。

生成示例：

# 使用 zookeeper 来生成 ID
from kazoo.client import KazooClient

zk = KazooClient(hosts='127.0.0.1:2181')
zk.start()
# 创建临时顺序节点
id = zk.create("/id-generator/", b"", sequence=True)
print(id)
zk.stop()

5. Redis 自增 ID

Redis 提供了 INCR 和 INCRBY 命令，能够在分布式环境中生成唯一自增 ID。通过 Redis 可以在多台机器之间共享唯一的计数器来生成全局唯一的 ID。

优点：
- 高性能，Redis 提供了非常快速的自增操作。
- 可以通过分布式集群实现高可用和高并发的 ID 生成。
- 实现简单，通过 Redis 的 INCR 操作即可生成 ID。
缺点：
- 依赖 Redis，若 Redis 不可用，可能会导致 ID 生成中断。
- 若 Redis 集群部署不当，可能会产生性能瓶颈。
使用场景：
- 适合需要生成高并发、高吞吐量的唯一 ID 的场景。

生成示例：

import redis
r = redis.StrictRedis(host='localhost', port=6379, db=0)
unique_id = r.incr('unique_id_counter')
print(unique_id)

总结

生成全局唯一分布式 ID 的方式有很多种，选择哪种方式主要取决于业务需求和系统架构。常见的方式包括：
– UUID：适用于不要求递增的场景，生成简单，但不适合需要按顺序生成的 ID。
– Twitter Snowflake算法：适用于需要高并发、递增 ID 的分布式环境。
– 数据库自增ID：适用于低并发的场景，简单易用，但不适合高并发和分布式环境。
– Zookeeper分布式ID生成器：适用于需要确保全局唯一的场景，但性能较低。
– Redis自增ID：适用于高并发、高吞吐量的分布式 ID 生成，依赖 Redis。

不同的方案有不同的优缺点，需要根据实际场景来选择合适的 ID 生成方式。

参考回答

详细讲解与拓展

1. UUID（通用唯一标识符）

2. Twitter Snowflake算法

3. 基于数据库的自增ID

4. Zookeeper分布式ID生成器

5. Redis 自增 ID

总结

发表评论 取消回复

发表评论取消回复