一、Nacos简介
1、Nacos是什么?
Nacos是阿里巴巴开源的一个为微服务提供服务发现、服务配置和服务管理的微服务基础设施,简单说就是Nacos为微服务架构提供了分布式配置和服务注册中心的工作。
2、Nacos有什么功能?
Nacos主要有两大功能:注册中心和配置中心
2.1、注册中心
a.服务发布:服务提供者发布服务到nacos,nacos存储服务和提供者关系;
b.服务订阅:服务消费者从nacos订阅服务,拉去服务提供者信息列表;
c.变更推送:当服务提供者信息变更时,实时通知服务消费者;
d.路由策略:根据不同路由规则,推送不同服务提供者信息给消费者;
e.健康检测:和服务提供者和服务消费者保持心跳,检测服务的健康状态;
2.2、配置中心
a.管理配置:配置的增删改查管理;
b.监听配置:客户端实时监听配置的更新情况;
c.灰度更新:允许针对部分客户端进行配置更新;
d.配置快照:客户端需要缓存配置快照,当nacos服务器不可用时可以使用本地配置,提高整体容灾能力。
3、Nacos有哪些概念?
3.1、命名空间(namespace)
命名空间是用于配置和服务的空间隔离,不同命名空间下的数据相互独立,不同命名空间下可以存在相同配置和相同服务,通常命名空间可用于不同环境。如开发环境、测试环境和生产环境可以通过命名空间来进行区分隔离。
nacos默认有一个保留的命名空间为public,每一个命名空间都有一个唯一的ID,如果没有手动配置则会自动生产一个。服务管理和配置管理都是在命名空间区域内进行管理,每一个服务和配置都会绑定一个命名空间。
3.2、配置分组(Group)
同一个命名空间下可以有多个应用的配置,每个应用都可能有相同的配置,所以需要有一个分组来将属于同一个应用的配置进行区分。配置分组不需要单独管理,在管理配置集时添加配置分组即可。
3.3、配置集(Data)
配置集是一组配置的集合,通常一个配置文件就是一个配置集,每一个配置集都有一个配置集ID叫做Data ID,如和缓存相关配置都可以放在配置集cache.properties中,数据库配置放在db.properties中。
配置集ID可以重复,但是同一个命名空间下同一个配置分组下的配置集ID不可重复,也就是说命名空间+配置分组+配置集ID可以唯一定位一个配置文件。
3.4、服务
通过预定义接口网络访问的提供给客户端的软件功能。每个服务都有一个服务名是服务提供的标识,通过该标识可以唯一确定其指代的服务。
3.5、服务注册
服务提供者将自己提供的服务注册到nacos,nacos存储服务和服务提供者关系。
3.6、服务订阅
服务消费者从nacos上获取对应服务的服务提供者信息列表
3.7、元数据
Nacos数据(如配置和服务)描述信息,如服务版本、权重、容灾策略、负载均衡策略、鉴权配置、各种自定义标签 (label),从作用范围来看,分为服务级别的元信息、集群的元信息及实例的元信息。
3.8、权重
实例级别的配置。权重为浮点数。权重越大,分配给该实例的流量越大。
3.9、健康检查
以指定方式检查服务下挂载的实例 (Instance) 的健康度,从而确认该实例 (Instance) 是否能提供服务。根据检查结果,实例 (Instance) 会被判断为健康或不健康。对服务发起解析请求时,不健康的实例 (Instance) 不会返回给客户端。
3.10、健康保护阈值
为了防止因过多实例 (Instance) 不健康导致流量全部流向健康实例 (Instance) ,继而造成流量压力把健康实例 (Instance) 压垮并形成雪崩效应,应将健康保护阈值定义为一个 0 到 1 之间的浮点数。当域名健康实例数 (Instance) 占总服务实例数 (Instance) 的比例小于
该值时,无论实例 (Instance) 是否健康,都会将这个实例 (Instance) 返回给客户端。这样做虽然损失了一部分流量,但是保证了集群中剩余健康实例 (Instance) 能正常工作。
二、Nacos使用
2.1、Nacos的Open API
Nacos提供了大量的HTTP API,其中包括配置管理、服务管理和命名空间管理等,核心API如下
配置管理 | 获取配置 | GET | /nacos/v1/cs/configs |
| 监听配置 | POST | /nacos/v1/cs/configs/listener |
| 发布配置 | POST | /nacos/v1/cs/configs |
| 删除配置 | DELETE | /nacos/v1/cs/configs |
| 查询历史版本配置 | GET | /nacos/v1/cs/history?search=accurate |
| 查询上一个版本配置 | GET | /nacos/v1/cs/history/previous |
服务发现 | 注册实例 | POST | /nacos/v1/ns/instance |
| 注销实例 | DELETE | /nacos/v1/ns/instance |
| 修改实例 | PUT | /nacos/v1/ns/instance |
| 查询实例列表 | GET | /nacos/v1/ns/instance/list |
| 查询实例详情 | GET | /nacos/v1/ns/instance |
| 发送实例心跳 | PUT | /nacos/v1/ns/instance/beat |
| 创建服务 | POST | /nacos/v1/ns/service |
| 删除服务 | DELETE | /nacos/v1/ns/service |
| 修改服务 | PUT | /nacos/v1/ns/service |
| 查询服务详情 | GET | /nacos/v1/ns/service |
| 查询服务列表 | GET | /nacos/v1/ns/service/list |
| 查询系统数据指标 | GET | /nacos/v1/ns/operator/metrics |
| 查询集群服务器列表 | GET | /nacos/v1/ns/operator/servers |
| 查询集群当前Leader | GET | /nacos/v1/ns/raft/leader |
| 更新实例健康状态 | PUT | /nacos/v1/ns/health/instance |
| 批量更新实例元数据 | PUT | /nacos/v1/ns/instance/metadata/batch |
命名空间 | 查询命名空间列表 | GET | /nacos/v1/console/namespaces |
| 创建命名空间 | POST | /nacos/v1/console/namespaces |
| 修改命名空间 | PUT | /nacos/v1/console/namespaces |
| 删除命名空间 | DELETE | /nacos/v1/console/namespaces |
2.2、JAVA集成Nacos的SDK
Maven依赖
<dependency>
<groupId>com.alibaba.nacos</groupId>
<artifactId>nacos-client</artifactId>
<version>${version}</version>
</dependency>
2.2.1、配置管理
和配置相关功能都定义在ConfigService接口中,根据NacosFactory可以创建ConfigService对象,调用ConfigService相关方法就可对配置文件进行增删改查或监听配置更新,ConfigService相关方法定义如下:
public interface ConfigService {
/**
* 获取配置
*/
String getConfig(String dataId, String group, long timeoutMs) throws NacosException;
/**
* 获取配置并添加监听器监听配置变更
*/
String getConfigAndSignListener(String dataId, String group, long timeoutMs, Listener listener)
throws NacosException;
/**
* 添加监听器监听配置变更
*/
void addListener(String dataId, String group, Listener listener) throws NacosException;
/**
* 发布配置
*/
boolean publishConfig(String dataId, String group, String content) throws NacosException;
/**
* 发布指定类型的配置,如yml、xml、properties、json等
*/
boolean publishConfig(String dataId, String group, String content, String type) throws NacosException;
/**
* 删除配置
*/
boolean removeConfig(String dataId, String group) throws NacosException;
/**
* 删除监听器
*/
void removeListener(String dataId, String group, Listener listener);
/**
* 获取服务器状态
*/
String getServerStatus();
/**
* 关闭服务
*/
void shutDown() throws NacosException;
}
ConfigService测试案例代码如下:
public static void main(String[] args) throws NacosException {
/** 配置管理服务*/
String nacosServer = "localhost:8848";
ConfigService configService = NacosFactory.createConfigService(nacosServer);
String dataId = "db.config";
String group = "lucky";
/** 1.发布配置*/
String configContent = "";
configService.publishConfig(dataId, group, configContent);
/** 2.获取配置*/
String config = configService.getConfig(dataId, group, 5000);
/** 3.添加配置更新监听器*/
configService.addListener(dataId, group, new Listener() {
@Override
public Executor getExecutor() {
return null;
}
@Override
public void receiveConfigInfo(String configInfo) {
System.out.println("监听配置更新:" + configInfo);
//TODO 处理配置更新
}
});
while (true){
}
}
2.2.2、服务管理
服务管理相关功能都由NamingService接口定义,根据NacosFactory可以获取NamingService实例,NamingService包含服务注册、订阅等相关方法,定义如下:
public interface NamingService {
/**
* 注册服务实例
*/
void registerInstance(String serviceName, String ip, int port) throws NacosException;
void registerInstance(String serviceName, String groupName, String ip, int port) throws NacosException;
void registerInstance(String serviceName, String ip, int port, String clusterName) throws NacosException;
void registerInstance(String serviceName, String groupName, String ip, int port, String clusterName) throws NacosException;
void registerInstance(String serviceName, Instance instance) throws NacosException;
void registerInstance(String serviceName, String groupName, Instance instance) throws NacosException;
/**
* 注销服务实例
*/
void deregisterInstance(String serviceName, String ip, int port) throws NacosException;
void deregisterInstance(String serviceName, String groupName, String ip, int port) throws NacosException;
void deregisterInstance(String serviceName, String ip, int port, String clusterName) throws NacosException;
void deregisterInstance(String serviceName, String groupName, String ip, int port, String clusterName) throws NacosException;
void deregisterInstance(String serviceName, Instance instance) throws NacosException;
void deregisterInstance(String serviceName, String groupName, Instance instance) throws NacosException;
/**
* 根据条件获取服务实例列表
*/
List<Instance> getAllInstances(String serviceName) throws NacosException;
List<Instance> getAllInstances(String serviceName, String groupName) throws NacosException;
List<Instance> getAllInstances(String serviceName, boolean subscribe) throws NacosException;
List<Instance> getAllInstances(String serviceName, String groupName, boolean subscribe) throws NacosException;
List<Instance> getAllInstances(String serviceName, List<String> clusters) throws NacosException;
List<Instance> getAllInstances(String serviceName, String groupName, List<String> clusters) throws NacosException;
List<Instance> getAllInstances(String serviceName, List<String> clusters, boolean subscribe) throws NacosException;
List<Instance> getAllInstances(String serviceName, String groupName, List<String> clusters, boolean subscribe) throws NacosException;
/**
* 根据条件选择服务实例列表
*/
List<Instance> selectInstances(String serviceName, boolean healthy) throws NacosException;
List<Instance> selectInstances(String serviceName, String groupName, boolean healthy) throws NacosException;
List<Instance> selectInstances(String serviceName, boolean healthy, boolean subscribe) throws NacosException;
List<Instance> selectInstances(String serviceName, String groupName, boolean healthy, boolean subscribe) throws NacosException;
List<Instance> selectInstances(String serviceName, List<String> clusters, boolean healthy) throws NacosException;
List<Instance> selectInstances(String serviceName, String groupName, List<String> clusters, boolean healthy) throws NacosException;
List<Instance> selectInstances(String serviceName, List<String> clusters, boolean healthy, boolean subscribe) throws NacosException;
List<Instance> selectInstances(String serviceName, String groupName, List<String> clusters, boolean healthy, boolean subscribe) throws NacosException;
/**
* 根据条件以及负载均衡策略选择一个健康的服务实例
*/
Instance selectOneHealthyInstance(String serviceName) throws NacosException;
Instance selectOneHealthyInstance(String serviceName, String groupName) throws NacosException;
Instance selectOneHealthyInstance(String serviceName, boolean subscribe) throws NacosException;
Instance selectOneHealthyInstance(String serviceName, String groupName, boolean subscribe) throws NacosException;
Instance selectOneHealthyInstance(String serviceName, List<String> clusters) throws NacosException;
Instance selectOneHealthyInstance(String serviceName, String groupName, List<String> clusters) throws NacosException;
Instance selectOneHealthyInstance(String serviceName, List<String> clusters, boolean subscribe) throws NacosException;
Instance selectOneHealthyInstance(String serviceName, String groupName, List<String> clusters, boolean subscribe) throws NacosException;
/**
* 订阅服务,并开启Listener监听服务变更事件
*/
void subscribe(String serviceName, EventListener listener) throws NacosException;
void subscribe(String serviceName, String groupName, EventListener listener) throws NacosException;
void subscribe(String serviceName, List<String> clusters, EventListener listener) throws NacosException;
void subscribe(String serviceName, String groupName, List<String> clusters, EventListener listener)
throws NacosException;
/**
* 取消订阅服务,并关闭Listener监听服务变更事件
*/
void unsubscribe(String serviceName, EventListener listener) throws NacosException;
void unsubscribe(String serviceName, String groupName, EventListener listener) throws NacosException;
void unsubscribe(String serviceName, List<String> clusters, EventListener listener) throws NacosException;
void unsubscribe(String serviceName, String groupName, List<String> clusters, EventListener listener)
throws NacosException;
/**
* 根据条件获取所有服务名称列表
*/
ListView<String> getServicesOfServer(int pageNo, int pageSize) throws NacosException;
ListView<String> getServicesOfServer(int pageNo, int pageSize, String groupName) throws NacosException;
ListView<String> getServicesOfServer(int pageNo, int pageSize, AbstractSelector selector) throws NacosException;
ListView<String> getServicesOfServer(int pageNo, int pageSize, String groupName, AbstractSelector selector) throws NacosException;
/**
* 获取当前客户端订阅的服务列表
*/
List<ServiceInfo> getSubscribeServices() throws NacosException;
/**
* 获取服务器状态
*/
String getServerStatus();
/**
* 关闭服务器
*/
void shutDown() throws NacosException;
}
NamingService测试案例代码如下:
public static void main(String[] args) throws NacosException {
String serverAddr = "42.192.94.208:8858";
/** 1.创建NamingService实例 */
NamingService namingService = NacosFactory.createNamingService(serverAddr);
/** 2.注册实例*/
namingService.registerInstance("testService", "localhost", 8080);
/** 3.注销实例*/
namingService.deregisterInstance("testService", "localhost", 8080);
/** 4.获取所有健康实例*/
List<Instance> instances = namingService.selectInstances("testService", true);
/** 5.监听服务变化*/
namingService.subscribe("testService", new EventListener() {
@Override
public void onEvent(Event event) {
System.out.println("处理服务变更事件");
if(event instanceof NamingEvent){
//TODO
}
}
});
while (true){
}
}
2.3、dubbo集成Nacos注册中心
dubbo采用Nacos作为注册中心,只需要在配置注册中心时将地址改成nacos地址即可,如下:
XML配置
<!-- nacos地址 -->
<dubbo:registry address="nacos://127.0.0.1:8848" />
外部配置
## dubbo注册中心地址
dubbo.registry.address = zookeeper://10.20.153.10:2181
2.4、SpringBoot集成Nacos配置中心
添加nacos依赖
<dependency>
<groupId>com.alibaba.boot</groupId>
<artifactId>nacos-config-spring-boot-starter</artifactId>
<version>0.2.1</version>
</dependency>
版本号0.2.x.RELEASE对应的是 Spring Boot 2.x 版本,版本0.1.x.RELEASE对应的是 Spring Boot 1.x 版本
在application.properties配置文件中添加nacos地址配置
nacos.config.server-addr=127.0.0.1:8848
在SpringBoot启动类添加@NacosProperySource注解添加Nacos配置来源,autoRefreshed表示是否自动更新
@NacosPropertySource(dataId = "db.config", autoRefreshed = true)
通过nacos的@NacosValue注解给变量赋值配置的值,autoRefreshed表示是否自动更新,如:
@NacosValue(value = "${db.username:tempUser}", autoRefreshed = true)
private String dbUser;
@NacosValue(value = "${db.password:tempPassword}")
private String dbPassword;
三、Nacos实现原理
3.1、配置中心实现原理
Nacos提供了大量的配置管理相关API供客户端调用,客户端可以很方便的调用API来进行配置管理。所以Nacos Client启动的时候只需要调用Nacos server的接口就可以获取到所有的配置。
所以客户端获取配置的重点是如何进行热更新,也就是当服务端配置更新后,客户端是如何根据监听器进行实时更新的,监听器又是如何实现的呢?首先就需要从ConfigService的addListener方法入手。
ConfigService接口的实现类是NacosConfigService,addListener方法源码如下:
1 private final ClientWorker worker;
2
3 /** NacosConfigService类 添加配置更新监听器方法
4 * @param dataId : 配置集
5 * @param group : 配置分组
6 * @param listener : 配置更新监听器
7 * */
8 public void addListener(String dataId, String group, Listener listener) throws NacosException {
9 //调用ClientWorker对象方法
10 worker.addTenantListeners(dataId, group, Arrays.asList(listener));
11 }
12
13 //Http客户端
14 private final HttpAgent agent;
15
16 /** ClientWorker类 添加监听器方法 */
17 public void addTenantListeners(String dataId, String group, List<? extends Listener> listeners) throws NacosException {
18 group = null2defaultGroup(group);
19 String tenant = agent.getTenant();
20 CacheData cache = addCacheDataIfAbsent(dataId, group, tenant);
21 for (Listener listener : listeners) {
22 /** 调用CacheData对象的addListener方法*/
23 cache.addListener(listener);
24 }
25 }
/** CacheData类 监听器列表*/
private final CopyOnWriteArrayList<ManagerListenerWrap> listeners;
/**
* CacheData类 添加监听器
* */
public void addListener(Listener listener) {
if (null == listener) {
throw new IllegalArgumentException("listener is null");
}
/** 包装Listener*/
ManagerListenerWrap wrap = (listener instanceof AbstractConfigChangeListener) ? new ManagerListenerWrap(listener, md5, content)
: new ManagerListenerWrap(listener, md5);
/** 将监听器添加到列表中*/
if (listeners.addIfAbsent(wrap)) {
LOGGER.info("[{}] [add-listener] ok, tenant={}, dataId={}, group={}, cnt={}", name, tenant, dataId, group,
listeners.size());
}
}
逻辑并不复杂,最终是将Listener对象进行封装并添加到了CacheData对象的listeners列表中存储起来。既然有地方存了,那么就需要有地方去读,而开启监听是通过ClientWorker实例来实现。
NacosConfigService初始化时,会初始化ClientWorker对象,ClientWorker构造函数如下:
/** ClientWorker构造函数 */
public ClientWorker(final HttpAgent agent, final ConfigFilterChainManager configFilterChainManager,
final Properties properties) {
this.agent = agent;
this.configFilterChainManager = configFilterChainManager;
/** 1.初始化配置*/
init(properties);
/** 2.创建定时任务线程池*/
this.executor = Executors.newScheduledThreadPool(1, new ThreadFactory() {
@Override
public Thread newThread(Runnable r) {
Thread t = new Thread(r);
t.setName("com.alibaba.nacos.client.Worker." + agent.getName());
t.setDaemon(true);
return t;
}
});
/** 3.创建定时任务线程池*/
this.executorService = Executors
.newScheduledThreadPool(Runtime.getRuntime().availableProcessors(), new ThreadFactory() {
@Override
public Thread newThread(Runnable r) {
Thread t = new Thread(r);
t.setName("com.alibaba.nacos.client.Worker.longPolling." + agent.getName());
t.setDaemon(true);
return t;
}
});
/** 4.开启定时任务,10毫秒执行一次*/
this.executor.scheduleWithFixedDelay(new Runnable() {
@Override
public void run() {
try {
/** 5.检测配置信息*/
checkConfigInfo();
} catch (Throwable e) {
LOGGER.error("[" + agent.getName() + "] [sub-check] rotate check error", e);
}
}
}, 1L, 10L, TimeUnit.MILLISECONDS);
}
ClientWorker初始化时会创建两个定时任务线程池,一个只有一个线程每10毫秒执行一次checkConfigInfo方法,而另一个线程池就是专门用来处理checkConfigInfo方法内部的检查配置的逻辑,源码如下:
/** ClientWorker检查配置信息方法*/
public void checkConfigInfo() {
/** 1.获取CacheData对象,key是dataId*/
int listenerSize = cacheMap.size();
int longingTaskCount = (int) Math.ceil(listenerSize / ParamUtil.getPerTaskConfigSize());
if (longingTaskCount > currentLongingTaskCount) {
for (int i = (int) currentLongingTaskCount; i < longingTaskCount; i++) {
/** 2.线程池执行LongPollingRunnable任务*/
executorService.execute(new LongPollingRunnable(i));
}
currentLongingTaskCount = longingTaskCount;
}
}
checkConfigInfo方法实际就是向定时任务线程池中提交一个长轮训任务LongPollingRunnable,该任务执行逻辑如下:
/** LongPollingRunnable线程执行逻辑 */
public void run() {
List<CacheData> cacheDatas = new ArrayList<CacheData>();
List<String> inInitializingCacheList = new ArrayList<String>();
try {
//遍历所有CacheData
for (CacheData cacheData : cacheMap.values()) {
if (cacheData.getTaskId() == taskId) {
cacheDatas.add(cacheData);
try {
/** 检查CacheData的本地配置*/
checkLocalConfig(cacheData);
if (cacheData.isUseLocalConfigInfo()) {
cacheData.checkListenerMd5();
}
} catch (Exception e) {
LOGGER.error("get local config info error", e);
}
}
}
// 校验服务器配置,检查需要更新的DataId
List<String> changedGroupKeys = checkUpdateDataIds(cacheDatas, inInitializingCacheList);
if (!CollectionUtils.isEmpty(changedGroupKeys)) {
LOGGER.info("get changedGroupKeys:" + changedGroupKeys);
}
/** 遍历所有更新的配置分组key*/
for (String groupKey : changedGroupKeys) {
String[] key = GroupKey.parseKey(groupKey);
String dataId = key[0];
String group = key[1];
String tenant = null;
if (key.length == 3) {
tenant = key[2];
}
try {
/** 获取服务器配置 */
String[] ct = getServerConfig(dataId, group, tenant, 3000L);
CacheData cache = cacheMap.get(GroupKey.getKeyTenant(dataId, group, tenant));
/** 更新服务器配置*/
cache.setContent(ct[0]);
if (null != ct[1]) {
cache.setType(ct[1]);
}
LOGGER.info("[{}] [data-received] dataId={}, group={}, tenant={}, md5={}, content={}, type={}", agent.getName(), dataId, group, tenant, cache.getMd5(), ContentUtils.truncateContent(ct[0]), ct[1]);
} catch (NacosException ioe) {
String message = String.format("[%s] [get-update] get changed config exception. dataId=%s, group=%s, tenant=%s",
agent.getName(), dataId, group, tenant);
LOGGER.error(message, ioe);
}
}
for (CacheData cacheData : cacheDatas) {
if (!cacheData.isInitializing() || inInitializingCacheList
.contains(GroupKey.getKeyTenant(cacheData.dataId, cacheData.group, cacheData.tenant))) {
/** 校验配置的MD5*/
cacheData.checkListenerMd5();
cacheData.setInitializing(false);
}
}
inInitializingCacheList.clear();
executorService.execute(this);
} catch (Throwable e) {
LOGGER.error("longPolling error : ", e);
executorService.schedule(this, taskPenaltyTime, TimeUnit.MILLISECONDS);
}
}
}
首先是检查本地配置,所以及时服务器崩溃了,nacos客户端也可以保证可以使用本地配置,本地配置存储在~nacos/config/目录下,检查完本地配置之后,再查询服务器配置,然后和本地配置进行比较的到需要更新的配置,将最新的配置写入本地。
最后执行CacheData的checkListenerMd5()方法,该方法作用是比较配置文件的MD5加密数据是否一致,如果不一致则表示更新过,那么就需要触发监听器的回调,源码如下:
1 /** CacheData类*/
2 void checkListenerMd5() {
3 for (ManagerListenerWrap wrap : listeners) {
4 //比较MD5加密数据是否一致
5 if (!md5.equals(wrap.lastCallMd5)) {
6 /** 回调Listener*/
7 safeNotifyListener(dataId, group, content, type, md5, wrap);
8 }
9 }
10 }
11
12 private void safeNotifyListener(final String dataId, final String group, final String content, final String type,
13 final String md5, final ManagerListenerWrap listenerWrap) {
14 final Listener listener = listenerWrap.listener;
15
16 Runnable job = new Runnable() {
17 @Override
18 public void run() {
19 ClassLoader myClassLoader = Thread.currentThread().getContextClassLoader();
20 ClassLoader appClassLoader = listener.getClass().getClassLoader();
21 try {
22 if (listener instanceof AbstractSharedListener) {
23 AbstractSharedListener adapter = (AbstractSharedListener) listener;
24 adapter.fillContext(dataId, group);
25 LOGGER.info("[{}] [notify-context] dataId={}, group={}, md5={}", name, dataId, group, md5);
26 }
27 // 执行回调之前先将线程classloader设置为具体webapp的classloader,以免回调方法中调用spi接口是出现异常或错用(多应用部署才会有该问题)。
28 Thread.currentThread().setContextClassLoader(appClassLoader);
29
30 ConfigResponse cr = new ConfigResponse();
31 cr.setDataId(dataId);
32 cr.setGroup(group);
33 cr.setContent(content);
34 configFilterChainManager.doFilter(null, cr);
35 String contentTmp = cr.getContent();
36 /** 回调执行Listener的receiveConfigInfo方法 */
37 listener.receiveConfigInfo(contentTmp);
38
39 // compare lastContent and content
40 if (listener instanceof AbstractConfigChangeListener) {
41 Map data = ConfigChangeHandler.getInstance()
42 .parseChangeData(listenerWrap.lastContent, content, type);
43 ConfigChangeEvent event = new ConfigChangeEvent(data);
44 ((AbstractConfigChangeListener) listener).receiveConfigChange(event);
45 listenerWrap.lastContent = content;
46 }
47
48 listenerWrap.lastCallMd5 = md5;
49 LOGGER.info("[{}] [notify-ok] dataId={}, group={}, md5={}, listener={} ", name, dataId, group, md5,
50 listener);
51 } catch (NacosException ex) {
52 LOGGER.error("[{}] [notify-error] dataId={}, group={}, md5={}, listener={} errCode={} errMsg={}",
53 name, dataId, group, md5, listener, ex.getErrCode(), ex.getErrMsg());
54 } catch (Throwable t) {
55 LOGGER.error("[{}] [notify-error] dataId={}, group={}, md5={}, listener={} tx={}", name, dataId,
56 group, md5, listener, t.getCause());
57 } finally {
58 Thread.currentThread().setContextClassLoader(myClassLoader);
59 }
60 }
61 };
62
63 final long startNotify = System.currentTimeMillis();
64 try {
65 if (null != listener.getExecutor()) {
66 listener.getExecutor().execute(job);
67 } else {
68 job.run();
69 }
70 } catch (Throwable t) {
71 LOGGER.error("[{}] [notify-error] dataId={}, group={}, md5={}, listener={} throwable={}", name, dataId,
72 group, md5, listener, t.getCause());
73 }
74 final long finishNotify = System.currentTimeMillis();
75 LOGGER.info("[{}] [notify-listener] time cost={}ms in ClientWorker, dataId={}, group={}, md5={}, listener={} ",
76 name, (finishNotify - startNotify), dataId, group, md5, listener);
77 }
当比较更新完的配置和之前的配置不一样时,就会触发监听器Listener的回调,执行Listener的receiveConfigInfo方法
总结:
Nacos配置中心采用的是客户端pull的方式从nacos服务器获取配置数据,并且没有和nacos服务器保持长连接,而是以定时任务执行HTTP请求的方式从Nacos服务器获取最新配置,然后再刷新到本地存储,最后再触发监听器Listener的回调方法。
所以Nacos客户端的监听器的通知并不是nacos服务器主动推送过来的,而是nacos客户端本地轮训查询发现了配置变更之后才触发的回调。另外nacos客户端本地采用了线程池方式拉取配置,所以不会影响核心业务线程。
3.2、服务管理实现原理
nacos提供了大量关于服务发布和订阅的API,作为Nacos客户端,无论是服务提供者还是服务消费者,只需要在启动时调用nacos的API即可完成服务发布和服务订阅功能。但是作为注册中心,还需要有服务实例健康检查功能,服务消费者实时监听服务提供者变化的
通知功能。而服务订阅的监听逻辑和nacos配置的变更监听流程基本上相同,订阅功能主要由subscribe方法实现,NamingService实现类是NacosNamingService,初始化时会执行init方法,初始化服务器代理serverProxy,心跳处理器beatReactor,host处理器
hostReactor等对象,服务订阅方法subscribe方法逻辑如下:
private HostReactor hostReactor;
private BeatReactor beatReactor;
private NamingProxy serverProxy;
/** NacosNamingService初始化方法 */
private void init(Properties properties) throws NacosException {
ValidatorUtils.checkInitParam(properties);
this.namespace = InitUtils.initNamespaceForNaming(properties);
InitUtils.initSerialization();
initServerAddr(properties);
InitUtils.initWebRootContext(properties);
initCacheDir();
initLogName(properties);
this.serverProxy = new NamingProxy(this.namespace, this.endpoint, this.serverList, properties);
this.beatReactor = new BeatReactor(this.serverProxy, initClientBeatThreadCount(properties));
this.hostReactor = new HostReactor(this.serverProxy, beatReactor, this.cacheDir, isLoadCacheAtStart(properties),
isPushEmptyProtect(properties), initPollingThreadCount(properties));
}
/** NacosNamingService服务订阅方法 */
public void subscribe(String serviceName, String groupName, List<String> clusters, EventListener listener)
throws NacosException {
hostReactor.subscribe(NamingUtils.getGroupedName(serviceName, groupName), StringUtils.join(clusters, ","),
listener);
}
/** HostReactor的服务订阅方法,并开启监听器*/
public void subscribe(String serviceName, String clusters, EventListener eventListener) {
/** 1.注册监听器,存入InstanceChangeNotifier对象的Map中,key是服务名称和集群,value是监听器集合 */
notifier.registerListener(serviceName, clusters, eventListener);
/** 2.根据服务名称获取服务器信息 */
getServiceInfo(serviceName, clusters);
}
方法执行到HostReactor对象的subscribe方法,首先是将监听器存入InstanceChangeNotifier对象的Map中,根据服务名称和集群名称作为key存储,value是监听器的集合,存储起来之后调用getServiceInfo方法从nacos服务器获取服务实例信息,逻辑如下:
1 /** HostReactor类 获取服务实例信息方法 */
2 public ServiceInfo getServiceInfo(final String serviceName, final String clusters) {
3 String key = ServiceInfo.getKey(serviceName, clusters);
4 if (failoverReactor.isFailoverSwitch()) {
5 return failoverReactor.getService(key);
6 }
7 /** 从本地缓存中获取ServiceInfo对象 */
8 ServiceInfo serviceObj = getServiceInfo0(serviceName, clusters);
9
10 if (null == serviceObj) {// 如果本地缓存中没有服务实例
11 serviceObj = new ServiceInfo(serviceName, clusters);
12 serviceInfoMap.put(serviceObj.getKey(), serviceObj);
13 updatingMap.put(serviceName, new Object());
14 /** 立即更新服务实例*/
15 updateServiceNow(serviceName, clusters);
16 updatingMap.remove(serviceName);
17
18 } else if (updatingMap.containsKey(serviceName)) {//判断当前服务实例是否正在更新
19 if (UPDATE_HOLD_INTERVAL > 0) {
20 synchronized (serviceObj) {
21 try {
22 serviceObj.wait(UPDATE_HOLD_INTERVAL);
23 } catch (InterruptedException e) {
24 NAMING_LOGGER
25 .error("[getServiceInfo] serviceName:" + serviceName + ", clusters:" + clusters, e);
26 }
27 }
28 }
29 }
30
31 /** 定时更新服务实例信息 */
32 scheduleUpdateIfAbsent(serviceName, clusters);
33 return serviceInfoMap.get(serviceObj.getKey());
34 }
核心逻辑是先从本地获取服务实例信息,如果不存在那么立即执行updateServiceNow方法进行更新;如果已经存在那么先执行scheuleUpdateIfAbsent方法定时更新。updateServiceNow方法也就是当前线程立即更新服务实例,执行了updateService方法,
而定时更新逻辑是先构建一个UpdateTask,然后提交给线程池来执行,定时每1秒执行一次,逻辑如下:
/** HostReactor类 */
public void scheduleUpdateIfAbsent(String serviceName, String clusters) {
if (futureMap.get(ServiceInfo.getKey(serviceName, clusters)) != null) {
return;
}
synchronized (futureMap) {
if (futureMap.get(ServiceInfo.getKey(serviceName, clusters)) != null) {
return;
}
/** 创建UpdateTask,并添加定时任务 */
ScheduledFuture<?> future = addTask(new UpdateTask(serviceName, clusters));
futureMap.put(ServiceInfo.getKey(serviceName, clusters), future);
}
}
/** HostReactor类添加任务*/
public synchronized ScheduledFuture<?> addTask(UpdateTask task) {
/** 线程池执行,每1秒执行一次*/
return executor.schedule(task, DEFAULT_DELAY, TimeUnit.MILLISECONDS);
}
所以更新的逻辑主要在UpdateTask执行体类,且逻辑肯定包含了updateService方法的逻辑,源码核心逻辑如下:
/** HostReactor 更新服务实例方法 */
public void updateService(String serviceName, String clusters) throws NacosException {
/** 1.从本地获取旧的服务实例 */
ServiceInfo oldService = getServiceInfo0(serviceName, clusters);
try {
/** 2.从服务器查询最新服务实例列表 */
String result = serverProxy.queryList(serviceName, clusters, pushReceiver.getUdpPort(), false);
if (StringUtils.isNotEmpty(result)) {
/** 3.刷新本地缓存 */
processServiceJson(result);
}
} finally {
if (oldService != null) {
synchronized (oldService) {
oldService.notifyAll();
}
}
}
}
/** UpdateTask 执行体*/
public void run() {
long delayTime = DEFAULT_DELAY;
try {
/** 1.从缓存中获取服务实例*/
ServiceInfo serviceObj = serviceInfoMap.get(ServiceInfo.getKey(serviceName, clusters));
if (serviceObj == null) {
/** 2.如果缓存中没有,则执行updateService方法查询*/
updateService(serviceName, clusters);
return;
}
/** 2.如果本地服务实例更新时间延迟,那么就执行updateService方法刷新*/
if (serviceObj.getLastRefTime() <= lastRefTime) {
updateService(serviceName, clusters);
serviceObj = serviceInfoMap.get(ServiceInfo.getKey(serviceName, clusters));
} else {
refreshOnly(serviceName, clusters);
}
lastRefTime = serviceObj.getLastRefTime();
if (!notifier.isSubscribed(serviceName, clusters) && !futureMap
.containsKey(ServiceInfo.getKey(serviceName, clusters))) {
// abort the update task
NAMING_LOGGER.info("update task is stopped, service:" + serviceName + ", clusters:" + clusters);
return;
}
if (CollectionUtils.isEmpty(serviceObj.getHosts())) {
/** 3.如果查询失败,那么失败次数自增*/
incFailCount();
return;
}
delayTime = serviceObj.getCacheMillis();
/** 4.如果查询成功,那么重置失败次数*/
resetFailCount();
} catch (Throwable e) {
incFailCount();
NAMING_LOGGER.warn("[NA] failed to update serviceName: " + serviceName, e);
} finally {
/** 5.提交下一次延迟任务*/
executor.schedule(this, Math.min(delayTime << failCount, DEFAULT_DELAY * 60), TimeUnit.MILLISECONDS);
}
}
可以发现更新逻辑就是执行updateService方法,首先从服务器查询最新的服务实例列表,然后将查询结果刷新到本地缓存中,然后开启下一次定时任务继续执行。默认是1秒钟执行一次,如果查询不到任何记录(服务器异常或无可用实例),那么就增加失败次数,每
增加一次失败次数延迟执行时间就翻倍,最长会1分钟执行一次。
另外当执行updateService方法刷新服务实例时,如果触发了服务更新,就需要更新本地缓存并且写入磁盘的持久化文件中保持,并且还会调用NotifyCenter的publishEvent方法发布服务实例变更事件,逻辑如下:
/** HostReactor 处理查询服务实例结果方法*/
public ServiceInfo processServiceJson(String json) {
//......
boolean changed = false;
if (oldService != null) {
//......
} else {
changed = true;
/** 刷新内存中缓存*/
serviceInfoMap.put(serviceInfo.getKey(), serviceInfo);
/** 发布服务实例变更事件*/
NotifyCenter.publishEvent(new InstancesChangeEvent(serviceInfo.getName(), serviceInfo.getGroupName(), serviceInfo.getClusters(), serviceInfo.getHosts()));
serviceInfo.setJsonFromServer(json);
/** 写入磁盘本地数据*/
DiskCache.write(serviceInfo, cacheDir);
}
//......
return serviceInfo;
}
/** NotifyCenter 发布事件方法*/
public static boolean publishEvent(Event event) {
try {
return publishEvent(event.getClass(), event);
} catch (Throwable var2) {
LOGGER.error("There was an exception to the message publishing : {}", var2);
return false;
}
}
private static boolean publishEvent(final Class<? extends Event> eventType, final Event event) {
if (ClassUtils.isAssignableFrom(SlowEvent.class, eventType)) {
return INSTANCE.sharePublisher.publish(event);
}
final String topic = ClassUtils.getCanonicalName(eventType);
EventPublisher publisher = INSTANCE.publisherMap.get(topic);
if (publisher != null) {
/** 执行EventPublisher对象publish方法*/
return publisher.publish(event);
}
LOGGER.warn("There are no [{}] publishers for this event, please register", topic);
return false;
}
实际是调用了EventPublisher对象的publish方法,默认实现是DefaultPublisher类,DefaultPublisher会先将通知事件存入本地队列,然后采用线程异步通知,逻辑如下:
1 /** DefaultPublisher类 发布事件方法*/
2 public boolean publish(Event event) {
3 /** 1.检查并开启线程 */
4 checkIsStart();
5 /** 2.将事件存入队列*/
6 boolean success = this.queue.offer(event);
7 if (!success) {
8 LOGGER.warn("Unable to plug in due to interruption, synchronize sending time, event : {}", event);
9 /** 3.如果存入队列失败,那么立即通知*/
10 receiveEvent(event);
11 return true;
12 }
13 return true;
14 }
15
16 public void run() {
17 openEventHandler();
18 }
19
20 void openEventHandler() {
21 try {
22
23 // This variable is defined to resolve the problem which message overstock in the queue.
24 int waitTimes = 60;
25 // To ensure that messages are not lost, enable EventHandler when
26 // waiting for the first Subscriber to register
27 for (; ; ) {
28 if (shutdown || hasSubscriber() || waitTimes <= 0) {
29 break;
30 }
31 ThreadUtils.sleep(1000L);
32 waitTimes--;
33 }
34
35 for (; ; ) {
36 if (shutdown) {
37 break;
38 }
39 final Event event = queue.take();
40 receiveEvent(event);
41 UPDATER.compareAndSet(this, lastEventSequence, Math.max(lastEventSequence, event.sequence()));
42 }
43 } catch (Throwable ex) {
44 LOGGER.error("Event listener exception : {}", ex);
45 }
46 }
47
48 void receiveEvent(Event event) {
49 final long currentEventSequence = event.sequence();
50 /** 遍历所有订阅者,*/
51 for (Subscriber subscriber : subscribers) {
52 // Whether to ignore expiration events
53 if (subscriber.ignoreExpireEvent() && lastEventSequence > currentEventSequence) {
54 LOGGER.debug("[NotifyCenter] the {} is unacceptable to this subscriber, because had expire",
55 event.getClass());
56 continue;
57 }
58 /** 通知订阅者,执行订阅者的onEvent方法 */
59 notifySubscriber(subscriber, event);
60 }
61 }
DefaultPublisher先将事件存入队列,然后通过异步线程从队列中取任务,遍历事件所有订阅者,依次遍历执行订阅者的onEvent方法实现事件回调通知。
总结:
服务管理的实现和配置管理实现原理基本一致,启动时首先会调用Nacos服务器的HTTP接口初始化一次,并且在本地内存中缓存一份,磁盘中持久化一份。然后开启定时任务轮训查询服务器最新数据,如果数据发生变化,那么就更新内存中缓存,重新写入磁盘,
然后再由线程池异步遍历所有订阅者,回调执行订阅者的回调函数实现变更通知的逻辑。
3.3、心跳检测
作为服务提供者,需要和nacos服务器保持心跳,服务提供者在注册实例时会创建心跳任务,逻辑如下:
1 /** 服务提供者 注册实例*/
2 public void registerInstance(String serviceName, String groupName, Instance instance) throws NacosException {
3 NamingUtils.checkInstanceIsLegal(instance);
4 String groupedServiceName = NamingUtils.getGroupedName(serviceName, groupName);
5 /** 如果实例是临时节点*/
6 if (instance.isEphemeral()) {
7 /** 构建心跳任务交给BeatReactor处理 */
8 BeatInfo beatInfo = beatReactor.buildBeatInfo(groupedServiceName, instance);
9 beatReactor.addBeatInfo(groupedServiceName, beatInfo);
10 }
11 serverProxy.registerService(groupedServiceName, groupName, instance);
12 }
调用BeatReactor的addBeatInfo方法提交心跳任务
public void addBeatInfo(String serviceName, BeatInfo beatInfo) {
NAMING_LOGGER.info("[BEAT] adding beat: {} to beat map.", beatInfo);
String key = buildKey(serviceName, beatInfo.getIp(), beatInfo.getPort());
BeatInfo existBeat = null;
//fix #1733
if ((existBeat = dom2Beat.remove(key)) != null) {
existBeat.setStopped(true);
}
dom2Beat.put(key, beatInfo);
/** 创建并提交心跳定时任务,默认是5秒执行一次*/
executorService.schedule(new BeatTask(beatInfo), beatInfo.getPeriod(), TimeUnit.MILLISECONDS);
MetricsMonitor.getDom2BeatSizeMonitor().set(dom2Beat.size());
}
/** 心跳定时任务执行体 */
class BeatTask implements Runnable {
BeatInfo beatInfo;
public BeatTask(BeatInfo beatInfo) {
this.beatInfo = beatInfo;
}
@Override
public void run() {
if (beatInfo.isStopped()) {
return;
}
long nextTime = beatInfo.getPeriod();
try {
/** 发送心跳给Nacos服务器
* 调用Nacos服务器的 /instance/beat 接口 */
JsonNode result = serverProxy.sendBeat(beatInfo, BeatReactor.this.lightBeatEnabled);
long interval = result.get("clientBeatInterval").asLong();
boolean lightBeatEnabled = false;
if (result.has(CommonParams.LIGHT_BEAT_ENABLED)) {
lightBeatEnabled = result.get(CommonParams.LIGHT_BEAT_ENABLED).asBoolean();
}
BeatReactor.this.lightBeatEnabled = lightBeatEnabled;
if (interval > 0) {
nextTime = interval;
}
int code = NamingResponseCode.OK;
if (result.has(CommonParams.CODE)) {
code = result.get(CommonParams.CODE).asInt();
}
if (code == NamingResponseCode.RESOURCE_NOT_FOUND) {
Instance instance = new Instance();
instance.setPort(beatInfo.getPort());
instance.setIp(beatInfo.getIp());
instance.setWeight(beatInfo.getWeight());
instance.setMetadata(beatInfo.getMetadata());
instance.setClusterName(beatInfo.getCluster());
instance.setServiceName(beatInfo.getServiceName());
instance.setInstanceId(instance.getInstanceId());
instance.setEphemeral(true);
try {
/** 如果返回404,那么就重新注册实例*/
serverProxy.registerService(beatInfo.getServiceName(),
NamingUtils.getGroupName(beatInfo.getServiceName()), instance);
} catch (Exception ignore) {
}
}
} catch (NacosException ex) {
NAMING_LOGGER.error("[CLIENT-BEAT] failed to send beat: {}, code: {}, msg: {}",
JacksonUtils.toJson(beatInfo), ex.getErrCode(), ex.getErrMsg());
}
/** 开启下一次心跳定时任务*/
executorService.schedule(new BeatTask(beatInfo), nextTime, TimeUnit.MILLISECONDS);
}
}
核心逻辑就是构建心跳定时任务交给NacosNamingService的线程池,默认每5秒发送一次心跳,实际就是调用nacos服务器的 /instance/beat接口发送心跳,心跳发送完成再开启下一次的定时任务,整体逻辑比较简单。
总结:
虽然nacos实现了配置中心和服务发现、服务订阅、健康检测等功能,但是nacos客户端实际上并没有和nacos服务器保持长连接,而是采用HTTP请求的方式来实现。
配置中心就是调用查询配置HTTP接口查询并缓存在本地,然后开启定时任务轮训查询,如果发送变更就刷新本地缓存,并触发回调通知监听器;
服务发布就是调用注册服务HTTP接口实现注册,然后开启定时任务每5秒向nacos调用一次HTTP接口发送心跳数据,nacos根据心跳来管理服务提供者的健康状态;
服务订阅就是调用查询服务HTTP接口实现服务订阅并将服务实例信息缓存在本地,然后开启定时任务轮训查询并和本地数据进行比较,如果有更新那么就异步触发回调通知所有服务订阅者;