22 篇博文含有标签「Bug修复」

Airflow PostgresHook 多语句 SQL 静默丢结果？按分号切分逐条执行

2026年6月14日 · 阅读需 7 分钟

在 Airflow DAG 把 .sql 模板文件整段读出后传给 PostgresHook.get_pandas_df() 时，前置 SELECT 的结果被静默丢弃——DAG 报「SQL 查询无结果」，但把同一段 SQL 复制到 psql 又能正常返回数据。

在开发 AI运营时遇到此问题——基于大语言模型的智能分析流水线，Airflow DAG 从 SQL 模板文件读取多查询报表模板并执行。

TL;DR

PostgresHook.get_pandas_df(sql) 内部走 pandas.read_sql(sql, conn) → psycopg2 cursor.execute(sql)。当 sql 是含多条 ; 分隔 SELECT 的单字符串时，DBAPI 只暴露最后一个结果集的游标，前置查询结果被静默丢弃且不报错。修复方法：按顶层分号切分成 list[str]，逐条 get_pandas_df 收集结果，或直接传 list 让 DbApiHook 顺序执行。

问题现象

DAG 任务执行 shop_monthly_overview.sql 报「SQL 查询无结果」：

sql_count = 1   ← 模板里明明写了 4 条查询
result = "❌ SQL 查询无结果"

但同一份 SQL 复制到 psql 直连同库同参数，4 条 SELECT 都有数据。

复现实验

在 Airflow 容器内直接验证 get_pandas_df 对多语句的行为：

from airflow.providers.postgres.hooks.postgres import PostgresHook

hook = PostgresHook(postgres_conn_id="postgres_default")

# 三条 SELECT 串成单字符串
sql = "SELECT 1 AS a; SELECT 2 AS b; SELECT 99 AS c WHERE 1=0;"

df = hook.get_pandas_df(sql)
print(df.columns.tolist())  # ['c']  ← 只拿到末条的列
print(df)                    # Empty  ← 末条本身 0 行

预期应得到三条结果，实际只拿到末条（SELECT 99 ... WHERE 1=0，0 行），前两条完全消失，没有任何报错或警告。

根因

调用链是 PostgresHook.get_pandas_df → DbApiHook.get_pandas_df → pandas.io.sql.read_sql → psycopg2 cursor.execute(sql)。

DBAPI 协议（PEP 249）允许 execute 接受含多条 ; 分隔语句的字符串，PostgreSQL 服务端会依次执行全部语句，但游标只暴露最后一个结果集——这是 PostgreSQL wire protocol 的固有行为，不是 Airflow 或 pandas 的 bug。

┌────────────────────────────────────────────────────┐
│ SELECT 1;  ← 执行，结果集 1 立即被丢弃              │
│ SELECT 2;  ← 执行，结果集 2 立即被丢弃              │
│ SELECT 99 WHERE 1=0;  ← 执行，结果集 3 暴露给游标    │
└────────────────────────────────────────────────────┘
                       ↓
            pandas.read_sql 只 fetch 到结果集 3

源头是 task_execute_sql 把 .sql 文件整段读出后当成一条字符串传进 get_pandas_df：

# ❌ 问题代码
sql_text = open(sql_path).read()  # 含 4 条 SELECT 的整段
df = pg_hook.get_pandas_df(sql_text)  # 只拿到末条结果

为什么 psql 能正常返回？因为 psql 前端会主动遍历所有结果集并依次打印，而 DBAPI 游标不会。

解决方案

方案 A（推荐）：按顶层分号切分后逐条执行

适合 .sql 模板文件场景——文件含注释、引号、多查询，需要稳健的切分。

def split_sql_statements(sql: str) -> list:
    """
    按顶层分号切分 SQL，正确处理：
    - 单引号字符串内的分号（'a;b' 不切）
    - SQL 标准 '' 转义（'it''s' 不切）
    - -- 行注释内的分号（-- note; not split 不切）
    """
    statements = []
    buf = []
    i, n = 0, len(sql)
    in_quote = False

    while i < n:
        ch = sql[i]

        # 在单引号字符串内
        if in_quote:
            buf.append(ch)
            if ch == "'":
                # '' = 字面量单引号，不结束字符串
                if i + 1 < n and sql[i + 1] == "'":
                    buf.append(sql[i + 1])
                    i += 2
                    continue
                in_quote = False
            i += 1
            continue

        # 顶层
        if ch == "'":
            in_quote = True
            buf.append(ch)
        elif ch == '-' and i + 1 < n and sql[i + 1] == '-':
            # 行注释，原样吞到行尾（注释里的 ; 不切分）
            while i < n and sql[i] != '\n':
                buf.append(sql[i])
                i += 1
            continue
        elif ch == ';':
            stmt = ''.join(buf).strip()
            if stmt:
                statements.append(stmt)
            buf = []
            i += 1
            continue
        else:
            buf.append(ch)
        i += 1

    # 末尾无分号的残留块
    stmt = ''.join(buf).strip()
    if stmt:
        statements.append(stmt)

    return statements


# 调用方
sql_text = open(sql_path).read()
statements = split_sql_statements(sql_text)

# 逐条执行，收集所有结果
all_results = []
for idx, stmt in enumerate(statements, start=1):
    df = pg_hook.get_pandas_df(stmt)
    if not df.empty:
        all_results.append({
            "sql_index": idx,
            "sql": stmt,
            "data": df.to_dict("records"),
            "columns": df.columns.tolist(),
            "row_count": len(df),
        })

方案 B：直接传 list 给 DbApiHook

Airflow DbApiHook.run 和 get_records 接受 list[str] 参数会按顺序执行——但 get_pandas_df 在 list 模式下的返回行为各 provider 实现不一致，生产环境建议用方案 A 自己控制。

为什么不用 `sqlparse.split`？

社区答案常推荐 sqlparse.split(sqlparse.format(sql, strip_comments=True))，但 strip_comments=True 会丢掉注释，如果你的下游 processor 依赖注释中的元信息（如 -- dimension: shop），就会丢失上下文。手写切分器保留注释原文，行为可控。

注意事项

不要用 sql.split(';') 简单切分——会误切 WHERE name = 'a;b' 这类引号内的分号，以及 -- 注释; 行注释里的分号
split_sql_statements 只处理单引号字符串和 -- 行注释；如果你的 SQL 用 /* 块注释 */ 或 dollar-quoted string（$$...$$），需要扩展切分器
修复后下游 processor 的 sql_index 语义会变（1-based 顺序索引），同步检查所有 df.iloc[sql_index] 类用法
如果你的 SQL 是程序生成而非文件读取，更安全的做法是生成时就用 list，避免后续切分
顺带提一个相邻的坑：如果你在 Drizzle ORM 里也遇到过 SQL 表达式被静默参数化的问题，可以看 Drizzle sql 模板混用参数化值与 SQL 表达式——同样是「框架替你做了你没预期到的转换」类陷阱

常见问题

Airflow PostgresHook 怎么执行多条 SQL 语句？

传 list[str] 而不是单条字符串。DbApiHook.get_pandas_df 和 run 接受 sql 参数为 list 时按顺序逐条执行；单字符串含多条分号分隔语句时 psycopg2 只返回末条结果集。生产环境推荐自己切分后逐条调用，方便控制结果聚合和 sql_index 索引。

为什么 get_pandas_df 多语句 SQL 只返回最后一条结果？

pandas.io.sql.read_sql 调 psycopg2 cursor.execute 执行整段字符串，DBAPI 协议对多语句只暴露最后一个结果集的游标，前置 SELECT 结果被服务端立即丢弃，不报错也不警告。psql 能正常返回是因为 psql 前端会主动遍历所有结果集，DBAPI 游标不会。

怎么安全地按分号切分含注释和引号的 SQL？

逐字符扫描，仅在「非单引号内、非 -- 行注释内」的顶层分号处切分。单引号字面量用 SQL 标准 '' 转义；不要用 str.split(';')，会误切注释和字符串里的分号。如果用 sqlparse.split，注意 strip_comments=True 会丢掉注释原文。

CCLEE

独立开发者，24年电商行业实战经验，专注将AI能力落地于真实商业场景。

合作咨询

Docker Compose 服务重启后起不来？检查 restart 策略

2026年6月13日 · 阅读需 5 分钟

CCLEE

在 RAG 知识库项目中排查依赖 Milvus 的服务启动失败，以下是完整排查过程。

TL;DR

宿主机重启（或容器崩溃）后，一组服务没有自动恢复，应用端口无监听、docker ps -a 里容器全是 Exited。根因是 docker-compose.yml 没配 restart 策略（默认 no），容器挂了就永远躺着。解法：给所有生产服务加 restart: always，让基础设施在崩溃或重启后自愈。

Milvus collection 名 500 报错？UUID 含连字符违反命名规则

2026年6月13日 · 阅读需 5 分钟

CCLEE

在 RAG 知识库项目中调试多租户 collection 命名问题，以下是完整排查过程。

TL;DR

用 f"{tenant_id}_{collection}" 给 Milvus collection 拼名字，tenant_id 是 UUID，拼出来的名字以数字开头、还含连字符 -，直接违反 Milvus 命名规则抛 code=1100。规则一句话：首字符必须是字母或下划线，只能含 [a-zA-Z0-9_]，禁止连字符。UUID 不能直接拼接，要么用原始 collection 名，要么转换成合法标识符。

Python 任务全标 failed 却不报错？try/except 吞掉了异常

2026年6月13日 · 阅读需 5 分钟

CCLEE

在 RAG 知识库项目中排查文档同步任务全部标记 failed 的静默故障，以下是完整排查过程。

TL;DR

重构一个公共方法改了参数签名，但漏改了一个调用方。调用方按旧契约传参抛 TypeError，而这个调用被包在 try/except 里，异常被悄悄吞进 failed 计数——服务不崩溃、日志没有 ERROR，只有计数字段悄悄上涨。这类「静默故障」是最难查的 bug。两个解法：重构签名后 grep 所有调用方同步；except 块必须记日志或重抛，绝不静默吞掉。

Node.js AsyncLocalStorage 在回调里读不到值？EventEmitter 越界丢失上下文

2026年6月12日 · 阅读需 5 分钟

CCLEE

请求日志中间件在 res.on('finish') 回调里读 AsyncLocalStorage 的 traceId，getStore() 返回 undefined，每条响应日志的 traceId 都是空的。

在为客户开发电商数据采集工具时遇到此问题——服务端用 ALS 把每条请求的 traceId 贯穿整条处理链路，但响应日志死活关联不上，排查发现是「晚回调」丢了上下文。

TL;DR

res.on('finish') 这类 EventEmitter 回调，触发时已经脱离了注册它时的 async context，als.getStore() 自然拿不到请求的 store。最稳的解法是在同步段把值取到闭包变量，回调里直接用闭包值；需要完整 store 时则在回调内 als.run(store, fn) 重建上下文。

问题现象

一个看起来毫无问题的请求日志中间件：

// middleware/requestLog.js
import { als } from '../utils/als.js';

app.use((req, res, next) => {
  res.on('finish', () => {
    const store = als.getStore();
    logger.info({
      traceId: store?.traceId,  // 响应日志里这里永远是 undefined
      statusCode: res.statusCode,
    }, 'request');
  });
  next();
});

中间件顺序没问题，traceId 在请求处理链路里（路由、业务函数）都读得到，唯独 res.on('finish') 里读不到。更迷惑的是：把 als.getStore() 挪到 next() 之前的同步段，它就有值。

根因

AsyncLocalStorage 靠 Node 的 async_hooks 把 store 绑定到当前激活的 async context 上，顺着异步调用链往下传。als.run(store, fn) 的语义是：在 fn 执行期间（及其派生的异步任务里），getStore() 都能拿到这个 store。

问题出在 EventEmitter。res.on('finish', cb) 做的事是把 cb 注册成监听器，等响应发送完毕后由 EventEmitter 的事件循环触发。触发 cb 的那个 async context，是 EventEmitter 派发事件时所在的上下文——不是注册它时的请求上下文。而且响应发送通常发生在请求处理链路之后，请求对应的 als.run 作用域可能已经退出。

所以 cb 里 als.getStore() 拿到的是「当前激活上下文」的 store，而那个上下文根本不属于这次请求，结果就是 undefined（或更糟，串到别的上下文）。

凡是「注册时一个上下文、触发时另一个上下文」的回调都有这个坑：res.on('finish')、once、某些 setTimeout/setInterval、chrome.alarms 监听器等等。

解决方案

按场景给两个模式，按需选。

模式 A（推荐）：同步段闭包捕获

如果你的回调只需要 store 里的某几个值（最常见就是 traceId），最简单也最可靠——在同步段（store 一定存活的时刻）把值取出来存进闭包，回调里直接用闭包变量，彻底不依赖 ALS：

app.use((req, res, next) => {
  // 同步段：此时一定在 als.run 作用域内，getStore() 必有值
  const traceId = als.getStore()?.traceId;
  const start = Date.now();

  res.on('finish', () => {
    // 回调里用闭包里的 traceId，不再碰 ALS
    logger.info({
      traceId,                         // 稳定拿到
      statusCode: res.statusCode,
      durationMs: Date.now() - start,
    }, 'request');
  });

  next();
});

这一步把「异步上下文是否还活着」这个不确定性，换成了一个确定的闭包引用。回调何时触发都不影响——值已经在闭包里了。

模式 B：`als.run` 重建上下文

当回调里要调用一坨内部都依赖 getStore() 的代码（比如 logger 的 mixin、Sentry 的 scope 注入），逐个改成闭包不现实，就在回调入口重建上下文：

res.on('finish', () => {
  const traceId = capturedTraceId;       // 同步段捕获的值
  if (traceId) {
    // 在回调内重新建立 ALS 上下文，后续 record() 内部 getStore() 能正常拿到
    als.run({ traceId }, () => record(res, start));
  } else {
    record(res, start);
  }
});

als.run(store, fn) 会为 fn 建立一个新的、独立的 async context 并把 store 绑上去，fn 内部及它派生的异步调用都能读到。这比 als.enterWith 更安全——后者改写的是「当前共享上下文」，在并发场景下会串值，那是另一个坑，见 AsyncLocalStorage 并发读到错误的值？enterWith 改用 run 隔离上下文。

注意事项

判断某回调是否会丢上下文，看它是不是「注册和触发分离」。res.on('finish')、once、跨 tick 的 setTimeout 都要警惕；而 await、fetch().then() 这类顺着 async chain 走的则天然继承，不用处理。
模式 A 优先。它把问题降维成一个普通闭包，可读性最好，也不会引入「重建上下文」的隐式行为；只有回调内部有大量依赖 getStore() 的既有代码时，才上模式 B。
别用 als.enterWith 在回调里补救——它在并发下会改写共享父上下文导致串扰，是比「丢上下文」更难查的 bug。

常见问题

为什么 res.on('finish') 回调里读不到 AsyncLocalStorage 的值？

res.on('finish', cb) 把 cb 注册为 EventEmitter 监听器，响应发送完毕后才触发。触发时的 async context 是事件派发所在的上下文，不是注册它的请求上下文，请求的 als.run 作用域可能已退出，因此 getStore() 返回 undefined。

怎么让 EventEmitter 回调重新拿到 AsyncLocalStorage 上下文？

最简单的是在同步段把需要的值取到闭包变量，回调里直接用闭包值；如果回调内部有大量依赖 getStore() 的代码，则在回调入口用 als.run(store, fn) 重建上下文。前者优先，后者用于改造既有逻辑。

CCLEE

独立开发者，24年电商行业实战经验，专注将AI能力落地于真实商业场景。

合作咨询

Node.js AsyncLocalStorage 并发读到错误的值？enterWith 改用 run 隔离上下文

2026年6月12日 · 阅读需 6 分钟

CCLEE

BullMQ worker 设了 concurrency: 3，上线后发现并发的几个 job 日志和 Sentry 上报全串了——A 任务的错误堆栈挂在了 B 任务的 traceId 下，排查时对着错误的链路看了半天。

在构建 AI运营数据分析平台时遇到此问题——为电商运营智能分析市场趋势、用户行为与销售数据，后台用 BullMQ 并发跑分析任务，每个任务都靠 AsyncLocalStorage 打 traceId 做日志关联，并发一上来 traceId 就开始错乱。

TL;DR

als.enterWith(store) 改写的是当前激活的共享父上下文，并发任务在 await 交错时会互相覆盖，最后写的那个值「赢」，所有交错的任务都读到同一个错误的值。解法是改用 als.run(store, fn) 把整个处理器包起来——它为每次调用建立独立的新上下文，退出后自动恢复，并发再高也互不干扰。

问题现象

每个 job 进来时往 ALS 里塞自己的 traceId，处理器内部（含 await）读这个 traceId 打日志、上报 Sentry：

// worker.js —— 串扰写法
new Worker('analytics', (job) => {
  als.enterWith({ traceId: job.data.executionId }); // 进来就写
  return processJob(job); // 内部多处 await + logger.info({ traceId: als.getStore().traceId })
}, { concurrency: 3 });

单跑没问题，concurrency: 3 一开就出诡异现象：

# job A (executionId: aaa) 与 job B (executionId: bbb) 几乎同时进入
[worker] job A start   traceId=aaa
[worker] job B start   traceId=bbb
# A 内部 await 让出，B 调了 enterWith({bbb})，A 恢复后：
[worker] job A step2    traceId=bbb   ← 串到 B 了
[worker] job A error    traceId=bbb   ← Sentry 上报到 B 的链路下

不是偶发，是只要并发就稳定复现，而且 traceId 永远等于「最近一次 enterWith 写入的值」。

根因

关键在于 enterWith 改写的不是「这次调用专属」的上下文，而是当前激活的那个共享父上下文。

AsyncLocalStorage 的上下文是树状的：一个 async context 可以被多个子任务共享。als.enterWith(store) 的语义是「把 store 写到我当前所处的这个 context 上」。当 worker 用 concurrency: 3 时，三个 job 的处理器共享同一个父上下文（worker 循环的上下文），于是：

job A 调 enterWith({aaa}) → 共享上下文被写成 aaa；
job A await 让出执行权；
job B 调 enterWith({bbb}) → 同一个共享上下文被覆盖成 bbb；
job A 恢复，读 getStore() → 拿到的是 bbb。

这就是经典的「last-write-wins」串扰。await 点越多、并发越高，覆盖越频繁，错乱越严重。concurrency: 1 时看似正常，是因为根本没有交错——这也是它最坑的地方：开发时单线程调试永远发现不了。

Node 官方文档对此有明确告警：enterWith() 会产生预期外的副作用，推荐用 run() 替代。

解决方案

把 enterWith 换成 run，并且用 run 包裹整个处理器（而不是某一段）：

// worker.js —— 隔离写法
new Worker('analytics', (job) => {
  return als.run(
    { traceId: job.data.executionId },
    () => processJob(job), // 整个处理器都在独立上下文里跑
  );
}, { concurrency: 3 });

als.run(store, fn) 的语义是：新建一个独立的 async context，把 store 绑定到它上面，在 fn 执行期间（及其派生的所有异步任务里）getStore() 都能拿到这个 store，fn 返回后上下文自动恢复到调用前的状态。

因为每次调用 run 建立的都是全新的、这次调用专属的上下文，并发任务之间天然隔离——job A 的 context 里永远是 aaa，job B 的里永远是 bbb，无论怎么在 await 处交错都不会互相覆盖。

这个改动的收益是直接的：

每次调用独立快照：traceId 在进入 job 时绑定，整个处理链路（含所有 await、子函数、Sentry scope）读到的都是这个 job 自己的值；
退出自动恢复：job 结束后上下文归位，不会泄漏到下一个 job 或 worker 主循环；
并发安全：concurrency 调到多少都不影响，行为和单线程一致。

如果处理器是抽出来的函数（比如 processWorkflowJob、processAtomicJob），同样在 Worker 构造处包一层即可，不需要改处理器内部：

new Worker(queue, (job) => als.run({ traceId: job.data.id }, () => processWorkflowJob(job)), { concurrency });

注意事项

只要存在并发（worker concurrency > 1、HTTP 并发请求、Promise.all 批处理），就别用 enterWith。它是为「单线程顺序设置一次」设计的，并发下必然串扰。
run 要包住整个处理器，不是只包入口的同步段——否则处理器内部的 await 之后又回到共享上下文，等于没改。
concurrency: 1 会掩盖这个 bug。开发时务必用目标并发数压测，否则上线才暴露。
另一个 ALS 高频坑是回调里读不到值（上下文丢失），见 Node.js AsyncLocalStorage 在回调里读不到值？EventEmitter 越界丢失上下文。

常见问题

als.enterWith 和 als.run 有什么区别？

enterWith 把 store 写到当前激活的共享父上下文上，后续并发的异步任务会互相覆盖；run 则为回调新建一个独立的新上下文并绑定 store，回调结束后自动恢复到之前的状态，每次调用互不干扰。Node 官方推荐用 run 替代 enterWith。

为什么并发任务会读到错误的 traceId，串到别的请求？

并发任务在 await 处交错时，enterWith 写入的值会被最后一次调用覆盖，所有交错的任务读到的都是同一个错误的 traceId。改用 als.run 给每次调用建立独立上下文即可隔离，并发再高也不会串。

CCLEE

独立开发者，24年电商行业实战经验，专注将AI能力落地于真实商业场景。

合作咨询

Chrome 扩展 chrome.alarms 定时不准？MV3 生产环境最小周期约 1 分钟

2026年6月12日 · 阅读需 5 分钟

CCLEE

MV3 扩展用 chrome.alarms 设了 10 秒周期定时 flush 日志，上线后发现生产环境实际每分钟才触发一次，定时完全不准。

在为客户开发电商数据采集工具时遇到此问题——扩展的 background service worker 需要定期把累积的客户端日志批量上报服务端，本来想用 10 秒一次保证实时性，结果生产环境里最坏要等整整一分钟。

TL;DR

MV3 的 service worker 会休眠，定时任务只能用 chrome.alarms（setInterval 不可靠）；而 Chrome 对 chrome.alarms 在生产环境强制了约 1 分钟的最小周期，periodInMinutes < 1 会被悄悄提升到 1。解法是把 1 分钟当兜底，再靠「buffer 攒满即时触发」补上高频时段的延迟。

问题现象

日志上报 relay 这样写，期望每 10 秒 flush 一次：

// background.js (MV3 service worker)
chrome.alarms.create('log-flush', { periodInMinutes: 0.16 }); // 想要 ~10s

chrome.alarms.onAlarm.addListener((alarm) => {
  if (alarm.name === 'log-flush') {
    flushLogs();
  }
});

本地开发（unpacked）跑起来好像没问题，打包发布到商店后实测：监听器每分钟才触发一次，periodInMinutes: 0.16 被 Chrome 无视了。没有任何报错，就是定时被拉长。

根因

两层原因叠在一起。

第一层：MV3 下 setInterval 不可用。 Manifest V3 的 background 是 service worker，Chrome 会在它空闲约 30 秒后挂起以省电。挂起后 setInterval 直接停止，醒来也不会补跑错过的那几轮。所以任何「即使页面/扩展空闲也要执行」的定时任务，必须用 chrome.alarms——它是 Chrome 原生的、能唤醒 service worker 的调度机制。

第二层：chrome.alarms 有最小周期下限。 出于性能和续航考虑，Chrome 长期对 alarms 强制约 1 分钟的最小周期：periodInMinutes < 1 会被钳制到 1。开发环境（unpacked / Dev channel）放得更宽，能跑出更短的周期，于是本地测试通过；但打包成正式版发布后，Chrome 会把它对齐回 1 分钟。这就是「本地正常、线上拉长」的根源。

两个约束合起来：你不得不用 chrome.alarms，又不能指望它短于 1 分钟。

解决方案

既然 1 分钟是硬下限，就把它当「最坏情况兜底」，再用事件驱动的即时触发补足实时性——双保险：

// 1. 兜底定时：1 分钟一次，保证 service worker 挂起也能被唤醒 flush
const FLUSH_THRESHOLD = 50;
chrome.alarms.create('log-flush', { periodInMinutes: 1 }); // 不再挣扎于 < 1

chrome.alarms.onAlarm.addListener((alarm) => {
  if (alarm.name === 'log-flush') {
    flushLogs().catch(() => {});
  }
});

// 2. 即时触发：日志进 buffer 时检查，攒满阈值就立刻 flush，不等闹钟
messageBus.on('log', (entry) => {
  pushBuffer([entry]);
  if (memBuffer.length >= FLUSH_THRESHOLD) {
    flushLogs().catch(() => {}); // 高频时段几秒内就能凑满触发
  }
});

这个组合把两个约束都吃下了：

1 分钟兜底解决「service worker 挂起后定时还在不在」——chrome.alarms 会按时唤醒 worker 执行，最坏延迟被锁在 1 分钟内，日志不会因为扩展空闲而无限积压；
buffer 满即时触发解决「高频时段要不要等满一分钟」——只要短时间内累积达到阈值，就绕过闹钟立刻 flush，低频靠闹钟、高频靠事件，两端都不卡。

迁移代价极小：把原本指望「10 秒一次」的地方，改成「buffer 满 50 条或 1 分钟，谁先到谁触发」。日志这类本就批量友好的场景几乎零成本；对延迟敏感的单条任务，则该重新设计成事件驱动而非轮询。

注意事项

别用 setInterval 给 MV3 service worker 做关键定时——它随 worker 挂起而停止，醒来不补跑，是最隐蔽的「线上偶发丢任务」来源。chrome.alarms 是 MV3 唯一可靠的持久调度。
periodInMinutes 在生产环境按 1 分钟算账。开发环境能更短会骗过你，务必用打包后的产物在真实环境复测周期，不要只信 dev 模式。
如果业务确实需要「恰好 N 秒」的精度（比如精确倒计时），alarms 给不了——它是「不早于 1 分钟」的粗粒度调度，可能被 Chrome 进一步延迟。这种情况应改为在活跃页面里用 setInterval，worker 只做兜底。
service worker 另一个高频坑是登录态读不到，见 Chrome 扩展 Service Worker 读不到登录态？跨上下文 Token 同步方案。

常见问题

为什么 chrome.alarms 设置的周期不生效，被拉长到 1 分钟？

Chrome 出于性能和续航考虑，对 alarms 强制约 1 分钟的最小周期，periodInMinutes 小于 1 会被钳制到 1。开发环境（unpacked）通常放得更宽能跑更短，但发布到商店的正式版会被对齐回 1 分钟，所以本地测正常、线上被拉长。

MV3 service worker 里能用 setInterval 做定时任务吗？

不可靠。MV3 的 service worker 空闲约 30 秒就会被 Chrome 挂起，setInterval 随之停止，醒来也不会补跑错过的轮次。需要持久定时必须用 chrome.alarms（它能唤醒 worker），或把状态持久化到 chrome.storage、worker 唤醒时按时间差补做。

CCLEE

独立开发者，24年电商行业实战经验，专注将AI能力落地于真实商业场景。

合作咨询

Node.js require nanoid 报 ERR_REQUIRE_ESM？v5 改纯 ESM 的替代方案

2026年6月12日 · 阅读需 5 分钟

CCLEE

在 CommonJS 项目里 require('nanoid') 生成唯一 ID，进程一启动就抛 ERR_REQUIRE_ESM 直接退出。

在为客户开发电商数据采集工具时遇到此问题——浏览器端实时抓取商品图片、SKU、价格与评价数据，清洗后导出结构化文件，服务端需要为每条请求生成稳定的 traceId 做跨服务日志关联。

TL;DR

nanoid 从 v5 起改为纯 ESM 包，CommonJS 的 require() 无法加载它，必然抛 ERR_REQUIRE_ESM。如果你的项目还是 CJS，最省事的替代是 Node 内置的 crypto.randomUUID()——零依赖、CJS/ESM 通吃、生成的就是标准 UUID。

问题现象

CJS 项目里一行最普通的引入：

// server.js（CommonJS）
const { nanoid } = require('nanoid');

const traceId = nanoid();

启动即崩，堆栈指向 nanoid 的入口文件：

node server.js

internal/modules/cjs/loader.js:905
Error [ERR_REQUIRE_ESM]: require() of ES Module
/node_modules/nanoid/index.js from server.js not supported.

Instead change the require of index.js in server.js to a CommonJS module,
or use a dynamic import() call.

注意它不是「偶尔报错」或「某些环境下报错」，而是确定性崩溃——只要进了 v5，CJS 这条路就走不通。

根因

nanoid 在 v5 完成了 ESM-only 迁移：包的 package.json 不再带 CommonJS 入口，只导出 ESM。Node 的 CommonJS 加载器 require() 是同步的，无法同步加载一个 ESM 模块，于是直接抛 ERR_REQUIRE_ESM。

这不是 nanoid 的 bug，而是整个生态的模块格式演进：越来越多的包选择只发 ESM（got v12+、node-fetch v3、uuid v7+ 等都一样）。只要你的宿主项目是 CommonJS，遇到这类包就会撞同一堵墙。

如果你还撞过动态 import() 找不到模块，本质也是 ESM 解析规则的问题，可以看 Node.js ESM 动态 import 报模块找不到？检查文件扩展名。

解决方案

按「改造代价从低到高」给三个方案，按需选。

方案 1（推荐）：用 `crypto.randomUUID()`

生成唯一 ID 的场景下，nanoid 的核心价值就是「短且唯一」。但只要这个 ID 不需要拼进 URL、不需要极致缩短，标准 UUID 完全够用，而且 Node 14.17+ 内置、零依赖：

// CommonJS 与 ESM 都能直接用
const { randomUUID } = require('node:crypto');

const traceId = randomUUID();
// => '1b9d6bcd-bbfd-4b2d-9b5d-ab8dfbbd4bed'

这一步同时解决了三个问题：

依赖归零：不再引入第三方包，也就不再被它的模块格式绑架；
格式对齐：UUID 是跨语言、跨服务的通用格式，做日志关联、数据库主键都顺手；
CJS/ESM 通吃：node:crypto 是 Node 内置模块，两种模块系统下行为一致。

唯一要权衡的是长度——UUID 36 字符，比 nanoid() 默认的 21 字符长。对 traceId、主键这类场景，长度几乎不构成成本；如果是要拼进短链，才需要继续往下看。

方案 2：锁定 nanoid v3

nanoid 的 v3.x 是最后一个兼容 CommonJS 的大版本，require 直接可用：

// package.json —— 显式钉死 v3
{
  "dependencies": {
    "nanoid": "^3.3.7"
  }
}

const { nanoid } = require('nanoid');
const id = nanoid(); // 21 字符短 ID

适合「就是想要短 ID、又暂时无法把项目迁到 ESM」的情况。代价是停留在旧版，拿不到 v5 的后续更新。

方案 3：异步动态 import

如果你必须用 v5，只能走 ESM 的异步加载：

// CommonJS 里用动态 import() 加载 ESM 包
async function makeId() {
  const { nanoid } = await import('nanoid');
  return nanoid();
}

// 调用处本身得是 async
const id = await makeId();

能用，但 nanoid 是同步生成 ID 的工具，被迫包一层 async/await 会把调用链一路传染成异步，通常不值得。

注意事项

同一个坑不只 nanoid 一个：uuid v7+、node-fetch v3、got v12+ 都是 ESM-only，CJS 项目里 require 它们会报一模一样的 ERR_REQUIRE_ESM。判断方法是看目标包的 package.json 有没有 "type": "module" 或是否只导出 "import" 入口。
crypto.randomUUID() 需要 Node 14.17+；如果你的运行时更老，可以用 crypto.randomBytes(16).toString('hex') 自行拼装。
别用 require('nanoid') 的同时又在 ESM 项目里 import nanoid——混用会让依赖树里同时存在新旧两份，行为更难预测。

常见问题

为什么 Node.js 中 require('nanoid') 报 ERR_REQUIRE_ESM？

因为 nanoid 从 v5 起只发布 ESM 产物，而 Node 的 CommonJS require() 是同步加载，无法加载 ESM 模块，加载到 nanoid 入口时直接抛 ERR_REQUIRE_ESM。这是 CJS/ESM 模块系统的硬性边界，不是配置问题。

nanoid v5 还能在 CommonJS 项目里使用吗？

可以，但要么用 await import('nanoid') 异步加载（注意整条调用链会变 async），要么把版本锁定在仍兼容 CJS 的 v3.x。如果只是要一个唯一 ID，直接用 Node 内置的 crypto.randomUUID() 最省事，零依赖且两种模块系统都支持。

CCLEE

独立开发者，24年电商行业实战经验，专注将AI能力落地于真实商业场景。

合作咨询

WordPress REST API 上传图片返回 405？检查你的 Hostinger CDN

2026年5月26日 · 阅读需 4 分钟

CCLEE

在为客户构建 WooCommerce 产品导入工具时，调用 /wp-json/wp/v2/media 上传图片，前几张成功后突然全部返回 405 Not Allowed。

TL;DR

Hostinger CDN（hcdn）默认拦截了 POST /wp-json/wp/v2/media 请求。响应头 server: hcdn + x-hcdn-request-id 是关键证据。关闭 CDN 或联系 Hostinger 客服放行 /wp-json/* POST 请求即可解决。

问题现象

通过 WP REST API 批量上传图片到 WordPress Media Library：

curl -X POST 'https://example.com/wp-json/wp/v2/media' \
  -u 'user:app_password' \
  -H 'Content-Disposition: attachment; filename="product-01.jpg"' \
  -H 'Content-Type: image/jpeg' \
  --data-binary @image.jpg

前 2-4 张图片返回 201 Created，之后的请求全部返回：

<html>
<head><title>405 Not Allowed</title></head>
<body>
<center><h1>405 Not Allowed</h1></center>
<hr><center>nginx</center>
</body>
</html>

"部分成功"这个现象容易误导判断——看起来像是频率限制（Rate Limiting），但实际原因完全不同。

根因

用 curl -v 查看完整的 response header：

< HTTP/2 405
< server: hcdn
< x-hcdn-request-id: cfc5ad1198938cd9f1e02ce71ed0ae61-kul-edge1

关键信息：

server: hcdn — 这是 Hostinger 自研 CDN（hcdn），不是源站 nginx
x-hcdn-request-id — CDN 边缘节点 ID（kul-edge1 = 吉隆坡），说明请求在 CDN 层就被拦截了，根本没有到达 WordPress

Hostinger CDN 默认安全规则拦截了 /wp-json/wp/v2/media 的 POST 方法。前几张成功可能是因为 CDN 规则存在短暂的冷启动窗口或缓存未命中。

解决方案

方案 1：关闭 CDN（快速验证）

在 Hostinger hPanel → Website → CDN → 关闭 CDN。

关闭后立即生效，但会失去 CDN 加速能力。适合 staging 环境或紧急修复。

方案 2：联系 Hostinger 客服放行 API 路径（推荐）

提交工单要求放行 /wp-json/* 的 POST 请求。Hostinger Manage 页面目前不提供自定义 CDN 规则选项，必须通过客服操作。

方案 3：代码层增加重试与延迟（防御性措施）

即使 CDN 配置正确，加入重试逻辑也能应对偶发的 CDN 限流：

import time
import random

def upload_image(url, image_bytes, filename, auth, max_retries=3):
    for attempt in range(max_retries):
        resp = httpx.post(
            url,
            content=image_bytes,
            headers={
                "Content-Disposition": f'attachment; filename="{filename}"',
                "Content-Type": "image/jpeg",
            },
            auth=auth,
            timeout=30,
        )
        if resp.status_code != 405:
            return resp
        delay = 3 * (attempt + 1) + random.uniform(0, 2)
        time.sleep(delay)
    resp.raise_for_status()

排查过程回顾

这个问题绕了不少弯路，记录排查路径供参考：

排查方向	操作	结果
WP 插件拦截	停用 Speed Optimizer / Auto Upload Images	仍 405，排除
请求频率限制	图片间加 2-5s 延迟 + 重试	仍 405，排除
REST API 禁用	GET `/wp-json/wp/v2/settings`	正常返回，排除
凭证错误	WC Test Connection	成功，排除
CDN 拦截	curl -v 查看 response header	`server: hcdn` 确认 CDN 拦截

关键转折点是用 curl -v 看到了 server: hcdn，才知道请求根本没到达 WordPress 层。

注意事项

关闭 CDN 后 DNS 缓存可能需要几分钟刷新，不要立刻重试
如果你的站点在 Hostinger 且使用 REST API 做批量操作，上线前务必测试 CDN 是否会拦截
WooCommerce 的 WC API (/wc/v3/products) 走的是不同的认证机制（Consumer Key），通常不受此影响；受影响的主要是 WP REST API (/wp-json/wp/v2/*) 的写操作

常见问题

WordPress REST API 上传图片返回 405 Not Allowed 怎么办？

先检查 response header 中的 server 字段。如果值为 hcdn（Hostinger CDN）或其他 CDN 标识，说明请求被 CDN 拦截，未到达 WordPress。关闭 CDN 或联系服务商放行即可。

如何判断 405 是 CDN 拦截还是 WordPress 返回的？

用 curl -v 查看 response header：server 值为 hcdn、cloudflare 等 CDN 标识说明是 CDN 层拦截；server 值为 nginx/apache 且包含 X-WP-* 或 X-RateLimit-* 头说明请求已到达 WordPress。

在为 LightCT 构建 WooCommerce 产品导入工具时遇到此问题。如果你也在用 Hostinger 做 WordPress 开发，遇到类似的 REST API 问题，欢迎联系交流。

CCLEE

独立开发者，24年电商行业实战经验，专注将AI能力落地于真实商业场景。

合作咨询

修改 WordPress Block Theme 不生效？FSE 开发 5 大难题排查指南

2026年4月17日 · 阅读需 8 分钟

CCLEE

在为客户开发 WordPress Block Theme 时反复遇到这五个问题，每次排查都花了不少时间。整理成指南，帮助同样在做 FSE 开发的同学快速定位。

TL;DR

五个问题按频率排序：文件修改不生效（数据库缓存覆盖文件）、块嵌套错乱（注释未关闭）、子主题内容不渲染（缺少 post-content 块）、SVG 图标消失（WP_Filesystem 被插件污染）、WP-CLI 邮件失败（SMTP 插件在命令行不生效）。每个场景都给出可直接复用的排查命令。

TL;DR​

问题现象​

复现实验​

根因​

解决方案​

方案 A（推荐）：按顶层分号切分后逐条执行​

方案 B：直接传 list 给 DbApiHook​

为什么不用 sqlparse.split？​

注意事项​

注意事项

常见问题​

Airflow PostgresHook 怎么执行多条 SQL 语句？​

为什么 get_pandas_df 多语句 SQL 只返回最后一条结果？​

怎么安全地按分号切分含注释和引号的 SQL？​

TL;DR​

TL;DR​

TL;DR​

TL;DR​

问题现象​

根因​

解决方案​

模式 A（推荐）：同步段闭包捕获​

模式 B：als.run 重建上下文​

注意事项

常见问题​

为什么 res.on('finish') 回调里读不到 AsyncLocalStorage 的值？​

怎么让 EventEmitter 回调重新拿到 AsyncLocalStorage 上下文？​

TL;DR​

问题现象​

根因​

解决方案​

注意事项

常见问题​

als.enterWith 和 als.run 有什么区别？​

为什么并发任务会读到错误的 traceId，串到别的请求？​

TL;DR​

问题现象​

根因​

解决方案​

注意事项

常见问题​

为什么 chrome.alarms 设置的周期不生效，被拉长到 1 分钟？​

MV3 service worker 里能用 setInterval 做定时任务吗？​

TL;DR​

问题现象​

根因​

解决方案​

方案 1（推荐）：用 crypto.randomUUID()​

方案 2：锁定 nanoid v3​

方案 3：异步动态 import​

注意事项

常见问题​

为什么 Node.js 中 require('nanoid') 报 ERR_REQUIRE_ESM？​

nanoid v5 还能在 CommonJS 项目里使用吗？​

TL;DR​

问题现象​

根因​

解决方案​

方案 1：关闭 CDN（快速验证）​

方案 2：联系 Hostinger 客服放行 API 路径（推荐）​

方案 3：代码层增加重试与延迟（防御性措施）​

排查过程回顾​

注意事项

常见问题​

WordPress REST API 上传图片返回 405 Not Allowed 怎么办？​

如何判断 405 是 CDN 拦截还是 WordPress 返回的？​

TL;DR​

TL;DR

问题现象

复现实验

根因

解决方案

方案 A（推荐）：按顶层分号切分后逐条执行

方案 B：直接传 list 给 DbApiHook

为什么不用 `sqlparse.split`？

注意事项

常见问题

Airflow PostgresHook 怎么执行多条 SQL 语句？

为什么 get_pandas_df 多语句 SQL 只返回最后一条结果？

怎么安全地按分号切分含注释和引号的 SQL？

TL;DR

TL;DR

TL;DR

TL;DR

问题现象

根因

解决方案

模式 A（推荐）：同步段闭包捕获

模式 B：`als.run` 重建上下文

常见问题

为什么 res.on('finish') 回调里读不到 AsyncLocalStorage 的值？

怎么让 EventEmitter 回调重新拿到 AsyncLocalStorage 上下文？

TL;DR

问题现象

根因

解决方案

常见问题

als.enterWith 和 als.run 有什么区别？

为什么并发任务会读到错误的 traceId，串到别的请求？

TL;DR

问题现象

根因

解决方案

常见问题

为什么 chrome.alarms 设置的周期不生效，被拉长到 1 分钟？

MV3 service worker 里能用 setInterval 做定时任务吗？

TL;DR

问题现象

根因

解决方案

方案 1（推荐）：用 `crypto.randomUUID()`

方案 2：锁定 nanoid v3

方案 3：异步动态 import

常见问题

为什么 Node.js 中 require('nanoid') 报 ERR_REQUIRE_ESM？

nanoid v5 还能在 CommonJS 项目里使用吗？

TL;DR

问题现象

根因

解决方案

方案 1：关闭 CDN（快速验证）

方案 2：联系 Hostinger 客服放行 API 路径（推荐）

方案 3：代码层增加重试与延迟（防御性措施）

排查过程回顾

常见问题

WordPress REST API 上传图片返回 405 Not Allowed 怎么办？

如何判断 405 是 CDN 拦截还是 WordPress 返回的？

TL;DR