小编典典

Stackexchange.Redis中的流水线与批处理

redis

我试图在尽可能短的时间内插入大量(-ish)元素,并且尝试了以下两种选择:

1)流水线:

List<Task> addTasks = new List<Task>();
for (int i = 0; i < table.Rows.Count; i++)
{
    DataRow row = table.Rows[i];
    Task<bool> addAsync = redisDB.SetAddAsync(string.Format(keyFormat, row.Field<int>("Id")), row.Field<int>("Value"));
    addTasks.Add(addAsync);
}
Task[] tasks = addTasks.ToArray();
Task.WaitAll(tasks);

2)批处理:

List<Task> addTasks = new List<Task>();
IBatch batch = redisDB.CreateBatch();
for (int i = 0; i < table.Rows.Count; i++)
{
    DataRow row = table.Rows[i];
    Task<bool> addAsync = batch.SetAddAsync(string.Format(keyFormat, row.Field<int>("Id")), row.Field<int>("Value"));
    addTasks.Add(addAsync);
}
batch.Execute();
Task[] tasks = addTasks.ToArray();
Task.WaitAll(tasks);

我没有注意到任何明显的时差(实际上,我希望批处理方法会更快):对于大约250K的插入,流水处理大约需要7秒,而批处理大约需要8秒。

阅读有关流水线的文档,

“使用流水线使我们能够立即将两个请求都发送到网络上,从而消除了大部分延迟。此外,它还有助于减少数据包碎片:单独发送20个请求(等待每个响应)将至少需要20个数据包,但发送了20个请求管道中的数据包可以容纳更少的数据包(甚至可能只有一个)。”

对我来说,这听起来很像批处理行为。我想知道两者之间是否有很大的不同,因为通过简单检查,procmon我发现TCP Send两个版本的s
数量几乎相同。


阅读 594

收藏
2020-06-20

共1个答案

小编典典

在后台,SE.Redis做了很多工作来避免数据包碎片,因此在您的情况下它非常相似也就不足为奇了。批处理和扁平管道之间的主要区别是:

  • 批将永远不会与同一多路复用器上的竞争操作交错(尽管它可以在服务器上交错;为避免需要使用multi/ exec事务或Lua脚本)
  • 批次将始终避免出现数据包过小的机会,因为它可以提前知道所有数据
  • 但是同时,必须先完成整个批处理,然后才能发送任何内容,因此这需要更多的内存缓冲,并且可能人为地引入延迟

在大多数情况下,通过避免批处理,您会做得更好,因为SE.Redis 只需添加工作即可 自动完成 大部分工作。

最后一点;如果要避免局部开销,一种最后的方法可能是:

redisDB.SetAdd(string.Format(keyFormat, row.Field<int>("Id")),
    row.Field<int>("Value"), flags: CommandFlags.FireAndForget);

这将一切发送出去,既不等待响应也不分配不完整的Tasks来表示将来的值。你可能想要做的事就像Ping在年底 没有
发射后不管,检查服务器仍然跟你说话。请注意,使用即发即弃确实意味着您不会注意到任何报告的服务器错误。

2020-06-20