1. 读文笔记:Photon - Fault-tolerant and Scalable Joining of Continuous Data Streams

    2019-10-10 Thu
    By xiayf

    原文:Photon: Fault-tolerant and Scalable Joining of Continuous Data Streams

    Photon 是谷歌广告系统中用于 join 广告曝光日志流和点击日志流的一套系统。

    数据流 join 为什么没用 flink 这类通用的流式处理框架?

    数据流 join,特别是广告数据流 join,技术上难在哪里?

    任一条流都可能乱序或延迟,广告点击涉及计费的问题,计费不能多算广告主的钱,也要尽可能避免漏计费,降低广告收入损失。


    该系统在谷歌生产环境中每分钟处理百万级的事件,端到端延迟小于 10 秒(注:对于广告实时竞价的广告主而言,这个延迟的长短很重要)。

    广告曝光、点击整体流程为:

    1. 用户搜索某个关键词时,谷歌的服务器会返回广告和搜索结果。广告服务器会将广告 query 和结果数据作为日志发送到多个日志数据中心(multiple logs-datacenters),最终持久化存储在 GFS 上。每次 query …
    标签: 论文 笔记
  2. 读文笔记:日志 - 每个软件工程师都应该了解的实时数据统一抽象

    2019-10-10 Thu
    By xiayf

    原文:The Log: What every software engineer should know about real-time data's unifying abstraction

    一句话概括,这篇文章细说了 Kafka 的本质原理、解决的问题、适用性等。

    Kafka 本质上是提供日志数据流。

    日志是客观世界的事件记录。

    A log is perhaps the simplest possible storage abstraction. It is an append-only, totally-ordered sequence of records ordered by time.

    日志数据的特点是:只增不改,自带时间戳,数据存储的先后顺序即(大致)是实际发生的时间先后顺序。

    数据库可以基于日志来还原历史操作行为 …

    标签: 论文 笔记

Page 1 / 1