Chenlong's blog

20206年工作随想_保持生活的热爱

2026-03-15T05:08:38.000Z

算上提前实习已经在职场中工作一年了，发现走出象牙塔自己的目标已经迷失，没有考试的指引、没有”封号斗罗“的目标，逐渐丧失对自己的生活的热爱，以至于最近反复出现失眠、焦虑、刷短视频的过程，本质上是失去了对于生命的感受。

但是唯有热爱才能让自己自发的愿意去做事情，才能寻找到时间答案，我的人生感悟包括：

一切都没有标准答案，只取决于”你想活出什么样的人生“
工作中的追求可以是多样性的
自驱力来源于热爱
平衡「自我/能力」是维持前进的动力
正确答案来源于自己

走出象牙塔的一年：当人生失去了“进度条”，我们该如何寻找意义？

从走出校园校门到入职职场，算上实习的时间，转眼已是一年。

这一年里，我完成了从学生到职场人的切换，在工作路径上也算小步快跑，但是我发现自己陷入了一种前所未有的“算法失效”：深夜失眠、清晨焦虑、无意识地刷短视频直到大脑麻木……这种状态的本质，其实是失去了对于生命的感受。 当生活不再有标准的教学大纲，当KPI无法填补内心的虚无，我们该如何锚定自己的坐标？

1. 唯一没有“标准答案”的考场

在学校时，标准答案是唯一的。但在真实的社会系统中，一切都没有标准答案。

我们习惯了被动接受指标，却忘了人生本质上是一场开放世界游戏。萨特（Jean-Paul Sartre）曾说：“存在先于本质”，这意味着人并没有预设的说明书，我们是通过每一个选择来定义自己的。

答案不来自外部，而来自自身。 焦虑的根源往往是我们试图用“社会公认的正确”去套用极其个性化的人生。当你不再寻找那个“唯一的优解”，而是问自己“你想活出什么样的人生”时，这种内生的坐标才会让心安稳下来。

2. 承认职业追求的多样性：没有高下，只有适配

我们常有一种错觉，认为职场成功只有一种线性路径。事实上，工作中的追求可以是极其多样性的：

追求成长： 将公司视为实验室，享受见识不同业务边界、死磕底层逻辑的认知升级感。
追求金钱： 这并不可耻，将工作时长最大价值化，为生活提供坚实的底座，追求资产的复利。
追求挑战： 不拘泥于安稳，热衷于在不确定性中寻找最优解，享受解决难题的瞬间。

承认这种多样性是自我和解的第一步。当你认清了自己当下的优先级，那种“别人在内卷，我却在焦虑”的无意义内耗就会大幅降低。

3. 自驱力：从“被动受控”到“主动热爱”

为什么刷短视频会感到空虚？因为那是一种“被动的信息喂养”，它并不产生能量。

心理学中的自决理论（Self-Determination Theory）告诉我们，真正的自驱力来源于内部动机。唯有热爱，才能让人自发地产生那种不计成本、不问结果的投入感。 这种热爱是内生性的能量，它能帮你寻找到“时间的答案”——即在冗长且重复的日常中，哪些时刻让你觉得“活得真实”。

没有热爱的驱动，自驱力就像无米之谈，最终只会沦为被DDL（截止日期）鞭策的被动执行。

4. 长期价值：不畏浮云遮望眼

在数据科学的世界里，我们深知“局部最优解”往往不是“全局最优解”。职场初期的焦虑，往往来自于过分关注即时的反馈和短期的波动。

“不畏浮云遮望眼，自缘身在最高层。”

这里的“最高层”不是职级的高低，而是认知维度的跨越。追求长期价值意味着要有对抗短视的定力。当你把视野拉长到五年、十年，当下那点因为项目变动或节奏失调带来的焦虑，不过是时间序列中的一个微小噪点。

5. 平衡「自我/能力」：寻找心流的动态锚点

焦虑往往发生两个极端：一是挑战远超能力，产生恐惧；二是能力远超挑战，产生倦怠。

平衡「自我/能力」是维持前进的动力。 最近的迷茫，或许是因为我们正处于一个“能力平台期”或者是“目标断档期”。找回状态的方法不是彻底躺平，而是重新寻找一个能让自己进入微挑战状态的锚点。

在工作之外，无论是捕捉光影的瞬间，还是研究投资的逻辑，抑或是在代码之外构建生活的小确幸，都是在能力边界内寻找“心流”的过程。

结语

职场第一年，我最大的感悟是：在这个充满了确定性指标的世界里，最不该被指标化的就是“对生活的热爱”。

不要怕迷失，迷失本身就是寻找坐标的开始。既然没有了“考试指引”，那就让我们自己来编写那本属于自己的、唯一的参考书。

终点并不重要，重要的是你感受到了呼吸、光影，以及那个正在思考的、真实的自己。

2025 年终内容推荐

2026-01-03T10:23:15.000Z

本文不包括任何AI生成的内容

🎉 最惊喜的产品

Google NotebookLM，是一款Google推出的基于Gemini的笔记本，可以自定义上传文件、配合在线Deep research、网页和YouTube视频等作为资源，利用AI能力输出博客、演示文稿、闪卡（Anki er 福音！）、思维导图等。适用于论文阅读、网页总结等场景，令人震惊的AI能力之精美和Google整合的资源。
**Apple Fitness+**，在Apple one中的提供运动建议的一款软件，其功能包括选择不同类型的运动（冥想、瑜伽、Hit等），同时可以配合Apple watch提供实时监测，并将数据传递到健康中，除此之外并无广告并其他打扰。相比国内的华为健康、Keep软件塞满广告的营销手段，Apple凭借其垄断的地位给出最优雅简洁的解法。
Kindle oasis3 - 香槟金 - 2019款，之前使用的电纸书是掌阅的smart xs pro - 2021 - 7.8inch，但是总感觉文字渲染有点糊，由于KPW握持手感不佳，因此选择了oasis的最后一代。到手后发现虽然其反应速度、显示屏硬件参数落后，但是其做工极其精致、字体渲染超过掌阅半级，非常值得收藏。可惜的是只能通过网页使用微信读书，非常耗电。

💻 好用的软件

Google NotebookLM、Apple Fitness+ 见上
Apple Notes，兜兜转转 Flomo、Logseq、obsidian、feishu、Notion、Craft等等，最终还是回到最原始的记录方式来管理自己的所思所想，今年达成了「52周全部写完了周记」的成就，希望明年仍然可以坚持。
Raycast，由于有 Mega support，一直舍不得放弃Alfred，但是由于受不了其简陋的界面和复杂的操作逻辑，转向了免费的 Raycast ，其AI功能、插件非常完善，同时订阅了Pro功能来支持跨设备同步，让我意识到每个人的配置是这款软件对自己最大的价值。

🧰 好用的硬件

Kindle oasis3 - 香槟金 - 32G - 2019，见上
AirPods Pro3，在摩尔定律逐渐失效的现在，已经很少有硬件可以实现功能上的代际提升，在从Pro2转换到Pro3中，可以毫不夸张的说降噪能力提升了两倍，完全遮盖了旁边拆迁的声音。
Macbook Pro M1 - 2020，这完全是反性能的例子，在有MBP和14600K作为主机，自己的 Mac 性能不再是首要选择参数，淘了一台2020的楔形设计的M1的MBP，包含有Touch bar，堪称是艺术品的巅峰。

🎮 好玩的游戏

蕉力全开 - NS2，Donkey King用自己的拳头可以咋开一切碎石，真的是太爽了，没有复杂的技能树，看到阻碍砸掉就行了。
潜水员戴夫 - Steam，非常解压的游戏，海底的探索就想自己的欲望，常常在往获取更多资源 –> 潜水更深处 –> 氧气耗尽 – > 潜水技巧提升 –> 探望更深处的循环中追求捕猎的快乐，同时害怕氧气耗尽的惩罚。
王国之泪 NS2版本，优秀的机能才能配得上这款游戏，相比switch1版本的画面质量和加载速度真的是好太多，唯一的缺点是其中有很多令人恶心的大花，有点恐怖。
金铲铲 - 巨龙之巢 - IOS，优秀的机制，同时也是三年前赛季的回忆。

📺 好看的剧集

人生切割术 - Apple TV，脑洞非常大的一部剧，以生活和工作分离，讲述了「工作的自己」和「生活的自己」如何突破自己的记忆，直到接受并完成自己奴役自己的过程，初识不知曲中意，再识已是曲中人。
同乐者 - Apple TV，仍然脑洞非常大的一部剧，“病毒”（或者是社交媒体、或者新时代的共识）让每个人变得意识连接在一起、期望所有的人都变得“快乐”，那么正确便无从谈起，不禁让人反思复杂的信息流、推荐系统、互联网所构建的连接关系是否将自我的生活附依在集体的定义之下，无法评价那种方式是更好的，但是希望每个人可以拥有选择和退出的权利。
老友记 - B站，永远可以提供开心的一部剧。

📖 好看的书

《被讨厌的勇气》，成长的过程便是自己和自己的对抗的克服。
《平面国》，抽象但是深刻，幸好暂时没有遇到。
《微小的总和》，远离消费主义。

🎵 好听的歌曲

《孙燕姿 - 开始懂了》，歌词真的太棒了，从喜欢《我怀念的》算起已经是8年孙燕姿的粉丝，虽然前6年都以为是林俊杰的歌。
《陶喆 - 就是爱你》，永远爱R&B！
《汪苏泷 - 晴》，这该死的宿命感。

📍好玩的地方

广州 - 顺德 - 蒸四味，非常地道的蒸鲮鱼，完整的鱼上桌太棒了。
香港 - 天星小轮 - 港口，因为今年在广州的缘故，就近去了五次香港，最喜欢的还是坐在港口前吹着风，看着清澈的海水，空闲的时间总是很快的溜走了。
三亚 - 沙滩，躺平在沙滩上可以治愈一切。
广西 - 桂林 - 桂海晴岚，大草坪+ 喀斯特地貌有一瞬间觉得进入的旷野之息之中，原来我喜欢的并不只是游戏，而是自由呼吸的自由。

⏰ 最难忘的时刻

2025年1月TRB会议，第一次参加学术会议感受了纽约的烟草味，也感受到自己历年摸索的共鸣，知道在世界上的另一个遥远角落里也有一批人在研究相同的问题，产生了莫名的连接。
2025年5月研究生毕业，从大四进组开始，经历了“磨砺”人的 xx 项目直到完成毕业论文，没想到自己的学生生涯会结束的如此急促，远程的完成了所有的准备工作，匆匆忙忙的完成中期答辩、初稿、终稿、PPT制作，在唯唯诺诺中完成了答辩，终于毕业了！
2025年6月征服峨眉山，作为毕业旅行的最后一场，用了9个小时爬升17.35公里穿过了阎王坡、钻天坡，突破了自己的极限，永远忘不了一起走过的傻狗，也完整的和自己的学生生涯做了最后的告别。

2026年就这么来了，期待生活和工作中会有新的惊喜发生，希望今年会有月球移民，毕竟现在是曾经是小时候故事中的未来。

香港开户总结-2025-附香港游玩攻略

2025-09-23T12:29:15.000Z

TL；DR

这篇指南 1. 开设港卡、2.了解入金、3. 港美股券商开设建议。
港卡开户目的为获取银行账户和实体银行卡，涉及包括汇丰银行、中国银行香港、众安银行（ZA Bank）、蚂蚁银行（Ant Bank）【必须肉身到HK】
港美股券商：介绍如何入金、券商选择，本文选择的盈立证券
香港游玩攻略

一、开设港卡

大多数人适用的 Checklist，开卡原因建议一律选择投资理财

肉身到港
身份证明，身份证+港澳通行证。注意开卡的过程中会反光识别多次
稳定的香港流量/WI-FI ，比如 KFC、星巴克等等
内地电话漫游确保能接收短信
居住地址的中文地址、英文地址
出入境证明，出境后半个小时在12367移民小程序上查询
出入境记录，小白条

需要的APP如下

1.1 中国银行香港：目的无损入金

优点：中国银行内地和中国银行香港，跨境汇款无需各种手续费（转账教程可xhs搜索）

后续timeline

线上提交后，一般2-3个工作日会收到开通成功的邮件。
开通成功后3天内转账限额是1万/天，之后会调高到20万/天
等待30天左右，以「平邮」的方式寄出。可以电话加急为挂号信（+35HKD）

1.2 汇丰银行：大家都开了（跟风）

优点：很酷的蓝狮子卡

开通流程基本同上，注意点

开设完汇丰one账户之后需要立马开设网上银行账户，不然需要等一个月的时间拿到「密码」+「红狮子」卡之后才能拿到

后续timeline：

汇丰会以EMS方式寄出，密码和红狮子
自己申请蓝狮子账户

1.3 ZA BANK：最大的虚拟银行，适配wise

优点：链接wise之后可以订阅ChatGPT API、PayPal等

开通流程基本如上，没有需要注意的，非常的迅速

利益相关：ZA BANK 开通邀请码SP25V7
注册链接去众安银行开户，赚价值 HKD 2,000 奖赏！达标还可赚 10% 港元定存年利率！
3️⃣ 个真心推荐 ZA Bank 的原因
💛 全线上开户，无需前往分行
💛 无最低存款要求，零账户管理费
💛 24x7 银行服务
立即用我的专属邀请码 [SP25V7] 在港开户啦！投资涉及风险。受条款及细则约束。
https://l.za.group/DFt1U
*此资料仅可于香港境内分发或传阅，在未经本行授权下，任何人不得在香港境外复制，分发或传阅此资料（查看更多：https://l.za.group/iAF3x）。
立即开户 👇
https://l.za.group/nb5Es

1.4 蚂蚁银行 Ant Bank

推荐开户，这样可以 Ant Bank <-> AliPay HK <-> Alipay, 极速入金，会有较少的手续费。

二、关于券商：盈立AFF

2.1 入金方式

内地与香港
- 最佳的入金方式：中国银行和中国银行香港互转，但是时间较长
- 可行的入金方式：蚂蚁银行，使用Alipay互转，时间最快
- Other银行转账：广州兴业寰宇银行
- 普通银行转账：手续费、电汇费剧高
香港互转
- 银行转账：填写信息繁琐
- FPS转账：转数快可以快速转账

2.2 券商选择：盈立

现在很多银行的开户政策逐渐收紧，例如需要海外工作证明 or 香港居住地址，当然需要注意交易费用和安全性的Trade off。

利益相关：「盈立证券」开通 vd6l9
多友 · 多赏｜邀请好友齐享高达 HK$1,900 uSMART奖赏现金券 + NVIDIA股票，只要分享者成功邀请好友开户，分享者及被邀者都可获得奖励。优惠受条款约束
https://m.usmart66.com/u/1-0200c0cd2E

三、One more thing：香港游玩攻略

HK和纽约城市规划很像，小小的城市、大大的高楼
有很多好逛的店，有很香的柔顺剂
游玩地点：尖沙咀、维多利亚港、天星小轮、中环
购物建议：港版iPhone、曲奇四重奏、柔顺剂、跌打酒



	利益相关ZA BANK：邀请码SP25V7，注册链接去众安银行开户，赚价值 HKD 2,000 奖赏！达标还可赚 10% 港元定存年利率！	「盈立证券」开通邀请码 vd6l9 uSMART奖赏现金券 + NVIDIA股票*，只要分享者成功邀请好友开户，分享者及被邀者都可获得奖励。

参考链接

【1】香港保险Cindy，https://xueqiu.com/1734181754/288501209

【2】https://xiaowan.hk/stock/

US旅行游记第一次-2025年

2025-07-19T01:35:47.000Z

TL;DR

时间真是过的太快了，在学术生涯末期有幸参与TRB学术会议，同时也是一次学术旅游的机会！第一次去美国真的非常痛苦

一、行程安排

1 月 3 日晚：从浦东出发（白天）1 月 3 日晚：威尔逊机场

1 月 4 日白天【纽约】：纽约🥯，时代广场，灰狗🚌，到达 Airbnb 🏠

1 月 5 日白天【华盛顿】：早中饭 🥚，华盛顿🪦，国家历史博物馆，TRB 会场，Trade Joey 杂货铺

1 月 6 日【华盛顿】：大汉堡🍔，会议，

1 月 7 日【华盛顿】：香水，购物，奥莱购物

1 月 8 日【华盛顿】：三大博物馆，航空航天博物馆、艺术博物馆、自然历史博物馆

1 月 9 日【纽约】：特种兵的一天，中央公园、大都会博物馆🎨、任天堂限定 🧸、jellycat dinner 🧇、自由女神⚓️、布鲁克林大桥🌉、下城区、帝国大厦 🏢

二、第一影响：城市可以很小也很大/纽约

快接近13个小时的行程真的是太远，做的让人全身酥麻、做的头昏欲裂。第一次意识到地理上的距离也可以很远，可能Trump和Xi之间也不能随便打电话（因为有时差哈哈哈），好奇之间会怎么交流。

第一次到纽约被整齐的城市规划所吸引，与在HK一样是一种高楼+网格+街道之间的秩序感，城市的活动范围严格的被划分为静态的道路和动态的高楼，注意这一切并不是在土地上，而不是在各个大楼的楼层里。

道路上的人权和路权之间划分的非常清晰，或许这也是国外自动驾驶更加方便的原因吧，规则定义清晰让边界问题容易理解。唯一的缺点就是纽约的脚手架太多了，但反而让城市更有一点风味。

其次不习惯的是点餐模式和小费文化。之前看过一个视频，里面说us餐馆分为谈话的和快餐式的。因此没有国内的沙县小吃、麻辣烫这种介于两者之前但仍然热乎的饭菜。落地第一顿是在小红书上搜了推荐的一家贝果，小费痛失3刀😭，但的确很大。面包的口感和国内大部分面包店不一样，人生第一次吃到大麦的层次感。

被震惊的纽约地铁，当公告基础设施以盈利为目的，而不是发挥交通行业的派生性作用，必然会造成其衰落。当然HK公共交通做的很好，依靠高额的费用。纽约地铁有一股腥臭味，特别是在布鲁克林一代，也是认识到双城之战的上城和下城。当然纽约地铁也不便宜 1.9刀一次

接下来坐着大巴从纽约到华盛顿,真的是非常远! 沿途看到凄凉的郊区,是一种不一样的体验。唯一影响深刻的是这里的火车底盘都很低。

二、华盛顿特区：真的很现代

如果纽约是高楼城市的代表，那么华盛顿特区则是社区的典型代表，到处都是house，街道和地铁都很宽敞，当然更加验证了汽车对于US的重要性，第一眼便被华盛顿的地铁所震撼，适合纽约不一样的体验。

第一次正宗的brunch，在工作后发现一天吃两顿似乎是合理的。没有规则说一天必须三顿或者五顿，结合现代社会紧凑的工作节奏，在11:00～13:00来一顿足够丰盛的brunch，在晚上18:00来一次正餐，期间可以通过下午茶、水果、牛奶、咖啡等补充体力，似乎更适合节奏。因为早起并不适合非农耕文化。

政府单位并不是只是办公地点，也是政府权威的象征，所以xx权神授仍然如此，很多政府大楼非常的雄伟和庄严，让我想到饼叔提到的奢侈品商店也是，通过维护庄严的地域来让人失去主观性、进而上头，似乎互联网的公司也是这样。其实不过是草台班子罢了。

来一个地方一定要去Apple store，正好遇到下雪的🍎，真的是非常棒的体验。在会议上与一些从未谋面的人探讨这相同的话题，意识到枯燥的世界上也是有一些共鸣的人，在这个corner中并不孤单。

第二天的brunch点了一杯伦敦雾，茶真的很难喝，不过幸亏吃到了大米饭。

傍晚和好友去outlets购物，突然想到两个人去这么远的地方有点risky，晚上回来在寒风中纸币不小心飞出来被路过的黑鬼看到了，然后就被“can you help me”爆了金币

数天的学术会议结束后就扔掉了自己的海报，和这一段过去说再见。很痛苦、很感恩时刻表项目，几乎伴随着我四年的时间，让我意识大家的能力、社会的合作是多么的困难，也认识到个人的能力也可以很大，持续坚持下去一定会有结果的，相信自己。

三、特别篇SE：华盛顿特区博物馆

美国国家历史博物馆：正好遇到了交通篇，很棒的体验。

惊喜的看到初代Apple-II

国家航空航天博物馆

阿波罗11号，全体人类社会的结晶，很难想象七十多年前将三个人送到月球上是什么体验，只有做好每一步才能完成伟大的事业

艺术博物馆

看了很多画家的展不禁好奇：“为什么他们要作画呢”，只是想通过图片的方式表达自己，袒露自己对世界的看法，展示自己对人生的认知，这没有什么不好，这是超过仅仅活着的意义，有想法的表达自己真的太酷了！

四、最后一站：纽约特种兵

坐着美国高铁从华盛顿到纽约，感觉舒适度其实也还行，检票采用传统的人工方式，虽然说中国高铁很长，但是要知道美国在上个世纪五十年代疯狂建铁路的遗产，让其现在仍然是世界第一

深夜灯火通明的纽约才是许多人的梦想吧，不过这个也很纽约规定晚上不许关灯有关，似乎是担心鸟撞击大楼

冬天的中央公园很荒凉，但是难以置信在这么大的高楼密布的城市里居然会有如此大的公园，很棒

大都会博物馆真的太痛心了，看到了好多来自于各个国家和地区的宝藏，包括但不限于法老、佛像、庭院、绘画等等

做自由女神像邮轮可以看到纽约和新泽西，很奇妙的体验，百年前可能很多人都会喊出 America吧

夜晚的布鲁克林真的非常危险

最后再看一眼纽约吧

五、感悟

表达自己比做对事情更重要，儒家文化和应试教育给了我们太多条条框框，但是生活并不需要这么多约束
城市也是可以有很多风格的

还是中国饭适合中国胃～

如何理解广告系统

2025-03-09T02:49:08.000Z

在广告系统中，主要存在三个核心角色：广告主、媒体平台和消费者。这三者之间形成了一个相互依存的生态系统。

广告主：投入广告预算（quota），期望获得最大的营销效果（conversion）和投资回报（ROI）
媒体平台：提供广告展示空间（VV），需要平衡用户体验（多维）和广告收入
消费者：获取免费或低价内容服务，同时被动接受广告信息

一、如何售卖广告？

1. 直接投放

通过自有广告平台或代理公司直接购买广告位
可以更好地控制广告预算和投放策略
适合大型品牌和有稳定广告需求的企业

2. 广告网络

加入广告联盟或广告网络平台
可以覆盖更广泛的媒体资源
支持更灵活的预算管理和投放调整

3. 实时竞价（RTB）

参与程序化广告购买
根据目标受众特征实时出价
可以实现更精准的人群触达

广告主通常会根据自身需求和预算规模，选择合适的广告售卖方式或采用多种方式组合。

二、eCPM 是什么？

eCPM（每千次展示收益）是衡量广告效果的重要指标，对不同角色具有不同的意义：

对广告主而言

eCPM 帮助广告主：

评估广告投放效率
优化预算分配
比较不同渠道的成本效益

对媒体平台而言

eCPM 帮助平台：

衡量广告位价值
优化广告投放策略
评估整体商业化效果

对消费者而言

虽然消费者可能不直接关注 eCPM，但它间接影响：

用户体验的质量
免费服务的可持续性
广告相关性和价值

三、受到那些因素的影响？

影响因素类别	具体因素	对 eCPM 的影响方式
流量质量	·用户画像精准度用户活跃度流量来源质量	高质量流量通常带来更高的点击率和转化率，直接提升 eCPM。优质用户群体更容易吸引高预算广告主。
广告位属性	·展示位置广告形式可见度	黄金位置、创新广告形式和高可见度会提升用户注意力，增加互动率，从而提高 eCPM。
季节性因素	·节假日促销季营销周期	在广告预算集中的季节（如双11、春节），广告主竞争加剧，推高 eCPM；淡季则可能导致 eCPM 下降。
竞争环境	·市场供需竞品定价预算分配	广告位供不应求会推高价格；竞争加剧可能降低单个媒体的议价能力；广告主预算分散会影响单位收益。
技术因素	·投放系统定向能力创意展示	先进的技术能提供更精准的投放、更好的创意展示效果，提升广告效果，进而提高 eCPM。

四、eCPM的变化对于各方意味着什么？

eCPM 偏高的影响

对广告主：

获客成本增加，可能影响广告预算的使用效率
需要更严格的ROI考核标准
可能降低广告投放的规模和持续性

对媒体平台：

短期内获得更高的广告收入
可能导致广告主流失，影响长期收益
有利于提升平台议价能力

对消费者：

可能面临更多的高价值广告展示
广告主为保证ROI可能提供更好的产品和服务
平台有更多资源提升用户体验

eCPM 偏低的影响

对广告主：

获得更高的性价比和投资回报
可以扩大广告投放规模
有更多预算用于测试和优化

对媒体平台：

广告收入下降，可能影响运营可持续性
议价能力降低，在广告市场中处于劣势
需要通过提升流量来弥补收入损失

对消费者：

可能面临更多低质量广告
平台为增加收入可能增加广告频次
服务质量可能下降due to减少的收入

因此，合理的eCPM水平对维持广告生态系统的平衡至关重要，需要各方在实践中不断调整和优化。

1. 经济可持续性

广告主获得合理的投资回报率
媒体平台能够维持正常运营成本
支持长期稳定的商业合作关系

2. 用户体验平衡

广告展示频次和密度适中
广告内容与用户兴趣相关
不影响产品核心功能使用

3. 市场竞争力

与行业平均水平保持适当比较优势
具有差异化定价的灵活性
能适应市场波动和季节性变化

4. 技术支持

支持精准的受众定向
具备实时优化能力
提供完善的数据分析和报告

合理的 eCPM 应该是一个动态平衡的结果，需要考虑多方利益，并根据市场环境和技术发展不断调整优化。

思考与问题

关于 eCPM 和广告系统，我们需要思考：

如何在用户体验和广告收益之间取得更好的平衡？
新技术（如人工智能）将如何改变 eCPM 的计算和优化？
未来是否会出现比 eCPM 更优的广告效果衡量指标？
在隐私保护趋严的背景下，广告定向和 eCPM 优化将何去何从？

结合以上几个方面的分析，我们可以看到 eCPM 不仅是一个简单的广告效果指标，更是连接广告生态各方的重要纽带。理解和优化 eCPM，需要我们在技术、商业和用户体验等多个维度进行深入思考和实践。

2025 年度后数据工程需要了解的基本概念

2025-01-23T02:20:53.000Z

该系列文章主要介绍下列基本概念：

数据仓库、数据湖、数据湖仓
云存储平台 AWS、Azure、Google cloud
优化数据存储
大数据手段 Apache Spark、Kafka
实时数据处理 ETL
事件驱动架构 EDA
其他 topic：数据关联、xAI、推理计算、无限存储、人类在环集成

帮助更好的理解数据的方式

一、数据仓库、数据湖、数据湖仓

1.1 历史

数据仓库（data warehouses）作为商业手段从 Oracle、SAP 公司起源，公司由此从不同的数据源构建集中的数据库，并使用商业智能工具开展分析

数据湖（data lakes）从非结构化或半结构化数据存储需求的发展，数据湖常用语存储原始数据（结构化和非结构化），例如包括社交媒体的照片、推文等

数据湖仓（data lakehouse）结合了数据仓库和数据湖的结果，由公司Databricks提出自己的Delta lake，核心有点在于允许存储和查询非结构化数据 in 数据湖仓，和结构化数据 in 数据仓库中一样，解决了数据库通常受到限制，数据湖通常难以搜索的缺点

1.2 为什么需要这些结构？

从 2000 年互联网爆炸开始，个人和企业生产的数据开始越来越多。由此面临的挑战包括：

数据集成，在多源数据集合的基础上，复杂的 ETL、ELT 技术
拓展性和成本，数据库昂贵，数据湖容易造成数据混乱，数据湖仓需要技术投资
数据获取，各种权限要求

二、云平台 AWS、Azure、Google CLoud

这些平台提供了可扩展的存储基础设置，同时用此存储数据并使用商业智能分析手段智能的。

2.1 个人常常面临的挑战

在准备我的 Salesforce Data Cloud 认证（这是一个数据湖仓）时，我发现自己陷入了一个全新的术语海洋——这些术语都是 Salesforce 生态中特有的。每个云平台都有自己独特的术语和工具，这使得企业员工需要花费大量时间来熟悉这些内容。
数据存储在云端，所以必须明确访问控制权限

三、优化数据存储

更大的数据意味着更多的成本

删除冗余或者不必要的数据进行数据压缩
数据分区，将大型数据集拆分成更小的部分
选择合适的存储格式优化存储效率和查询性能

四、大数据手段 Apache Spark、Kafka

上述 1-3 介绍如何高效的存储数据，而大数据技术让我们可以处理 ta 更加高效，包括使用实时流（Real-time）或者批处理（Batch）方法

Spark，是一个框架可以分布式处理框架用于机器学习、数据工程、ETL 处理方式
Kafks，是一种实时数据流处理应用，比如金融或者物流企业

其中面临的挑战：

实施的困难，这一套系统构建和维护需要工程技术
数据质量，收集的数据需要确定数据的有效性

五、数据集中手段

ETL（Extract-transformer-loading）描述不同集成和处理数据手段

六、事件驱动架构

如果我们能够（几乎）实时地在系统之间传输数据，我们同样希望能够（几乎）实时地对其做出反应：这就是事件驱动架构（Event-Driven Architecture，EDA）的应用场景。

EDA 是一种以事件为驱动的架构模式，其中应用程序的运行由事件触发。事件是系统中任何相关的状态变化，例如用户登录应用程序，或接收到一笔支付。架构中的各个组件对这些事件作出响应，而无需彼此直接连接，从而提高了应用的灵活性和可扩展性。

典型的技术实现包括 Apache Kafka 或 AWS EventBridge。

七、可解释性与xAI

xAI：从模型角度解析模型是如何取得成果的

数据血统：通过可追溯的数据来了解数据来自哪里，如何处理并最终如何被使用

八、生成式AI

包括AI、LLM、Agents 等术语

九、人类在环 human-in-the-loop

将人类和人工智能之间的合作优势结合起来：

人工智能的优势在于模型可以有效的处理大量的数据，帮助人们发现其中难以识别的模式
人类的优势在于没有事先训练的情况下将判断力、到的、创造力和理解能力放到工作中，并有能力面对不可预知的情况

面临的问题在于：

两者之间缺乏协同作用和不信任，似乎缺乏直观的界面，是的人类更容易与人工智能工具进行足够有效的互动
人工智能当前的技术限制，难以理解逻辑一致性和上下文，这可能会导致错误或者不准确的结果

Humans and AI: Do they work better together or alone?

参考链接

https://towardsdatascience.com/the-concepts-data-professionals-should-know-in-2025-part-1-47e7e797801d

生存分析基本概念、常见方法、评价指标

2025-01-16T06:14:48.000Z

本文主要介绍生存分析所需要解决的问题，常见的基本概念、解决方法，帮助快速理解

一、问题背景

生存分析（Survival analysis）是一种统计方法，专门用于研究「事件的一系列发生节点」的时间，常见的事件列表如下：

（疾病治疗）研究某种病被治疗之后的复发情况，如果复发则被认为“死亡”，如果未复发则被认为是“生存”，在这种情况下关注“复发”的医学规律
（职业升迁）在职业升迁的研究中，升迁可以看作是死亡、未升迁则可以认为是生存，升迁是终点事件，此时的生存分析主要介绍与升迁有关的规律

生存分析的核心是希望得到下列结果：

估计生存曲线，得到不同时间点下的生存结果
估计因果效应，包括使用Log rank 检验、广义秩和检验
影响因素识别，评价影响生存过程中的影响因素，cox 回归分析

生存分析中面临的困难在于，其观察数据往往具有下列特点：

偏态分布，生存时间通常具有明显的偏态分布，有正态分布假设的统计方法不能适用
删失（Censoring），研究对象在观察时间内没有事件发生，一种是中途的丢失或者退出，另一种是超过最长的随访时间时间仍然没有发生

二、基本概念

2.1 符号定义

生存时间 T 随机变量
生存函数，表示个体生存时间超过 t 的概率
生存时间累计分布函数，表示个体生存时间不超过 t 的概率
生存时间概率密度函数，为上述分布函数的导数
风险函数 hazard function，表示个体在活过时间 t 之后的瞬死概率，是回归模型的重要概念
累计风险函数 cumulative hazard function，表示累计的死亡风险

2.2 生存曲线

其横轴是时间、纵轴是生存率，核心是希望直观的展示不同时间点上生存率的变化情况，有助于对比不同组别之间的生存差异，同时也可以用于评估潜在的印象因素。常见的曲线包括：

Kaplan-Meier 曲线，最常见的曲线
Nelson-Aalen 曲线，非参数生存曲线，绘制的累计风险（Cumulative hazard）随时间变化，直接反映时间发生的累计风险
Cumulative incidence function 曲线，用于描述在竞争性环境下的生存情况
Smoothed survival curves，使用平滑的生存曲线，用于减少数据中的噪音或小样本效应引起的不稳定性，可以通过核密度估计的方式进行平滑处理
Restricted mean survival time：用于描述特定时间段内的平均生存时间，而不是整个生存时间的曲线

2.2 生存曲线常见指标

总体生存期（Overall Survival, OS）：任何原因导致的死亡，只关心是否死亡，不考虑死亡的具体原因。用于评估患者在治疗或研究中的总体生存情况，我们一般见到的5年生存率、10年生存率等都是基于OS的。

无进展生存期（Progression-Free Survival, PFS）：疾病经过治疗后没有出现进一步恶化的生存期，结局指标是发生疾病进展或死亡。PFS相比OS包含了恶化这个概念，可用于评估治疗的临床效益，也就是对疾病进展的影响，要求对疾病进展的标准进行明确的定义。

无病生存期（Disease-Free Survival, DFS）：从随机分组开始至疾病复发或由于疾病进展导致患者死亡的时间。不考虑因何种原因死亡，只关心疾病复发或进展。用于评估治疗对疾病复发或进展的影响，常用于根治性手术治疗或放疗后的辅助治疗，比如乳腺癌术后内分泌疗法等，要求对复发的标准进行明确的定义。

疾病进展时间（Time to Progress, TTP）：从开始到肿瘤发生任意进展或者进展前死亡的时间。TTP相比PFS只包含了肿瘤的恶化，不包含死亡。

疾病特异性生存期（Disease-Specific Survival, DSS）：结局指标为由特定疾病导致的死亡，只关心特定疾病引起的死亡，而不考虑其他原因。反映特定疾病的临床获益，但患者的死因可能不容易明确。

无事件生存期（Event Free Survival, EFS）：指从开始到发生任何事件的时间，这里的事件包括肿瘤进展、死亡、治疗方案的改变、致死副作用等（主要用于病程较长的恶性肿瘤或该实验方案危险性高等情况下）

三、常见方法

3.1 描述性方法

KM 生存曲线获取方法

3.2 检验方法

比较不同组的生存曲线或检验变量对于生存时间的显著性影响

对数秩检验 log-rank test
wilcoxon 检验，对生存时间不均匀的情况有较好的表现

3.3 建模方法

影响因素识别、预测方法

Cox 比例风险模型

假设指标生存时间的分布模型，可以通过观察数据来估计模型的参数，最终利用假设的分布模型来计算生存率

参数模型，通过假设生存时间服从某种特定分布来预测生存概率
加速失效时间模型 AFT，研究协变量如何加速或者减缓生存时间

3.4 时间依赖性方法

用于处理协变量或者风险随时间变化的情况
$$
h(t,X) = h_0(t)exp(\beta_1 x_1+…+\beta_n x_n)
$$

其他

https://mp.weixin.qq.com/s?__biz=MzIzNjk2NDg4NA==&mid=2247483938&idx=1&sn=ae913d5a109705c950a411ccf3586f4a&chksm=e8ce9f59dfb9164f252c559e40f064265ee4a829f012ffe4ede321779af602c8b143e2d8b9a3#rd

ROI_监督学习_一次性学习, LTV_强化学习_持续学习

2024-12-08T09:10:05.000Z

这篇文章算是从第一份实习开始之后就一直想写，但是又不知道怎么表述，直到最近看到《Rich Sutton，toward a better deep learning》关于深度学习中短期学习与持续学习的讨论，才发现这是我一直想表达的：不断的训练单个模型最优并不意味着全局最优，但可悲的是团体无法跨越时间长度来追求长期价值，除非具有强有力的集权注意，希望这篇文章能带给你启发！

0x01 互联网公司与 MDP 过程

回顾第一份实习已经过去一年了，依旧忘不了首次踏入互联网公司带给我的 Model shock。当时入职的是滴滴，一家国内最早开始做网约车平台的公司，车厂或者司机可以通过平台与乘客呼单即时交流来完成接送乘客的服务，在这背后需要完成大量的交易匹配、定价策略、供需调节的模型，一个常见的链路是：

根据市场的反馈，利用收集的离线数据更新模型，并根据模型上线的效果

而回顾带奖励的MDP 过程则是

智能体（Agent）根据环境（Env）输入的观察（Observation）来输出自己的选择（Action）得到对应的奖励（Rewards）并生成下一个新的状态（State）和观察（Obs），希望最大化自己的回报（Return），也就是累计奖励之和。

即时奖励（Reward）：指的是在某一时刻，智能体因采取某个动作所获得的直接反馈。这是一个短期的量化反馈，可能代表了该动作在该时刻的“好坏”。
长期回报（Return）：是指智能体从当前状态开始，通过一系列动作所能获得的累积奖励。它通常是未来所有奖励的折扣和加权总和。强化学习的目标不是仅仅最大化某一时刻的奖励，而是最大化 未来的累积奖励，即长期回报。

类比上来看，互联网公司类似智能体，而算法工程师则是智能体的 update 策略，我们会收集离线的数据来训练我们的模型，来获取最大的短期 reward而不是 return。

为什么我们要追求 return 而不是 reward？
强化学习的核心目标是学习到一个 最优策略，使得智能体在整个任务过程中获得最大的累积奖励。如果智能体只关注即时奖励，它可能会做出只对当前有利但不对未来有利的决策，导致整个任务的表现并不理想。
例如，如果一个机器人正在玩一个游戏，它可能在某个时刻获得了很高的即时奖励，但如果它没有考虑到游戏后期的情况，它的决策可能会导致在后期失去更多的奖励。因此，智能体需要通过 长期回报 来评估当前决策的“好坏”，而不是仅仅依赖于即时反馈。

AB 实验方法可以看作是蒙特卡洛采样 Sample，来得到对应的数据

大盘数据可以看作是自举式的 bootstrap 方法，需要 online 学习

大量的数据、产品、算法、开发根据市场需求来不断调整公司的（Policy），进而为用户的状态传递输出对应的动作。

0x02 ROI和LTV

2.1 指标计算

ROI（投资回报率）是一个用来衡量投资效益的财务指标。它通过比较投资所获得的回报与投资成本之间的比例，帮助企业或个人评估某项投资是否值得进行。ROI 是评估各种投资决策的常用工具，可以帮助确定资金投入是否产生了预期的收益。

LTV（Lifetime Value，客户生命周期价值）是一个常用的商业和营销指标，用于衡量一个客户在其与公司合作的整个生命周期中，可能为公司带来的总利润。LTV的计算通常基于客户的购买频率、购买金额、购买周期以及客户留存时间等因素。

2.2 指标理解

计算指标最终是希望衡量模型长期的优劣，上述两个指标中 ROI 可以看作是一个短期奖励，是容易看到的但是不客观的，其中 LTV 是不可计算的但是是我们追求的圣杯。

因为从用户的生命周期来看 ta 可以分为获取（A）、激活（A）、留存（R）、活跃（R）推荐（R）、流失（C）不同的阶段，不同阶段代表着不同的价值水平。如果在单次的模型迭代中仅仅关注一个维度（例如指标提升的 ROI）可能会出现下列错误：

用户的留存率低，但是长期贡献的消费低，说明引入的用户是白嫖党
用户的消费水平很高，但是立刻流失，难以形成复购和转化
初始的 ROI 很低，但是用户留存率和复购率执行，可以有效的提升业务收益

但是无论是互联网日星月异的变化，或者自身岗位的更迭都很难对于LTV 进行准确的计算，同时我们也没有反事实的能力去做蒙特卡洛采样，所以 AB 实验成为互联网公司的唯一准则，但是往往忘记到了环境是在改变的额

2.3 TD learning 与 MC

TD 学习是强化学习中基本的概念，主要是采用 online 学习的思想（bootstrap 自举的方法），不断的在环境中进行探索来逼近自身估计的 return，下列两种方法的区别在于 TD target 的不同，造成学习的 TD difference 进行

SARSA 的 TD target
Q learning 的 TD target

不同蒙特卡洛（MC sample）方法的采样，off-line 学习的成本太大了。

0x03 从宏观的 RL 到 DL

3.1 数据处理 – 偏差

在因果推断中核心的问题是处理观察数据中存在的偏差，但是很难有人可以讲清楚偏差是什么。从推荐系统中具体业务的角度理解可以对偏差有更加具体的认识，这里由 GPT 来总结常见的偏差类型：

偏差类型	定义	表现	解决方法
选择偏差	训练数据中某些用户或物品的行为过度或不足代表。	训练数据只包含活跃用户，导致系统无法有效预测冷门用户。	确保数据采样的代表性，进行平衡采样。
反馈偏差	用户反馈受推荐系统推荐的影响，形成循环。	系统倾向推荐热门物品，忽略冷门物品或新物品。	区分离线和在线数据，使用探索策略（如多臂老虎机）。
暴露偏差	用户仅基于展示的内容进行反馈，导致物品低估。	展示频率低的物品未得到足够反馈，导致其被低估。	增加展示频率或采用探索性推荐。
冷启动偏差	没有足够历史数据时，推荐系统难以有效推荐物品或用户。	新用户或新物品无法得到足够反馈，推荐效果差。	引入基于内容的推荐或利用外部数据（如社交网络）。
时间偏差	用户行为或物品流行趋势随时间变化，训练数据未能捕捉到这种动态。	推荐过时物品，忽略用户的最新偏好。	定期更新模型，使用时间衰减函数或时间序列模型。
稀疏性偏差	用户与物品之间的交互矩阵稀疏，许多用户对大部分物品没有交互。	模型无法有效捕捉用户真实偏好。	使用矩阵分解或深度学习技术填补缺失数据，增强协同过滤。
标签偏差	训练标签不准确或具有偏差，用户点击数据未必反映真实兴趣。	点击率等指标过度偏向展示频繁内容，忽略内容多样性。	通过多种反馈信号（如停留时间、评分）来综合评估用户兴趣。
用户偏差	用户行为的偏差影响推荐效果，某些用户只关注特定类型物品。	模型过于依赖用户历史行为，忽略潜在兴趣。	引入用户画像和多种特征，增强推荐个性化和多样性。
上下文偏差	用户偏好与环境因素（时间、地点、设备）相关，忽略这些信息会产生偏差。	忽略上下文时，推荐结果可能不适合特定场景或时间。	融入上下文信息，如设备、地点、时间等。

核心偏差的问题在于训练模型时候的状态是不一致的，我们无法单纯的输出动作到奖励之间的相关关系，而是需要考虑环境输出状态的变化造成的影响。但是往往是我们将状态S + 收集的短期数据来进行训练，依旧无法很好的保证在之后下一个 S 下的结果，因为环境是在变化的，而离线评估的结果往往也会收到状态的影响造成的偏差影响。

3.2 重要性采样 – 去偏

可以和倾向性分数（PS）的角度去理解，这里忽略

3.3 To be continuing

小白的在线支付方式折腾

2024-11-17T02:23:28.000Z

因为希望开通 OPENAI-API，需要有美区发行的信用卡，由此折腾了虚拟信用卡 wildcard、国内 MasterCard、美区 PayPal 来完成 OPENAI、App Store、Amazon 海淘等过程，以下为小白经验贴，如有不对的地方欢迎指正

一、支付方式简介

支付方式通常可以分为：银行卡支付、移动支付、数字钱包、银行转账、加密货币、预付卡、电子支票等方式，这里注重解释前三者：

银行卡支付（Bank card payment），进一步分为信用卡（Credit card）和借记卡（Debit card）
移动支付（Mobile payment），包括 Apple pay、Google Pay、支付宝（Alipay）、微信支付（WeChat Pay）
数字钱包（Digital wallet and Online Payment），包括 Paypal、Venmo 等等

支付中的参与方包括：

发卡机构（Issuer），通常为银行，负责提供卡片
支付网络（Payment Network），连接发卡机构和收单机构的中介，处理交易请求和验证
收单机构（Acquirer），为商户提供银行卡支付处理服务的金融机构
商户（Merchant），提供商品或者服务的商家

支付网络可以分为

**全球性支付网络 (Global Payment Networks)**：这些网络覆盖全球，适用于国际和跨境交易。常见的全球性支付网络包括：

•Visa：覆盖全球的大型信用卡和借记卡支付网络。

•MasterCard：全球通用的支付网络，支持信用卡、借记卡等多种支付方式。

•American Express：提供信用卡支付，覆盖全球多个国家，主要采用三方模式。

•**UnionPay (银联)**：在中国广泛使用，近年来也在全球扩展，支持信用卡、借记卡和二维码支付。

**地区性支付网络 (Regional Payment Networks)**：这些支付网络主要在特定区域内使用，通常只支持该地区的银行账户或支付工具。

•JCB（日本）：在亚洲和一些欧洲、北美市场使用广泛。

•Interac（加拿大）：用于加拿大的借记卡支付。

•Elo（巴西）：在巴西使用的支付网络，支持借记和信用支付。

•RuPay（印度）：主要用于印度国内支付。

二、支付需求

2.1 OPENAI 支付要求

支付要求包括

OpenAI 的充值支付方式要求包括以下几点：
国际信用卡或借记卡：支持 Visa、MasterCard 和 American Express 等主流国际卡。确保卡片具有国际支付功能，国内银行的银联卡通常不支持。
PayPal：在部分地区，OpenAI 也支持通过 PayPal 支付。需要一个经过验证的 PayPal 账户，并关联到支持国际支付的信用卡或银行账户。
Apple Pay 和 Google Pay：部分移动端支持 Apple Pay 或 Google Pay 付款，但前提是这些支付账户也必须关联到支持国际支付的信用卡或借记卡。
虚拟卡：部分虚拟卡（如虚拟预付卡）可能会被接受，但成功率不高，因为 OpenAI 对支付账户的真实性验证较为严格。
支付地区限制：目前 OpenAI 充值服务并非对所有国家和地区开放，部分地区可能无法使用其服务，需参考 OpenAI 官网的支持列表。
建议在充值前确保支付方式符合以上条件，并检查账户的国际支付功能是否开启，以避免支付失败。

2.2 Amazon 支付要求

信用卡和借记卡：亚马逊支持主要的国际信用卡和借记卡品牌，如 Visa、MasterCard、American Express、Discover 等。在中国，您可以使用带有银联标识的信用卡或借记卡进行支付。
第三方支付平台：在亚马逊中国（Amazon.cn），您可以使用支付宝和微信支付等本地支付方式。

2.3 Apple Store 美区支付要求

•美国发行的信用卡或借记卡：Apple Store 接受由美国银行发行的 Visa、MasterCard、American Express 等信用卡或借记卡。
•美国 PayPal 账户：您可以将美国 PayPal 账户绑定到您的 Apple ID 作为支付方式。
•Apple 礼品卡：购买并兑换美国地区的 Apple 礼品卡，可将其余额用于支付。

2.4 Paypal 支付方式要求

有效的支付方式：
•美国银行账户：您可以将美国的银行账户关联到您的 PayPal 账户，用于充值和支付。
•信用卡或借记卡：PayPal 支持 Visa、MasterCard、American Express 等主要信用卡和借记卡。确保您的卡片已关联到 PayPal 账户。
美国账单地址：在设置支付方式时，通常需要提供一个有效的美国账单地址。您可以使用真实的美国地址，或通过地址生成器获取。
美国电话号码：在某些情况下，可能需要提供一个美国电话号码。您可以使用虚拟号码服务，或通过其他方式获取。
账户验证：为确保账户安全，PayPal 可能要求您验证关联的银行卡或银行账户。验证过程可能包括小额扣款或其他确认步骤。

三、折腾记录

3.1 信用卡

第一种是开通虚拟卡，这里选择 wildcard 平台

非常方便但是需要付出手续费，我刚用不到 5 分钟升级了 openai plus 和绑了 api 付费，对于小白来说很方便，因为邀请有奖励这里做一些分享

官网地址：https://bewildcard.com/card
创建账户费用： 11.99/两年，16.99/三年
手续费：3.5%
限额：3000 美元/天
使用邀请码可以优惠 https://bewildcard.com/i/MP40YHIM

开通之后可以 openai api platform 绑定自己的 card 作为支付方式，或者利用wildcard 提供的服务来绑定，官方提供 ChatGPT 一键升级的功能

第二种是实际信用卡，这里不再赘述。

【上述两种方式都可以支付购买服务了！比如 Amazon、软件购买】

【但是中国发卡机构发放的支持支付组织的卡大部分情况不能直接完成美国相关线上服务的购买，比如 Apple Store、Google Pay 等】

3.2 美区Paypal

这里需要有一个非虚拟号的美国手机号，但是大部分都没有，这里有一个操作是可以通过商户支付页面进行注册，可以是为 Wiki 捐赠页面

https://donate.wikimedia.org/w/index.php?title=Special:LandingPage&country=HK&uselang=en&wmf_medium=spontaneous&wmf_source=fr-redir&wmf_campaign=spontaneous

【注意注册 PayPal 过程中全程美区 IP + 无痕浏览模式】

【之后可以通过 PayPal 来绑定美区 Apple store】

大数据与分布式系统概述

2024-10-21T02:10:15.000Z

这里系统自顶向下的对于大数据系统下的分布式平台做一次综述，包括一些简单的实际操作。

一、背景：什么是分布式系统

A brief introduction to distributed systems

分布式系统是以单一完整系统（Single coherent system）为表现的自助计算单元的集合（Collections of autonomous computing elements），实现的技术基础为：

Node 性能强大的微处理器
高速发展的计算机网络

为了完成上述目标，分布式系统需要满足一下四个准则：

资源共享，包括外围设备、存储设备、数据、文件、服务和网络
分配透明化
开放性
具备可拓展性

分布式系统的主要特点包括：

分布式（Distribution）：节点可以分布在不同的计算机上
同步（Synchronization）：多个节点可以通过执行任务
异步（Asynchrony）：节点之间通过信息传递进行通信，不同节点可以再不同的时间执行不同的任务

常见的分布式系统为：

高性能的分布式计算，包括集群计算、网格计算、云计算
分布式信息系统（不懂）
普适系统（不懂）

二、分布式计算框架组成

Survey of Distributed Computing Frameworks for Supporting Big Data Analysis

分布式系统架构（System architectures）

分布式系统需要大量的硬件资源：硬盘、内存、CPU/GPU、传输带宽、IO 速度，这样的系统框架可以分为

HPC，高性能计算系统常见的是用于解决复杂科学、工程和学术问题的超级计算机大型集群，特征是通过并行计算加速任务执行，通常处理的是高度复杂的计算机任务，包括气象模拟、基因组分析、流体动力学模拟
Cluster computing，主要用于并行处理、分布式计算和大规模数据处理，集群的目的是通过协作提高系统的可拓展性和可靠性

分布式文件系统（Distributed file system）

将一个大数据文件分区（partition）成为数个小文件块（data block）存储再分布式集群（cluster）中的节点（node）里，常见的分布式存储系统包括：

GFS（Google File System）
HDFS（Hadoop Distributed File System） from Apache Hadoop
TFS（Taobao File System）
FastDFS
CEPH：统一分布式存储系统，支持对象、块和文件存储

分布式数据库

HBase，在上述文件系统的基础上，如基于 HDFS 构造NoSQL 的数据库 Hbase ，通过 HiveSQL 将 SQL 语句转换成为 Map Reduce 语句来实现计算功能。其本身并不是真正意义上的数据库，只是将结构化的数据文件转换成为一种数据库表，因此本质上是一种内存的 Hash 表，所以其相对于传统的关系型 SQL 会需要加上 Partition 和 Bucket 的字段
ClickHouse 用于联机分析处理的开源列式数据库
ElasticSearch 基于 Lucene 库的全文搜索引擎
Redis Cluster基于内存的键值对数据库
Mongo DB
Cassandra
DynamoDB
TiDB

注：普通的关系数据库的区别

普通的关系性数据库常见的使用的是服务器本地的文件系统，利用自身设计的计算模型来实现实时查询，具备介绍的拓展性

分布式计算处理框架（distributed process）

分布式计算是通过将算法切分成可以并行的处理框架来实现高效的计算效果，其最基本的思想是通过“分治法（Divide-and-conquer）”来进行计算，通常可以分为是基于离线数据处理和在线数据处理两种方法，常见的处理框架为

Apache Hadoop，基于 Mapreduce 模型，主要用于处理大规模数据，Hive 是基于 HDFS 的数据仓库工具，用于数据提取、转化和加载、可以实现数据存储、查询和分析存储的大规模数据的机制，适合用海量数据做数据挖掘，但是实时性较差，但是计算能力和存储拓展方便
Apache spark，基于内存的数据处理，是强大的分布式处理框架，处理速度更快，且更加适合迭代计算的任务，主要组件包括 Spark core、Spark streaming、MLlib、GraphX
Apache Flink，流处理框架
Kafka Streams，允许直接在消息中处理数据，用于消息传递系统中进行流式计算
Map-Reduce ，最原始的版本，在单一节点上进行计算来得到本地结构 local result，汇合多个节点的计算结果，来得到 global result

其余的平台（platform）与包（package）

基本程序语言：JVM、Java、Scala（面向对象和函数式编程）、Python
采集和传输：Kafaka（分布式订阅消息系统）、Flume、Datax
数据湖：在数据存储和数据处理之间：Iceberg、Hudi
资源调度框架：YARN、KUbernets、Mesos

三、如何学习分布式计算系统

2.1 编程基础

Scala基础

Scala 菜鸟教程

Scala 是一门类 Java 的编程语言，结合了面向对象编程和函数式编程

每个值都是一个对象，对象的类型和行为由类定义，不同的类可以通过混入的方式混合在一起
函数式编程芋圆，原生支持嵌套函数定义和高阶函数

PySpark 基础

阿里云文档

需要深刻理解如何使用 pyspark 来完成 spark 的算力的厂检查熬做

2.2 计算框架 Spark

Spark documentation overview

关键的Topic 包括

快速理解 spark 的 API
理解如何使用 RDD 来进行编程、核心 API、加速和广播操作
理解 SPARK 的 SQL、Dataset、Dataframe，利用最新的操作 API
流处理structured streaming、spark streaming（可选）
机器学习库 MLlib
图网络学习 GraphX
利用 R 语言来进行学习（可选）
利用 Python 来使用 Spark

2.3 额外知识

SQL - CRUD

HDFS - 常见操作

Flink 流数据处理 pipeline（可选）

首先利用 Flink 从实时流数据采集中获取数据流，例如用户的行为日志
利用 Flink 处理的 api 来完成数据的清晰、格式化和特征提取操作（基于 MapReduce）
调用深度学习模型来完成预测，Map 操作
将更新的数据输入到 Kafka，或者根据应用常见写入到数据库、消息队列或者文件系统中

四、其他问题

流数据（Stream data）和批数据（Batch data）处理的区别？

流数据是连续生成，需要实时采集并实时处理，通常的数据来源包括传感器用户日期和、社交媒体更新、金融交易等操作。
- 金融服务的交易分析，比如检查用户的行为
- 实时用户和推荐系统，比如实时分析用户的需求
批数据模式下，数据是成块或者成批次组成的，通常被定时的收集或者存储
- 金融网贷业务的预处理

全量更新和增量更新

全量更新（Full update）每次更新的时候处理整个数据集
- Pro 实现逻辑简单，不需要复杂的变更追踪的逻辑，每次更新都是完整的数据集，可以直接避免数据不一致的风险
- Con 每次都需要处理全部数据，对于系统资源要求高。特别是对于大型数据集需要很长时间才能完成更新
增量更新（incremental update）只处理上次更新依赖发生变化的数据
- Pro 增量更新的效率高、实时性更强
- Con 但是面临数据处理逻辑的复杂性，容易造成数据不一致的风险，对历史数据管理要求较高

增量更新常见的操作是根据 key 和 update time 来保留最新的记录

对应的表格分类包括：

增量表：记录更新周期内新增的数据，在原表中数据的基础上新增本周起产生的新数据
全量表：记录更新周期内的全量数据，无论数据是否有变化都需要记录
拉链表：记录数据的历史信息，记录数据从开始 i 一直到当前所有变化的信息

持续更新…

Reference

https://www.sqlboy.tech/

如何建立自己的代码心智模型

2024-10-08T08:43:05.000Z

以 LLM 为底层的自动代码补全工具帮助我们从代码敲击的背景下剥离出来，一定程度上减轻了劳动量。但是其能力的限制使得通常无法在高度定制化的场景下给出最优方案，此时对于熟悉 Copilot 的我们会发现生疏到无法解决。因此如何权衡自动补全工具带来的便利性和自身能力成长是必要的，合理的解决方法是建立心智模型来得其意，再指挥工具免其劳帮助工作效率的提升。本文从自身的角度建立自己的心智模型，

一、从 Cheetsheet、Cookbook 到 LLM

学习代码工具中速查表、官方文档、cookbook 是非常重要的资源。

速查表（Cheetsheet）是列出某个库的常用的命令、语法和代码片段，给初学者快速参考的工具，可以帮助快速的查找特定命令和语法，共享的互联网资源总结了很多可行的速查表。eg: ML-cheetsheet
但是从学习的角度官方文档（Document）往往会给出详细的例子，让人望而却步。
在两者之间的 cookbook 更倾向于结合代码片段给出如何解决实际案例，除了代码片段本身，也还会解释、上下文信息以及在什么样的场景下采取特定的解决方法。

在后 LLM 时代，copilot 的自动补全功能可以说完全代替了 cookbook，当用户提出一个需求场景，如“帮我写一个归并排序”，先天的代码补全功能可以给用户自动生成所需要的代码。

优点一在于提升效率，可以从烦躁的代码敲击和函数名称记录中剥离出来，让一些常见的操作可以自动的从代码补全来完成
优点二让边界更进一步，代码补全有的时候会“涌现”出新的编辑方式，这通常是因为别人已经有过相同的表达，可以将大模型看作是共同记忆的集合
缺点在于无法完成创新工作，如果这件事情从来没有出现过，LLM 通常是无法完成固定的操作的，这个时候仍然依赖于写作者自身对于工具的理解，但是长时间未写相关论文的过程中，会消失对于 API 的熟练性而导致无从下手。

解决这样问题的前提是思考我们是如何学习一件事物的：我们会通过学习相关概念和实际案例来获取属于自己的理解和知识，个体的理解程度决定对于知识的掌握程度。个人将在代码领域中的理解称为**心智模型**。

认知心理学中将心智模型定义为我们脑海中的世界是一种概念，通过概念和关系来表达真实的系统

通过建立自己对于某种概念的全局认识，再通过自动补全工具是操作 API 可以帮助我们在每次使用的过程中都是对自身理解外在表现应用的认知，可以进一步加深自己的印象而不是让自己变得生疏

二、心智模型 + Copilot = 复利效应

Copilot 的含义是辅助工具，抛开 LLM 时代不谈很多场景下的工业工具都是对人类个体自身的辅助增强：

纺织机，通过工具的方式来提升纺织的效率，但是起无法替代苏绣的作用
汽车，通过新的能源转换方式代替双腿移动，但是起无法在所有道路上运行
社交媒体，通过互联网来代替 face-to-face 的表达，让物理距离变得不重要，但是其无法代替线下交流
洗衣机，是在洗衣场景下双手的解放，但是其无法适用所有的衣物
相机，对于人类视觉和绘画的简化，但是其无法替代艺术创作
…

AI-Copilot 也是如此，通过对简单事物的替代，配合自己的理解可以增加创作效率，但是坐在主导位的只能是自身，为了更好的使用辅助驾驶需要理解其行为的含义，建立其工作的心智模型，来更好的使用 ta

三、【个人向】需要建立什么样的心智模型

3.1 编程基础

3.2 数据获取、数据预处理、数据转换

3.3 数学操作、模型构建、框架展示

附录：关于写作的一些思考

文字、语言、肢体表达是个体与个体之间有限的交流方式，内在的逻辑性是上述三者均需要的内核，其中文字是最为正式和准确的信息交流方式。现代社会的高度分工需要敏锐、清晰的文字表达，除了逻辑性之外，其还需要有准确的词汇和语法技巧，在图文编辑器发达的背景下恰当的格式排版更加重要。但是在中文互联网背景和推荐系统肆掠的背景下，如何培养自己的文字表达成为一种奢侈。这里给出自己的建议总结：

凝练表达，目的为先。用尽可能少的语言让别人来抓住自己的核心思想，达成从“听不懂”到“听懂但是不知道为什么”的目的，建立起快速联系的纽带
逻辑连贯，有理有据。在说服别人的时候可以通过精炼表达，利用层次递进的方式来让别人接受自己的想法。注意每个论据也可以看作是一个需要精炼表达的命题，尽可能的用数据和事实去表达自己。重复冗余的话术只会让自己变得不够信服
词汇专业，语法通顺。所谓的互联网黑话或者是英语的专业词汇本质上是一种语言共识，可以快速的将希望表达的含义浓缩的传递给别人，专业学习也是如此，很多的专业壁垒来自于浓缩的含义。除了词汇之外，句子的语法通顺也很重要，这部分中文的表达（图）不如英文的表达（树）方式有趣，平时要多加锻炼
格式清晰，排版准确。现代编辑器带来从个体化（书法、签字）向工业化（字体、格式、排版、符号）的转变，如何善用这些模块可以更好的提升自己的表达。
1. 符号：字体、大小、颜色、中文符号、英文符号
2. 工具：斜体、加粗、划线
3. 排版：段落、缩进、表格
理解意图，尊重读者。表达的核心目的在于建立起双方的联系，而不是为了坚持自己的想法来辩论得到输赢，因此充分的理解读者的理解诉求，针对不同群众可以接受的方式来表达自己。
敏锐思考，在反馈中成长。表达交流并不只是将内心的东西全部的释放，和别人交流反馈的过程中也是提升自己内在思考的一种手段因此表达的时候也要持续保持对于自身观点的思考，讨论是表达的最终目的。

推荐书籍

《金字塔原理》

《批判性思维》

阅读 Casual inference_总结中

2024-09-18T00:44:53.000Z

上一篇文章从概念的角度解释了因果推断中常见的问题，同时介绍因果图的分析方法来得到相关性信息和因果性信息流之间的方法。在这篇将更加深入的理解干预（Invention）、后门路径（Backdoor path）和后门调整（Backdoor adjustment）来准确的计算因果效应。以及假设较为困难的前门准则和 do 算子的方式来估计因果效应。这些方法的核心目的是：将因果估计转换成为统计估计，进而估计结果。

第四章、干预与后门调整

4.1 Do 运算符

注意干预 invention 和统计学中的 conditioning 之间的区别，为了表示区别因果中利用 do 算子表示

统计中的conditional，指的是我们只将注意力限定在接受治疗的 subgroup 中
因果中的 invention，指的是针对所有的群体添加干预

同时我们希望得到的结果是干预分布（interventional distributions）P（Y｜do（T）），同时也要注意干预分布和观测到的分布之间的区别。其中面临反事实的问题，那么什么样的情况下可识别？

如果可以将包含 do 算子的表达式（Casual estimation）还原成为没有 do 算子的表达式（statistical estimate），则说明是可识别的

因果机制（Casual mechanism）指的是，对于一个节点来说，影响其的结果只包含其parent 和对应的边。在因果机制的基础上，我们作出干预是局部的假设，我们假设对于一些变量的干预改变 X 对应的因果机制，而不是改变其产生其他变量的因果机制，也可以额被称为模块化（modularity），或者是独立机制、自主性和不变性机制。

干预操作的本质是希望改变原有的概率分布：

第一种是观察数据中的因果图
第二种是针对 T 施加干预的结果，对于其他节点的因果机制没有发生改变，而针对干预节点由于其因果机制发生了改变，因此可以对其parent 节点进行截断
第三种与上述的情况保持一致

添加干预的好处是可以让概率发生变化，那么为什么需要将概率升变化呢？核心目的是让策略效应的计算可以更加的简单，通过模块化的假设可以让我们在计算联合概率分布中将干预的节点进行剔除，具体来说就是截断公式（Truncated factorization ）

针对下列经典的情况，我们可以计算在施加干预和不施加干预前后的输出

干预分布 P(y|do(t)
观测分布P(y|t)

通过计算可以发现核心在于 P(X) 和 P(X|T)之间的分布差异造成了观察结果和干预分布之间的问题

4.2 后门路径和后门调整

在因果图中，如果希望识别两个节点的因果关系我们希望可以截断两个节点直接非因果的关联，而非因果的关联主要是通过非阻塞路径（unblocked path）进行传递，If 我们可以阻断这些路径，Then 就可以在干预 T 的情况下估计出 T 对 Y 的因果效应，由此得到的后门标准为：

需要有一系列变量的集合造成了：

W 阻塞了所有 T 和 X 之间的后门路径
W 不会包含 T 的任何后台节点

在后门准则的基础上，我们找到了调整变量，进而施加干预得到准确的因果效应估计

一个实际的例子来计算：干预和非干预情况下的因果效应估计

第一种在施加干预的情况下，可以通过截断公式来得到 Y 对于 T 的效应识别
第二种是在不施加干预的情况下，利用相关性公式得到 Y 对于 T 的识别，可以发现是存在有偏差的

在无法准确的施加干预的背景下，我们可以使用施加找到后门调整的变量来估算出因果效应

key point 总结
为了计算干预之后的概率分布公式，我们可以使用局部性假设来对概率分布进行截断，进而计算出包含 do 算子下的因果效应分析公式
因果关系识别的核心在于如何将包含 do 算子的公式转换成为没有 do 算子的表达式
造成偏差的核心问题在于 P（X|T）和 P（X）之间的不一致造成的偏差
如果我们可以找到后门调整的路径并进行截断，我们可以完成上述的操作

五、随机控制实验 randomized control experiments

在 AB 实验中，通过随机的控制策略的分发机制，可以保障最终得到的关联性为因果性。因为 T 和协变量直接完全独立是的最终的因果效应可以识别。

在随机对照实验需要保证 AB 两组是完全可比的，更加精确的定义这里的可比是各组的协变量之间的分布为相似的状态，确保协变量均衡是有效对比和分析后续的基础。核心是实现，通过保证 X 和 T之间相互独立的状态，可以实现两者满足可交换的假设，进而准确的计算因果效应。如何实现协变量均衡可以从：

随机化，在实验设计的过程中将变量随机的分配到不同的组别在满足条件
匹配，通过匹配的方式来均衡协变量的分布
统计套装，通过回归分析的方法对最终的结果进行纠偏的操作来调整对结果的影响 regression adjustment

六、非参数识别

6.1 前门准则

在第四章中我们在后门准则的基础上介绍了后门调整的方法（通过寻找到恰当的后门准则变量来实现后门调整，进而完成准确的因果效应估计），但是是否有其他的方式来实现因果效应的评估。或者说在之前的经验中我们尝试使用观察到充足的后门调整变量来实现因果效应的识别，但是如果在 W 无法被重插的情况下如何实现效应的评估。这里注重介绍前门准则和前门调整。

前门调整适用于在后门准则的变量无法被充分识别和观察的情况下+中介变量可以被观察的情况下，可以通过三个步骤来计算出Y 中 T 因果效应

M 中 T 的因果效应，完全是因果关系
Y 中 M 的因果效应，可以通过对 T的后门准则的截断来完成
联合上述两个步骤，来得到 Y 中 T 的因果效应

其中前门准则包括：

M 是充分的变量，也就是所有的因果路径均会通过 M 流向 Y
所有 T 到 M 的后门路径均被截断
所有从 M 到 Y 的路径均被 T 截断

6.2 do 算子

在不满足前门准则和后门准则的基础上，如何来实现因果效应的估计

附录

小角龙的学习记录- 04

因果发现的方法

因果发现的目的在于确定一个因果推的马尔可夫等价的方法，主要分为两种方式

基于约束的方法，需要判定集合是否满足一系列假设检验（例如节点之间是否需要满足条件独立性假设），为了避免对于所有可能的子集合进行搜索，往往从一个全连接图开始逐渐增加条件集合的大小
基于分数的方法，主要通过对模型类别进行假设限制，直接拟合一个结构因果模型架构来得到最终的打分函数的定义来进行求解。为了得到最优的因果图结果，需要包括两个部分：1. 最大化对数据的拟合程度、2. 对图结构的复杂程度进行惩罚。比如使用贪婪搜索的方法或者动态规划的方式。

因果估计和统计估计的方法

在假设后门变量均被观察到的假设的基础上，我们可以使用一系列的方法来进行纠偏的操作

s learner 和 t learner
tarnet 和 xlearner
PS 分数
double machine learning

阅读 Casual inference 总结上

2024-09-13T02:56:52.000Z

这篇文章主要针对 casual inference 的前置概念进行介绍，核心希望回答的问题是为什么需要因果性，如何得到因果估计。介绍到常见的因果发现的方法。之后会在因果路径的基础上介绍更多的因果方法。

一、为什么需要因果性而不是相关性

1.1 从辛普森悖论说起

辛普森悖论的现象
- 目的希望查看药物T（A，B）在患者 X（轻、重、总体）下的效果
- 悖论：
  - 从分层人群来看，药物 A 均优于药物 B
  - 从总体人群来看，药物 A 均差于药物 B
  - 问题？应当对于一个新的人给于什么样的治疗
- 解释：
  - 可能的解释 1：某种因素影响 T 的分配，比如更严重的人才会用 B，这个时候 B 更好
  - 可能的解释 2：如果存在中介变量，例如药物 B 需要人停留很长的时间而不被允许，这个时候 A 更好
- 结论：
  - 需要因果才能解释数据中出现违反直觉的结论

1.2 因果推断的应用

希望找到因果的描述，而不是相关性的描述（Associational），这样才能做出有效的策略
- 药物治疗
- 强化学习
- 社会实验
因果推断对关键决策至关重要
- 温室气体控制

1.3 相关性不代表因果性

Correlation does not imply causation

关联关系（Association 或者 Correlation in linear statistical dependence）与因果关系

并不是所有的 association 都是 casual
也不是所有的 association 都不是 casual
这句话的目的在于说明 association 和 causation 之间是有区别的
例子：不脱鞋和头疼，但是潜在的混杂在于喝酒 -> 不脱鞋，喝酒 -> 头疼。这种为 casual association，但是不脱鞋 -> 头疼，为confounding association

核心问题：希望找到因果关系来产出有效的策略方案

1.4 核心主题

统计和因果
- 统计（Statistical）：在有限的样本中估计随机性
- 因果性（casual）：但是 statistical 中的correlation 不代表 casual
识别和估计
- identification：识别因果效应（casual effect）是因果推断的关键
- estimation：常用到 ML 中的估计方法来实现效应的估计
干预和实验
- interventional 干预实验中可以很容易得到因果效应估计
- observation 数据中容易出现很多的观察因素
假设
- 基于一些假设我们才能正确的计算 potential outcome

二、基本假设：如何得到 Potential outcome

T 表示策略、Y 表示输出值、X 表示可行的协变量，利用大写变量表示随机性、利用小写变量表示具体值。

2.1 潜在输出到ITE

例子 1：假如你现在很开心（Y=1），现在给了你一个玩具狗（T=1），这个时候你仍然很开心（Y=1），但是玩具狗对你开心的效应是很弱的
例子 2：假设你现在不开心（Y=0），现在给了你一个玩具狗（T=1），这个时候你变开心了（Y=1），说明玩具狗具有很强的开心效应

Y（t）表示实施某种策略下潜在的输出，因此对于单个个体的策略包括

$$ t_i = Y_i(1)-Y_i(0) $$

2.2 基本问题

但是对于同一个个体无法在同一个时间下同时观察到两种策略下的输出，也就是反事实counterfactuals

2.3 如何解决这些问题

如何无法计算 ITE，是否可以有某种方式来计算 ATE

$$t = E[t_i] = E[Y_i(1)-E_i(0)] = E[Y(1)-Y(0)]$$

但是在通常的条件下，这个并不是等于

$$E[Y|T=1] - E[Y|T=0]$$

由此来计算对应的 ATE 输出

2.3.1 假设1：ignorability and exchange

需要保证施加策略的用户是可以实现互换的

可忽略性假设是人们如何选择策略以及被策略选择
互换性假设希望两者之间可以互换的

如何使用 a2.1 来实现因果关系的识别，也就是可以从相关关系的识别中来观察到因果关系效应，这样可以将 causal expression 转换成为一个 statistical expression。

2.3.2 假设2：unconfoundeness （CIA）或者 conditional exchange ability

在观察数据中，满足假设 1 是完全不可能的，因为不可能找到两者完全相同的组，但是如果我们可以控制住相关的变量，那么在相同条件下可以计算对应的因果效应。

如何定义“相关变量”在因果图中可以表示

这里的核心思想在于 T 和 Y 虽然可能是相关联的 association，但是在控制住相同的协变量之后，不同 T 组别之间是可比的

通过控制混淆变量的方式可以让我们在无法观察到反事实的情况下，计算出因果效应，这里的公式被定义为 adjustment formula，进而可以计算除因果效应。通过将假设 2.1 转换为假设 2.2 ，让这个额条件更加实际，但但是我们仍然不知道控制的变量是什么形式，但是由于协变量中不可能保证完整的混淆变量 confounders 被观察到，因此仍然不满足条件独立性假设

在自然对照实验中这并不是问题
- （个人想法，但是理论上完全的自然对照实验是不存在的，因此通过一些纠偏的方法来AB 实验的数据中进行清洗可能会得到一个更好的结果）
在观察数据中很难解决的事情
- 唯一可行的是观察和拟合尽可能多的协变量 X，来尝试保证（无混淆假设 unconfoundedness）

2.3.3 假设3：positivity

虽然尽可能的保证协变量 X 中包含尽可能多的混淆变量 confounders 可以让 CIA 假设得到的满足，但是为了计算因果效应，我们需要保证正值假设，而随着变量的增多可能会导致某些个体无法观察到对应的数据进而不能计算因果效应。

证明如下：计算 ATE 提升期望的过程中，使用贝叶斯法则：

直觉的解释，为什么需要正值假设？
因为如果不满足正值假设，说明其中某些子群体 subgroup 常常被分配到固定的策略方式，这种完全观察不到另一种方式会导致无法计算合理的casual effect

因此我们往往面临假设 2.2-假设 2.3 之间的 tradeoff。协变量 X 中表示更多的混杂变量可以更容易满足假设 2.2，但是随着变量的增多，我们更容易陷入不满足假设 2.3 中，因为一部分群体只会接受到固定的策略。此时在外推情况下往往会导致输出为 0

2.3.4 假设 4：No interference + consistency = SUTVA

没有干扰性的假设表示每个人的输出不会受到其他人的影响

一致性假设表示在给定一个策略下，必然得到固定的产出

2.3.5 总结

在满足上述假设的过程中，我们可以通过期望公式将条件因果效应得到对应的输出

Casual estimand 因果效应真实值（通过 identification）
Statistical estimand 统计效应真实值（通过 estimation）
Estimate

三、违反基本假设的困难：从Casual Graph 解释

3.1 基本图的术语

graph
- nodes
- edges
- Connection
- path

3.2 贝叶斯网络

The chain rule of probability

结合贝叶斯网络和马尔科夫性质

PS：定义 3.2 没太看懂

3.3 因果图 Casual Graph

什么是因果性？
如果 X 变化，Y 一定会随着变化的。在因果图中每一个父节点都是子节点的直接原因

3.4 两个节点

对于两个没有关联的节点之间是存在独立性的 $P(x_1,x_2) = P(x_1)P(x_2)$

对于两个存在关联的节点之间是存在 association 的

3.5 因果链 chain 和因果叉 fork

在 Chain 下如何计算 X1 对于 X3 的因果效应？

在 Fork 下如何计算 X1 对于 X3 的因果效应？

如果在保证变量 X2 的条件下，可以证明 X1 和 X3 之间存在独立性，因此可以计算因果性。由此可以满足条件独立性假设。

3.6 因果碰撞 Collider 与其后代

看上去 Immorality 中 X1 和 X3 之间没有association，但是其都是指向了相同的变量 X2，因此在采用 X2 作为变量控制，可能会让两个不相关的变量存在 association

为什么通过控制碰撞变量可以得到因果效应的估计呢？
比如在相亲的过程中， X1 善良，X3 外表；你会发现大多数好看的男生都是混蛋，而大多数善良的男生都不好看，因此必需要在外表和善良之间做出选择，也就是两者存在负相关。
但是变量 X2 表示可获得性，也就是没有对象的人才会相亲。由于 X2 导致两者存在 association，在条件于 X2 的情况下，会导致两者存在 association

因此通过控制 Collider 变量，会导致一个阻断链路成为一个非阻断链路。

X1 和 X3 在整个人群中没有关系
但是条件与 X2下，会导致两者出现association
berkson‘s paradox，这也是导致 selection bias 的存在

3.7 Do 算子｜ d-separation

那么上述的阻断路径指的是什么？

对于 chain 和 fork 变量，需要控制住
对于 Collider及其子变量，都不需要控制

未被阻断的路径就是路径中存在未被阻断的节点，其中可能会存在 association，但是在 blocked path 中不存在 association 而可以识别出casual，有次定义的 D -分离的定义

3.8 因果图和相关图

在介绍完因果图中常见的概念之外，最终的目的是为了能够介绍因果图中的 association 和 causation

association
- casual association 按照 direct path 运行
- confounding association 混淆关联

在上述的基础后提出的“后门准则”和“前门准则”中的意义在于

在某些研究中，虽然 DAG 的某些变量不可观测，我们仍然可以从有限的观测数据中估计因果效应
有助于鉴别混杂变量和设计观察性研究
后门准则(Fork)：定义变量之间除了直连路径之外的其他 unblocked path 均为后门路径
- Z 中节点不是 X 的后代
- Z 阻断所有指向 X 的路径
前门准则(Chain)
- Z 阻断了所有 X 到 Y 的直接路径
- X 到 Z 没有后门路径
- 所有 Z 到 Y 的后门路径都被 X 阻断

例子：我们关心吸烟和肺癌之间的因果关系。由于一个潜在的不可观测的基因的存在，吸烟和肺癌之间有一条“活”的后门路径，因此不借助其他的条件，我们无法识别吸烟与肺癌的因果关系。如果我们有这样的知识“吸烟仅仅通过肺部烟焦油的含量来影响肺癌 ”，那么吸烟对肺癌的因果作用就可以估计出来了。不过，这里需要两个条件，也就是在证明中使用的两个条件独立性，他们表明：（1）吸烟和肺部烟焦油的含量之间没有“活”的后门路径（或者没有混杂因素）；（2）吸烟对肺癌的作用仅仅来源于吸烟对肺部烟焦油的作用，或者说，吸烟对肺癌没有“直接作用“”

再回到原始的辛普森悖论的问题，可以发现在背后可以有很多种解释的方法，因此只有基于因果的方式才能更好的描述这个状况

四、如何得到准确的答案：Casual Models

4.1 do算子和干预输出分布

因果推断中 do 算子的一些描述

4.2 核心的假设：模块化 Modularity

为确保因果图中对于变量 X 的干预只会改变 X 本身的概率，等价于移除所有指向 X 的因果边

例如从观察数据中，和对其施加干预之后的干预分布定义

被定义为反事实规则或者是干预规则

4.3 因果图分解 truncated factorization

在因果图的局部假设的基础上，可以提出因果图的分解方法

贝叶斯网络分解公式
- 对其进行分解
马尔可夫假设或者模块化假设
- 对其进行分解
通过三个步骤计算出因果统计量

4.4 后门调整 backdoor adjustment

如果在上述的到完整的后门准则调整的集合之后，在给定的数据集后则可以识别出对应的因果效应

前提是需要满足正值假设、后门准则（充分集合）来求解出对应的因果效应

4.5 结构因果模型 SCM

4.6 后门调整的应用

4.7 回顾假设

五、自然对照实验和非参数识别

六、如何估计因果效应 Casual effect

七、未观察到的混杂因子

八、工具变量 IV

九、时间差异 DID

十、观察数据中的因果发现

Reference

《Introduction to casual inference from a machine learning perspective》 by Brady Neal

盛夏之后，苦秋之前｜致求职

2024-09-03T12:55:42.000Z

从未想象过南方的夏天会如此的丰富多彩，阳光和暴雨的展开姿势是内陆从未见过的大开大合。当天气明媚的时候，仿佛广州塔都在微笑，而当暴雨倾城，突然分不清天地之间的边界。很幸运可以在六月底背负着被航班取消，踏着十个小时的高铁来到羊城，开始了自己的“无问西东“的暑期实习，也希望自己的秋招可以顺利。

“无问西东” 是这个暑假的旋律

朴实竟然是我对腾讯的第一眼，T.I.T 创意园中穿插着矮楼和高树，这些树儿不知何时初见行人，又不知送走了多少代观众。艺术氛围在这里是不缺的，但没想到在游客之中也穿插 B1～B10 的工区，这边是办公地点的，不问西东是未来两个月的主旋律。

人总是需要追踪点什么才能跑过时间的流失，有的时候是什么都不说的骑着摩托车去体验地面的温度，也有的时候是被赶鸭子上架上手工作。前者是感受生命的禅意，后者可能是感受生命的跳动。初入实习的时候很难适应快节奏：不会写 OKR，看不懂周报黑话，甚至连 SQL 都不熟练，但可能知道自己缺点的时候才是成长最快的时候。当知道自己眼里有梁木之后，时间成为最宝贵的东西。

天而复始的起床-冥想-工作-下班的飞轮是盛夏的核心，吃掉十几个西瓜、经历过多次暴雨，不知道听过多少蝉鸣，当度过答辩，满下脚步确发现这个夏天已经过去了，如果等站在行刑队面前，一定忘不了这个夏天的坚持。感谢实习中遇到的人让我自己成长，见识到了一个更深层次的世界，也明白追求完美再实际中就要动手去做，“无问西东”是我学到最宝贵的教训。

“ 我是谁？我从哪里来？我向哪里去？“ 是无论何时都需要回答的问题

但我好像还是不知道自己应该选择什么样的职业。在绿皮书中，博士爆发时说“我不够黑，我也不够白，告诉我我是谁？”，同样的悖论在日漫中也有体现，无论是金木还是艾伦，当系统中出现变化的人，无法找到自我认同是最大的障碍，筚路蓝缕的孤独只有初代人才能体会。当踏破铁鞋，行半百却蓦然发现不知道自己在哪里，也不知道自己需要什么。

本人的专业是可笑的交通信息，是个问题非常多的专业。可以说是跨越再文科、工科、理科、商科之外的专业，曾经去过工地见过道路施工，也上过铁路搬过道岔机，了解机场的飞机起飞，也写过公交的排班算法，既要会出彩的报告能力，也要过硬的代码素质，还要探讨群体的管理。仿佛这个专业告诉过我们世界上所有的难题，唯一不告诉的是怎么去解决这些问题。但也幸运的是在这个四不像的专业中，找到了自己喜欢并热爱的东西 – 数据和代码。

热爱代码是自己的第一步，第一次接触代码是在高中的信息科上，唯一的工具是家里一台 03 年生产的奔腾笔记本，第一次安装 Python，在交互式命令行敲击 print（‘hello world’）,就觉得这是非常酷的事情。上大学最喜欢的一门课是嵌入式系统（交通也要学这个，是不是很神奇），当看到自己写的代码经历烧录和串口传输可以操控硬件，是一件非常有成就感的事情，内心一直希望可以和乔布斯一样可以造出自己的盗版电话机，直到本科的信息论上老师说不同频段使用有规范，才发现条条框框早已梳在虚拟世界之中，接下来唯一有趣的便是数据了。

机器学习是数据处理中非常热门的话题，但是它到底解决了什么问题？从另外一个角度，当前社会生产力已经经历了很多次的分类，庞大甚至恐怖的信息分发机制笼罩着人们的生活：新闻、生活、外卖、购物、出行… 也由此产生了大量需要决策的需求，而如何将人力解放来使用模型解决它可以解决的问题，让人来确定模型去哪里便是机器学习的意义所在。而幸运的是交通中从不缺难题，因此机器学习、深度学习、强化学习中一些模型也慢慢被尝试动手下来，仿佛自己学会了很多。

打击来自日常实习的寻找，还记得字节的面试官问我“你知道辛普森悖论”吗？感觉自己就像骄傲的地球人被水滴戳破了虚浮的外表，好像自己从来没有认真的做过什么呢，模型也是只会调包，推导的公式也是复述的，所幸的是通过了滴滴的面试，让我得以认识到真实公司的运作，第一次见识如何处理大规模数据，第一次认真的魔改模型和调参，第一次因为模型效果不够好而焦虑，也第一次因为模型评估通过而高兴。明白了自己的优势并不是刷榜式的改模型，而是针对业务需求是分析问题、应用工具，这边是我需要往哪去。

心中有信仰，脚下才有力量

人总是需要信仰的，这样才能保持前进的步伐。

信仰可以是金钱，这是人类社会最通用的等价值交换物，也是个体耐以生存的必要，保持对金钱的渴望才能对现在有更多的动力，但也会专注与六便士而忽略远方的月亮。
信仰可以是兴趣，因为喜欢代码，旁边的开发小哥会参加 icpc，也会在闲暇时间刷题提升能力，这样的生活是愉悦的，是不自知的。
信仰也可以来自外部，当失去力量的时候往往需要外部的力量来激励自己，或者说“情绪价值”，保持对代码的热爱可以让人更快速的学习，保持对总结的热爱，可以规范人的行为

所以在秋招的时候，由于不信任自己擅长什么，在过去一周都过的浑浑噩噩的。所以在此希望自己能勉励自己，在看见自己不足的情况下才是应该成长的时候，去前进而不是去逃避。也希望可以避免成为乌合之众，在牛马之中也可以有天命人的激情。

电脑键盘背后的故事 feat. 宁芝 Plum

2024-04-30T01:51:59.000Z

最近购买了一款静电容键盘 Niz68 有线双模，首先面临的最大的问题是这款键盘没有功能键，在对功能键的摸索中发现了自定义键盘的海洋，有一种第一次看到 vim的使用方式的敬畏感油然而生。更重要的激发对于键盘，这个在电脑诞生就陪伴人们的工具，产生了好奇：它是如何一步一步发展成为现在这个样子？它之后是否还会改变？从实体键盘到无线键盘，从电脑键盘到手机虚拟键盘，本文搜集材料来介绍键盘的发展史。

电报打字机

19 世纪初，英国、法国和美国逐渐出现了电报，一种通过电信号传递信息的手段，为了将信息从文本/语言转换成为电信号，打字机作为转换装置自然而然的诞生的，1866 年，“打字机之父” Christopher Sholes被认为是 QWERTY 键盘的发明家第一，

参考 wiki 百科，Sholes 在成为一家报纸的编辑者以后，尝试在印刷机排字工人罢工之后尝试制造一台用于排版的机器，之后它希望通过创建一台机器来实现对书籍、门票的页码编号，在 1866 年 11 月 13 日获取编号机的专利，之后与另一位机械车间的发明者发明一种可以敲击字母的机器，科学美国人将其成为“文字钢琴”

1 2	`3 5 7 9 NOPQRSTUVWXYZ 2 4 6 8 。 ABCDEFGHIJKLM`

之后他们意识到速记员可能是最需要的用户，但是以最快的速度敲击了薄弱的机械结构，让其成为可以使用的产品，在 1870 年代不断改进打字机，其中 James Densmore 建议将常用的字符组合分开以解决因敲击恢复速度缓慢造成的干扰问题。由此产生的布局至今在计算机键盘中使用，尽管干扰问题不再存在。

键盘

键盘是我们接触电子设备最直接可靠的工具，它简直创造了一种新的交流方式。同时对于键盘本身，从面向对象的角度可以对ta 进行不同层次的抽象，主要包括硬件电路的物理实体和软件定义的快捷键，由于键盘天生具有物流按键的含义，因此为了之后的修改，其天然的就具备足够多的功能修饰键来管理对应的信息，

机械键盘？

机械键盘的物理按键结构主要分为：

防尘罩：保护内部零件、原理灰尘
机械轴（Switch）：舒适手感、按键反馈优化
黄金十字触点：灵敏反映、快速响应
强力弹簧：敲击寿命

根据不同的轴体区分处青、红、茶、黑四大轴体，不同的轴体区分主要影响不同的手感。手感可以从两个方面判断：

段落感，类似于圆珠笔的感觉，主要是青轴和茶轴
线性轴体，直上直下，干脆利弱，红轴为 45g、黑轴为 55g

薄膜键盘？

薄膜键盘内部存在三层线路板，上下两层有导电线路，中是绝缘层，当键盘依靠按键下的硅胶按下到底，让键盘第一层与第三层接触，判断响应量

静电容键盘？

利用电容量的变化来实现触发

键盘是如何工作的

键盘在当今的计算机时代主要充当 输入设备的角色，通过键盘我们可以键入文档、使用快捷键、访问菜单、游戏等等，键盘的不同按键取决于不同的操作系统，通常键盘包括 60～100 键，功能包括

打字键，存在不同的布局形式，包括 QQWER、Dvorak、ABCDE、XPeRT 等等
数字键盘，随着商业环境中计算机使用的增加，对于快速数据输入的需求随之增加
功能、控制，1986 年，IBM 进一步扩充基础键盘，增加功能键和控制键来让操作系统或应用程序可以将特定命令分配给不同的按键。之后 window 、Apple 都为键盘增加不同的按键

但是从键盘本身可以看作是一台微型计算器，通过自己的矩阵形处理器电路将信息传入和传出该处理器，并通过存储器中的字符映射比较（maybe 查找表）确定输出的值。

其中键盘矩阵是按键下方的电路网络，在键盘中电路在每个键下方的某个点处断开，当您按下一个键时，它会按下一个开关从而完成电路并允许少量电流通过。在这个过程中往往出现的问题是机械机构会出现反弹的问题，通常需要滤波装置来消除这种振动。

但是，电容按键可以认为是非机械的，电容式键盘中电流不断流过按键矩阵的所有部分，每个按键均存在弹簧，底部存在一个小板，当您按下某个按键后，该板会移动到其下方的板，当两块板靠近时流过矩阵的电流量发生变化，进而解释为该按键的位置，电容键盘的好处在于两者未接触进而增加键盘的寿命。

除了传统的键盘之外，在针对人体工程学设计的键盘往往将键盘分隔开来让人嗯的双手分开的公园，使得手腕与前臂对齐。

在键盘处理器确定需要将那些字符发送给计算机之后，可以将字符保留在内存缓冲区中，然后通过信息传送装置，如有线的 rs232、sub 等，无线装置包括蓝牙、射频（RF）等等发送给键盘，并由系统分析是否为系统级别命令 or 操作系统级别命令。

软件定义键盘｜ karabiner

在 Mac 端一款非常强大的键位映射工具，官网的描述是“A powerful and stable keyboard customizer for macOS”，其核心功能包括

简单映射，一对一的按键映射关系
复杂映射，包括一对多的映射，外加条件的映射关系

电脑键盘进化史

面试经验 vol3 ｜从 AB 实验到因果推断

2024-04-29T11:42:56.000Z

这里参考很多前人的经验：

因果推断笔记——入门学习因果推断在智能营销、补贴的通用框架（十一）-腾讯云开发者社区-腾讯云

基础理论

0. 相关性和因果性

在日常的生活和数据分析中，我们可以得到大量和相关性的杰伦，通常这些相关性和因果性存在对称性，“小偷多的地方，警察多” or “警察多的地方，小偷也会多”，那么是否需要对这个城市增加警力？

因果性往往是存在单箭头的，比如辛普森悖论

吃药的意愿收到 X 的印象，由此 T 和 X 共同会影响最终的 Y，这和时候需要做分层的解释才能得到最终的结果

1. 解决问题

推理问题的层次包括：

关联 association：纯粹的统计关系，在 X 条件下 Y 的输出会怎么样？eg. 购买儿童纸尿裤的人有较大概率会购买啤酒
介入 intervention：如果做了某件事情，会发生什么样的效果？eg. 如果我们将地铁票价翻倍会如何？如果吃了药是否会变好？
反事实推断 counterfactual inference：如果我们希望 Y 变化，我们希望对 x 做出什么样的改变？eg. 如果地铁人数减少，我们希望知道是否是由票价提高引起的？我们头疼变好是否是因为吃了药

2. 内生性问题

定义：

在线性回归模型中可以定义四个假设：

响应变量 y 和解释变量 x 之间存在线性随机函数关系
严格外生假定: 当所有时期的解释变量给定时，每一期的随机干扰项的均值都为 0
球形扰动假定
无完全共线性假定，也就是变量之间不存在线性关系

由此可以得到对应权重变量的OLS 的最优线性无偏估计量，外生性值得是：

E(误差｜变量) = 0 ，E（误差 t ｜变量 t） = 0

如果外生性假定不满足，则会产生内生性问题，常见的问包括

遗漏解释变量，存在un observation variable
X 和 Y 之间互为因果
自选择问题
测量偏差问题

常见的解决方案包括

自然实验法，将其看作是一种实验组和对照组
双重差分法 DID，双重差分法，倘若出现一次外部冲击，影响了一部分样本，对另外一部分样本无影响，如果如何外部冲击的影响？可以使用收影响样本做差、未受影响样本做差，差再做差得到最终的结果
工具变量 IV，找到影响内在变量的外生变量，连同其他的变量得到最终的结果
动态面板回归法，将解释变量和被解释变量的滞后项作为工具变量的方法来进行使用，但是不认可这种处理方法
断点回归
倾向得分匹配模型 PSM：加权、分层、匹配

关于 PS 问题存在几个误区：

没有从根本上介绍因为选择偏差或者遗漏变量造成的内生性问题
不能成为准实验，无法提供模拟实验条件
外部有效性条件，在共同支撑假设，PSM 也会排除缺乏对照组的样本进而使得样本代表性变差，影响效果的外部有效性

3. 因果分析的两种框架

潜在结果框架 Rubin potential outcome RCM

希望估计单个个体或者整体平均意义下的 treatment effect：

识别（identification）将因果关系从关联中分割
估计（estimation）计算因果关系的大小
检验（hypo test）我们有多大信心结果是正确的
置信（conf int）结果会存在多大的扰动

最重要的是需要找到合适的：对照组和实验组

keywords：

匹配方法
双重差分模型 DID
合成控制法 Synthetic control method
断点回归

因果图结果框架 Pearl causal graph CGM

有向图用来描述变量之间的因果关系，通过计算因果图之间的条件分布，获得变量之间的因果关系，希望使用条件分布来消除估计偏差，最核心的估计检验分布，消除其他变量带来的偏差

侧重识别

keywords：后门准则和前门准则

4. 调节效应于中介效应

中介效应：X —> M —> Y
调节效用：X —> Y， M —> Y

比如，性别 X 和录取 Y 之间的关系，其中性别 X 会影响 M 学历，进而影响 Y，这个是中介效用，这个时候我们需要消除这个学历（confounders）的影响来保证学历不变的情况下，衡量性别于录取结果之间的关系

比如，收入 I 会影响M，这个就是调节作用

5. 常见假设

无混淆性 unconfounder ｜可忽略假设 Ignorability ｜ CIA 假设

不存在未被观察到的可以影响 T 分布的混杂因子

正值假设 positivity

至少存在一项干预导致的结果是无法被观察饿的

一致性假设 consistency ｜稳定单元干预值假设 Stable unit treatment value assumption SUTVA

任意单元的潜在结果都不会因为其他单元的干预发生改变而改变，且对于每个单元其所接受的每种干预不存在不同的形式或版本导致不同的潜在结果

干预水平对于所有的个体一致

常见模型

1. PS based 方法

Match 匹配方法，寻找对照组

IPW 逆倾向性打分的方法

缺点：1. 需要对 PS 估计足够准确 2. 过去趋近于会导致权重过高

DR or （AIPW）增强 IPW 方法结合倾向性打分和结果回顾模型来得样本权重

Stratification PSS 方法

2. 数据驱动的方法

D2VD 变量分解方法

混淆变量 confounders：影响干预变量 T，也会影响结果变量 Y
调整变量 adjustment：与干预变量 T 独立，但是会影响到 Y
无关变量，不会直接影响到干预变量于估计变量

3. 平衡性 and 均衡性检验检查

如何知道匹配的效果？或者实验组对照组是否分布均匀

最直观的是观察

PS 分数在匹配前后的分布，或者是
特征匹配前后的 QQ plot
量化指标 SMD，用于计算两者之间的差异
共同支撑检验 common support：主要检验的目的是确定针对每个处理组，都有对照组与之匹配

反驳 Refute

使用不同的数据干预方式来进行检验，来验证得到的因果效应的有效性，反驳的基本原理是对于数据进行某种关于之后，对重新生成的数据进行因果效应的估计

安慰剂数据方法，使用 placebo 的方法来代替真实的处理变量
随机混淆变量，增加一个随机生成的混淆变量
子集数据方法：随机删除一部分数据，作为最终数据的随机自己

4. DID 双重差分法

在一定程度上减轻了选择偏差和外因带来的影响

使用的时候需要满足的假设：

线性关系假设：来自于线性回归，认为因变量和结果变量存在线性关系
个体处理稳定假设 SUTVA
1. 一致性 consistency：个体接受处理所导致的潜在结果是唯一的
2. 互不干预：个体接受处理的潜在结果不会受到其他个体吃的影响，eg 比如我在淘宝上购买红包后会更愿意买东西，并不会因为我同事也领到了红包而降低意愿
平行趋势假设：结果的趋势是一只的

5. 工具变量法 Instrumental variable

工具变量需要存在以下三个条件

Z 和 T 相关
Z 只能通过T 影响 Y
Z 和 Y 没有共同诱因

6. Double machine learning

消除精准预测，使用任意的 ML 模型给出特征对于目标的无偏估计

应用细节

1. 双重机器学习 Double machine learning

问题例子：分析直播推荐多样性（D）对用户活跃度（Y）的影响，都收到用户自身的画像、用户过去的直播浏览历史 X 有关

存在的问题：

X 的纬度太高怎么办？
不知道 X 和 D 的关系

方法思路：

CIA 假设，所有混淆变量都可以被观测
ML 自带的正则化来达到高纬度变量的选择的目的

估计 X 对 Y 的影响，再估计 X 对 D 的影响，提出这两部分之后，取残差进行估计，来分析直播多样性和输出之间的关系

2. 因果随机森林模型

相当于训练一个 treatment 的树，然后在树的节点做因果头对岸，类似于match or subclass很相似

3. meta learner 对于 uplift modeling

S-learner

T-learner

X-learner：利用 weight function 来得到两种不同 ATE 估计的求和

4. 快手的因果推断和实验估计

场景：直播是一个双边网络

网络设计的难点：网络效应的检测和应对

流量扶持情况下，主播是否存在流量基站
主播侧传播到用户侧的双边网络效用
用户侧传播到主播侧的双边网络效用

更微观一点的：

问题挂件是否会存在刺激消费？

主播：control 不上挂件、treatment 上挂件

用户：control 看不到挂件、treatment 看得到挂件

挂件可能会导致 treatment用户在 treatment 和 control 的用户之间转移直播消费
treatment 主播可能会更加卖力直播，影响 treatment 和 control 组观众

5. 淘宝中的PSM+DID

实验组和对照组是否同质

倾向得分匹配（PSM）的原理以及应用

PSM：根据倾向性打分来进行匹配，适用于样本属性很高，并且不好做切断的离散变量

CEM：广义精确匹配，使用核心混杂因子进行匹配，每个实验用户匹配到的 N 个同特征用户作为对照组，取 N 个同特征用户的核心指标均值作为实验用户的对照

6. 淘宝3D 化价值分析

mp.weixin.qq.com

7 腾讯因果推断框架总结

8. 滴滴国际化外卖团队的因果推断

因果推断建模和 auuc

ROI = （指标｜干预 - 指标｜不干预）/ （补贴｜干预 - 补贴｜不干预）

ROI 不一定会是一个好的指标，同时 GMV 和成本分层下对应的ROI 提升也是有效的

9. QQ 浏览器 push 优化实践

安全验证 - 知乎

个人总结

离散选择或者一类的回归分析、基于特征重要性的树模型是从结果来分析对应的原因，这个其实和因果推断中得出 AB 实验如何来分析背后的差异是一致的，本质上解决的问题是从结果到原因

改不改发优惠卷

在因果推断方法中，我们希望解决what if 的问题，也就是从如果我们希望得到什么样的结果，我们应该如何来做出自己的策略的选择，这个是从“原因来分析结果”，所以通常有因果关系发现和因果效用估计两种方式

线路关闭受到哪些影响因素
指标异常分析、流失分析、DAU 分析

那么为什么要做因果推断？这个表现在强化学习中是可能会造成智能体学习的策略估计，通常最简单的方式是DQN 的 Q 值会过高轨迹，为了解决这个 on policy 的问题，我们通常会使用 off policy 的方法来分离探索智能体和目标智能体来得到教优估计。

面试经验 Vol2 ｜损失函数和评价指标总结

2024-04-29T11:39:40.000Z

Mitchell 在《机器学习》中对其的定义是：

一个计算机程序被认为能够从经验 E 中学习,去完成任务 T,达到性能度量 P,当且仅当,通过经验 E 的学习,其在任务 T 上的性能度量 P 得到了提升。

假设我们有一个模型 $f(x;θ)$,其中 x 是输入,θ 是模型的参数。给定一组训练数据 $D={(x_i,y_i)}_{i=1}^N$,其中 $x_i$是输入,$y_i$是对应的目标输出。我们的目标是找到一组参数 θ,使得模型 f(x;θ) 在任务 T 上的性能度量 P 最大化。

这里,损失函数 L(f(x;θ),y) 的作用就是衡量模型的预测输出 f(x;θ) 与真实目标输出 y 之间的差异。我们希望通过最小化损失函数,来找到最优的模型参数 θ。因此,机器学习的任务可以表示为一个优化问题:

$$ min_\theta \frac{1}{N} L(f(x_i;\theta),y_i) $$

通过最小化训练数据上的平均损失,我们得到了一组最优参数 θ,使得模型 $f(x;\theta)$在任务 $T$上的性能度量 P 得到提升,从而实现了从经验 E 中学习的目标。

在学习链路的整个过程中，数据（E）、模型（计算机程序）、度量（L）、训练（T）都是非常重要的部分，本文主要针对学习过程中针对不同的任务设计不同的损失函数，来实现模型效果的最优化。

0x00 如何设计损失函数

1.1 ERM 输出～标签

如果把数据看作是历史观察的经验，那么经验风险就是模型在训练数据上的平均误差：

$$ R_{erm} = \frac{1}{N}\Sigma L(f(x_i),y_i) $$

1.2 SRM 模型本身

由于模拟复杂度和问题复杂度之间不匹配会造成《欠拟合或过拟合》的问题，因此通过对模型的复杂度进行限制有有效的避免过拟合

$$ R_{srm} = R_{erm}+\lambda \Omega(f) $$

初次之外，我们可能需要根据不同的任务来区分不同的损失函数设计方式，比如：

GAN 的损失函数设计，将生成器看作负样本，将真实样本看作正样本，训练过程
SVM 的损失函数设计，利用最大间隔来区分正负样本
交叉熵或 KL 散度，利用信息论来衡量模型预测概率和真实概率分布的差异
排序学习损失函数设计，包括 list wise、Pair wise、List wise 等方式计算

分类	Cross entropy	回归	Square loss	LTR	pairwise CE
	hinge loss		absolute loss		pairwise Hinge
	Focal loss		Huber loss		pairwise Square
	weighted CE		Log loss		lambdaRANK loss
					ListNet loss

对比	infoNCE	多任	Linear weighted	多标	soft margin
学习	Triplet	务学	Mean squared	签学	ranking
	NCE	习	uncertain loss	习
	CPC		gradient norm

初次之外还包括很多其他的任务，比如分类、回归、学习排序、搜推广、强化学习、生成学习、对比学习、度量学习、多任务学习、异常检测损失、few-shot 学习、零样本学习、多标签学习、非监督学习损失、半监督学习损失、持续学习损失函数、因果推断损失等等。

0x01 分类损失函数

1.1 Cross Entropy 损失

利用0-1 分布可以推导出对应的损失函数，注意这里的y_hat 是概率，y是 0-1 标签

$$ L(y,y_{hat}) =\Sigma ylog(y_{hat})+(1-y)log(1-y_{hat})) $$

1.2 KL散度

KL 散度 = 交叉熵 - 信息熵，用于策略两个概率分布差异的方法，其数学表示为；注意通过这个可以看出两者具有非负性、非对称性。

$$ KL(P||Q) = \Sigma_xP(x)\frac{P(x)}{Q(x)} $$

1.3 指数损失

同号时两者的损失较小，当两者sign 不一致后导致惩罚急剧增大

$$ L = \Sigma exp(-y_if(x_i)) $$

1.4 Hinge los

确定性较强时损失为 0，否则损失不为 0

间隔最大化：Hinge loss 通过惩罚位于正确分类一边但距离决策边界太近的点，以及位于错误分类一边的点，从而鼓励模型找到一个能够最大化正负样本间隔的决策边界。
对正确分类的容忍度：如果一个样本被正确分类，并且其预测值与实际标签的乘积大于1（即，它们之间的间隔超过了1），那么这个样本对损失函数的贡献为0。这意味着模型不会因为正确分类的样本而受到惩罚，只要这些样本距离决策边界有足够的间隔。
对错误分类的惩罚：对于错误分类的样本（即，预测值与实际标签的乘积小于1），损失值随着分类错误的程度增加而增加。这促使模型减少这些错误。

1.5 Focal loss

通常用于解决分类任务中的类别不平衡和难易样本的问题。它是一种针对二分类问题设计的损失函数，旨在减轻易分类样本对模型训练的影响，使得模型更加关注难分类样本，从而提高整体分类性能。因此，Focal Loss属于分类任务中的损失函数。

$$ FL(p_t )=−α_t (1−p_t )^γ log(p_t ) $$

import torch
import torch.nn as nn
import torch.nn.functional as F

class FocalLoss(nn.Module):
    def __init__(self, gamma=2, weight=None, reduction='mean'):
        super(FocalLoss, self).__init__()
        self.gamma = gamma
        self.weight = weight
        self.reduction = reduction
        
    def forward(self, input, target):
        # 计算交叉熵
        ce_loss = F.cross_entropy(input, target, reduction='none')
        
        # 计算pt
        pt = torch.exp(-ce_loss)
        
        # 计算focal loss
        focal_loss = ((1-pt)**self.gamma * ce_loss).mean()
        
        return focal_loss

0x02 回归损失函数

2.1 MSE 均方差损失函数

用于衡量样本真实值和预测值之间的差距，利用概率可以推导出背后的公式

2.2 RMSE 均方根误差损失函数

保证与样本量纲保持一致

2.3 MAE 绝对值损失

0x03 对比学习（contrastive learning）中的损失函数

对比学习（Contrastive Learning）综述

这里总结一下对比学习的基本思想，主要是通过度量两者分布的距离，保证同类别度量尽可能小，不同类型之间的距离尽可能的大

3.1 contrastive loss

对比损失中其中最困难的应该是如何在无标签数据中定义标签来进行学习，其中 d 代表的是(x1,x2)之间的样本距离，其中 y 表示两者是否为同类型的样本，类比弹簧势能的定义：

对于模型预测为同类别，1，但是样本实际的距离越远，两者之间的损失越大
对于模型预测为非同类，0，但是样本实际的距离越远，两者的损失函数越小；至少保证在一定 margin 外不会出现 0 的情况

对比损失属于 Pair wise 的一种，在通常的情况下并不需要计算所有样本下的损失，而是计算正样本和负样本之间的距离可以作为方式，或者增加一些随机样本、负采样、软采样的方式。

$CL = \frac{1}{2N}\Sigma [y_i ⋅d^2 +(1−y_i )⋅max(margin−d,0)^2 ]$

3.2 Triplet los 三元组损失

但是在实际的训练过程中，我们并不确定所有的样本都可以计算，同时假设所有的样本无限拉近可能会导致过拟合的风险。因此希望通过对比的方式将三元组分为（x 正，x 负，x）;也就是将数据集划分为：Anchor、positive、negative

$$ L= max(d(x^+,x)-d(x^-,x)+\alpha,0) $$

FaceNet: A Unified Embedding for Face Recognition and Clustering

在搜索推荐场景中：

anchor：用户当前搜索查询的浏览记录
postive：用户点击或者互动过的相关商品和内容
negative：用户未点击或互动的不相关的商品

3.3 NCE loss

3.4 Info NCE loss

3.5 Center loss

A Discriminative Feature Learning Approach for Deep Face Recognition

3.6 Circle loss

0x04 排序学习（learning to rank）中的损失函数

LTR(Learning to Rank)概述

了解排序问题首先需要明确目的，比如在搜索问题中，最关心的是返回 N 个样本的相关顺序关系，而不是每个样本的预测值最准确，属于 ranking 问题（另一类是 rate 问题）

对于训练样本的标注主要包括以下两种：

人工标注，针对搜索结果进行不同等级的划分
历史数据，通过搜索历史来获取对应的标注，对应这种观察数据存在选择偏差

根据 Point wise、Pair wise、List wise，

Pointwise: Subset Ranking, McRank, Prank, OC SVM
Pairwise: Ranking SVM, RankBoost, RankNet, GBRank, IR SVM, Lambda Rank, LambdaMart
Listwise: ListNet, ListMLE, AdaRank, SVM MAP, Soft Rank

0x05 生成学习（Generative）中的损失函数

https://github.com/hindupuravinash/the-gan-zoo

0x06 多任务学习（Multi-task learning）中的损失函数

uncertainty weighting 不确定性
Grad normalization 梯度均衡
Multi-objective optimization
Geometric loss
HydaLearn 存在的问题
Cov - weighting 动态计算
Scaled loss approximate weighting

面试经验 vol1 ｜计算机基础知识

2024-04-29T11:38:03.000Z

总结常见的诞生于 计算机组成原理，操作系统、 计算机网络、算法设计基础中的常见的知识，在这个过程中回顾快速入门计算机知识中，从纸条到硬盘、从继电器到二极管；这门学科的目的是实现自动化的操作，帮助我们高效的完成既定任务。在这个过程要克服死记硬背的指令，来解决盲目寻找答案的过程。

操作系统相关

1.1 Shell和脚本

使用字符串和计算机内核进行交互。其核心功能是允许执行程序，输入并获取某种结构化的输出。shell和所有的编程语言，同样包括变量、函数、条件、循环等一些系列操作，同时会询问环境变量 $PATH

Shell 中常见的函数有哪些？

常见的函数：

date # 查看的当前日期
pwd # 阅读当前的工作目录
echo hello # 输出对应的值
echo $PATH # 查看环境变量
cd # 进入目录
ls # 列表
mv # 重命名或者移动文件
cp # 拷贝文件
mkdir #创建文件夹
find # 查找文件
fd pattern
 locate

Shell文本处理三巨头grep、sed、awk的案例

grep # global regular expression print ，用于搜索文本内容中匹配特定模式 
sed #  stream editor 流编辑器，用于执行文本文件中的文本替换、删除、插入操作
awk # 文本和数据的提取和报告生成

# 一些案例
grep 'error' log.txt
grep -r 'functionName' /path/to/directory/
awk '{print $1}' file.txt
awk 'END {print NR}' file.txt
sed 's/oldText/newText/g' file.txt
sed '3d' file.txt‘

Shell 中函数的常见参数

1 2	`-h # 帮助 -- version# 查看版本`

管道的使用方式Pipeline

1 2	`> file < file # 将程序的输入输出重定向｜ # 使用pipes来连接输入和输出`

从shell命令到脚本

从shell到脚本，可以实现变量、控制流和语法，同时加强了pipelines、保存到文件、标准输入输出原生操作的优势。

$Var 是变量，$0 脚本名、$1~9 参数名、$@所有参数、$# 参数个数、$? 前一个命令的饭绘制、$$ 当前脚本的进程识别码、!! 上一次命令、$_ 上一条命令最后一层参数
‘ 和 “” 是不一样的
同样支持 if case while for的控制流关键字的操作
命令替换（command substitution）、进程替换（process substitution）

常用的正则表达式

必须要熟悉正则表达式：

. 除去换行符之外的任意单个字符
*匹配前面字符零次或者多次
‘+’ 匹配前面字符一次或者多次
[abc]匹配abc其中的任何一个
(rx1|rx2)任何能够匹配Rx1或者rx2的结果
^ 行首
$ 行尾

RegexOne - Learn Regular Expressions - Lesson 1: An Introduction, and the ABCs

配置文件的格式 dotfile

相关程序的配置问价 DOTFILE 是通过这类隐藏的配置文件实现的

bash ~/.bashrc
git /.gitconfig
vim ~/.vimrc 
ssh ~/.ssh/config

SSH 使用教程

ssh 使用过程，只需要向服务器证明客户端的私钥即可，等效于密码。

ssh-keygen可以生成密钥
查询 .ssh/authorized_keys
ssh-copy-id -i **pub username@ip

1.2 构建系统

调试器是什么以及其对应的作用？

是一种可以允许我们和正在执行的程序进行交互的程序，可以做到一条一条执行并且在程序崩溃之后查看变量的值；对于python的调试器包括：

l 显示当前行附近11行或继续执行之前的提示
s 执行当前行
n 继续执行到下一个条遇见
b 设置断点
p 打印，pprint对于表达式求值并输出结果
r继续执行
q推出

除了代码调试之外，通常还包括专门工具、静态分析、性能分析、事件分析等等

元编程（meta programming）是什么？

不是关于代码、高效工作，而是如何在大型工程中提升代码的鲁棒性，这些包括构建系统、持续集成、代码测试、依赖管理等等内容

构建系统（Make system）

构建系统在多次可以见到，包括嵌入式中将语言烧录成为hex格式并传送至小车、包括latex中构建pdf的过程等等了这个步骤包括不同的分支。通常这些工具需要定义依赖（dependence）、目标（target）和规则（rule）

依赖：系统的任务是找到构建这些目标所需要的依赖
目标：告诉构建系统的具体目标
规则：构建规则

常见的make是最常用的构建系统之一，包括makefile

依赖管理（Dependency management）

对于项目来说，依赖于其他的项目、其他的程序、系统包、语言库。这些依赖往往需要特定的方式来进行管理。每一种仓库、每一种工具的运行机制都不太一样，也就是版本控制（Version control）方法的不同，常见的规则包括

如果新的版本没有改变API，则补丁递增
如果添加api，且向后兼容，则次版本号递增
如果修改api，但并不兼容，则主版本好递增

持续集成（Continuous integration）

随着项目规模的扩大，往往除了修改代码本身还需要有额外的操作。包括但不限于 代码风格检查、上传文档、编译文件、发不到pypi、执行测试套件等等。持续集成通常指的是“当您的代码变动的时候、自动运行的东西”，这些工具包括GitHub actions、Azure pipelines等等。工作原理为

您需要在代码仓库中添加一个文件，描述当前仓库发生任何修改时，应该如何应对。目前为止，最常见的规则是：如果有人提交代码，执行测试套件。当这个事件被触发时，CI 提供方会启动一个（或多个）虚拟机，执行您制定的规则，并且通常会记录下相关的执行结果。您可以进行某些设置，这样当测试套件失败时您能够收到通知或者当测试全部通过时，您的仓库主页会显示一个徽标。

测试简介（Code test）

测试套件：所有测试的统称

单元测试：一种微型测试

集成测试：针对系统的某个部分进行测试来观察是否可以协同工作

回归测试：特定模式测试、用于保证之前引起问题的bug不会出现

模拟：使用一个假的实现来替换函数、模块或类型，匹配那些和测试不相关的内容

Linux文件管理

/bin - 基本命令二进制文件
/sbin - 基本的系统二进制文件，通常是root运行的
/dev - 设备文件，通常是硬件设备接口文件
/etc - 主机特定的系统配置文件
/home - 系统用户的主目录
/lib - 系统软件通用库
/opt - 可选的应用软件
/sys - 包含系统的信息和配置(第一堂课介绍的)
/tmp - 临时文件( /var/tmp ) 通常重启时删除
```
/usr/
```
- 只读的用户数据
- /usr/bin - 非必须的命令二进制文件
- /usr/sbin - 非必须的系统二进制文件，通常是由root运行的
- /usr/local/bin - 用户编译程序的二进制文件
/var -变量文件像日志或缓存

1.3 操作系统相关

什么是操作系统（Operation system）

用于管理计算机硬件和软件资源，对下屏蔽硬件的复杂性、对上屏蔽资源调度的复杂性。所处于的内核（kernel）用用户提供应用（Application）、对下管理各种设备（device）

操作系统的主要功能

进程和线程的管理，包括增、删、阻塞、唤醒、通信等等
存储管理
文件管理：读写删除等
设备管理：输入输出设备的请求和释放
网络管理
安全管理等等

用户态和内核态切换到额方式

系统调用
中断 interrupt
异常 exception

堆和栈原理

栈：栈是一种后进先出（Last In, First Out，LIFO）的数据结构，它只允许在一端（栈顶）进行数据的添加和删除操作。栈通常用于管理方法调用的执行顺序、局部变量的存储等。应用包括函数调用、表达式求值

堆：堆是一种动态分配的内存区域，程序在运行时可以从堆中分配或释放内存。不同于栈，堆的内存分配和释放是不连续的，因此它更灵活，但管理成本更高。应用包括动态数据结构、大对象存储

进程和线程的区别（Process和thread）

进程是APP、线程是APP中的一个功能。具体来说进程是操作系统进行资源分配和调度的独立单位，是程序执行的实体，每个进程都有自己独立的地址空间、内存、数据站和辅助数据；线程是进程执行的最小单位，可以利用进程中的资源，在同一个进程内多个线程共享其地址空间和资源

进程之间的通信方式（Inter- process communicating）

管道（Pipes），允许一个进程和另一个进程之间的单向数据流。管道可以是匿名的，也可以是具名的（也称为命名管道或FIFO）。
信号（Signals），种用于进程间通信的有限制的方式，允许进程给另一个进程发送简单的消息。信号是一种异步的通信方式，用于处理诸如终止请求（SIGTERM）、中断请求（SIGINT）等事件。
消息队列（Message queues），允许不同的进程读写一个消息队列，这是一种比管道更灵活的通信方式，因为它允许消息的随机访问，不仅仅是FIFO（先进先出）。
共享内存（Shared memory），允许多个进程访问同一块内存空间。这是一种非常高效的通信方式，因为数据不需要在进程间复制，但它需要同步机制来防止并发访问问题。
信号量（Semaphore），主要用于同步多个进程对共享资源的访问，虽然它们本身不传递数据，但信号量可以用来同步数据访问，因此是进程间通信的重要部分。
套接字（Sockets），提供了在不同主机上运行的进程之间通信的能力。套接字可以是基于流的（TCP），也可以是基于数据报的（UDP）。
文件映射（Memory- mapped files），通过将文件或设备映射到内存，实现进程间的共享数据。这种方式允许文件或设备的内容直接加载到进程的地址空间，从而实现快速访问和修改。

为什么需要线程和多线程？

进程切换开销大，线程开销小。同时一个进程可以创建多个线程，线程可以并发处理不同的任务，有效的利用多处理器和多核计算机。而进程只能在一个时间内干一件事情

线程同步方式有哪些？

**互斥锁(Mutex)**：采用互斥对象机制，只有拥有互斥对象的线程才有访问公共资源的权限。因为互斥对象只有一个，所以可以保证公共资源不会被多个线程同时访问。比如 Java 中的 synchronized 关键词和各种 Lock 都是这种机制。
读写锁（Read-Write Lock）：允许多个线程同时读取共享资源，但只有一个线程可以对共享资源进行写操作。
**信号量(Semaphore)**：它允许同一时刻多个线程访问同一资源，但是需要控制同一时刻访问此资源的最大线程数量。
屏障（Barrier）：屏障是一种同步原语，用于等待多个线程到达某个点再一起继续执行。当一个线程到达屏障时，它会停止执行并等待其他线程到达屏障，直到所有线程都到达屏障后，它们才会一起继续执行。比如 Java 中的 CyclicBarrier 是这种机制。
事件(Event) :Wait/Notify：通过通知操作的方式来保持多线程同步，还可以方便的实现多线程优先级的比较操作。

进程有哪些状态？

创建进程 new
就绪状态 ready
运行
阻塞或者等待
结束

如何实现多线程？

计算机组成相关

如何实现高性能

CDN
负载均衡
数据库优化
消息队列

如何实现高可用

冗余设计
服务限流
降级
超时
性能测试入门

计算机网络相关

OSI 七层模型

物理层：RS232、RS485、RJ45、SDH、DSL、SPI、CAN、802.11，考虑的是如何传输比特
数据链路层：Ethernet、PPP、ATM、MAC，考虑如何纠错，实现局域网的实现
网络层：IP、ARP、ICMP 实现网络之间传输NAT
传输层：TCP、UDP、SSL、TLS 实现进程和进程之间的通信
会话层、表示层、应用层：DNS、HTTP、P2P、EMAIL、Telnet、FTP、SSH

从输入URL到页面展示的过程

利用DNS查询（浏览器缓存、系统缓存、路由器缓存、DNS缓存）找到IP
浏览器向服务器发送http请求
1. 建立TCP、IP连接
2. OPSF 在路由器之间使用
3. ARP 转换成为mac
4. HTTP 连接之后使用访问网页
服务器处理需求

HTTP 和 HTTPS的区别（pass）

端口号：HTTP 默认是 80，HTTPS 默认是 443。
URL 前缀：HTTP 的 URL 前缀是 http://，HTTPS 的 URL 前缀是 https://。
安全性和资源消耗：HTTP 协议运行在 TCP 之上，所有传输的内容都是明文，客户端和服务器端都无法验证对方的身份。HTTPS 是运行在 SSL/TLS 之上的 HTTP 协议，SSL/TLS 运行在 TCP 之上。所有传输的内容都经过加密，加密采用对称加密，但对称加密的密钥用服务器方的证书进行了非对称加密。所以说，HTTP 安全性没有 HTTPS 高，但是 HTTPS 比 HTTP 耗费更多服务器资源。
SEO（搜索引擎优化）：搜索引擎通常会更青睐使用 HTTPS 协议的网站，因为 HTTPS 能够提供更高的安全性和用户隐私保护。使用 HTTPS 协议的网站在搜索结果中可能会被优先显示，从而对 SEO 产生影响。

关于 HTTP 和 HTTPS 更详细的对比总结，可以看我写的这篇文章：HTTP vs HTTPS（应用层）。

HTTP 1.0 和HTTP1.1 的区别（pass）

连接方式 : HTTP/1.0 为短连接，HTTP/1.1 支持长连接。HTTP 协议的长连接和短连接，实质上是 TCP 协议的长连接和短连接。
状态响应码 : HTTP/1.1 中新加入了大量的状态码，光是错误响应状态码就新增了 24 种。比如说，100 (Continue)——在请求大资源前的预热请求，206 (Partial Content)——范围请求的标识码，409 (Conflict)——请求与当前资源的规定冲突，410 (Gone)——资源已被永久转移，而且没有任何已知的转发地址。
缓存机制 : 在 HTTP/1.0 中主要使用 Header 里的 If-Modified-Since,Expires 来做为缓存判断的标准，HTTP/1.1 则引入了更多的缓存控制策略例如 Entity tag，If-Unmodified-Since, If-Match, If-None-Match 等更多可供选择的缓存头来控制缓存策略。
带宽：HTTP/1.0 中，存在一些浪费带宽的现象，例如客户端只是需要某个对象的一部分，而服务器却将整个对象送过来了，并且不支持断点续传功能，HTTP/1.1 则在请求头引入了 range 头域，它允许只请求资源的某个部分，即返回码是 206（Partial Content），这样就方便了开发者自由的选择以便于充分利用带宽和连接。
Host 头（Host Header）处理 :HTTP/1.1 引入了 Host 头字段，允许在同一 IP 地址上托管多个域名，从而支持虚拟主机的功能。而 HTTP/1.0 没有 Host 头字段，无法实现虚拟主机

HTTP1.1 和HTTP2的区别

多路复用（Multiplexing）：HTTP/2.0 在同一连接上可以同时传输多个请求和响应（可以看作是 HTTP/1.1 中长链接的升级版本），互不干扰。HTTP/1.1 则使用串行方式，每个请求和响应都需要独立的连接，而浏览器为了控制资源会有 6-8 个 TCP 连接都限制。。这使得 HTTP/2.0 在处理多个请求时更加高效，减少了网络延迟和提高了性能。
二进制帧（Binary Frames）：HTTP/2.0 使用二进制帧进行数据传输，而 HTTP/1.1 则使用文本格式的报文。二进制帧更加紧凑和高效，减少了传输的数据量和带宽消耗。
头部压缩（Header Compression）：HTTP/1.1 支持Body压缩，Header不支持压缩。HTTP/2.0 支持对Header压缩，使用了专门为Header压缩而设计的 HPACK 算法，减少了网络开销。
服务器推送（Server Push）：HTTP/2.0 支持服务器推送，可以在客户端请求一个资源时，将其他相关资源一并推送给客户端，从而减少了客户端的请求次数和延迟。而 HTTP/1.1 需要客户端自己发送请求来获取相关资源。

HTTP2和HTTP3区别（Pass）

TCP三次握手

客户端发送syn数据给服务端
服务端发送 syn ack给客户端
客户端发送ack给服务端

TCP四次回收

数据结构相关

面向象中的继承、多态、封装

封装（Encapsulation）：封装是面向对象编程的基本特征之一，它隐藏了对象的内部状态，并且只通过对象的方法来访问和修改。这样可以使代码更加安全和易于管理。

继承（Inheritance）：继承是从已有的类派生出新的类，新的类继承了原有类的属性和方法，并且可以添加新的属性和方法。继承可以提高代码的重用性，并且使代码更加清晰和易于维护。

多态（Polymorphism）：多态是指一个接口可以有多种实现方式，或者一个对象可以表现出多种形态。多态可以提高代码的灵活性和可扩展性，并且使代码更加易于理解和维护。

北京西二旗租房攻略

2024-04-29T11:36:44.000Z

0x01 租房目标的确定

租房是希望在一定的成本范围内找到满足自己最大效用的方式。可以从货币成本、个人喜好、社会经济因素来观察。每个人的效用具有不同个人差异性，但是租房经验往往是可以互相参考的，这也是互联网平台传播的意义所在。分享你所看到的，来铸造集体的记忆。

0x02 租房平台

NOTE：租房平台越规范，信息获取越容易，但是价格也会更高

租房平台按照熵增的顺序可以分为：

基于互联网和算法：自如、安租客、贝壳链家等
基于人工操作运转：房产中介、托管公司、我爱我家
有一定租房聚集力：闲鱼、豆瓣等
依靠主观搜索：小红书、闲鱼等

往往同样的房子自上而下价格越来越低；但是看到房子的影子成本会越来越高。这里的影子成本可以看作房子的维修难度、隐藏不确定性、暗病等等因素。

0x03 租房考虑因素

首先需要考虑经济因素，房子的租金主要包括：

房间空间属性：大小、地理位置等等
租房的时间属性：短租 or 长租

其次需要考虑个人因素

是否有隔音
是否有独卫
房间是否足够大
电梯 or 楼梯
是否有供暖，集中供暖 or 自采暖

之后考虑社会经济因素

到商圈的距离
到地铁站的距离
到自己目标点位的交通便捷性，包括步行 or 电车 or 公交 or 地铁等
小区的破旧程度，有无电梯、有无保安
小区的属性和基本设施，高档小区、拆迁房
房间软配问题，水电老化

额外因素

合租的舍友
中介、闲聊的靠谱程度

0x04 租房技巧

首先根据地图确定周边点，以及周边店地铁沿线服务的备选小区

在规范平台中查看这些小区的大致属性，得到筛选之后的备选小区 2

在社交媒体中寻找备选小区 2 的额外信息，这些是平台、中介无法提供给你的真实评价

最后按照自己的成本，选择平台 or 中介的房子，或者是花费自己的时间成本去闲鱼、豆瓣、小红书等平台寻求转租的价格较低的房子。

PS：

最后的最后，还是需要自己体验过才知道房子是否合适自己！

强烈推荐经济允许的情况下，优先选择独卫而不是通勤距离

Meta quest3 使用折腾指南

2024-04-29T11:34:48.000Z

Quest3作为一台头戴眼镜内设备，针对现在依赖手机、电脑的工作方式，天然具有“反链接“的特点，同时在国内难以魔法上网和校园网奇葩的路由器的情况，如何顺利的享受虚拟世界的乐趣是一件非常困难的工作。因此在本文总结自己踩过的坑作为记录。

引言

对于一些教程用一些未见过的语言来描述 Quest3 的使用过程，实际上是对小白自信心的一次打击，此时针对拿到手，需要了解的事情做一个总结，也就是“拿到 Quest3 我可能需要做哪些工作”：

机内游戏下载
1. 目的：下载一体机内部使用的app、游戏等
2. 方法：1️⃣ 注册官方账号，在官方商店中充值并购买 2️⃣ 破解软件下载安装
3. 问题：1️⃣ 此时面临魔法、账号、购买问题 2️⃣ 仅支持PC、文件传输、安装复杂等问题
串流
1. 目的：通过串流来查看电脑屏幕，实现办公、多媒体观看、游戏等目的
2. 方法：通信app上可以分为官方自带的quest link， steam VR 或者virtual desktop。通信方式分为有线串流和无线串流
3. 问题：有线对于线材要求较高，无线对于路由器要求较高
视频观看
1. 目的：在尽可能不折腾的情况下观看视频
2. 方法：1️⃣ 传输到机器内部本地观看 2️⃣使用局域网共享的方式来查看高码率视频
3. 问题：无线传输过程对于路由器要求较高
头戴配重
1. 目的：由于quest3本体仅作为一个简陋的设备，无法满足使用者对于舒适度的要求
2. 方法：可以通过头戴、配重、面罩等方面来考虑
3. 问题：市场上东西比较多

在过程平台硬件注释：

window主机
一根type-typec的线
校园网（局域网共享困难）

购买的服务包括：

Virtual desktop	画质好的串流软件	$16.99
Steam VR	免费串流软件	0
Quest link	免费串流软件	0
半衰期 Alyx	PC端的VR游戏	￥79
破解网站	一体机游戏	0
Clash	不解释	不解释
Skybox	一体机内部播放器	$ 7.99
Air screen	电脑端播放服务器	0

第一部分：魔法、账号、充值

《如何在window下使用clash》略过

如果使用quest link进行链接，首先需要在官方上下载对应的PC软件（免费）

為 Meta Quest Link 安裝 Oculus 電腦版應用程式

但是在这个过程中面临 Facebook 账号浏览器认证失败的问题，这里需要修改host加速：

20.205.243.166 github.com
157.240.11.49 graph.oculus.com
157.240.11.49 www2.oculus.com
157.240.8.49 scontent.oculuscdn.com
157.240.8.49 securecdn.oculus.com

同时注意，Meta的账号是分为 Facebook+Instagram+Meta；而 meta quest 对应的是 meta 账号。

之后的问题是如何讲window的代理分享给quest3，这里由于在校园网环境，未直接使用 clash 的allow for lan 来进行，而是使用 “window代理热点 + clash tunnel共享“的方式来分享代理：

打开clash的tunnel功能
代开window的代理热点功能，此时 WLAN为共享、WLAN2为链接校园网
在控制面板-网络与连接-适配器管理中，点击clash tunnel共享，选择WLAN来共享代理
在 quest3中链接WINDOW热点，成功完成魔法。

之后的账号和充值可以在PC端、手机端、Quest3端中完成

对于破解软件下载的通常方式，在破解助手中下载软件安装包，之后利用文件传输工具传送到quest3本地，完成安装。相关免费教程可以查看这类游戏网站

Oculus Quest教程 – VR魔趣网

第二部分：串流

第一部分代理热点安装好之后，串流不成问题

第三部分：视频观看

使用SMB协议共享window文件夹
推荐购买 skybox，配合window中免费的air screen中完成文件夹共享

第四部分：配件购买

quest3 头戴
quest3 开放式面罩
头戴充电宝
冰丝海绵替换装
串流线

Chenlong's blog

20206年工作随想_保持生活的热爱

走出象牙塔的一年：当人生失去了“进度条”，我们该如何寻找意义？

1. 唯一没有“标准答案”的考场

2. 承认职业追求的多样性：没有高下，只有适配

3. 自驱力：从“被动受控”到“主动热爱”

4. 长期价值：不畏浮云遮望眼

5. 平衡「自我/能力」：寻找心流的动态锚点

结语

2025 年终内容推荐

香港开户总结-2025-附香港游玩攻略

TL；DR

一、开设港卡

1.1 中国银行香港：目的无损入金

1.2 汇丰银行：大家都开了（跟风）

1.3 ZA BANK：最大的虚拟银行，适配wise

1.4 蚂蚁银行 Ant Bank

二、关于券商：盈立AFF

2.1 入金方式

2.2 券商选择：盈立

三、One more thing：香港游玩攻略

US旅行游记第一次-2025年

TL;DR

一、行程安排

二、第一影响：城市可以很小也很大/纽约

二、华盛顿特区：真的很现代

三、特别篇SE：华盛顿特区博物馆

四、最后一站：纽约特种兵

五、感悟

如何理解广告系统

一、如何售卖广告？

1. 直接投放

2. 广告网络

3. 实时竞价（RTB）

二、eCPM 是什么？

对广告主而言

对媒体平台而言

对消费者而言

三、受到那些因素的影响？

四、eCPM的变化对于各方意味着什么？

eCPM 偏高的影响

eCPM 偏低的影响

1. 经济可持续性

2. 用户体验平衡

3. 市场竞争力

4. 技术支持

思考与问题

2025 年度后数据工程需要了解的基本概念

一、数据仓库、数据湖、数据湖仓

1.1 历史

1.2 为什么需要这些结构？

二、云平台 AWS、Azure、Google CLoud

2.1 个人常常面临的挑战

三、优化数据存储

四、大数据手段 Apache Spark、Kafka

五、数据集中手段

六、事件驱动架构

七、可解释性与xAI

八、生成式AI

九、人类在环 human-in-the-loop

参考链接

生存分析基本概念、常见方法、评价指标

一、问题背景

二、基本概念

2.1 符号定义

2.2 生存曲线

2.2 生存曲线常见指标

三、常见方法

3.1 描述性方法

3.2 检验方法

3.3 建模方法

3.4 时间依赖性方法

其他

ROI_监督学习_一次性学习, LTV_强化学习_持续学习

0x01 互联网公司 与 MDP 过程

0x02 ROI和LTV

2.1 指标计算

2.2 指标理解

2.3 TD learning 与 MC

0x03 从宏观的 RL 到 DL

0x01 互联网公司与 MDP 过程

分布式系统架构（System architectures）

分布式文件系统（Distributed file system）

分布式计算处理框架（distributed process）