1.
首先推荐来自今天的 湾区日报
从最初坚持每天5篇分享至今已经1205期了,点赞作者.
1)最好的商业模式, 微软、苹果、Netflix:花钱的用户是用产品的人;谷歌与FB:花钱的是广告商,用产品的人免费;Amazon、腾讯、阿里:小比例的超级用户花大钱,间接让整个生态变得更好。哪种商业模式好?
2)Firefox + Pocket:打造更好的文章推荐引擎。恐怕很多人不知道Pocket已经被Mozilla收购了。如果你有使用Firefox,打开一个空白新窗口就会看到Pocket推荐的文章,这是根据你使用Firefox的本地浏览记录推荐的。
2.
Microsoft: The Early Days: http://www.memecentral.com/mylife.htm
这篇也是湾日的推荐。
1981年,作者和其老板Charles Simonyi从计算机人机交互界面发展先驱的施乐走出,经同事即3Com创始人的建议,一起成为微软第77位员工,当时微软刚要开始做应用程序,开始山寨Mac上的电子表格,后来开始做“长得像电子表格的字处理系统”,也就是Word。
Word,成为了之后数年的Revenue Bomb, 难怪当年求伯君把自己关在张旋龙(金山创始人,张小龙的哥哥,不是八卦里的微信张小龙)为他在深圳包的一个房间里,日夜兼程写出了字处理系统WPS, 不过当初目标据说是为了超越当时尚火WordStar,WordStar兼容DOS,不过90年后被MS Word超越。
求伯君后来吐露,虽然WPS每年收入数千万(1993年前后),但是自己只是个给老板打工的。
Many Links 0619
NON-Tech
1.
看这篇文章,体会下感受下生在互联网时代,20世纪形成的政治体制正在变得“古老”的路上。
毕竟,现在有多少人会觉得 马基雅弗利的政治“智慧”没有过时?
道德危机的起源 The Making of a Moral Crisis
“many-chambered heart of the internet”(不知怎么翻译) 如何将特朗普政府的家庭分离政策变为另一种丑闻
https://www.theatlantic.com/technology/archive/2018/06/the-making-of-a-moral-problem/563114/
如果没时间可以速读谷歌翻译出来的中文,下面是我从google翻译里摘抄部分
Many Links 0612
1.
https://www.elastic.co/blog/this-week-in-elasticsearch-and-apache-lucene-2018-05-18
ElasticSearch 新进展:
在7.0.0中,新索引默认接收一个分片(而不是五个)。我们进行了这项更改以帮助解决当前默认值导致的常见问题:过度分解。许多用户最终拥有太多的分片,我们认为将默认设置降为1将有助于解决这种情况
高级REST客户端中的搜索模板支持
带有静态评分信号的更快的top-k查询…还有很多可以参考更新notes
2.
http://karpathy.github.io/2016/09/07/phd/
A Survival Guide to a PhD
捕风捉影 0524
1.
推荐一部德剧,五一期间追完两季,可以直接看知乎上的评论如何评价18年新剧《巴比伦柏林》
这部剧是于去年10月在德国播出的,今年的1月30日才在网飞上线。它是德国历史上最贵的一部剧,近4000万欧元的制作成本,也让它成了非英语类电视剧中最烧钱的作品。
豆瓣9.0,烂番茄新鲜度100%,IMDb8.5
今年的德国电视奖上,它一举斩获了最佳剧集、最佳摄像、最佳音乐和最佳美术指导四项大奖,现已续订到了第三季。
如果你喜欢《大明王朝1566》,那这部剧值得一看,毕竟《大明王朝1566》其实更多聚集在这一时期“朝堂”之上的故事,围绕为官各方利益,但这部剧其实“包罗万象”,讲述魏玛共和国时期德国故事,也即1929年,希特勒登场前期,上至兴登堡总统,警察厅长将军,下至贫民百姓,电视剧描述这一时期各个阶层,有贫民窟有崛起的工人阶级有难民,从苏联逃出的沙俄后裔,以及斯大林驱逐的布尔什维克,作为逃难者都聚焦在这一时期的柏林。
想象一百年亲涌入的各方势力涌入一战至希特勒上台时期德国,甚至早起留学德国的中国各派。
看完后,或许可以理解,为什么默克尔大妈敢收留难民不惧混乱。
Many Links 0515
1.
CTR预估中的贝叶斯平滑方法(一)
学习了:
广告形式:互联网广告可以分为以下三种:
1)展示广告(display ad)
2)搜索广告(sponsored search ad)
3)上下文广告(contextual ad)
竞价模式:对于在线广告,主要有以下几种竞价模式:
1)pay-per-impression(按展示付费):广告商按照广告被展示的次数付费,这是一种最普遍的竞价模型。缺点在于没有考虑投放广告的效果。
2)pay-per-action(按行为付费):只有在广告产生了销售或者类似的一些转化时,广告商才付费。缺点在于追踪用户的交易行为相对比较困难。
3)pay-per-click(按用户点击付费):根据用户是否会点击广告来付费。这时候就需要对广告的点击率(CTR)进行精确的预估。
遇到的困难:
由于数据的稀疏性,对广告进行CTR预估是比较具有挑战性的,预估出来的CTR的可靠性不高,且具有较大的方差。主要有以下两类场景:
1)当广告的展示次数较少的时候,对其直接进行CTR的统计计算会导致一个偏高的结果。比如某个广告只展示了1次,被点击了1次,则纯粹的统计CTR=1.0,这显然是过分高估了。
2)当广告的展示次数很大,但点击次数很少或几乎没有的时候,对其直接进行CTR的统计计算会导致一个偏低的结果。比如某个广告没有被点击过,则纯粹的统计CTR=0.0,这显然是过分低估了。
Many Links 0513
1.
论喝鸡汤,还是要认准大品牌。
超市里买鸡蛋还要看价格质量产地挑选,何况是鸡汤文?
记得曾经看过有人分享“苔花如米小,也学牡丹开”,初看时,还是很感动的,有种壁立千仞,迎风招展的味道。
说不出哪里的好,但又感觉哪里不对。
偶尔看到一句话,醒悟。
“一花一世界”
我这里拷贝一段话: “恒河沙等之恒河沙。一沙一世界国土中。所有众生。各具一心。则其心有若干种。如来以清净五眼。皆尽见而知之”。
是了,这里对比下,看出佛家的见识,几千年积累下来的,静坐卧行都在思禅思出来的见识。
前者有些小家子气,或许在一个年轻气盛嘴角红润的年龄段会感动肺腑,自信。
然而我更喜欢“一花一世界”,这种早已超越,甚至无须自信的意境,简直是大智慧。
就像一个曾经美国总统肯尼迪的一个故事:
肯尼迪去NASA访问,在洗手间碰到一位清洁工,或许是出于美国总统的义务,肯尼迪鼓舞到“感谢你把房间打扫得这样干净”,然而清洁工回答说:“不,总统先生,我不是在拖地板,我是在帮助我们登月。”
Many Links 0509
积攒许久链接,于是该用短文方式。改名 many links仿O’Reilly的Four Short Links.
1.
Kafka Streams Topology Visualizer
正如其自述“A tool helps visualizing stream topologies by generating nice looking diagrams from a kafka stream topology descriptions.”
如果你苦于向他人解释采用的kafka stream 数据处理逻辑,可以考虑该连接生成可视化图片展示,适合作为架构设计插图。
2.
The world beyond batch: Streaming 101
老文章,流式数据处理101,正如文述“A high-level tour of modern data-processing concepts.”值得一看
不过文章显然着重是对几个“时间”的理解以及流的粒度探讨:
Event time vs. processing time
Data processing patterns
Bounded data/Unbounded data — batch
Fixed windows/Time-agnostic
Filtering/Inner-joins/Windowing
3.
风雨一年路
不知不觉的,一年过去,这一年,家人身体安康,幸事。然而来者不可知也。
Weekly Reading 180328
下面是之前2-3个月积攒的文摘,清空一下,所以有些看起来可能是不够“新鲜”了。
1, Dubbo源代码分析九:优雅停机
http://manzhizhen.iteye.com/blog/2404220
这几天从dubbo-admin有机会看了一点dubbo代码,对上述shutdown方式,有了点体会。
可以说2.5.3版本 dubbo和dubbo-admin交互还是有多处bug的,比如可以对比 com.alibaba.dubbo.registry.integration.RegistryProtocol在2.5.3和2.5.8版本的实现(doChangeLocalExport/notify方法)。
3,python根据项目生成requirements.txt
查看一些python项目,很多并未采用requirements.txt方式,编译起来耗费时间,今天学到了可以用 pip freeze的方式:
python项目中必须包含一个 requirements.txt 文件,用于记录所有依赖包及其精确的版本号。以便新环境部署。
在虚拟环境中使用pip生成:
(venv) $ pip freeze >requirements.txt
这种方式配合virtualenv 才好使,否则把整个环境中的包都列出来了。
使用 pipreqs
这个工具的好处是可以通过对项目目录的扫描,自动发现使用了那些类库,自动生成依赖清单。
缺点是可能会有些偏差,需要检查并自己调整下。
# pip install pipreqs
# 使用方式也比较简单
pipreqs ./
Elasticsearch几点体会
很久没有写博客了,感觉快要生疏,今天简单写一点,记录发现的几个问题。
1,
在集群增加一个节点后,不要只看是否启动成功,一定要验证下是否加入集群
考虑到32G内存的官方推荐,很多人会选择同一物理机部署两个以上节点(>128G内存),分配两个端口。比如9300/19300.
比如集群在 10.135.30.12:9200/9300 是一个master节点,之后拷贝配置新增如下一个节点:
|
|
会发现该节点启动成功,但是没有加入到elasts这个cluster里。 设置为debug级别再启动,不仔细看是发现不了问题的。