博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Tailrank 网站架构
阅读量:4138 次
发布时间:2019-05-25

本文共 818 字,大约阅读时间需要 2 分钟。

每天数以千万计的 Blog 内容中,实时的热点是什么? 这个 Web 2.0 Startup 致力于回答这个问题。

专门爆料网站架构的 对 进行了采访。于是我们能了解一下 的一些信息。每小时索引 2400 万的 Blog 与 Feed,内容处理能力为 160-200Mbps,IO 写入大约在10-15MBps。每个月要处理 52T 之多的原始数据。Tailrank 所用的爬虫现在已经成为一个独立产品:。

服务器硬件

目前大约 15 台服务器,CPU 是 64 位的 Opteron。每台主机上挂两个 SATA 盘,做 RAID 0。据我所知,国内很多 Web 2.0 公司也用的是类似的方式,SATA 盘容量达,低廉价格,堪称不二之选。操作系统用的是 Debian Linux 。Web 服务器用 Apache 2.0,Squid 做反向代理服务器。

数据库

Tailrank 用 MySQL 数据库,联邦数据库形式。存储引擎用 InnoDB, 数据量 500GB。Kevin Burton 也指出了 MySQL 5 在修了一些 多核模式下互斥锁的问题(?)。到数据库的JDBC 驱动连接池用 做负载均衡。MySQL Slave 或者 Master的复制用 来轻松完成。不过即使这样,还要花费 20% 的时间来折腾 DB。

其他开放的软件

任何一套系统都离不开合适的 Profiling 工具,Tailrank 也不利外,针对 Java 程序的 Benchmark 用 。Log 工具用 (不是 Log4j)。Tailrank 所用的大部分工具都是开放的。

Tailrank 的一个比较大的竞争对手是 ,虽然二者暂时看面向内容的侧重点有所不同。其实,最大的对手还是自己,当需要挖掘的信息量越来越大,如果精准并及时的呈现给用户内容的成本会越来越高。从现在来看,Tailrank 离预期目标还差的很远。期待罗马早日建成。

--EOF--

 

转载地址:http://pjavi.baihongyu.com/

你可能感兴趣的文章
HDU 4557 非诚勿扰 (简单模拟)
查看>>
HDU 4550 卡片游戏(贪心+细心)
查看>>
蓝桥杯 算法训练 集合运算
查看>>
蓝桥杯 暗恋 简单搜索或者暴力或者bfs
查看>>
蓝桥杯 拦截导弹 动态规划(最长下降子序列+最长上升子序列)
查看>>
蓝桥杯 方格取数 (多线程DP)
查看>>
蓝桥杯 未名湖边的烦恼 (简单暴力dfs)
查看>>
蓝桥杯 黑白无常 (简单暴力枚举)
查看>>
蓝桥杯 基础练习 2n皇后问题 (简单dfs暴力+优化剪枝)
查看>>
蓝桥杯 基础训练 完美的代价(转)
查看>>
蓝桥杯 算法训练 矩阵乘方(矩阵快速幂取模)
查看>>
蓝桥杯 算法训练 数列
查看>>
蓝桥杯 算法训练 校门外的树 (贪心线段排序)
查看>>
蓝桥杯 算法训练 装箱问题 (DP)
查看>>
蓝桥杯 算法提高 上帝造题五分钟(线段树)
查看>>
蓝桥杯 算法提高 学霸的迷宫(简单bfs+记录路径)
查看>>
蓝桥杯 算法提高 扶老奶奶过街
查看>>
蓝桥杯 算法提高 排队打水问题(贪心排序+优先队列)
查看>>
蓝桥杯 算法提高 分苹果
查看>>
蓝桥杯 算法提高 现代诗如蚯蚓
查看>>