对话 CTO〡听知乎 CTO 李大海讲技术如何构建全领域知识社区
收藏

「对话 CTO」是极客公园的一档最新专栏,以技术人的视角聊聊研发管理者的发展和成长。

我们特别邀请到了企业级研发管理工具 ONES 的创始人&CEO 王颖奇作为特邀访谈者。王颖奇曾参与金山软件 WPS、金山毒霸等大型软件的核心开发工作;2011 年创立了正点科技,旗下产品正点闹钟、正点日历在全球用户过亿;2014 年,王颖奇在知名美元基金晨兴资本任 EIR,并以个人身份参与十余家公司的管理咨询工作;2015 年,王颖奇创立 ONES,致力于提供企业级研发管理工具及解决方案。


年之后,知乎会变成什么?——「超大规模的知识内容社区」是知乎 CTO 李大海给出的回答。

截止 2019 年 1 月,知乎用户数已经突破 2.2 亿,问题数 3000 万,回答数 1.3 亿。用李大海的话说,知乎不仅要成为全领域覆盖所有用户的知识内容平台,还要持续产生优质内容,因为优质内容有很强的时间复利,也许三年以后仍在持续帮助更多的人。

李大海坦言,很多用户将知乎当做一种搜索引擎来用,这体现了知乎高质量内容的价值,但其背后是更纵深、更人文、更多元,也更鲜活的第一手素材和讨论。

随着用户规模变大,类似的偏差感出现在许多层面,传统单一的内容生产机制,分发机制以及社区治理机制逐步地失效。「智能社区」是知乎希望驶向的方向,用机器学习、人工智能算法在社区治理、内容生产和消费等等方面进行权衡。「这个事情必须要用技术才能办得到,光靠产品和运营的手段是不够的。」李大海说道。


AI 助力的智能社区

颖奇:非常感谢知乎 CTO 李大海接受我们的采访。能否请您先介绍一下知乎的研发团队现状,以及重点的研发方向。

李大海:目前知乎的研发人员接近 500 人,并在不断扩充中。我们目前重点投入的技术领域主要在移动端体验优化、基础架构、安全、大数据、机器学习等等。机器学习是我们很重要的一个方向,现在大概有 70 多人的机器学习工程师团队。在机器学习这个领域,我们也做了很细致的围绕知乎的应用场景展开的工作。

颖奇:您提到的机器学习领域,我看到我们有很多资料有提到通过 AI 的方式来控制社区内容质量,那么具体来看机器学习在知乎的社区管理上做了哪些工作呢?

李大海:截止 2019 年 1 月,知乎用户数已经突破 2.2 亿,问题数 3000 万,回答数 1.3 亿,每天都有大量的用户在知乎分享自己的知识、经验和见解。这么庞大的内容和用户体量,单依靠人力肯定是不现实的,AI 的应用是一个必然的趋势。到目前为止,知乎 AI 算法应用已贯穿了从内容生产、消费和社区治理等多个场景。

在内容治理场景中,我们综合使用情感模型、用户亲密度模型和文本识别模型,不断优化算法机器人「瓦力」,识别并实时处理不友善、答非所问、阴阳怪气等内容,部分场景识别准确率达到 99.13%。

这里面的技术挑战有很多,我在这里不说细节。单从逻辑上来说,由于自然语言的开放性和歧义性,任何机器学习算法在实际场景中,都不可能达到 100% 的召回率和准确率。因此,在社区治理领域,我们采用的是「人机结合」的方式来进行系统优化:我们会保留一个人数较大的人工团队,他们非常了解知乎的社区规则,他们会处理、纠正算法不能识别和识别不准的情况,然后算法再把这些纠正的案例当成增量的学习材料,升级模型的表达能力。这是一个持续积累的过程,在这个过程中,算法的能力会变得越来越强大。

当然,除了对文字类型内容的识别之外,我们也在做很多工作去覆盖更多类型的内容,包括图片和视频、音频等等。

颖奇:所以技术在社区治理方面已经是起到了非常大的促进作用的。

李大海:在这件事情上我们其实是深度和广度两方面都在前进。所谓广度就是我们会去不断的拓展能力,在越来越多的场景能够去识别和处理。深度就是它的准确率,要慢慢处理的越来越准。所以深度和广度同时作用,我们的用户就不需要主动去举报低质内容,而是靠机器算法,人机结合的方式降低了「用户举报」,也就是我们内部常提到的「主动覆盖率」的比例降低了下去。

颖奇:所以如果早期没有 AI 技术的情况下,可能需要一个非常庞大的内容审核团队和用户举报的覆盖才能保证内容和质量。

李大海:如果没有 AI 算法的话,我们的审核团队应该跟内容的增长成正比,但现在其实不是。我们的审核团队总数几乎没有怎么变过,从 2017 年开始就维持在一个相对稳定的人数上,它的增量很小,但是我们内容的增量是很大的。

颖奇:还有哪些例子能看到 AI 等技术给知乎带来作用呢?

李大海:我们在 AI 的应用方面做了很多尝试,这些应用帮助知乎社区的用户、内容之间有更高效、精准的匹配和连接,让我们的社区维护和治理工作变得更简单、有序。比如在信息的分发上,我们在首页信息流推荐系统中引入了 AI 算法,经过多轮优化和升级,知乎的信息流推荐系统已经在知乎整体业务中占了非常大的体量,用户渗透率(即有多少用户会有效来到首页看内容)达到 88%,使用时长占比(包括使用知乎的时长以及在知乎中消费内容的时长等)达到 76%。

再比如,在内容的匹配上,我们推出问题路由功能,采用人工审核、算法和运营策略相配合的方式,精准邀请相关领域的用户回答问题,尽可能地提高问题的回答率。问题路由功能上线以来,由系统推荐带来的应邀回答数比过去提升了 400%。

还有上面所讲到的社区治理方面,通过瓦力实现了违规内容的精确识别和处理,让社区氛围和用户体验变得更好。

颖奇:知乎作为全领域内容社区,大量内容推荐是否可能会使用户聚焦在某些领域,导致用户对知识的获取相对闭塞。知乎是通过怎样的技术手段去平衡用户的知识外延和知识聚焦呢?

李大海:知乎早年有一个 Slogan 叫「发现更大的世界」,所以我们很在意用户来知乎,是不是能够拓展自己的眼界。从技术层面来说,我们除了采用精确的预估模型去匹配用户的兴趣领域之外,也会采用兴趣探测模型,去了解用户是否对一个新的话题或领域感兴趣。

假如这个世界上所有的知识领域是固定的,那么它就相当于一张知识地图。每个人在这张知识地图上的地形是不一样的。很喜欢的领域可能是很高的正值,是波峰;不喜欢的领域就是负值,是波谷。往往一个新用户来了以后,知乎对他的知识地图画像是很模糊的,但之后会越来越清晰。清晰化以后,我们就能够给他推荐相对全面的东西。

颖奇:所以知乎本质还是要帮助用户去发现新的知识。

李大海:我们是希望能够尽可能点亮用户的地图,而不是一旦发现用户地图上有个波峰,就一直在这个波峰上去推荐内容。除了技术层面的改进,我们也有产品层面的想法来提升用户的体验,包括关注 Tab 和热榜等等。

颖奇:我们看到知乎的内容推荐很多元,有流量的娱乐内容,也有我们自己关心的专业问题。您怎么看待知乎作为知识社区里的各类内容的出现和知识社区所承担的社会责任呢。

李大海:知乎是一个社区,但这个社区能够持续产生很多高质量的内容和讨论。知乎里面会有很多不同领域的讨论,但是这些讨论我们更偏向于去多角度、全面的、多元化的去看这个问题,同时从这个问题上还能够扩展出一些相关领域的讨论,这其实是知乎做的最好、最擅长的。比如新中国成立 70 周年,在知乎上会涌现出很多相关讨论,比如如何去评价新中国成立 70 周年以来展现的民生发展、科技进步、文化成就等等有意义的正能量话题。用户会觉得我们在看到一个热点的时候,围绕热点产生的一些知识领域的讨论,这个是知乎上做的特别好和特别擅长的事,用户特别喜欢在知乎去相对更严肃的讨论这些问题。


用算法优化搜索体验

颖奇:有一些知乎用户偶尔会把知乎作为高质量内容的搜索引擎来使用,您如何看待知乎和搜索引擎在知识有效性方面的对比?

李大海:其实知乎 8 年以来,已经成为一个庞大的内容网络。我们的品牌 Slogan 是「有问题上知乎」,就直接体现了知乎的工具化价值。事实上,很多人已经把知乎当做一种搜索引擎来用。

但知乎的搜索结果又跟传统搜索引擎不一样。搜索引擎有搜索引擎的使用场景,知乎也有自己的使用场景。知乎的搜索更多的不是词条和新闻,是按照内容层次去进行结构化展示的,这就大大提升了大家的信息获取效率。而在搜索的背后,是知乎上有特色的讨论,更纵深、更人文、更多元,也更鲜活,这些都是非常有价值的第一手素材和观点。

另外,由于知乎有很强的投票机制,有赞同、反对还有评论,我们的内容其实相当于是被人 Review 过的,所以可信度、价值会远远高于其它的网站。知乎有一个指标叫 Topic Rank,指的是一个用户在某个领域的权威度,权威度是根据比较复杂的算法算出来的。这个指标非常有用,比如说在 IT 领域 Topic Rank 很高的人,他看到一个 IT 领域的回答然后点了反对,我们就知道这个回答的可信度可能是较低的,这也是知乎内容在自己的搜索引擎里面可信度很高的一个主要原因。

颖奇:那么在内容搜索方面,知乎都做了哪些工作?

李大海:在算法维度上,搜索是知乎在壮大过程中逐步优化的一个功能。目前,我们采用深度学习与传统模型相结合的方式来解决召回和排序上的用户满意度问题。我们的文本相关性算法最早只有 BM25。到今天,已经发展成为一个融合模型。深度语义特征上线之后,我们在头部、腰部、长尾的搜索点击比普遍提升了约 2% - 3% 不等。我们还需要积累和挖掘更多高质的训练数据,不断迭代优化我们的搜索体验。

在架构维度上,我们也投入了不少人力和精力。知乎早年采用 ES 作为我们的索引引擎,随着数据量的增加,我们遇到了 ES 集群的服务稳定性问题,以及 ES 对我们的排序算法支持不友好等问题。所以在 17 年,团队自己开发了一套在索引格式上完全兼容 ES 的引擎,逐步替换了在线上服务的 ES 集群。目前知乎全部的搜索请求都由新的索引服务支撑,在可用性达到了 5 个 9 的同时性能上也不输于 C++ 编写的类似系统所能达到的水平。

除此之外,我们还在强化产品侧对结构化数据的建设和引入。通过内部数据建设或外部数据引入,在搜索结果使用特性卡片展现话题索引、知乎评分、赛事比分、电影资讯等结构化数据,让用户可以更高效便捷地获取信息。

颖奇:您认为知乎在未来的 3-5 年会发展成怎样的状态?技术会起到怎样的推动作用?这个可能是稍微大一些的问题,技术会在未来的知乎发展中,成为什么样的推动因子?

李大海:知乎去年就说我们在做智能社区,因为我们需要用到机器学习、人工智能的算法去解决社区规模大了以后面临的很多问题,包括内容生产、内容消费、内容跟人的关系、社区治理等等问题。用户规模变大,复杂度变高,受到这些综合因素影响以后,现在单一的内容生产机制、分发机制以及社区治理机制,都会逐步的失效,这就是为什么我们要很重地使用 AI。现在知乎规模已经非常大了,我们希望知乎能够服务更多的用户,我们预测,五年以后知乎会变成一个超大规模的知识社区。

颖奇:作为用户,我们在知乎上可以得到各类问题的答案。那么知乎的问题及讨论覆盖的范围是怎样的?

李大海:现在知乎的讨论范围已经覆盖到了全行业,我们在前年的时候与中国就业办公室做过一个合作,去看他们公布的所有大学生毕业以后的就业领域,我们的讨论内容覆盖其中的 95% 以上。所以知乎本身是一个全领域覆盖所有用户的知识讨论平台,我们后续的目标也是要服务好更多的用户,产生更多优质的内容。优质内容本身是有很强的时间复利在里面的,我们典型的创作者会有很直观的感受,他们写的一个回答,在三年以后还有人在点赞,这个内容在持续的帮助更多的人。


质疑能力带来技术进化

颖奇:在选择团队成员时,您有哪些比较特别的标准?

李大海:首先是要和公司的价值观一致。知乎有「三要三不要」:要为用户创造价值,要保持开放,要说到做到;不要弄虚作假,不要个人私心和地盘主义,不要失去昂扬之气。

其次是要有很好的学习能力,我们不期望工程师精通计算机技术中所有领域的知识和技能,但希望他能够快速学习,掌握下一个项目所需要的知识点和技能。当然,基础知识的扎实也是很重要的,特别地,要成长为一个好的算法工程师,一定要具备一定的数学基础和代码能力,并牢固掌握基础算法和数据结构。在这些知识的基础上,在日常工作中根据自身的条件和情况,不断扩展自己的能力边界。

还要有质疑能力。技术进化是不断的调整纠错,甚至推翻重来的过程,技术人员要有质疑自己现有成果的勇气和能力,才能不被困在狭小的技术领域里面。

颖奇:能否给大家介绍一下您的个人履历。

李大海:我本科与研究生念的都是数学专业,本科是在北京化工大学学习的应用数学,觉得数学非常有意思,研究生阶段又转向北大的基础数学专业继续学习。毕业以后第一份工作是在 Google,当时 Google 北京办公室刚刚成立,我是第一批应届毕业生。2010 年从 Google 离开以后就一直在创业。先后在云壤、豌豆荚承担了网页搜索和移动搜索的系统设计和技术管理工作,2015 年加入知乎后,以机器学习为切入点,不断提升技术在业务中的支撑作用。

颖奇:最后有没有一些您觉得比较好的书籍能推荐给大家?

李大海:知乎上有介绍很多很好的技术书籍,这里着重介绍两本没那么技术的。一本叫《黑客与画家》。这本书主要介绍了黑客,也就是优秀程序员的爱好和动机,讨论黑客成长、黑客对世界的贡献以及工作方法等等,不但有助于了解计算机编程的本质、互联网行业的规则,还会帮助读者了解我们这个时代,使读者独立思考,是一本认识互联网世界的启蒙之书。

另一本是《原则》,介绍了桥水公司创始人达里奥的人生经验和处事原则。这本书,不应该把它当成工具书和指导手册来读,应该去体会和理解作者在日常工作和生活中不断构建自己的方法论的过程。每个人的经历是不同的,不同经历带来不同的价值,你不能拿着别人的经验生搬硬套,那是不能内化为自己的东西的,必须要结合自己的知识体系,转化成自己的理解和方法论,并能够在实践中不断升级。

颖奇:我也非常喜欢《原则》这本书。今天有很多收获,非常感谢您的分享。

本文作者:王颖奇

联系方式:wangyingqi@gmail.com


▼ 点击阅读原文加入「未来前沿」创始人沙盒。