• 推荐一款基于Golang的搜索引擎:Riot
    Lucene 是一款基于 Java 的搜索引擎,也是现在最流行的开源搜索引擎。今天分享一款不一样的,基于 Golang 的搜索引起:Riot。 项目地址:https://github.com/go-ego/riot Features 高效索引和搜索(1M 条微博 500M 数据 28 秒索引完,1.65 毫秒搜索响应时间,19K 搜索 QPS) 支持中文分词(使用 gse 分词包并发分词,速度 27MB / 秒) 支持逻辑搜索 支持中文转拼音搜索 (使用 gpy 中文转拼音) 支持计算关键词在文本...
  • 漫画:从诗词大会飞花令到ElasticSearch原理解析
    本文转载自公众号:互联网侦察小史是一个非科班的程序员,虽然学的是电子专业,但是通过自己的努力成功通过了面试,现在要开始迎接新生活了。对小史面试情况感兴趣的同学可以观看面试现场系列。随着央视诗词大会的热播,小史开始对诗词感兴趣,最喜欢的就是飞花令的环节。但是由于小史很久没有背过诗词了,飞一个字很难说出一句,很多之前很熟悉的诗句也想不起来。【倒排索引】吕老师:但是我让你说出带“前”字的诗句,由于没有索引,你只能遍历脑海中所有诗词,当你的脑海中诗词量大的时候,就很难在短时间内得到结果了。【索引量爆炸】【搜索引擎原...
  • 中文NLP的分词真有必要吗?李纪为团队四项任务评测一探究竟 | ACL 2019
    作者| Yuxian Meng、Xiaoya Li、Xiaofei Sun、Qinghong Han、Arianna Yuan、 Jiwei Li译者 | Rachel责编 | Jane出品 | AI科技大本营(ID: rgznai100)【导读】通常,中文文本处理的第一步称为分词,这好像已经成为一种“共识”,但对其必要性的研究与探讨很少看到。本文中,作者就提出了一个非常基础的问题:基于深度学习方法的自然语言处理过程中,中文分词(CWS)是必要的吗? 近日,香浓科技 AI 团队(Shannon AI)与斯坦...
  • 爬虫抓了那么多的数据,该如何处理呢?
    上周星期天做了第一次B站直播,有点激动,分享的主题是网页正文抽取和NLP基本知识普及。晒一下直播画面:今天把昨天的直播视频内容整理了一下,发在猿人学公众号上。要观看录播的可以点击原文,是B站的录播地址。到目前为止,我们分享了很多爬虫技术,也就是如何抓取到我们想要的数据。那么抓来的数据该如何处理呢?前面我们涉及到这方面的技术很少,对不起大家啦,我来晚啦。我们抓到的很大一部分数据就是文本,比如抓来的新闻、博文、微博、公众号文章等等,甚至是商品的评价、影视节目的评价、弹幕等等,这些统统是文本数据。本文主要围绕文本...
  • 第三次读者交流-七月的交流
    转眼七月已来了,这是从五月开始做读者交流的第三次,我的初衷是坚持每月做一次读者交流。以分享Python相关技术为主,辅于职场和知识视野相关话题。这次也是用直播形式分享,方便展示代码和PPT。分享的意义也是想跟大家多建立链接。上次分享了NLP(自然语言处理)的基础知识和泛网页正文抽取算法。不少读者对NLP比较感兴趣。这次就继续分享NLP相关知识,NLP的基石-中文分词技术。中文分词就是把一段中文分成一个个词语, 分词技术是做NLP处理的基础,分词的好坏直接影响NLP后续的处理效果。要让机器理解人类语言这是第一...
  • 文本处理NLP:分词与词云图
    昨晚我们又做了一次技术分享,继续上次技术分享的话题“文本数据的处理”。上次,我们分享了文本处理的方方面面的知识点,比较宏观,这次我们就其中的一点“分词”展开。一、为什么要分词“行文如流水”形容的是诗文、书法自然流畅不受拘束。这里我们借用一下就是,中文句子词汇之间如流水般无缝,不像英文那样单词之间用空格分开。比如:中文:我在猿人学网站上学Python英文:I learn Python on YuanRenXue.在程序里,从英文中得到一个一个单词很简单,用Python字符串的split()函数就可以搞定。而对...
  • Python jieba库的使用说明
    1、jieba库基本介绍(1)、jieba库概述jieba是优秀的中文分词第三方库 -中文文本需要通过分词获得单个的词语- jieba是优秀的中文分词第三方库,需要额外安装- jieba库提供三种分词模式,最简单只需掌握一个函数(2)、jieba分词的原理Jieba分词依靠中文词库 - 利用一个中文词库,确定汉字之间的关联概率- 汉字间概率大的组成词组,形成分词结果- 除了分词,用户还可以添加自定义的词组2、jieba库使用说明(1)、jieba分词的三种模式精确模式、全模式、搜索引擎模式...
官方公众号
活跃用户
《科技日报》是富有鲜明科技特色的综合性日报,是面向国内外公开发行的中央主流新闻媒体,是党和国家在科技领域的重要舆论前沿,是广大读者依靠科技创造财富、提升文明、刷新生活的服务平台,是中国科技界面向社会、连接世界的明亮窗口。
让创业者不再孤独@i黑马
凤凰科技频道官方账号,带你直击真相。
数字生活家,手机新娱乐
腾讯新闻旗下腾讯科技官方账号,在这里读懂科技!
普及数据思维,传播数据文化
定期推送python基础,开发框架,数据库,前端,linux等相关知识,致力打造一个实用的推送平台,希望能够成为大家的宝典.
分享最有价值的互联网技术干货文章,AI、Python、Java、Android、iOS、前端、后端等,助力您成为有思想的全栈架构师,聊架构,聊职场、聊人生!打造最有价值的架构师圈子和社区,助力你的个人提升和发展~
讨论和学习C/C++编程知识,分享C语言和C++开发相关的技术文章和工具资源
分享编程思想、职业发展、个人见解。
阿里巴巴官方技术号,关于阿里的技术创新均呈现于此。
记录工作,生活的地方。
推崇基础学习与原理理解,不谈大而空的架构与技术术语,分享接地气的服务器开发实战技巧与项目经验,实实在在分享可用于实际编码的编程知识。
最有价值的架构师圈子和社区,我们分享各种互联网架构技术干货,探讨架构设计和实战经验,不定期送书、分享学习资料与面试题等。关注学习,早日成为架构师。
通俗易懂,用大白话、幽默风趣地讲解web前端知识,让每个新手入门无难度
分享Web后端开发技术,分享PHP、Ruby、Python等用于后端网站、后台系统等后端开发技术;还包含ThinkPHP,WordPress等PHP网站开发框架、Django,Flask等Python网站开发框架。
你的健康生活小助手,预约挂号老朋友。
专注年轻人的AI学习与发展平台
感谢订阅,我叫杨钊,也叫big banana,大家都叫我大蕉。技术探针一枚。主要分享最近关注或者将要关注的东西。万一能对您有一点点的帮助那就更好了。
TechWeb专注于互联网消费领域,每日专业提供互联网产品、智能设备及互联网服务等方面的最新资讯。