• 推荐一款基于Golang的搜索引擎:Riot
    Lucene 是一款基于 Java 的搜索引擎,也是现在最流行的开源搜索引擎。今天分享一款不一样的,基于 Golang 的搜索引起:Riot。 项目地址:https://github.com/go-ego/riot Features 高效索引和搜索(1M 条微博 500M 数据 28 秒索引完,1.65 毫秒搜索响应时间,19K 搜索 QPS) 支持中文分词(使用 gse 分词包并发分词,速度 27MB / 秒) 支持逻辑搜索 支持中文转拼音搜索 (使用 gpy 中文转拼音) 支持计算关键词在文本...
  • 漫画:从诗词大会飞花令到ElasticSearch原理解析
    本文转载自公众号:互联网侦察小史是一个非科班的程序员,虽然学的是电子专业,但是通过自己的努力成功通过了面试,现在要开始迎接新生活了。对小史面试情况感兴趣的同学可以观看面试现场系列。随着央视诗词大会的热播,小史开始对诗词感兴趣,最喜欢的就是飞花令的环节。但是由于小史很久没有背过诗词了,飞一个字很难说出一句,很多之前很熟悉的诗句也想不起来。【倒排索引】吕老师:但是我让你说出带“前”字的诗句,由于没有索引,你只能遍历脑海中所有诗词,当你的脑海中诗词量大的时候,就很难在短时间内得到结果了。【索引量爆炸】【搜索引擎原...
  • 中文NLP的分词真有必要吗?李纪为团队四项任务评测一探究竟 | ACL 2019
    作者| Yuxian Meng、Xiaoya Li、Xiaofei Sun、Qinghong Han、Arianna Yuan、 Jiwei Li译者 | Rachel责编 | Jane出品 | AI科技大本营(ID: rgznai100)【导读】通常,中文文本处理的第一步称为分词,这好像已经成为一种“共识”,但对其必要性的研究与探讨很少看到。本文中,作者就提出了一个非常基础的问题:基于深度学习方法的自然语言处理过程中,中文分词(CWS)是必要的吗? 近日,香浓科技 AI 团队(Shannon AI)与斯坦...
  • 爬虫抓了那么多的数据,该如何处理呢?
    上周星期天做了第一次B站直播,有点激动,分享的主题是网页正文抽取和NLP基本知识普及。晒一下直播画面:今天把昨天的直播视频内容整理了一下,发在猿人学公众号上。要观看录播的可以点击原文,是B站的录播地址。到目前为止,我们分享了很多爬虫技术,也就是如何抓取到我们想要的数据。那么抓来的数据该如何处理呢?前面我们涉及到这方面的技术很少,对不起大家啦,我来晚啦。我们抓到的很大一部分数据就是文本,比如抓来的新闻、博文、微博、公众号文章等等,甚至是商品的评价、影视节目的评价、弹幕等等,这些统统是文本数据。本文主要围绕文本...
  • 第三次读者交流-七月的交流
    转眼七月已来了,这是从五月开始做读者交流的第三次,我的初衷是坚持每月做一次读者交流。以分享Python相关技术为主,辅于职场和知识视野相关话题。这次也是用直播形式分享,方便展示代码和PPT。分享的意义也是想跟大家多建立链接。上次分享了NLP(自然语言处理)的基础知识和泛网页正文抽取算法。不少读者对NLP比较感兴趣。这次就继续分享NLP相关知识,NLP的基石-中文分词技术。中文分词就是把一段中文分成一个个词语, 分词技术是做NLP处理的基础,分词的好坏直接影响NLP后续的处理效果。要让机器理解人类语言这是第一...
  • 文本处理NLP:分词与词云图
    昨晚我们又做了一次技术分享,继续上次技术分享的话题“文本数据的处理”。上次,我们分享了文本处理的方方面面的知识点,比较宏观,这次我们就其中的一点“分词”展开。一、为什么要分词“行文如流水”形容的是诗文、书法自然流畅不受拘束。这里我们借用一下就是,中文句子词汇之间如流水般无缝,不像英文那样单词之间用空格分开。比如:中文:我在猿人学网站上学Python英文:I learn Python on YuanRenXue.在程序里,从英文中得到一个一个单词很简单,用Python字符串的split()函数就可以搞定。而对...
  • Python jieba库的使用说明
    1、jieba库基本介绍(1)、jieba库概述jieba是优秀的中文分词第三方库 -中文文本需要通过分词获得单个的词语- jieba是优秀的中文分词第三方库,需要额外安装- jieba库提供三种分词模式,最简单只需掌握一个函数(2)、jieba分词的原理Jieba分词依靠中文词库 - 利用一个中文词库,确定汉字之间的关联概率- 汉字间概率大的组成词组,形成分词结果- 除了分词,用户还可以添加自定义的词组2、jieba库使用说明(1)、jieba分词的三种模式精确模式、全模式、搜索引擎模式...
  • 「NLP」用python实现基于凝固度和自由度的新词发现程序
    要保证基于词库方式的分词效果好,就要持续的更新词库,也就是要有发现新词的能力。n-gram加词频最原始的新词算法莫过于n-gram加词频了。凝固度和自由度这个算法在文章《互联网时代的社会语言学:基于SNS的文本数据挖掘》 里有详细的阐述。凝固度就是一个字组合片段里面字与字之间的紧密程度。Python实现根据以上阐述,算法实现的步骤如下:1. n-gram统计字组合的频率如果文本量很小,可以直接用Python的dict来统计n-gram及其频率。如果文本量再大一些,Python的dict经常会碰到最好使用trie tree这样的数据结构。实验下来,trie tree统计30M的文本用几十秒,而同样的用leveldb统计却要6个多小时!!!
活跃用户
《中国银行保险报》是中国银行保险监督管理委员会主管唯一工作日报。
专注于.NET Core的技术传播。在这里你可以谈微软.NET,Mono的跨平台开发技术。在这里可以让你的.NET项目有新的思路,不局限于微软的技术栈,横跨Windows,Linux 主流平台
这里有技术、算法、职场、感悟、面经、资源,一线大厂干货,10万 + 程序员都在看,做一个有趣的帮助程序员成长的公众号,每天早上8点20,第一时间与你相约。
《前端剑解》 —— 是由海之林技术团队维护的前端公众号,关注前端技能的发展;【前端面试每日3+1】 —— 365天,每天早上5点发布面试题(html, css, js, 软技能),以面试题来驱动学习,提倡每日学习与思考,每天进步一点!
号主是来自后厂村的十年资深架构师,技术leader,著有两本技术畅销书,多个业界顶级技术大会的特邀演讲嘉宾和出品人。除了分享技术干货,还关注程序员的技术生活、职场晋升、逆袭成长,助力10万+程序员崛起。
Flink/Spark/Hadoop/数仓开发,干货,面试,资料下载,源码解读等
《科技日报》是富有鲜明科技特色的综合性日报,是面向国内外公开发行的中央主流新闻媒体,是党和国家在科技领域的重要舆论前沿,是广大读者依靠科技创造财富、提升文明、刷新生活的服务平台,是中国科技界面向社会、连接世界的明亮窗口。
华为技术有限公司官方微信帐号
每天分享 Java技术栈 干货,路虽远,行则必至。
“早春江上雨初晴,杨柳丝丝夹岸莺。画舫烟波双桨急,小桥风浪一帆轻”,这是机器通过学习中华诗词然后以”早春“为题所写的一首诗。很多人非常恐惧AI的发展对人类的冲击,但我坚信AI会让世界变得更加美好,生活是美好的,所以我们一起,勇敢AI吧!
一个专注侃侃计算机视觉方向的公众号。计算机视觉、图像处理、机器学习、深度学习、C/C++、Python、诗和远方等。
程序员职业规划:职场晋升之路;探讨程序员转化转管理之路。程序员学习管理之道:团队管理、项目管理、管理工具的推荐和使用经验。
乔哥是百度java工程师,专注Java相关技术:Java面试、Spring全家桶、微服务、Mysql、集群、分布式、中间件、Linux、网络、多线程等,致力于Java全栈开发!
西安交大品牌讲座“学而讲坛”创始人和负责人,致力于打造一个跨界融合的学术共同体。北大文学博士,西安交大国家大学生文化素质教育基地副主任,人文学院高培中心主任,著有《陕西文化产业实战研究》、《视觉素养导论》、《艺术导论》、《读图范式》等。
专注于分享互联网技术文章。笔者待过BAT等一线互联网公司,文笔流畅,酷爱写作与编码,期待你的关注!