在实验室公用的服务器安装一些依赖,但是考虑到我没有root权限,同时别人可能用不到我安装的依赖,所以需要想想其他的解决方法。
自然语言处理三大特征抽取器比较
这篇文章是对放弃幻想,全面拥抱Transformer:自然语言处理三大特征抽取器(CNN/RNN/TF)比较 - 知乎的摘抄。
NLP领域内经典的特征抽取器主要有三种:
- CNN
- RNN
- Transformer
其中CNN和RNN可能会逐步退出历史的舞台,而Transformer则会替代他们成为最为主流的特征抽取器。
从Word Embedding到Bert模型——NLP中的预训练技术发展史
最近在学习预训练模型相关的文章,发现了一篇很棒的文章从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史 - 知乎,这篇文章是对原文作出的精炼以便之后的复习查阅。
这篇文章的主题是NLP中的预训练过程,文章中阐述了NLP中的预训练技术是一步一步如何发展到Bert模型的,从中可以很自然地看到Bert的思路是如何逐渐形成的,Bert的历史延续和革新是什么?继承了什么?创新了什么?为什么效果那么好,主要原因是什么?
Freebase及其处理和导入数据库
最近在研究基于知识图谱的问答系统(Knowledge-based Question Answering,KBQA),这个领域的论文大多是基于 Freebase 的,所以就有机会了解一下 Freebase 。
Virtuoso的安装与使用
知识库的存储最常见的是采用Virtuoso SPARQL engine,配合lambda-DCS进行存储的方式。因此下载了Virtuoso工具并学习了相关的使用。Virtuoso的官方文章地址:vos.openlinksw.com/owiki/wiki/VOS 。
中文维基百科语料的获取与处理
维基百科的中文语料算是中文语料库中质量高且又容易获取的语料库了。并且维基百科每个一段时间都会将所有条目都打包一次,供全世界下载使用(下载地址zhwiki)。维基百科开源的中文词条内容,收集了100w+词条,虽较百度百科或英文维基百科的上千万条相差很多,但是中文维基百科仍是最高质量的中文语料库。
第四章 栈和队列
本章介绍并实现更基本、更常用的两种数据结构——栈和队列。与之前介绍的向量和列表一样,同属于线性序列结构,故其中存放的数据对象之间也具有线性次序。相对于一般的序列结构,栈与队列的数据操作范围仅限于逻辑上的特定某端。