第577期NLP日报(2017-01-11)

更新于 2017年1月12日 自然语言处理
我来说两句
0 2017年1月12日

2017-01-11 日报 NLP

NLP日报 2017-01-11

@好东西传送门 出品,由@AI100运营, 过往目录http://ml_nlp.memect.com

订阅:关注微信公众号 AI100(ID:rgznai100,扫二维码),回复“机器学习日报”,加你进日报群

微信公众号:rgznai100

本期话题有:

全部14 算法5 深度学习3 经验总结3 机器翻译1 语音1 资源1

刘知远THU   网页版 2017-01-11 16:35
Python
#THULAC# 我们最近对 THULAC (中文词法分析工具包) 进行了以下优化:(1) Python语言版实现同时兼容2.x和3.x版本;(2) 各编程语言版均改善了对超长文本的处理能力;(3) 对分词和词性标注效果做了若干优化。欢迎试用:http://t.cn/R40cVTm [哆啦A梦微笑] ​

刘知远THU 网页版 转发于2017-01-11 22:44
#THULAC# 现在THULAC分词和词性标注的所有源码(Java、C++、Python)均在Github上维护更新:http://t.cn/R5cly20 。欢迎相关专业人士加盟,共同研制和维护这些源码,让中文分词和词性标注更好用。[微笑]

 

孔明_CASIA   网页版 2017-01-11 21:31
深度学习 算法 强化学习
马老师关于深蓝、沃森和AlphaGo三个系统在通用性方面的分析非常有价值。从应用领域来说,深蓝和AlphaGo是一脉相承的,AlphaGo创新性地将深度学习和强化学习集成到了搜索算法中。另外,沃森系统,尤其是经过IBM强化发展的所谓的“认知计算”,指的是一套自然语言处理和逻辑推理技术,在系统性上比其他两…全文: http://m.weibo.cn/1644564144/4062846205140286

 

专注云计算   网页版 2017-01-11 15:22
经验总结 深度学习 博客
【深度 | 自然语言处理领域深度学习研究总结:从基本概念到前沿成】每隔几周,加利福尼亚大学洛杉矶分校(UCLA)的 Adit Deshpande 就会在其博客上发表一篇深度解读的深度学习研究回顾博客。今天这篇是 Adit 的这一系列的第三篇博客,将主要介绍深度学习在自然语言处理当中的应用。 …全文: http://m.weibo.cn/1750765385/4062753465786094

 

龙星镖局   网页版 2017-01-11 14:16
算法 行业动态 神经网络
重磅丨谷歌是在炒作么?大牛详解神经网络算法为什么不适合自然语言处理 http://t.cn/RMXwGnn

立委_米拉 网页版 转发于2017-01-11 15:27
所谓discontinuity源于语言的结构特性,结构把代表相关概念的关联词分隔开。麻烦是这种语言结构是 hierarchical 的,结构上面还有更大的结构,造成相关概念的语义间隔从短距离一直到远距离。

 

PaperWeekly   网页版 2017-01-11 11:24
Real Multi-Sense or Pseudo Multi-Sense: An Approach to Improve Word Representation #真假多义词# 词向量是一个非常活跃的研究领域,word2vec提供了一种非常简单粗暴、充满问题的词向量,比如一个典型的问题是一词多义,于是很多的工作都是在解决一词多义的问题,但一个词对应的多个向量其实都指向…全文: http://m.weibo.cn/2678093863/4062693428807910

 

王威廉   网页版 2017-01-11 23:36
机器翻译 算法 Iain Murray 行业动态 神经网络
爱丁堡大学副教授Iain Murray试了试谷歌的神经网络机器翻译软件,发现有时候还是有奇怪的结果。 ​

张家俊MT 网页版 转发于2017-01-11 23:52  回复 @张韧 “短文本,单词翻译。”
这就是神经机器翻译之神经所在,目前的模型出现这种结果很正常(完全没有这种现象才不正常),大家都在努力改进中。相信很快会有好的解决方案!

 

梁斌penny   网页版 2017-01-11 19:11
张一鸣
盘踞在微博头上最大的寄生虫是张一鸣同志啊,他们都值400亿美金了。。微博股价要涨了,我感觉。另外不少人at我,谢谢,公司全赔光也就十几万,关门就完了。抓点微博数据提炼点新词热词,做在线分词这种业务都能倒闭,那我也认了。把团队集合好做其他生意,也不是不行。 ​

 

立委_米拉   网页版 2017-01-11 14:45
blah的blah把最blah的blah给彻底blah了 Grammar can parse nonsense or beyond nonsense. The former is Chomsky’s famous sentence: Colorless green ideas sleep furiously. The latter is a sample from 白老师. A robust parser can build a legit structure out of it and knows its structural s…全文: http://m.weibo.cn/2316531634/4062744027717231

 

ArnetMiner   网页版 2017-01-11 10:59
深度学习 算法 语音 资源 Aaron Courville Cesar Laurent Yoshua Mohammad Pezeshki PDF Saizheng Zhang Ying Zhang 论文 神经网络
【每日一推】《Towards End-to-End Speech Recognition with Deep Convolutional Neural Networks》by Ying Zhang, Mohammad Pezeshki, Philemon Brakel, Saizheng Zhang, Cesar Laurent Yoshua Bengio, Aaron Courville http://t.cn/RM6H1Ts基于CNN的端对端语音识别。文章利用CTC和CNN的各自优势,将…全文: http://m.weibo.cn/1870858943/4062687287166265

 

一起大数据   网页版 2017-01-11 10:33
经验总结 Rachel Zhang 博客
word2vec——高效word特征求取 – Rachel Zhang的专栏 – 博客频道 – CSDN.NET http://t.cn/RM6jUXK

 

PaperWeekly   网页版 2017-01-11 10:19
论文
Implicitly Incorporating Morphological Information into Word Embedding #词向量# 将词形信息考虑在词向量模型中是一种常见的增强手段,一般的做法是将词的前缀、后缀和词根作为独立的token进行建模,而本文的思路则是用能够代表前缀、后缀意思的词来代替进行建模。 http://t.cn/RM6Oe27

 

爱可可-爱生活   网页版 2017-01-11 05:19
算法 论文 情感分析 神经网络
《Structural Attention Neural Networks for improved sentiment analysis》F Kokkinos, A Potamianos [National Technical University of Athens] (2017) http://t.cn/RM6VP4r

 

网路冷眼   网页版 2017-01-11 00:43
经验总结 博客
【The Definitive Guide to Natural Language Processing】http://t.cn/RUcvEGz 自然语言处理权威指南。

 

数据科学家快报   网页版 2017-01-11 00:15
词性标注(Part-of-Speech tagging 或POS tagging),又称词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。 http://t.cn/RzZG7Hb

 


回复