第0期NLP日报(2015-06-14)

更新于 2015年6月15日 自然语言处理
我来说两句
1 2015年6月15日

2015-06-14 日报 NLP

NLP日报 2015-06-14

@好东西传送门 出品, 过往目录http://ml_nlp.memect.com

订阅:给 hao@memect.com 发封空信, 标题: 订阅NLP日报  

梁斌penny   网页版 2015-06-14 22:09
比如“请问北大方正待遇”。这个词,全切分的话,北大这个词百分百被切出来,但这句话中,北大其实是一个弱语义信息,但实际上先验的看,北大这个词有丰富的语义信息。如果没有一个概率表示,拿到聚类中搞,很容易搞飘了。。所以给出这个词的语义信息强度(概率)是特别关键的 http://t.cn/8kRROd9

 

梁斌penny   网页版 2015-06-14 22:04
有网友反映我之前微博说的在文本中提取语义信息就是分词里面的“全切分”,已经well defined的问题。。首先,全切分会告诉你每个出词的概率嘛?没有吧。其次,全切分很多时候不能自主的组合语义信息。 一定不要被前人的定义套住了,要从解决问题的实际出发 http://t.cn/8kRROd9

52nlp 网页版 转发于2015-06-14 22:23
其实mecab分词是提供全切分模式及周边概率的输出选项的 http://t.cn/R2TEij7

JoeWoo_HIT 网页版 转发于2015-06-14 22:47  回复 @52nlp “其实mecab分词是提供全切分模式及…”
分词永无止境呀[嘻嘻]从首尾最长匹配到到语言模型到隐马到最大熵隐马到条件随机场,现在又有深度学习加入进来。[挖鼻]然而,最终一个好词表才是王道。就像研究了一通IR各种模型,最终商用搜索引擎pk的是规则库!

 

梁斌penny   网页版 2015-06-14 16:28
行业动态
下周机会开放一个打语义标签API,另外分享一大批微信公共账号语料,一定要记得关注某job啊。 语义标签API并不完全等价于分类,出来后大家就懂了,百度内部有一个工具做这个,但人家是不可能公开的,对啵。 http://t.cn/8kRROd9

梁斌penny 网页版 转发于2015-06-14 16:31
就拿那天我和百度一个同志交流,问“你们怎么不开放你们的分词啊?”他说什么都可能开放,分词绝不会。。否则其他搜索公司就会拿大量语料把我们的词库都洗走了。。特别是一些商业性强的词。

 

GeekPark   网页版 2015-06-14 15:02
李志飞 行业动态 问答系统
#未来头条 · 极客制造# 出门问问 & Ticwatch 创始人 & CEO 李志飞的 Geek Show:「从科学家到智能表哥」。李志飞之前在谷歌把翻译从繁琐的后台解放,到手机不需要联网就能运行。他一直想把人工智能做到人人都能使用的程度。而之所以做智能手表,是因为手表能天天使用,可交互,最重要的是带有传感器。

 

五道口宅男   网页版 2015-06-14 11:10
资源 教育网站
超棒的文本挖掘课件,http://t.cn/R2TyyOs,要是能听到这课多好啊[哆啦A梦微笑]

 

爱可可-爱生活   网页版 2015-06-14 08:40
深度学习 论文
【论文:张量分解实现的卷积词典学习】《Convolutional Dictionary Learning through Tensor Factorization》F Huang, A Anandkumar (2015) http://t.cn/R2YF3Ki

 

翻译驴   网页版 2015-06-14 08:29
机器翻译
这两天脑袋里全是CAT和MT设计方案,各种好玩儿的可能。主要有三点:根据团队协作重构TMS与CAT,重新定义CAT;为了深度融合MT而重构CAT,对,就是重新发明轮子;CAT操作就要非常简单,去掉一切花哨的功能,半小时内可上手。主要目标用户定位:大型甲方客户,中小翻译公司(团队),前者特别考虑MT。

翻译驴 网页版 转发于2015-06-14 08:35
前提都是面向实际的主要需求,拒绝空谈和扯犊子吹牛B,尤其拒绝讨论“语义和哲学、超过谷歌和微软”之类不着调儿的事。一切为了给翻译界和客户造出更好用的工具!

 

好东西传送门   网页版 2015-06-14 05:35
算法 视觉 Michael Jordan 分类 简报
机器学习日报 2015-06-13 http://t.cn/R2Y1GgW 1) Google新文Grammar as a Foreign Language 2) Mariana机器学习框架 3) 回顾:michael jordan推荐的机器学习书籍 4) 视觉支持的文本表示学习 5) Otto Product Classification第二名优胜者访谈—— Stacking的胜利 完整版27条 http://t.cn/R2Y1Ggl

 

梁斌penny   网页版 2015-06-13 17:22
pullword.com起码写一篇顶会吧;10tb语料中发现新词起码也有一篇;核心词提取估计也有一篇(pullcore.com);还有那个快速聚类起码一篇;还有一个支持随机插入数据的thuirdb改进版;很多啊,都没有发表任何论文。。 http://t.cn/8kRROd9

qyjohn_ 网页版 转发于2015-06-14 07:25
工业界讲show me the solution,你的东西要很管用;学术界讲show me the idea,你的东西得有新意。在工业界呆过一段时间的人通常动手很快,但是事情做出来了审稿人没通过就很沮丧,觉得学术界的人很不可理喻。其实主要的原因是论文缺乏新意,重复发现各种现象或者发明各种理论而不自知。

 

CIPS青工委   网页版 2015-06-03 11:28
资源 会议活动 活动 幻灯片
#CIPS青工委系列学术活动# 长三角地区自然语言处理青年学者论坛暨顶级国际会议论文报告会Slides可以下载了:http://t.cn/R2aL86q

 

回复

请问有RSS订阅么?还是习惯在feedly看日报~

回复
取消