博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
LDA(latent dirichlet allocation)的应用
阅读量:5103 次
发布时间:2019-06-13

本文共 982 字,大约阅读时间需要 3 分钟。

http://www.52ml.net/1917.html

主题模型LDA(latent dirichlet allocation)的应用还是很广泛的,之前我自己在检索、图像分类、文本分类、用户评论的主题词抽取等都用过,做feature、降维等。例如可以用主题维度来表示原来的字典维度,大大的降低了文本表示的维度。这其实也很deep learning中的对特征的抽象有点相似,通过一些聚类等的思想,将一些细粒度的特征组合到一个新的空间上去,例如主题空间。

而且GibbsSampling的LDA实现也相对容易,可以参考一些代码。

最近看微博上  发起的帖子,大多业界用lda或者plsa的都表态了。腾讯的rickjin等。摘录一些,大家以后遇到类似的问题可以尝试下topic model。

===

 :PLSA 和 LDA 在广告系统中做文本语义相似度的计算还是可以的,至少能保证弱语义相关性。另外,我们把 LDA inference 出来的 topic 用在了文本分类器中做feature, 可以显著的提升分类器的 precission/recall

 :在计算搜索query相似度时直接采用LSA了,因为SVD的效率在工业界已经很成熟。// :回复  :哦, 没有说清楚, 我指的是弱语义关联,比如 LDA 可以有效的用于计算 "柯南" 和 "火影忍者" 这两个 query 的相似度

 :打个比方,有1000万个样本,只用learning的100个topic做feature,结果可想而知//  :只用topic分类,效果不好,尤其是在训练样本多的时候。//  : 只用topic作文本分类,效果怎样。

 :有公司用lda做cookie做user group,然后当feature用,效果挺好/  : 目前正在做LDA在大规模user profiling + personalization的工作。

 :PLSA (dirichlet prior = zero 的 LDA)还是很实用的,我们用它解过几个工业界的问题

 :我们在广告中在用lda做cookie-url grouping, 最近在尝试用来发现长尾语义

 :baidu好像把plsa用得挺好的,lda就不知道了。

转载于:https://www.cnblogs.com/DjangoBlog/p/6210663.html

你可能感兴趣的文章
【ASP.NET】演绎GridView基本操作事件
查看>>
ubuntu无法解析主机错误与解决的方法
查看>>
尚学堂Java面试题整理
查看>>
08-【jsp重点】
查看>>
小记:xml画一个爱心。
查看>>
MySQL表的四种分区类型
查看>>
7.26
查看>>
dll--二进制层面的复用
查看>>
linux 压缩/解压缩/打包命令
查看>>
守护进程
查看>>
CLR 关于强命名程序集 .
查看>>
[BZOJ 3489] A simple rmq problem 【可持久化树套树】
查看>>
如何制作并更改项目icon文件
查看>>
设计模式:迭代器模式(Iterator)
查看>>
cmd批处理常用符号详解
查看>>
关于给构造函数传达参数方法
查看>>
mysql忘记密码时如何修改root用户密码
查看>>
STM32单片机使用注意事项
查看>>
在linux中出现there are stopped jobs 的解决方法
查看>>
获取浏览器版本信息
查看>>