2011年1月12日星期三

如何你想像的谷歌文本100 GB的数据?

有趣的看新闻 http://rss.slashdot.org/~r/Slashdot/slashdot/~3/lRQnkESVHZc/story01.htm:
一位不愿透露姓名的读者写道:“有一个图表惊人的一系列可视化卦和bigrams,判决已经从谷歌的网页数据抽取集。这种图形突出字协会和频率,我们使用网页并将部分。克里斯哈里森卡耐基梅隆大学研究发现,例如,这个词'他'是常常与'主张,'而'她'是发现经常与'爱。'也有字的关系,强调词与他们的对立面,如好和坏,和平与战争,图表结合使用,与PC和Mac。“有这样的一些东西很多,他们真正感兴趣的浏览。

阅读这个故事更在Slashdot。




沒有留言:

發佈留言