webdatacommons数据集

越来越多的网站使用结构化的数据来表述一些比如商品、人物、组织、地点、事件或者菜谱等等。这些结构化的数据经常使用诸如RDFa,Microdata或者Microformats等格式存储。Common Crawl是现如今向公众开放的最大网络语料库,里面存有66 TeraByte的网页数据,而Web Data Commons,就是从这个语料库中提取这些结构化数据,形成了这个数据集

数据与资源

其他信息

价值
最近更新 四月 10,2018,13:15(Asia/Shanghai)
创建的 四月 7,2018,23:28(Asia/Shanghai)