MongoDB去除重复数据

核心思想:利用唯一索引,去除重复数据。
(假设数据存于Weibo数据库中的old集合,且想把id字段重复的数据只保留一条)

  1. 新建立一个new集合,用于保存去重后的数据。且再new集合中建立唯一索引

    1
    db.new.ensureIndex({"id":1},{"unique":true})
  2. 将old集合中的数据使用mongoexport导出,然后mongoimport导入到new集合中

    1
    2
    mongoexport -d Weibo -c old -o data.dat
    mongoimport -d Weibo -c new data.dat