关于mysql和hadoop数据交互的问题，和hadoop的文件夹设计

测试积点老人 发表于 2019-2-19 09:45:36

目前mysql按地区，商业区区分，假设读取mysql数据库的地区，根据地区划分我昨天和领导沟通了，领导说点击率不是必要条件，地区划分才是重点，后面就是各方面劝导，只好以地区区分，关键是这个镇区区分数据和产品的话，全国有6k多个地区，这样的hdfs文件夹数量，岂不是很崩溃，后面感觉还有很多纬度和条件查询啥的，上头又喊了一句不一定要用hadoop，发挥hadoop啥啥优势，mysql多条件查询方便，好好做这个方案，然后我就一头雾水了，心里比较纠结和郁闷。最近搞mahout出了点成绩，发现单机版也挺好使（数据量少的前提下）,搜了搜房子，北京也就519,059这么多套房子在待售，没啥必要用hadoop，自我感觉，如果只是单独分析这些条数据519,059条，感觉不大，如果你有好的博客和资源提供，麻烦提供url连接，谢谢

qqq911 发表于 2019-2-20 10:24:38