| 一般来说,几十万以下的数据为中小型数据库,百万以上的数据库为大型数据库,全国的企业数量何止上百万?而目前经营企业名录的网站多数为个人性质,一般不具备处理大型数据库的技术能力。
几十万以下的数据库我们用ACCESS或EXCEL基本上能处理过来,虽然有点吃力,但上百万的数据就要用到大型数据库了,就必须会编程语句,否则就没办法处理好。 首先,ACCESS数据库(MDB格式)是桌面数据库,单个文件最大限度为2G,超过2G就不行了,而EXCEL则本身只是表格,即使是2007版的单个文件最多也只能容纳10多万条,更别说处理上百万的数据了。ACCESS和EXCEL在处理数据库的功能上非常简单,不可能很专业地去处理数据,而数据的格式往往很复杂,如果用软件来处理则会导致很多数据处理错误,造成名录信息不准确。

(点击看大图)
图1:未处理过的源数据,号码很不规范,电话有些开头带86,有些开头为二个区号,使用甚为不便。

图2:经技术处理后的成品数据(点击看大图) 名录数据的来源通常是多途径的,不是单一的,如我们的名录来源有工商、行业协会、互联网、统计局等。不同的来源其数据的格式大多数都不相同,如工商来源的企业注册资金字段格式可能是数字的,而网上来的可能是文本的;工商来源的企业电话号码前面无区号的,网上来源的电话号码前面可能带有区号或之类的,而即使是同一来源的数据,其录入的数据的格式也通常不会很规范。这些数据如果不加以处理,统一格式,则会对客户筛选数据及使用的方便性带来很大的障碍,同时,由于传真和手机号码格式不统一,无法直接用于传真和短信群发。本身是个迷你数据库,功能很简单,对复杂的数据无法很好的处理,就更不用说了,只有会用编程语句,使用大型数据库,才能快速,精准地处理这些复杂的数据。目前,做名录的多数为个人,基本上不会使用大型数据库来处理数据,更谈不上保证其准确率了。

图3:工商注册源数据,无区号,号码格式不统一,号码重复多,错误多。(点击看大图)

图4:这是我们对工商源数据进行处理的编程语句(点击看大图)

图5:经我们技术处理后的工商注册数据井井有条,准确率高,使用方便。(点击看大图)
|