数字之外的专业知识

数据管道自动化——多平台集成的力量

在当今这个数据驱动的世界里, 对于具有来自不同来源的巨大数据集的组织, 数据管理可能是昂贵和耗时的. 因此, 组织寻求有效的方法来降低成本和提高运营绩效. 位于基本数据基础设施的根, 数据管道是否允许不同应用程序和平台之间的数据平滑传输. 这种无缝的数据流使组织能够改进商业智能和数据移动性, 在数据驱动的公司文化中提高公司决策的有效性和效率.

业务的挑战

我们的一个客户需要一个解决方案,该解决方案允许该组织从第三方葡京官网提供商导出客户通信数据, 将数据导入数据库, 最后在数据库和Power BI之间建立连接,以便转换数据并创建有意义的可视化, 这一切都是自动完成的. 最初, 该组织手动执行所有这些任务,同时将数据增量地存储在硬盘上,增加了时间消耗和人力需求.

解决方案

我们利用了亚马逊网络葡京官网(AWS)的云基础设施 & PostgreSQL作为第三方葡京官网提供商和Power BI之间建立自动连接的重要中介. 对于许多企业和初创企业来说, PostgreSQL已经成为一种流行的开源关系数据库,而Amazon RDS允许在云中实现具有成本效益和可伸缩的PostgreSQL.

利用AWS的云基础设施 & PostgreSQL,我们的团队设计了以下解决方案:

  1. 摄入:设置了一个Cron作业,以便从3中收集和导入数据rd 并将其存储在一个固定的位置.
  2. Amazon S3: 在Cron作业之后,使用amazon S3桶作为存储点.
  3. 数据库表设置: 两个表, 一个staging表和一个主表, 是在PostgreSQL数据库中创建的,以便保存导入的数据.
  4. AWSλ(λ): 利用AWS lambda函数自动运行代码以响应事件i.e. 导入或更新S3桶中的数据文件. lambda函数有以下规范和职责:
    • lambda函数是基于Python代码、SQL查询设置的,并使用了以下包:
      • Boto3: 一个AWS Python软件开发工具包(SDK),它允许开发人员编写与其他Amazon web葡京官网(如S3和EC2实例)一起工作的代码.
      • Psycopg2: 作为Python编程语言的适配器,并允许实现不同的Python规范.
      • OS: 允许使用与系统相关的函数.
      • StringIO: 提供了一种使用文件API处理文本的简单方法.
  • 基于数据文件的导入或更新的事件触发器允许lambda函数在填充staging表之前清除staging表,然后将数据复制到主表,同时检查数据冗余和不一致性.
  1. 权力BI: 在PostgreSQL数据库和Power BI之间建立了连接,允许数据转换和创建有洞察力的数据可视化. 此外, 设置了定期的数据刷新,以便根据数据库中最新的数据更新图像.

在SC&H, 我们相信,有规律地创造出亿万亿字节的数据, 自动化解决方案的必要性与日俱增. 我们在数据驱动组织中的经验, 以及最新的技术工具和平台将帮助您的组织做出具有成本效益的准确业务决策. 如果您想讨论如何实现一个数据管道来减少时间并提高团队的效率, 今天葡京官网的数据分析团队.