يقدم هذا المستوى وصفًا شاملاً لسمات البيانات المختلفة وأنواع مجموعات البيانات التي قد يواجهها عالم البيانات عادةً. يصف المستوى أيضًا مشكلات جودة البيانات المختلفة وكيفية التعامل معها. يتم أيضًا تغطية تقنيات إعداد البيانات المختلفة. أخيرًا، يتم إعطاء مقدمة للبيانات الضخمة ونظام Hadoop البيئي.