Oрганізація та зберігання великих наборів даних для навчання ШІ

Автор(и)

  • Олексій Мельніков N-IX Corporation, Україна

DOI:

https://doi.org/10.32347/st.2025.3.1203

Ключові слова:

Штучний інтелект (ШІ), Машинне навчання, Глибоке навчання, Набори даних, Зберігання даних, HDF5, WAV, IQ raw data, Хмарне зберігання, Розподілені файлові системи, Локальне зберігання, Платформи керування даними, Версіонування даних, Масштабованість, Продуктивність, Різноманітність даних, Консолідація даних, Якість даних, Візуалізація даних, Безпека даних, HDFView, Шардинг даних, Оптимізація Push-down, Клонування без копіювання, TTL (час життя), ETL (видобування, трансформація, завантаження), Каталогізація, Керування метаданими

Анотація

Зростаюча складність і масштаб застосувань штучного інтелекту (ШІ), особливо в машинному навчанні та глибокому навчанні, вимагають надійних та ефективних рішень для зберігання даних. Це особливо актуально при роботі з великими наборами даних, які часто досягають сотень терабайт, у різноманітних форматах. Для навчання моделей ШІ можуть бути використані різні формати даних, таких як відео та зображення для задач комп'ютерного зору, WAV та IQ для радіо та звукових сигналів, текст для мовних моделей. У цій статті розглядаються наукові підходи до організації зберігання даних для навчання ШІ з акцентом на ефективність та доступність. У статті буде розглянуто особливості роботи з форматами даних HDF5, WAV та IQ raw data, що використовуються для обробки радіосигналів.

Посилання

HDF5 format - GATK - Broad Institute. [Online]. Available: https://gatk.broadinstitute.org/hc/en-us/articles/360035531712-HDF5-format. Accessed on: 25 Feb. 2025

Hierarchical Data Formats - What is HDF5? | NSF NEON. [Online]. Available: https://www.neonscience.org/resources/learning-hub/tutorials/about-hdf5. Accessed on: 25 Feb. 2025

Decoding artifacts(hdf5) or converting artifacts to .ogg file - Libre Space Community. [Online]. Available: https://community.libre.space/t/decoding-artifacts-hdf5-or-converting-artifacts-to-ogg-file/11447. Accessed on: 25 Feb. 2025

Why Storage Is the Unsung Hero for AI. Accessed on: 25 Feb. 2025 [Online]. Available: https://blog.purestorage.com/perspectives/why-storage-is-the-unsung-hero-for-ai/. Accessed on: 25 Feb. 2025

Best 10 AI Solutions for Data Management and Security | Velotix. Accessed on: 25 Feb. 2025 [Online]. Available: https://www.velotix.ai/resources/blog/best-ai-solutions-for-data-management-and-security/. Accessed on: 25 Feb. 2025

AI Storage: A Deep Dive into the Latest Technologies - Nfina. Accessed on: 25 Feb. 2025 [Online]. Available: https://nfina.com/ai-storage/. Accessed on: 25 Feb. 2025

Effectively Handling Large Datasets - Dataiku blog. Accessed on: 25 Feb. 2025 [Online]. Available: https://blog.dataiku.com/effectively-handling-large-datasets. Accessed on: 25 Feb. 2025

Data Versioning Explained: Guide, Examples & Best Practices - lakeFS. Accessed on: 25 Feb. 2025 [Online].

Available: https://lakefs.io/blog/data-versioning/. Accessed on: 25 Feb. 2025

10 Big Data Storage Solutions & Systems to Use In 2025 | Airbyte. Accessed on: 25 Feb. 2025 [Online]. Available: https://airbyte.com/top-etl-tools-for-sources/big-data-storage-solutions. Accessed on: 25 Feb. 2025

Design storage for AI and ML workloads in Google Cloud | Cloud Architecture Center. Accessed on: 25 Feb. 2025 [Online]. Available: https://cloud.google.com/architecture/ai-ml/storage-for-ai-ml. Accessed on: 25 Feb. 2025

What Is A Distributed Storage System - ScaleGrid. Accessed on: 25 Feb. 2025https://scalegrid.io/blog/what-is-a-distributed-storage-system/. Accessed on: 25 Feb. 2025

10 Best Data Management Platforms (DMPs) for 2025 - Matillion. Accessed on: 25 Feb. 2025 [Online]. Available: https://www.matillion.com/learn/blog/data-management-platforms. Accessed on: 25 Feb. 2025

Best Practices for Data Versioning for Building Successful ML Models - Encord. Accessed on: 25 Feb. 2025 [Online]. Available: https://encord.com/blog/data-versioning/. Accessed on: 25 Feb. 2025

Data Versioning: Best Practices And Tools For Data Teams - Monte Carlo Data. Accessed on: 25 Feb. 2025 [Online]. Available: https://www.montecarlodata.com/blog-data-versioning-guide/. Accessed on: 25 Feb. 2025

MLflow Data Versioning: Techniques, Tools & Best Practices - lakeFS. Accessed on: 25 Feb. 2025 [Online]. Available: https://lakefs.io/blog/mlflow-data-versioning/. Accessed on: 25Feb. 2025

8 Indexing Strategies to Optimize Database Performance - Developer Nation. Accessed on: 25 Feb. 2025 [Online]. Available:https://www.developernation.net/blog/8-indexing-strategies-to-optimize-database-performance/. Accessed on: 25 Feb. 2025

Everything You Need to Know When Assessing Data Indexing Techniques Skills - Alooba. Accessed on: 25 Feb. 2025 [Online]. Available: https://www.alooba.com/skills/concepts/database-and-storage-systems/database-management/data-indexing-techniques/. Accessed on: 25 Feb. 2025

Data Indexing Strategies for Faster & Efficient Retrieval - Crown Records Management. Accessed on:25Feb.2025[Online].Available:https://www.crownrms.com/insights/data-indexing-strategies/. Accessed on: 25 Feb. 2025

Efficient Data Extraction Techniques for Large Datasets - TDAN.com. Accessed on: 25 Feb. 2025 [Online]. Available: https://tdan.com/efficient-data-extraction-techniques-for-large-datasets/32018. Accessed on: 25 Feb. 2025

In-Depth Industry Outlook: Distributed File Systems And Object Storage Solutions Market Size & Forecast. Accessed on: 25 Feb. 2025 [Online]. Available: https://www.verifiedmarketresearch.com/product/distributed-file-systems-and-object-storage-solutions-market/. Accessed on: 25 Feb. 2025

Toolbox Talk: Storing data using HDF5 files. Accessed on: 25 Feb. 2025 [Online]. Available: https://dezeraecox.com/toolbox-talk-hdf5-files/. Accessed on: 25 Feb. 2025

Write performance of raw data - HDF5 Library - HDF Forum. Accessed on: 25 Feb. 2025 [Online]. Available: https://forum.hdfgroup.org/t/write-perfomance-of-raw-data/10963. Accessed on: 25 Feb. 2025

What is object storage or object-based storage? - NetApp. Accessed on: 25 Feb. 2025 [Online]. Available: https://netapp.com/data-storage/storagegrid/what-is-object-storage. Accessed on: 25 Feb. 2025

Distributed File Systems vs Distributed Object Storage - GeeksforGeeks. Accessed on: 25 Feb. 2025 [Online]. Available: https://geeksforgeeks.org/distributed-filesystems-vs-distributed-object-storage. Accessed on: 25 Feb. 2025

VAST Data: Data Platform Built for Deep Learning and AI. Accessed on: 25 Feb. 2025 [Online]. Available: https://vastdata.com. Accessed on: 25 Feb. 2025

Informatica: AI Powered Cloud Data Management. Accessed on: 25 Feb. 2025 [Online]. Available: https://informatica.com. Accessed on: 25 Feb. 2025

Top 10 Data Platforms that Use Generative AI - ScikIQ. Accessed on: 25 Feb. 2025 [Online]. Available: https://scikiq.com/blog/top-10-data-platforms-that-use-generative-ai. Accessed on: 25 Feb. 2025

Top 6 Dataset Version Control Tools for your Machine Learning workflow - Twine Blog. Accessed on: 25 Feb. 2025 [Online]. Available: https://twine.net/blog/dataset-version-control-tools. Accessed on: 25 Feb. 2025

AI Training Data: Benefits, Challenges, Example [2025] Shaip.[Online].Available:https://www.shaip.com/blog/the-only-guide-on-ai-training-data-you-will-need-in/. Accessed on: 25 Feb. 2025

What Is an AI Data Catalog? | Secoda. [Online]. Available: https://www.secoda.co/blog/ai-data-catalog. Accessed on: 25 Feb. 2025

What is a Machine Learning Data Catalog? - 2024 Guide - Atlan. Дата звернення: 15.03.2025. https://atlan.com/machine-learning-data-catalog/. Accessed on: 25 Feb. 2025

Best Machine Learning Data Catalog Software: User Reviews from March 2025 - G2. [Online]. Available:https://www.g2.com/categories/machine-learning-data-catalog.Accessed on: 25 Feb. 2025

Top 26 Data Catalog Tools to Consider in 2025 - lakeFS.[Online].Available:https://lakefs.io/blog/top-data-catalog-tools/. Accessed on: 25 Feb. 2025

Machine Learning Data Catalog Benefits & Use CasesInformatica. [Online]. Available: https://www.informatica.com/blogs/machine-learning-data-catalog.html.html.html.Accessed on: 25 Feb. 2025

##submission.downloads##

Опубліковано

2025-05-14

Як цитувати

Мельніков, О. (2025). Oрганізація та зберігання великих наборів даних для навчання ШІ. Смарт технології: промислова та цивільна інженерія, 3(16), 29–39. https://doi.org/10.32347/st.2025.3.1203

Номер

Розділ

Інформаційні технології