Oрганізація та зберігання великих наборів даних для навчання ШІ
DOI:
https://doi.org/10.32347/st.2025.3.1203Ключові слова:
Штучний інтелект (ШІ), Машинне навчання, Глибоке навчання, Набори даних, Зберігання даних, HDF5, WAV, IQ raw data, Хмарне зберігання, Розподілені файлові системи, Локальне зберігання, Платформи керування даними, Версіонування даних, Масштабованість, Продуктивність, Різноманітність даних, Консолідація даних, Якість даних, Візуалізація даних, Безпека даних, HDFView, Шардинг даних, Оптимізація Push-down, Клонування без копіювання, TTL (час життя), ETL (видобування, трансформація, завантаження), Каталогізація, Керування метаданимиАнотація
Зростаюча складність і масштаб застосувань штучного інтелекту (ШІ), особливо в машинному навчанні та глибокому навчанні, вимагають надійних та ефективних рішень для зберігання даних. Це особливо актуально при роботі з великими наборами даних, які часто досягають сотень терабайт, у різноманітних форматах. Для навчання моделей ШІ можуть бути використані різні формати даних, таких як відео та зображення для задач комп'ютерного зору, WAV та IQ для радіо та звукових сигналів, текст для мовних моделей. У цій статті розглядаються наукові підходи до організації зберігання даних для навчання ШІ з акцентом на ефективність та доступність. У статті буде розглянуто особливості роботи з форматами даних HDF5, WAV та IQ raw data, що використовуються для обробки радіосигналів.
Посилання
HDF5 format - GATK - Broad Institute. [Online]. Available: https://gatk.broadinstitute.org/hc/en-us/articles/360035531712-HDF5-format. Accessed on: 25 Feb. 2025
Hierarchical Data Formats - What is HDF5? | NSF NEON. [Online]. Available: https://www.neonscience.org/resources/learning-hub/tutorials/about-hdf5. Accessed on: 25 Feb. 2025
Decoding artifacts(hdf5) or converting artifacts to .ogg file - Libre Space Community. [Online]. Available: https://community.libre.space/t/decoding-artifacts-hdf5-or-converting-artifacts-to-ogg-file/11447. Accessed on: 25 Feb. 2025
Why Storage Is the Unsung Hero for AI. Accessed on: 25 Feb. 2025 [Online]. Available: https://blog.purestorage.com/perspectives/why-storage-is-the-unsung-hero-for-ai/. Accessed on: 25 Feb. 2025
Best 10 AI Solutions for Data Management and Security | Velotix. Accessed on: 25 Feb. 2025 [Online]. Available: https://www.velotix.ai/resources/blog/best-ai-solutions-for-data-management-and-security/. Accessed on: 25 Feb. 2025
AI Storage: A Deep Dive into the Latest Technologies - Nfina. Accessed on: 25 Feb. 2025 [Online]. Available: https://nfina.com/ai-storage/. Accessed on: 25 Feb. 2025
Effectively Handling Large Datasets - Dataiku blog. Accessed on: 25 Feb. 2025 [Online]. Available: https://blog.dataiku.com/effectively-handling-large-datasets. Accessed on: 25 Feb. 2025
Data Versioning Explained: Guide, Examples & Best Practices - lakeFS. Accessed on: 25 Feb. 2025 [Online].
Available: https://lakefs.io/blog/data-versioning/. Accessed on: 25 Feb. 2025
10 Big Data Storage Solutions & Systems to Use In 2025 | Airbyte. Accessed on: 25 Feb. 2025 [Online]. Available: https://airbyte.com/top-etl-tools-for-sources/big-data-storage-solutions. Accessed on: 25 Feb. 2025
Design storage for AI and ML workloads in Google Cloud | Cloud Architecture Center. Accessed on: 25 Feb. 2025 [Online]. Available: https://cloud.google.com/architecture/ai-ml/storage-for-ai-ml. Accessed on: 25 Feb. 2025
What Is A Distributed Storage System - ScaleGrid. Accessed on: 25 Feb. 2025https://scalegrid.io/blog/what-is-a-distributed-storage-system/. Accessed on: 25 Feb. 2025
10 Best Data Management Platforms (DMPs) for 2025 - Matillion. Accessed on: 25 Feb. 2025 [Online]. Available: https://www.matillion.com/learn/blog/data-management-platforms. Accessed on: 25 Feb. 2025
Best Practices for Data Versioning for Building Successful ML Models - Encord. Accessed on: 25 Feb. 2025 [Online]. Available: https://encord.com/blog/data-versioning/. Accessed on: 25 Feb. 2025
Data Versioning: Best Practices And Tools For Data Teams - Monte Carlo Data. Accessed on: 25 Feb. 2025 [Online]. Available: https://www.montecarlodata.com/blog-data-versioning-guide/. Accessed on: 25 Feb. 2025
MLflow Data Versioning: Techniques, Tools & Best Practices - lakeFS. Accessed on: 25 Feb. 2025 [Online]. Available: https://lakefs.io/blog/mlflow-data-versioning/. Accessed on: 25Feb. 2025
8 Indexing Strategies to Optimize Database Performance - Developer Nation. Accessed on: 25 Feb. 2025 [Online]. Available:https://www.developernation.net/blog/8-indexing-strategies-to-optimize-database-performance/. Accessed on: 25 Feb. 2025
Everything You Need to Know When Assessing Data Indexing Techniques Skills - Alooba. Accessed on: 25 Feb. 2025 [Online]. Available: https://www.alooba.com/skills/concepts/database-and-storage-systems/database-management/data-indexing-techniques/. Accessed on: 25 Feb. 2025
Data Indexing Strategies for Faster & Efficient Retrieval - Crown Records Management. Accessed on:25Feb.2025[Online].Available:https://www.crownrms.com/insights/data-indexing-strategies/. Accessed on: 25 Feb. 2025
Efficient Data Extraction Techniques for Large Datasets - TDAN.com. Accessed on: 25 Feb. 2025 [Online]. Available: https://tdan.com/efficient-data-extraction-techniques-for-large-datasets/32018. Accessed on: 25 Feb. 2025
In-Depth Industry Outlook: Distributed File Systems And Object Storage Solutions Market Size & Forecast. Accessed on: 25 Feb. 2025 [Online]. Available: https://www.verifiedmarketresearch.com/product/distributed-file-systems-and-object-storage-solutions-market/. Accessed on: 25 Feb. 2025
Toolbox Talk: Storing data using HDF5 files. Accessed on: 25 Feb. 2025 [Online]. Available: https://dezeraecox.com/toolbox-talk-hdf5-files/. Accessed on: 25 Feb. 2025
Write performance of raw data - HDF5 Library - HDF Forum. Accessed on: 25 Feb. 2025 [Online]. Available: https://forum.hdfgroup.org/t/write-perfomance-of-raw-data/10963. Accessed on: 25 Feb. 2025
What is object storage or object-based storage? - NetApp. Accessed on: 25 Feb. 2025 [Online]. Available: https://netapp.com/data-storage/storagegrid/what-is-object-storage. Accessed on: 25 Feb. 2025
Distributed File Systems vs Distributed Object Storage - GeeksforGeeks. Accessed on: 25 Feb. 2025 [Online]. Available: https://geeksforgeeks.org/distributed-filesystems-vs-distributed-object-storage. Accessed on: 25 Feb. 2025
VAST Data: Data Platform Built for Deep Learning and AI. Accessed on: 25 Feb. 2025 [Online]. Available: https://vastdata.com. Accessed on: 25 Feb. 2025
Informatica: AI Powered Cloud Data Management. Accessed on: 25 Feb. 2025 [Online]. Available: https://informatica.com. Accessed on: 25 Feb. 2025
Top 10 Data Platforms that Use Generative AI - ScikIQ. Accessed on: 25 Feb. 2025 [Online]. Available: https://scikiq.com/blog/top-10-data-platforms-that-use-generative-ai. Accessed on: 25 Feb. 2025
Top 6 Dataset Version Control Tools for your Machine Learning workflow - Twine Blog. Accessed on: 25 Feb. 2025 [Online]. Available: https://twine.net/blog/dataset-version-control-tools. Accessed on: 25 Feb. 2025
AI Training Data: Benefits, Challenges, Example [2025] Shaip.[Online].Available:https://www.shaip.com/blog/the-only-guide-on-ai-training-data-you-will-need-in/. Accessed on: 25 Feb. 2025
What Is an AI Data Catalog? | Secoda. [Online]. Available: https://www.secoda.co/blog/ai-data-catalog. Accessed on: 25 Feb. 2025
What is a Machine Learning Data Catalog? - 2024 Guide - Atlan. Дата звернення: 15.03.2025. https://atlan.com/machine-learning-data-catalog/. Accessed on: 25 Feb. 2025
Best Machine Learning Data Catalog Software: User Reviews from March 2025 - G2. [Online]. Available:https://www.g2.com/categories/machine-learning-data-catalog.Accessed on: 25 Feb. 2025
Top 26 Data Catalog Tools to Consider in 2025 - lakeFS.[Online].Available:https://lakefs.io/blog/top-data-catalog-tools/. Accessed on: 25 Feb. 2025
Machine Learning Data Catalog Benefits & Use CasesInformatica. [Online]. Available: https://www.informatica.com/blogs/machine-learning-data-catalog.html.html.html.Accessed on: 25 Feb. 2025
##submission.downloads##
Опубліковано
Як цитувати
Номер
Розділ
Ліцензія
Авторське право (c) 2025 Oleksii Melnikov

Ця робота ліцензується відповідно до Creative Commons Attribution-NonCommercial 4.0 International License.
Автор(и) та Редакція згодні на те, що Редакція також матиме право:
- здійснювати необхідне оформлення Твору/Статті за результатами його редакційної обробки;
- визначати самостійно кількість видань, друк додаткових копій і тираж Твору/Статті, кількість копій окремих видань і додаткових тиражів;
- опублікування Твору/Статті в інших виданнях, пов’язаних з діяльністю Редакції
В журналі діє ліцензія CC BY 4.0