Data Science Glossary
45 essential data science terms — covering ML, data wrangling, and analysis — in English, Arabic, and Spanish.
A
A classification metric measuring the percentage of predictions that are correct out of all predictions made. Accuracy = (correct predictions) / (total predictions). While intuitive, accuracy can be misleading with imbalanced datasets (where one class is much more common than another).
Accuracy = (TP + TN) / (TP + TN + FP + FN)
مقياس تصنيف يقيس نسبة التنبؤات الصحيحة من إجمالي التنبؤات المُجراة. الدقة = (التنبؤات الصحيحة) / (إجمالي التنبؤات). على الرغم من بساطة تفسيرها، قد تكون الدقة مُضلِّلة مع مجموعات البيانات غير المتوازنة (حيث تكون إحدى الفئات أكثر شيوعًا بكثير من الأخرى).
Una métrica de clasificación que mide el porcentaje de predicciones correctas sobre todas las predicciones hechas. Exactitud = (predicciones correctas) / (total de predicciones). Aunque intuitiva, puede ser engañosa con conjuntos de datos desbalanceados (donde una clase es mucho más común que otra).
The process of combining multiple data values into a single summary value, such as computing the sum, mean, count, or maximum of a group of records. Aggregation is a core operation in databases (SQL GROUP BY), pandas (groupby), and data reporting.
# pandas aggregation
df.groupby("category")["sales"].mean()
عملية دمج قيم بيانات متعددة في قيمة ملخصة واحدة، كحساب المجموع أو المتوسط أو العدد أو الحد الأقصى لمجموعة من السجلات. التجميع عملية محورية في قواعد البيانات (GROUP BY في SQL) وmكتبة pandas (groupby) وتقارير البيانات.
El proceso de combinar múltiples valores de datos en un único valor de resumen, como calcular la suma, media, conteo o máximo de un grupo de registros. La agregación es una operación central en bases de datos (SQL GROUP BY), pandas (groupby) y reportes de datos.
A defined set of rules and protocols that allows different software applications to communicate with each other. In data science, APIs are commonly used to fetch data from web services (weather, social media, financial data). Data is often returned in JSON or CSV format.
import requests
response = requests.get("https://api.example.com/data")
data = response.json()
مجموعة محددة من القواعد والبروتوكولات التي تُتيح لتطبيقات البرمجيات المختلفة التواصل مع بعضها البعض. في علم البيانات، تُستخدم واجهات API عادةً لجلب البيانات من خدمات الويب (الطقس ووسائل التواصل الاجتماعي والبيانات المالية). كثيرًا ما تُعاد البيانات بصيغة JSON أو CSV.
Un conjunto definido de reglas y protocolos que permite que diferentes aplicaciones de software se comuniquen entre sí. En ciencia de datos, las APIs se usan comúnmente para obtener datos de servicios web (clima, redes sociales, datos financieros). Los datos suelen devolverse en formato JSON o CSV.
B
Datasets so large or complex that traditional data processing tools cannot handle them efficiently. Big data is characterized by the "3 Vs": Volume (huge amounts), Velocity (fast incoming), and Variety (many different formats). Technologies like Hadoop and Spark are designed for big data processing.
مجموعات بيانات ضخمة أو معقدة لدرجة أن أدوات معالجة البيانات التقليدية لا تستطيع التعامل معها بكفاءة. تتميز البيانات الضخمة بـ"الثلاثة V": الحجم (كميات هائلة)، والسرعة (تدفق سريع)، والتنوع (أشكال مختلفة). صُمّمت تقنيات مثل Hadoop وSpark لمعالجة البيانات الضخمة.
Conjuntos de datos tan grandes o complejos que las herramientas de procesamiento tradicionales no pueden manejarlos eficientemente. El Big Data se caracteriza por las "3 Vs": Volumen (cantidades enormes), Velocidad (entrada rápida) y Variedad (muchos formatos diferentes). Tecnologías como Hadoop y Spark están diseñadas para el procesamiento de Big Data.
C
Data that represents groups or categories rather than numerical quantities. Examples include gender, color, or country. Categorical data can be nominal (no natural order, e.g., colors) or ordinal (with a natural order, e.g., education level). It requires special handling in machine learning models.
بيانات تمثل مجموعات أو فئات بدلًا من كميات رقمية. تشمل الأمثلة: الجنس واللون والبلد. يمكن أن تكون البيانات الفئوية اسمية (بدون ترتيب طبيعي، كالألوان) أو رتبية (ذات ترتيب طبيعي، كالمستوى التعليمي). وتتطلب معالجة خاصة في نماذج تعلم الآلة.
Datos que representan grupos o categorías en lugar de cantidades numéricas. Ejemplos incluyen género, color o país. Los datos categóricos pueden ser nominales (sin orden natural, p. ej., colores) u ordinales (con orden natural, p. ej., nivel educativo). Requieren manejo especial en los modelos de aprendizaje automático.
A supervised machine learning task where the goal is to predict which category (class) a data point belongs to. Common examples include spam detection (spam/not spam), disease diagnosis (positive/negative), and image recognition. Classification output is a discrete label, not a number.
مهمة تعلم آلة خاضعة للإشراف، الهدف منها التنبؤ بالفئة التي تنتمي إليها نقطة البيانات. تشمل الأمثلة الشائعة: اكتشاف البريد العشوائي (عشوائي/غير عشوائي)، وتشخيص الأمراض (إيجابي/سلبي)، والتعرف على الصور. مخرج التصنيف تسمية منفصلة وليست رقمًا.
Una tarea de aprendizaje automático supervisado donde el objetivo es predecir a qué categoría (clase) pertenece un punto de datos. Ejemplos comunes incluyen detección de spam, diagnóstico de enfermedades y reconocimiento de imágenes. La salida de clasificación es una etiqueta discreta, no un número.
An unsupervised machine learning technique that groups similar data points together without predefined labels. The algorithm discovers natural groupings in the data. K-means is the most popular clustering algorithm. Clustering is used for customer segmentation, anomaly detection, and exploratory analysis.
أسلوب في تعلم الآلة غير الخاضع للإشراف يُجمّع نقاط البيانات المتشابهة دون تسميات محددة مسبقًا. يكتشف الخوارزمية التجمعات الطبيعية في البيانات. K-means هو أكثر خوارزميات التجميع شيوعًا. يُستخدم التجميع في تجزئة العملاء واكتشاف الشذوذ والتحليل الاستكشافي.
Una técnica de aprendizaje automático no supervisado que agrupa puntos de datos similares sin etiquetas predefinidas. El algoritmo descubre agrupaciones naturales en los datos. K-means es el algoritmo de agrupamiento más popular. Se usa para segmentación de clientes, detección de anomalías y análisis exploratorio.
A model evaluation technique that splits data into multiple folds and trains/tests the model on different combinations of those folds. K-fold cross-validation (e.g., 5-fold or 10-fold) is most common. It gives a more reliable estimate of model performance than a single train/test split.
from sklearn.model_selection import cross_val_score
scores = cross_val_score(model, X, y, cv=5)
أسلوب لتقييم النماذج يقسّم البيانات إلى طيّات متعددة ويُدرّب النموذج ويختبره على توليفات مختلفة من تلك الطيات. التحقق المتقاطع K-fold (مثل 5 طيات أو 10 طيات) هو الأكثر شيوعًا. يُعطي تقديرًا أكثر موثوقية لأداء النموذج مقارنةً بتقسيم واحد للتدريب والاختبار.
Una técnica de evaluación de modelos que divide los datos en múltiples pliegues y entrena/prueba el modelo en diferentes combinaciones. La validación cruzada K-fold (p. ej., 5 o 10 pliegues) es la más común. Proporciona una estimación más confiable del rendimiento del modelo que una sola división entrenamiento/prueba.
D
An interactive visual display that aggregates and presents key metrics and data visualizations in one place. Dashboards help stakeholders monitor performance and trends at a glance. Common tools include Tableau, Power BI, Looker, and Python libraries like Plotly Dash.
عرض مرئي تفاعلي يجمع المقاييس الرئيسية وتصورات البيانات ويُقدّمها في مكان واحد. تساعد لوحات المعلومات أصحاب المصلحة على مراقبة الأداء والاتجاهات بنظرة سريعة. تشمل الأدوات الشائعة: Tableau وPower BI وLooker ومكتبات بايثون مثل Plotly Dash.
Una pantalla visual interactiva que agrega y presenta métricas clave y visualizaciones de datos en un solo lugar. Los dashboards ayudan a las partes interesadas a monitorear el rendimiento y las tendencias de un vistazo. Las herramientas comunes incluyen Tableau, Power BI, Looker y bibliotecas de Python como Plotly Dash.
The process of identifying and correcting errors, inconsistencies, duplicates, and missing values in a dataset. Data cleaning is often the most time-consuming step in data science (sometimes 60–80% of a project). Clean data is essential for reliable analysis and accurate models.
df.dropna() # remove rows with missing values
df.fillna(df.mean()) # fill missing with column mean
df.drop_duplicates() # remove duplicate rows
عملية تحديد وتصحيح الأخطاء والتناقضات والتكرارات والقيم المفقودة في مجموعة البيانات. كثيرًا ما يكون تنظيف البيانات الخطوة الأكثر استهلاكًا للوقت في علم البيانات (أحيانًا 60-80% من المشروع). البيانات النظيفة ضرورية للتحليل الموثوق والنماذج الدقيقة.
El proceso de identificar y corregir errores, inconsistencias, duplicados y valores faltantes en un conjunto de datos. La limpieza de datos suele ser el paso más largo en ciencia de datos (a veces el 60–80% de un proyecto). Los datos limpios son esenciales para un análisis confiable y modelos precisos.
An automated workflow that moves data from one or more sources through a series of processing steps (collection, cleaning, transformation, storage) to a destination. Data pipelines ensure data flows reliably and consistently for analysis or application use.
سير عمل آلي ينقل البيانات من مصدر أو أكثر عبر سلسلة من خطوات المعالجة (الجمع والتنظيف والتحويل والتخزين) إلى وجهة محددة. تضمن خطوط أنابيب البيانات تدفق البيانات بشكل موثوق ومتسق للتحليل أو استخدام التطبيقات.
Un flujo de trabajo automatizado que mueve datos de una o más fuentes a través de una serie de pasos de procesamiento (recopilación, limpieza, transformación, almacenamiento) a un destino. Las tuberías de datos garantizan que los datos fluyan de manera confiable y consistente para análisis o uso de aplicaciones.
The process of transforming raw, messy data into a clean, structured format suitable for analysis. It includes tasks like reshaping data, merging datasets, handling missing values, creating new variables, and encoding categorical variables. Also called data munging.
عملية تحويل البيانات الخام غير المنظمة إلى تنسيق نظيف ومنظّم مناسب للتحليل. تشمل مهامًا مثل إعادة تشكيل البيانات ودمج مجموعات البيانات والتعامل مع القيم المفقودة وإنشاء متغيرات جديدة وترميز المتغيرات الفئوية. تُعرف أيضًا بـ data munging.
El proceso de transformar datos crudos y desordenados en un formato limpio y estructurado adecuado para análisis. Incluye tareas como reformar datos, combinar conjuntos de datos, manejar valores faltantes, crear nuevas variables y codificar variables categóricas. También llamado data munging.
An organized collection of structured data stored electronically, usually managed by a Database Management System (DBMS). Relational databases (e.g., PostgreSQL, MySQL, SQLite) organize data into tables with rows and columns. SQL is the standard language for querying relational databases.
مجموعة منظّمة من البيانات المنظّمة تُخزَّن إلكترونيًا، وعادةً ما تُدار بواسطة نظام إدارة قواعد البيانات (DBMS). تُنظّم قواعد البيانات العلائقية (مثل PostgreSQL وMySQL وSQLite) البيانات في جداول ذات صفوف وأعمدة. SQL هي اللغة القياسية للاستعلام عن قواعد البيانات العلائقية.
Una colección organizada de datos estructurados almacenados electrónicamente, generalmente gestionada por un Sistema de Gestión de Bases de Datos (SGBD). Las bases de datos relacionales (p. ej., PostgreSQL, MySQL, SQLite) organizan los datos en tablas con filas y columnas. SQL es el lenguaje estándar para consultar bases de datos relacionales.
The outcome variable that a model is trying to predict or explain. In regression, it is the y-axis variable (also called the response variable or target). In experiments, it is the measured outcome that changes in response to the independent variable.
متغير النتيجة الذي يسعى النموذج للتنبؤ به أو تفسيره. في الانحدار، هو متغير المحور الصادي (يُسمى أيضًا متغير الاستجابة أو الهدف). وفي التجارب، هو النتيجة المقاسة التي تتغير استجابةً للمتغير المستقل.
La variable resultado que un modelo intenta predecir o explicar. En regresión, es la variable del eje y (también llamada variable respuesta o variable objetivo). En experimentos, es el resultado medido que cambia en respuesta a la variable independiente.
E
The process of examining and summarizing data to understand its main characteristics, find patterns, detect anomalies, and check assumptions before formal modeling. EDA uses visualizations (histograms, boxplots, scatter plots) and summary statistics extensively. Coined by statistician John Tukey.
عملية فحص البيانات وتلخيصها لفهم خصائصها الرئيسية وإيجاد الأنماط واكتشاف الشذوذات والتحقق من الافتراضات قبل النمذجة الرسمية. يستخدم التحليل الاستكشافي للبيانات التصورات (المدرجات التكرارية والمخططات الصندوقية ومخططات التشتت) والإحصاءات الوصفية على نطاق واسع. صاغه الإحصائي جون توكي.
El proceso de examinar y resumir datos para entender sus características principales, encontrar patrones, detectar anomalías y verificar supuestos antes del modelado formal. El EDA usa extensamente visualizaciones (histogramas, diagramas de caja, gráficos de dispersión) y estadísticas de resumen. Acuñado por el estadístico John Tukey.
A three-phase data integration process: Extract data from source systems, Transform it into the desired format (cleaning, aggregating, restructuring), and Load it into a target system (data warehouse or database). ETL is the backbone of data engineering workflows.
عملية تكامل بيانات ثلاثية المراحل: استخراج البيانات من الأنظمة المصدر، وتحويلها إلى الصيغة المطلوبة (تنظيف وتجميع وإعادة هيكلة)، وتحميلها في نظام هدف (مستودع بيانات أو قاعدة بيانات). ETL هو العمود الفقري لسير عمل هندسة البيانات.
Un proceso de integración de datos de tres fases: Extraer datos de los sistemas fuente, Transformarlos al formato deseado (limpiar, agregar, reestructurar) y Cargarlos en un sistema destino (almacén de datos o base de datos). ETL es la columna vertebral de los flujos de trabajo de ingeniería de datos.
F
An individual measurable property or characteristic of the data used as input to a machine learning model. Features are the columns (independent variables) in a dataset. Feature selection and engineering are critical steps in building effective models.
خاصية فردية قابلة للقياس في البيانات تُستخدم مدخلًا لنموذج تعلم الآلة. الميزات هي الأعمدة (المتغيرات المستقلة) في مجموعة البيانات. يُعدّ انتقاء الميزات وهندستها خطوتين حاسمتين في بناء نماذج فعّالة.
Una propiedad o característica medible individual de los datos usada como entrada a un modelo de aprendizaje automático. Las características son las columnas (variables independientes) en un conjunto de datos. La selección e ingeniería de características son pasos críticos para construir modelos efectivos.
The process of using domain knowledge to create, transform, or select features from raw data to improve model performance. Examples include combining two columns, extracting the day of the week from a date, or encoding categorical variables as numbers. Good feature engineering often matters more than the choice of algorithm.
عملية استخدام المعرفة المجالية لإنشاء الميزات أو تحويلها أو انتقائها من البيانات الخام لتحسين أداء النموذج. تشمل الأمثلة: دمج عمودين، أو استخلاص يوم الأسبوع من تاريخ، أو ترميز المتغيرات الفئوية كأرقام. غالبًا ما تُحدث هندسة الميزات الجيدة فارقًا أكبر من اختيار الخوارزمية.
El proceso de usar conocimiento del dominio para crear, transformar o seleccionar características de datos crudos para mejorar el rendimiento del modelo. Ejemplos incluyen combinar dos columnas, extraer el día de la semana de una fecha, o codificar variables categóricas como números. La buena ingeniería de características a menudo importa más que la elección del algoritmo.
G
An optimization algorithm that iteratively adjusts model parameters to minimize a loss function. At each step, it moves in the direction of the steepest downhill slope (negative gradient). Gradient descent is the core training algorithm for neural networks and many other machine learning models.
θ = θ − α × ∇J(θ)
# θ: parameters, α: learning rate, ∇J: gradient of loss
خوارزمية تحسين تُعدّل معاملات النموذج بشكل تكراري لتقليل دالة الخسارة. في كل خطوة، تتحرك في اتجاه الميل الأشد انحدارًا (التدرج السالب). الانحدار التدريجي هو خوارزمية التدريب الأساسية للشبكات العصبية وكثير من نماذج تعلم الآلة الأخرى.
Un algoritmo de optimización que ajusta iterativamente los parámetros del modelo para minimizar una función de pérdida. En cada paso, se mueve en la dirección de la pendiente más empinada hacia abajo (gradiente negativo). El descenso de gradiente es el algoritmo de entrenamiento central para redes neuronales y muchos otros modelos de aprendizaje automático.
I
The process of filling in missing data values with estimated replacements rather than deleting the rows. Common strategies include replacing missing values with the mean, median, mode, or predicted values from a model. Proper imputation preserves data and avoids biased results from listwise deletion.
from sklearn.impute import SimpleImputer
imputer = SimpleImputer(strategy="mean")
X_imputed = imputer.fit_transform(X)
عملية ملء قيم البيانات المفقودة ببدائل مُقدَّرة بدلًا من حذف الصفوف. تشمل الاستراتيجيات الشائعة: استبدال القيم المفقودة بالمتوسط أو الوسيط أو المنوال أو القيم المتنبأ بها من نموذج. يحافظ الاحتساب الصحيح على البيانات ويتجنب النتائج المتحيزة الناجمة عن الحذف القائمة.
El proceso de rellenar valores de datos faltantes con reemplazos estimados en lugar de eliminar filas. Las estrategias comunes incluyen reemplazar valores faltantes con la media, mediana, moda o valores predichos por un modelo. La imputación adecuada preserva los datos y evita resultados sesgados por la eliminación por lista.
The input variable(s) used to predict the dependent variable in a model. In machine learning, independent variables are commonly called features or predictors. Selecting the right independent variables is a key part of model building and can dramatically affect predictive accuracy.
المتغير (أو المتغيرات) المُستخدمة للتنبؤ بالمتغير التابع في النموذج. في تعلم الآلة، تُسمى المتغيرات المستقلة عادةً ميزات أو مُنبئات. اختيار المتغيرات المستقلة الصحيحة جزء محوري من بناء النماذج ويمكن أن يؤثر تأثيرًا جذريًا على دقة التنبؤ.
La(s) variable(s) de entrada usada(s) para predecir la variable dependiente en un modelo. En aprendizaje automático, las variables independientes se llaman comúnmente características o predictores. Seleccionar las variables independientes correctas es una parte clave de la construcción de modelos y puede afectar dramáticamente la precisión predictiva.
J
An open-source, interactive web application that allows you to create and share documents containing live code, equations, visualizations, and narrative text. Jupyter Notebooks (extension: .ipynb) are the de facto standard environment for data science and machine learning work in Python and R.
تطبيق ويب تفاعلي مفتوح المصدر يُتيح إنشاء ومشاركة مستندات تحتوي على كود حي ومعادلات وتصورات ونصوص سردية. تُعدّ دفاتر جوبيتر (الامتداد: .ipynb) البيئة القياسية الفعلية لعمل علم البيانات وتعلم الآلة بلغتَي بايثون وR.
Una aplicación web interactiva de código abierto que permite crear y compartir documentos con código en vivo, ecuaciones, visualizaciones y texto narrativo. Los Jupyter Notebooks (extensión: .ipynb) son el entorno estándar de facto para el trabajo de ciencia de datos y aprendizaje automático en Python y R.
K
A simple, non-parametric algorithm that classifies or predicts a new data point based on the k closest points in the training set. The "majority vote" of the neighbors determines the class. KNN requires no training phase but can be slow on large datasets. The choice of k is a key hyperparameter.
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train, y_train)
خوارزمية بسيطة غير معاملية تُصنّف أو تتنبأ بنقطة بيانات جديدة استنادًا إلى أقرب k نقطة في مجموعة التدريب. يُحدد "التصويت بالأغلبية" بين الجيران الفئةَ المُخصَّصة. لا تتطلب KNN مرحلة تدريب لكنها قد تكون بطيئة على مجموعات البيانات الكبيرة. اختيار k معامل فائق رئيسي.
Un algoritmo simple y no paramétrico que clasifica o predice un nuevo punto de datos basándose en los k puntos más cercanos del conjunto de entrenamiento. La "votación por mayoría" de los vecinos determina la clase. KNN no requiere fase de entrenamiento pero puede ser lento en conjuntos de datos grandes. La elección de k es un hiperparámetro clave.
L
The known output or target value in supervised learning — the answer that the model is trained to predict. For classification, labels are category names (e.g., "spam" or "not spam"). For regression, labels are continuous values (e.g., house prices). Labeled data is required for supervised learning.
القيمة المعروفة للمخرج أو الهدف في التعلم الخاضع للإشراف — الإجابة التي يُدرَّب النموذج للتنبؤ بها. في التصنيف، التسميات هي أسماء الفئات (مثلًا: "عشوائي" أو "غير عشوائي"). في الانحدار، التسميات قيم مستمرة (مثلًا: أسعار المنازل). البيانات المُسمّاة ضرورية للتعلم الخاضع للإشراف.
El valor de salida o objetivo conocido en el aprendizaje supervisado — la respuesta que el modelo se entrena para predecir. Para clasificación, las etiquetas son nombres de categorías (p. ej., "spam" o "no spam"). Para regresión, son valores continuos (p. ej., precios de casas). Los datos etiquetados son necesarios para el aprendizaje supervisado.
M
A branch of artificial intelligence where systems learn from data to make predictions or decisions without being explicitly programmed for each task. ML algorithms find patterns in data and improve their performance with experience. Major types include supervised, unsupervised, and reinforcement learning.
فرع من الذكاء الاصطناعي تتعلم فيه الأنظمة من البيانات لاتخاذ التنبؤات أو القرارات دون أن تُبرمَج صراحةً لكل مهمة. تجد خوارزميات تعلم الآلة أنماطًا في البيانات وتحسّن أداءها مع الخبرة. تشمل الأنواع الرئيسية: التعلم الخاضع للإشراف وغير الخاضع للإشراف والتعلم المعزَّز.
Una rama de la inteligencia artificial donde los sistemas aprenden de datos para hacer predicciones o decisiones sin ser programados explícitamente para cada tarea. Los algoritmos de ML encuentran patrones en los datos y mejoran su rendimiento con la experiencia. Los tipos principales incluyen aprendizaje supervisado, no supervisado y por refuerzo.
Values that are absent from a dataset, represented as NaN, NULL, or blank. Missing data is extremely common in real-world datasets and must be handled before analysis. Strategies include deletion (dropping rows/columns) or imputation (filling in estimated values). Understanding why data is missing is important.
df.isnull().sum() # count missing per column
df.dropna() # remove rows with any missing
df.fillna(0) # fill missing with 0
قيم غائبة من مجموعة البيانات، تُمثَّل بـ NaN أو NULL أو فراغ. البيانات المفقودة شائعة جدًا في مجموعات البيانات الواقعية ويجب التعامل معها قبل التحليل. تشمل الاستراتيجيات: الحذف (إزالة الصفوف/الأعمدة) أو الاحتساب (ملء القيم المُقدَّرة). يُعدّ فهم سبب فقدان البيانات أمرًا مهمًا.
Valores ausentes de un conjunto de datos, representados como NaN, NULL o en blanco. Los datos faltantes son extremadamente comunes en conjuntos de datos del mundo real y deben manejarse antes del análisis. Las estrategias incluyen eliminación (quitar filas/columnas) o imputación (rellenar valores estimados). Entender por qué faltan los datos es importante.
A mathematical representation learned from data that captures patterns and relationships to make predictions or decisions on new data. In machine learning, models range from simple (linear regression) to highly complex (deep neural networks). A model is defined by its structure and the parameters learned during training.
تمثيل رياضي مُستفاد من البيانات يلتقط الأنماط والعلاقات للتنبؤ أو اتخاذ القرارات على بيانات جديدة. في تعلم الآلة، تتراوح النماذج بين البسيطة (الانحدار الخطي) والبالغة التعقيد (الشبكات العصبية العميقة). يتحدد النموذج ببنيته والمعاملات المُتعلَّمة أثناء التدريب.
Una representación matemática aprendida de datos que captura patrones y relaciones para hacer predicciones o decisiones sobre nuevos datos. En aprendizaje automático, los modelos van desde los simples (regresión lineal) hasta los muy complejos (redes neuronales profundas). Un modelo se define por su estructura y los parámetros aprendidos durante el entrenamiento.
N
A machine learning model loosely inspired by the human brain, composed of layers of interconnected nodes (neurons) that process information. Data flows through an input layer, one or more hidden layers, and an output layer. Deep neural networks (many hidden layers) form the basis of deep learning.
نموذج تعلم آلة مستوحى بشكل فضفاض من الدماغ البشري، مؤلَّف من طبقات من العقد المترابطة (الخلايا العصبية الاصطناعية) تعالج المعلومات. تتدفق البيانات عبر طبقة مدخلات وطبقة أو أكثر مخفية وطبقة مخرجات. تُشكّل الشبكات العصبية العميقة (ذات الطبقات المخفية الكثيرة) أساس التعلم العميق.
Un modelo de aprendizaje automático ligeramente inspirado en el cerebro humano, compuesto de capas de nodos interconectados (neuronas) que procesan información. Los datos fluyen a través de una capa de entrada, una o más capas ocultas y una capa de salida. Las redes neuronales profundas (muchas capas ocultas) forman la base del aprendizaje profundo.
Scaling numerical features to a common range (typically 0 to 1) so that no single feature dominates due to its magnitude. Min-Max normalization is the most common method. Normalization is important for algorithms sensitive to feature scales (e.g., KNN, neural networks, gradient descent).
x_normalized = (x - x_min) / (x_max - x_min)
ضبط مقياس الميزات العددية على نطاق مشترك (عادةً 0 إلى 1) بحيث لا تهيمن ميزة واحدة بسبب حجمها. تطبيع Min-Max هو الأسلوب الأكثر شيوعًا. التطبيع مهم للخوارزميات الحساسة لمقاييس الميزات (مثل KNN والشبكات العصبية والانحدار التدريجي).
Escalar características numéricas a un rango común (típicamente 0 a 1) para que ninguna característica domine por su magnitud. La normalización Min-Max es el método más común. Es importante para algoritmos sensibles a las escalas de características (p. ej., KNN, redes neuronales, descenso de gradiente).
Data expressed in numbers that can be meaningfully measured and compared. Numerical data is either continuous (any value within a range, e.g., height or temperature) or discrete (countable distinct values, e.g., number of students). Most statistical and machine learning methods work primarily with numerical data.
بيانات تُعبَّر عنها بأرقام يمكن قياسها ومقارنتها بشكل ذي معنى. البيانات الرقمية إما مستمرة (أي قيمة ضمن نطاق، مثل الطول أو درجة الحرارة) أو منفصلة (قيم متمايزة قابلة للعدّ، مثل عدد الطلاب). معظم أساليب الإحصاء وتعلم الآلة تعمل أساسًا مع البيانات الرقمية.
Datos expresados en números que pueden medirse y compararse significativamente. Los datos numéricos son continuos (cualquier valor dentro de un rango, p. ej., altura o temperatura) o discretos (valores distintos contables, p. ej., número de estudiantes). La mayoría de los métodos estadísticos y de aprendizaje automático trabajan principalmente con datos numéricos.
O
When a model learns the training data too well — including noise and random fluctuations — and therefore performs poorly on new, unseen data. An overfit model has high training accuracy but low test accuracy. Common remedies include regularization, more data, simpler models, and cross-validation.
حين يتعلم النموذج بيانات التدريب جيدًا أكثر مما ينبغي — بما في ذلك الضوضاء والتذبذبات العشوائية — فيُؤدي أداءً ضعيفًا على البيانات الجديدة غير المرئية. النموذج المُفرط في التخصيص يتسم بدقة عالية على التدريب ودقة منخفضة على الاختبار. تشمل العلاجات الشائعة: التنظيم والمزيد من البيانات والنماذج الأبسط والتحقق المتقاطع.
Cuando un modelo aprende los datos de entrenamiento demasiado bien — incluyendo ruido y fluctuaciones aleatorias — y por eso tiene mal rendimiento en datos nuevos no vistos. Un modelo sobreajustado tiene alta exactitud en entrenamiento pero baja en prueba. Los remedios comunes incluyen regularización, más datos, modelos más simples y validación cruzada.
P
A powerful Python library for data manipulation and analysis. Pandas provides the DataFrame and Series data structures, along with tools for reading data files, cleaning, reshaping, merging, grouping, and analyzing data. It is the most widely used library for data wrangling in Python.
import pandas as pd
df = pd.read_csv("data.csv")
df.describe() # summary statistics
df["col"].value_counts() # frequency count
مكتبة بايثون قوية لمعالجة البيانات وتحليلها. توفر Pandas بنيتَي البيانات DataFrame وSeries، إلى جانب أدوات لقراءة ملفات البيانات وتنظيفها وإعادة تشكيلها ودمجها وتجميعها وتحليلها. وهي المكتبة الأوسع استخدامًا لمعالجة البيانات في بايثون.
Una poderosa biblioteca de Python para manipulación y análisis de datos. Pandas proporciona las estructuras de datos DataFrame y Series, junto con herramientas para leer archivos de datos, limpiar, remodelar, combinar, agrupar y analizar datos. Es la biblioteca más usada para manipulación de datos en Python.
Of all the instances predicted as positive by the model, precision measures the proportion that are actually positive. High precision means few false positives. Precision is particularly important when the cost of a false positive is high (e.g., flagging a legitimate email as spam).
Precision = TP / (TP + FP)
من بين جميع الحالات التي تنبأ النموذج بأنها إيجابية، تقيس الدقة النسبة التي هي إيجابية فعلًا. تعني الدقة العالية قلة الإيجابيات الزائفة. الدقة مهمة بشكل خاص عندما تكون تكلفة الإيجابي الزائف عالية (مثلًا: وضع علامة على رسالة بريد إلكتروني شرعية كعشوائية).
De todas las instancias predichas como positivas por el modelo, la precisión mide la proporción que realmente son positivas. Alta precisión significa pocos falsos positivos. La precisión es especialmente importante cuando el costo de un falso positivo es alto (p. ej., marcar un correo legítimo como spam).
The output generated by a machine learning model when given new input data. For regression models, predictions are continuous values; for classification models, they are class labels or probabilities. The goal of supervised learning is to make accurate predictions on data the model has never seen.
المخرج الذي يولّده نموذج تعلم الآلة عند إعطائه بيانات مدخلة جديدة. بالنسبة لنماذج الانحدار، التنبؤات قيم مستمرة؛ وبالنسبة لنماذج التصنيف، هي تسميات فئات أو احتمالات. الهدف من التعلم الخاضع للإشراف هو إجراء تنبؤات دقيقة على بيانات لم يرَها النموذج قط.
La salida generada por un modelo de aprendizaje automático cuando se le dan nuevos datos de entrada. Para modelos de regresión, las predicciones son valores continuos; para modelos de clasificación, son etiquetas de clase o probabilidades. El objetivo del aprendizaje supervisado es hacer predicciones precisas en datos que el modelo nunca ha visto.
R
Of all actual positive instances in the dataset, recall measures the proportion that the model correctly identified. High recall means few false negatives. Recall is critical when missing a positive case is costly (e.g., failing to detect a disease).
Recall = TP / (TP + FN)
من بين جميع الحالات الإيجابية الفعلية في مجموعة البيانات، يقيس الاسترجاع النسبة التي حددها النموذج بشكل صحيح. يعني الاسترجاع العالي قلة السلبيات الزائفة. الاسترجاع بالغ الأهمية عندما تكون تكلفة تفويت حالة إيجابية عالية (مثلًا: الفشل في اكتشاف مرض).
De todas las instancias positivas reales en el conjunto de datos, el recall mide la proporción que el modelo identificó correctamente. Alto recall significa pocos falsos negativos. El recall es crítico cuando no detectar un caso positivo es costoso (p. ej., no detectar una enfermedad).
A supervised machine learning task that predicts a continuous numerical output. Examples include predicting house prices, temperature, or sales revenue. Common regression algorithms include linear regression, polynomial regression, ridge regression, and decision tree regression.
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
مهمة تعلم آلة خاضعة للإشراف تتنبأ بمخرج رقمي مستمر. تشمل الأمثلة: التنبؤ بأسعار المنازل أو درجات الحرارة أو إيرادات المبيعات. تشمل خوارزميات الانحدار الشائعة: الانحدار الخطي والانحدار متعدد الحدود وانحدار الحافة وانحدار شجرة القرار.
Una tarea de aprendizaje automático supervisado que predice una salida numérica continua. Ejemplos incluyen predecir precios de casas, temperatura o ingresos por ventas. Los algoritmos de regresión comunes incluyen regresión lineal, polinomial, de cresta y regresión de árbol de decisión.
S
The standard language for managing and querying relational databases. SQL allows you to retrieve, insert, update, and delete data. Key commands include SELECT, FROM, WHERE, JOIN, GROUP BY, and ORDER BY. SQL is an essential skill for data analysts and data scientists.
SELECT name, AVG(score) AS avg_score
FROM students
WHERE enrolled = 1
GROUP BY name
ORDER BY avg_score DESC;
اللغة القياسية لإدارة قواعد البيانات العلائقية والاستعلام عنها. تُتيح SQL استرداد البيانات وإدراجها وتحديثها وحذفها. تشمل الأوامر الرئيسية: SELECT وFROM وWHERE وJOIN وGROUP BY وORDER BY. SQL مهارة أساسية لمحللي ومنخصصي علوم البيانات.
El lenguaje estándar para gestionar y consultar bases de datos relacionales. SQL permite recuperar, insertar, actualizar y eliminar datos. Los comandos clave incluyen SELECT, FROM, WHERE, JOIN, GROUP BY y ORDER BY. SQL es una habilidad esencial para analistas y científicos de datos.
A type of machine learning where the model is trained on labeled data (input-output pairs). The algorithm learns to map inputs to outputs based on example pairs. Supervised learning includes both classification (predicting categories) and regression (predicting numbers). It is the most widely used type of ML.
نوع من تعلم الآلة يُدرَّب فيه النموذج على بيانات مُسمَّاة (أزواج مدخلات-مخرجات). يتعلم الخوارزمية تعيين المدخلات للمخرجات استنادًا إلى أمثلة. التعلم الخاضع للإشراف يشمل التصنيف (التنبؤ بالفئات) والانحدار (التنبؤ بالأرقام). وهو النوع الأكثر استخدامًا في تعلم الآلة.
Un tipo de aprendizaje automático donde el modelo se entrena con datos etiquetados (pares de entrada-salida). El algoritmo aprende a mapear entradas a salidas basándose en pares de ejemplo. El aprendizaje supervisado incluye clasificación (predicción de categorías) y regresión (predicción de números). Es el tipo de ML más ampliamente usado.
T
The variable a machine learning model is trained to predict. Also called the dependent variable, outcome variable, or label. In a pandas DataFrame, the target is typically separated from the features (X) as a series (y) before model training.
X = df.drop("price", axis=1) # features
y = df["price"] # target variable
المتغير الذي يُدرَّب نموذج تعلم الآلة للتنبؤ به. يُسمى أيضًا المتغير التابع أو متغير النتيجة أو التسمية. في DataFrame بمكتبة pandas، يُفصل الهدف عادةً عن الميزات (X) كسلسلة (y) قبل تدريب النموذج.
La variable que un modelo de aprendizaje automático se entrena para predecir. También llamada variable dependiente, variable resultado o etiqueta. En un DataFrame de pandas, el objetivo se separa típicamente de las características (X) como una serie (y) antes del entrenamiento del modelo.
The portion of data held out from training and used only to evaluate the final model's performance on unseen data. The test set simulates how the model will perform in the real world. It must never be used during training or model selection to avoid data leakage.
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
الجزء من البيانات المحجوز عن التدريب ويُستخدم فقط لتقييم أداء النموذج النهائي على بيانات غير مرئية. تُحاكي مجموعة الاختبار أداء النموذج في العالم الحقيقي. يجب عدم استخدامها أبدًا أثناء التدريب أو اختيار النموذج لتجنب تسرب البيانات.
La porción de datos reservada fuera del entrenamiento y usada solo para evaluar el rendimiento del modelo final en datos no vistos. El conjunto de prueba simula cómo rendirá el modelo en el mundo real. Nunca debe usarse durante el entrenamiento o selección del modelo para evitar fuga de datos.
The portion of data used to train (fit) a machine learning model. The model learns patterns and adjusts its parameters using only the training set. Typically 70–80% of the data is allocated to training. More training data generally leads to better model performance.
الجزء من البيانات المُستخدم لتدريب (ملاءمة) نموذج تعلم الآلة. يتعلم النموذج الأنماط ويُعدّل معاملاته باستخدام مجموعة التدريب فقط. عادةً ما يُخصص 70-80% من البيانات للتدريب. يؤدي المزيد من بيانات التدريب عمومًا إلى أداء نموذج أفضل.
La porción de datos usada para entrenar (ajustar) un modelo de aprendizaje automático. El modelo aprende patrones y ajusta sus parámetros usando solo el conjunto de entrenamiento. Típicamente el 70–80% de los datos se asigna al entrenamiento. Más datos de entrenamiento generalmente conduce a mejor rendimiento del modelo.
U
When a model is too simple to capture the underlying patterns in the data, resulting in poor performance on both training and test data. An underfit model has high bias. Remedies include using a more complex model, adding more features, or reducing regularization.
حين يكون النموذج بسيطًا جدًا بحيث لا يستطيع التقاط الأنماط الكامنة في البيانات، مما يُفضي إلى أداء ضعيف على بيانات التدريب والاختبار على حدٍّ سواء. النموذج ناقص التخصيص يتسم بتحيز عالٍ. تشمل العلاجات: استخدام نموذج أكثر تعقيدًا أو إضافة ميزات أو تقليل التنظيم.
Cuando un modelo es demasiado simple para capturar los patrones subyacentes en los datos, resultando en mal rendimiento tanto en entrenamiento como en prueba. Un modelo subajustado tiene alto sesgo. Los remedios incluyen usar un modelo más complejo, agregar más características o reducir la regularización.
A type of machine learning where the model finds patterns in data without labeled examples. The algorithm discovers structure on its own — grouping similar observations, detecting anomalies, or reducing dimensions. Clustering and dimensionality reduction (PCA) are common unsupervised techniques.
نوع من تعلم الآلة يجد فيه النموذج أنماطًا في البيانات دون أمثلة مُسمَّاة. يكتشف الخوارزمية البنية بنفسه — بتجميع الملاحظات المتشابهة أو اكتشاف الشذوذات أو تقليل الأبعاد. التجميع العنقودي وتقليل الأبعاد (PCA) من الأساليب الشائعة غير الخاضعة للإشراف.
Un tipo de aprendizaje automático donde el modelo encuentra patrones en datos sin ejemplos etiquetados. El algoritmo descubre estructura por sí mismo — agrupando observaciones similares, detectando anomalías o reduciendo dimensiones. El agrupamiento y la reducción de dimensionalidad (PCA) son técnicas no supervisadas comunes.
V
A subset of data held out from training and used during the model development process to tune hyperparameters and select the best model. Unlike the test set (used only once at the end), the validation set can be used multiple times during development. It acts as a proxy for test performance.
مجموعة فرعية من البيانات محجوزة عن التدريب وتُستخدم أثناء عملية تطوير النموذج لضبط المعاملات الفائقة واختيار أفضل نموذج. وخلافًا لمجموعة الاختبار (المُستخدمة مرة واحدة فقط في النهاية)، يمكن استخدام مجموعة التحقق مرات متعددة أثناء التطوير. وهي تعمل كبديل لأداء الاختبار.
Un subconjunto de datos reservado fuera del entrenamiento y usado durante el proceso de desarrollo del modelo para ajustar hiperparámetros y seleccionar el mejor modelo. A diferencia del conjunto de prueba (usado solo una vez al final), el conjunto de validación puede usarse múltiples veces durante el desarrollo. Actúa como proxy del rendimiento de prueba.
The graphical representation of data to make it easier to understand patterns, trends, outliers, and relationships. Visualizations are central to EDA and communicating findings. Common tools include matplotlib, seaborn, and Plotly in Python, and Tableau and Power BI for business intelligence.
import matplotlib.pyplot as plt
import seaborn as sns
sns.histplot(df["age"])
plt.show()
التمثيل الرسومي للبيانات لتسهيل فهم الأنماط والاتجاهات والقيم الشاذة والعلاقات. التصور البياني محوري في التحليل الاستكشافي للبيانات وتوصيل النتائج. تشمل الأدوات الشائعة: matplotlib وseaborn وPlotly في بايثون، وTableau وPower BI لذكاء الأعمال.
La representación gráfica de datos para facilitar la comprensión de patrones, tendencias, valores atípicos y relaciones. Las visualizaciones son centrales en el EDA y la comunicación de hallazgos. Las herramientas comunes incluyen matplotlib, seaborn y Plotly en Python, y Tableau y Power BI para inteligencia de negocios.