Rechercher dans ce blog

mercredi 24 août 2022

Data broadcast


Enregistreur de données/Enregistreur de données :
Un enregistreur de données (également enregistreur de données ou enregistreur de données) est un appareil électronique qui enregistre des données dans le temps ou sur l'emplacement, soit avec un instrument ou un capteur intégré, soit via des instruments et des capteurs externes. De plus en plus, mais pas entièrement, ils sont basés sur un processeur numérique (ou ordinateur), et appelés enregistreurs de données numériques (DDL). Ils sont généralement petits, alimentés par batterie, portables et équipés d'un microprocesseur, d'une mémoire interne pour le stockage des données et de capteurs. Certains enregistreurs de données s'interfacent avec un ordinateur personnel et utilisent un logiciel pour activer l'enregistreur de données et afficher et analyser les données collectées, tandis que d'autres ont un dispositif d'interface locale (clavier, écran LCD) et peuvent être utilisés comme un dispositif autonome. Les enregistreurs de données varient des types à usage général pour une gamme d'applications de mesure à des appareils très spécifiques pour mesurer dans un environnement ou un type d'application uniquement. Il est courant que les types à usage général soient programmables; cependant, beaucoup restent des machines statiques avec seulement un nombre limité ou aucun paramètre modifiable. Les enregistreurs de données électroniques ont remplacé les enregistreurs graphiques dans de nombreuses applications. L'un des principaux avantages de l'utilisation des enregistreurs de données est la possibilité de collecter automatiquement des données sur une base de 24 heures. Lors de l'activation, les enregistreurs de données sont généralement déployés et laissés sans surveillance pour mesurer et enregistrer des informations pendant la durée de la période de surveillance. Cela permet d'obtenir une image complète et précise des conditions environnementales surveillées, telles que la température de l'air et l'humidité relative. Le coût des enregistreurs de données a diminué au fil des ans à mesure que la technologie s'améliore et que les coûts sont réduits. Les enregistreurs de données simples à canal unique coûtent aussi peu que 25 $. Des enregistreurs plus compliqués peuvent coûter des centaines ou des milliers de dollars.

Perte de données/Perte de données :
La perte de données est une condition d'erreur dans les systèmes d'information dans laquelle les informations sont détruites par des pannes (comme des pannes de moteurs de broche ou des pannes de tête sur des disques durs) ou une négligence (comme une mauvaise manipulation, une manipulation négligente ou un stockage dans des conditions inappropriées) lors du stockage, de la transmission ou du traitement. Les systèmes d'information mettent en œuvre des équipements et des processus de sauvegarde et de reprise après sinistre pour prévenir la perte de données ou restaurer les données perdues. La perte de données peut également se produire si le support physique contenant les données est perdu ou volé. La perte de données se distingue de l'indisponibilité des données, qui peut résulter d'une panne de réseau. Bien que les deux aient des conséquences sensiblement similaires pour les utilisateurs, l'indisponibilité des données est temporaire, tandis que la perte de données peut être permanente. La perte de données est également distincte de la violation de données, un incident où les données tombent entre de mauvaises mains, bien que le terme perte de données ait été utilisé dans ces incidents.
Data loss_prevention_software/Logiciel de prévention des pertes de données :
Le logiciel de prévention des pertes de données (DLP) détecte les fuites de données potentielles/les transmissions d'exfiltration de données et les empêche en surveillant, en détectant et en bloquant les données sensibles en cours d'utilisation (actions sur les terminaux), en mouvement (trafic réseau) et au repos (stockage de données) .Les termes « perte de données » et « fuite de données » sont liés et sont souvent utilisés de manière interchangeable. Les incidents de perte de données se transforment en incidents de fuite de données dans les cas où des supports contenant des informations sensibles sont perdus puis acquis par une partie non autorisée. Cependant, une fuite de données est possible sans perdre les données du côté d'origine. D'autres termes associés à la prévention des fuites de données sont la détection et la prévention des fuites d'informations (ILDP), la prévention des fuites d'informations (ILP), la surveillance et le filtrage du contenu (CMF), la protection et le contrôle des informations (IPC) et le système de prévention de l'extrusion (EPS), par opposition à système de prévention des intrusions.
Gestion des données/Gestion des données :
La gestion des données comprend toutes les disciplines liées à la gestion des données en tant que ressource précieuse.
Data management_plan/Plan de gestion des données :
Un plan de gestion des données ou DMP est un document formel qui décrit comment les données doivent être traitées à la fois pendant un projet de recherche et une fois le projet terminé. L'objectif d'un plan de gestion des données est de prendre en compte les nombreux aspects de la gestion des données, de la génération des métadonnées, de la préservation des données et de l'analyse avant le début du projet ; cela peut conduire à ce que les données soient bien gérées dans le présent et préparées pour être préservées dans le futur. années 1980. Jusqu'au début des années 2000, les DMP étaient utilisées "pour des projets d'une grande complexité technique, et à des fins limitées de collecte et de traitement de données à mi-étude". Dans les années 2000 et plus tard, la recherche en ligne et les politiques économiques ont conduit au développement et à l'adoption des DMP.
Plate-forme_de gestion des données/Plateforme de gestion des données :
Une plate-forme de gestion de données (DMP), également appelée plate-forme de données, est une plate-forme logicielle utilisée pour collecter et gérer des données. Il s'agit d'une solution intégrée qui peut combiner les fonctionnalités d'un lac de données, d'un entrepôt de données ou d'un hub de données à des fins de business intelligence, par exemple. Ils permettent aux entreprises d'identifier des segments d'audience, qui peuvent être utilisés pour cibler des utilisateurs et des contextes spécifiques dans les campagnes publicitaires en ligne. Les DMP peuvent utiliser des mégadonnées et des algorithmes d'intelligence artificielle pour traiter et analyser de grands ensembles de données sur les utilisateurs provenant de diverses sources. Certains avantages de l'utilisation des DMP incluent l'organisation des données, une meilleure compréhension des audiences et des marchés et une budgétisation publicitaire efficace. D'autre part, les DMP doivent souvent faire face à des problèmes de confidentialité en raison de l'intégration de logiciels tiers avec des données privées. Cette technologie est continuellement développée par des entités mondiales telles que Nielsen et Oracle.
Data manipulation_language/Langage de manipulation de données :
Un langage de manipulation de données (DML) est un langage de programmation informatique utilisé pour ajouter (insérer), supprimer et modifier (mettre à jour) des données dans une base de données. Un DML est souvent un sous-langage d'un langage de base de données plus large tel que SQL, le DML comprenant certains des opérateurs du langage. La sélection de données en lecture seule est parfois distinguée comme faisant partie d'un langage de requête de données (DQL) distinct, mais elle est étroitement liée et parfois également considérée comme un composant d'un DML ; certains opérateurs peuvent effectuer à la fois la sélection (lecture) et l'écriture. Un langage de manipulation de données populaire est celui de Structured Query Language (SQL), qui est utilisé pour récupérer et manipuler des données dans une base de données relationnelle. D'autres formes de DML sont celles utilisées par les bases de données IMS/DLI, CODASYL, comme IDMS et autres.
Modèle de mappeur de données/Modèle de mappeur de données :
En génie logiciel, le modèle de mappeur de données est un modèle architectural. Il a été nommé par Martin Fowler dans son livre de 2003 Patterns of Enterprise Application Architecture. L'interface d'un objet conforme à ce modèle comprendrait des fonctions telles que Créer, Lire, Mettre à jour et Supprimer, qui fonctionnent sur des objets qui représentent des types d'entités de domaine dans un magasin de données. Un mappeur de données est une couche d'accès aux données qui effectue un transfert bidirectionnel de données entre un magasin de données persistant (souvent une base de données relationnelle) et une représentation de données en mémoire (la couche de domaine). L'objectif du modèle est de garder la représentation en mémoire et le magasin de données persistant indépendants l'un de l'autre et du mappeur de données lui-même. Ceci est utile lorsqu'il est nécessaire de modéliser et d'appliquer des processus métier stricts sur les données de la couche de domaine qui ne correspondent pas parfaitement au magasin de données persistantes. La couche est composée d'un ou plusieurs mappeurs (ou objets d'accès aux données), effectuant le transfert de données. Les implémentations de mappeur varient en portée. Les mappeurs génériques géreront de nombreux types d'entités de domaine différents, les mappeurs dédiés en géreront un ou quelques-uns.
Mappage des données/Mappage des données :
En informatique et en gestion de données, le mappage de données est le processus de création de mappages d'éléments de données entre deux modèles de données distincts. Le mappage de données est utilisé comme première étape pour une grande variété de tâches d'intégration de données, notamment : Transformation ou médiation de données entre une source de données et une destination Identification des relations de données dans le cadre de l'analyse de lignage des données Découverte de données sensibles cachées telles que la dernière quatre chiffres d'un numéro de sécurité sociale cachés dans un autre identifiant d'utilisateur dans le cadre d'un projet de masquage ou d'anonymisation des données Consolidation de plusieurs bases de données en une seule base de données et identification des colonnes de données redondantes à consolider ou à éliminer et recevoir des achats et des factures avec d'autres entreprises peuvent utiliser le mappage de données pour créer des mappages de données à partir des données d'une entreprise vers des messages ANSI ASC X12 normalisés pour des éléments tels que des bons de commande et des factures.
Magasin de données/magasin de données :
Un magasin de données est une structure/un modèle d'accès spécifique aux environnements d'entrepôt de données, utilisé pour récupérer les données destinées aux clients. Le magasin de données est un sous-ensemble de l'entrepôt de données et est généralement orienté vers un secteur d'activité ou une équipe spécifique. Alors que les entrepôts de données ont une profondeur à l'échelle de l'entreprise, les informations contenues dans les magasins de données se rapportent à un seul service. Dans certains déploiements, chaque département ou unité commerciale est considéré comme le propriétaire de son magasin de données, y compris tout le matériel, les logiciels et les données. Cela permet à chaque service d'isoler l'utilisation, la manipulation et l'évolution de ses données. Dans d'autres déploiements où des dimensions conformes sont utilisées, cette propriété de l'unité commerciale ne sera pas valable pour les dimensions partagées comme le client, le produit, etc. Les entrepôts et les magasins de données sont construits parce que les informations de la base de données ne sont pas organisées de manière à les rendre facilement accessibles . Cette organisation nécessite des requêtes trop compliquées, difficiles d'accès ou gourmandes en ressources. Alors que les bases de données transactionnelles sont conçues pour être mises à jour, les entrepôts de données ou les marts sont en lecture seule. Les entrepôts de données sont conçus pour accéder à de grands groupes d'enregistrements associés. Les magasins de données améliorent le temps de réponse de l'utilisateur final en permettant aux utilisateurs d'avoir accès au type spécifique de données qu'ils doivent consulter le plus souvent, en fournissant les données d'une manière qui prend en charge la vue collective d'un groupe d'utilisateurs. Un data mart est essentiellement une version condensée et plus ciblée d'un entrepôt de données qui reflète les réglementations et les spécifications de processus de chaque unité commerciale au sein d'une organisation. Chaque magasin de données est dédié à une fonction commerciale ou à une région spécifique. Ce sous-ensemble de données peut couvrir plusieurs ou tous les domaines fonctionnels d'une entreprise. Il est courant que plusieurs magasins de données soient utilisés afin de répondre aux besoins de chaque unité commerciale individuelle (différents magasins de données peuvent être utilisés pour obtenir des informations spécifiques pour divers départements de l'entreprise, tels que la comptabilité, le marketing, les ventes, etc.). Le terme connexe spreadmart est un péjoratif décrivant la situation qui se produit lorsqu'un ou plusieurs analystes commerciaux développent un système de feuilles de calcul liées pour effectuer une analyse commerciale, puis le développent à une taille et à un degré de complexité qui le rendent presque impossible à maintenir. Le terme pour cette condition est "Excel Hell".
Masquage des données/Masquage des données :
Le masquage des données ou l'obscurcissement des données est le processus de modification des données sensibles de telle sorte qu'elles n'ont aucune ou peu de valeur pour les intrus non autorisés tout en étant utilisables par le logiciel ou le personnel autorisé. La principale raison d'appliquer le masquage à un champ de données est de protéger les données classées comme informations personnellement identifiables, données personnelles sensibles ou données commercialement sensibles. Cependant, les données doivent rester utilisables aux fins d'entreprendre des cycles d'essai valides. Il doit également avoir l'air réel et cohérent. Il est plus courant d'avoir un masquage appliqué aux données qui sont représentées en dehors d'un système de production d'entreprise. En d'autres termes, là où les données sont nécessaires pour le développement d'applications, la construction d'extensions de programme et la réalisation de divers cycles de test. Il est courant dans l'informatique d'entreprise de prendre des données des systèmes de production pour remplir le composant de données, requis pour ces environnements de non-production. Cependant, cette pratique n'est pas toujours limitée aux environnements de non-production. Dans certaines organisations, les données qui s'affichent sur les écrans des terminaux des opérateurs de centres d'appels peuvent être masquées de manière dynamique en fonction des autorisations de sécurité des utilisateurs (par exemple, empêcher les opérateurs de centres d'appels de voir les numéros de carte de crédit dans les systèmes de facturation). La principale préoccupation du point de vue de la gouvernance d'entreprise est que le personnel effectuant des travaux dans ces environnements hors production n'est pas toujours autorisé à opérer avec les informations contenues dans les données de production. Cette pratique représente une faille de sécurité où les données peuvent être copiées par du personnel non autorisé, et les mesures de sécurité associées aux contrôles de niveau de production standard peuvent être facilement contournées. Cela représente un point d'accès pour une violation de la sécurité des données. La pratique globale de masquage des données au niveau organisationnel doit être étroitement associée à la pratique de gestion des tests et à la méthodologie sous-jacente et doit incorporer des processus de distribution des sous-ensembles de données de test masqués.
Matrice de données/Matrice de données :
La matrice de données peut faire référence à : Matrice (mathématiques), tableau rectangulaire d'éléments Matrice de données, un code à barres bidimensionnel Matrice de données (statistiques multivariées), matrice mathématique de données dont les lignes représentent différentes répétitions d'une expérience et dont les colonnes représentent différents types de donnée prise pour chaque répétition Jeu de données, collecte de données sous forme de tableau
Fusion de données/fusion de données :
La fusion de données peut faire référence à : Fusion et publipostage Intégration de données Algorithme de fusion
Maillage de données/Maillage de données :
Le maillage de données est une approche sociotechnique pour construire une architecture de données décentralisée en tirant parti d'une conception orientée domaine et libre-service (dans une perspective de développement logiciel), et emprunte la théorie d'Eric Evans sur la conception pilotée par le domaine et la théorie de Manuel Pais et Matthew Skelton. de topologies d'équipe. La proposition principale est la mise à l'échelle des données analytiques par une décentralisation orientée domaine. Avec le maillage de données, la responsabilité des données analytiques est transférée de l'équipe de données centrale aux équipes de domaine, soutenues par une équipe de plate-forme de données qui fournit une plate-forme de données indépendante du domaine.
Migration de données/Migration de données :
La migration des données est le processus de sélection, de préparation, d'extraction et de transformation des données et de leur transfert permanent d'un système de stockage informatique à un autre. De plus, la validation de l'exhaustivité des données migrées et la mise hors service du stockage des données héritées sont considérées comme faisant partie de l'ensemble du processus de migration des données. La migration des données est une considération clé pour toute mise en œuvre, mise à niveau ou consolidation de système, et elle est généralement effectuée de manière à être aussi automatisée que possible, libérant ainsi les ressources humaines des tâches fastidieuses. La migration des données se produit pour diverses raisons, notamment les remplacements de serveurs ou d'équipements de stockage, la maintenance ou les mises à niveau, la migration d'applications, la consolidation de sites Web, la reprise après sinistre et la relocalisation du centre de données.
Mile de données/mile de données :
Dans les sujets liés au radar et dans JTIDS, un mile de données est une unité de distance égale à 6000 pieds (1,8288 kilomètres ou 0,987 milles marins). Un mile international correspond exactement à 0,88 d'un mile de données. La vitesse de la lumière est de 983571056 pieds/s, soit environ un pied par nanoseconde. Si c'était exactement un pied par nanoseconde et qu'une cible était à un mile de données, alors le retour radar de cette cible arriverait 12 microsecondes après la transmission. (Rappelons que le radar a été développé pendant la Seconde Guerre mondiale en Amérique et en Angleterre, alors que les deux utilisaient des unités anglaises. Il était pratique pour eux de relier 1 mile de données à 12 microsecondes, alors que la tendance moderne serait d'approcher la vitesse de la lumière comme 300 000 km/s.)
Exploration de données/Exploration de données :
L'exploration de données est le processus d'extraction et de découverte de modèles dans de grands ensembles de données impliquant des méthodes à l'intersection de l'apprentissage automatique, des statistiques et des systèmes de base de données. L'exploration de données est un sous-domaine interdisciplinaire de l'informatique et des statistiques dont l'objectif global est d'extraire des informations (avec des méthodes intelligentes) d'un ensemble de données et de transformer les informations en une structure compréhensible pour une utilisation ultérieure. L'exploration de données est l'étape d'analyse du processus de "découverte des connaissances dans les bases de données", ou KDD. Outre l'étape d'analyse brute, cela implique également des aspects de base de données et de gestion des données, le prétraitement des données, des considérations de modèle et d'inférence, des mesures d'intérêt, des considérations de complexité, le post-traitement des structures découvertes, la visualisation et la mise à jour en ligne. " est un abus de langage, car l'objectif est l'extraction de modèles et de connaissances à partir de grandes quantités de données, et non l'extraction (le minage) des données elles-mêmes. C'est également un mot à la mode et est fréquemment appliqué à toute forme de traitement de données ou d'informations à grande échelle (collecte, extraction, entreposage, analyse et statistiques) ainsi qu'à toute application de système informatique d'aide à la décision, y compris l'intelligence artificielle (par exemple, machine l'apprentissage) et l'intelligence d'affaires. Le livre Data mining: Practical machine learning tools and techniques with Java (qui couvre principalement le matériel d'apprentissage automatique) devait à l'origine s'appeler Practical machine learning, et le terme data mining n'a été ajouté que pour des raisons de marketing. Souvent, les termes plus généraux d'analyse et d'analyse de données (à grande échelle) ou, lorsqu'il s'agit de méthodes réelles, d'intelligence artificielle et d'apprentissage automatique, sont plus appropriés. La tâche d'exploration de données réelle est l'analyse semi-automatique ou automatique de grandes quantités de données pour extraire des modèles intéressants jusque-là inconnus, tels que des groupes d'enregistrements de données (analyse de cluster), des enregistrements inhabituels (détection d'anomalies) et des dépendances (exploration de règles d'association, extraction de motifs séquentiels). Cela implique généralement l'utilisation de techniques de base de données telles que les indices spatiaux. Ces modèles peuvent alors être considérés comme une sorte de résumé des données d'entrée et peuvent être utilisés dans une analyse plus approfondie ou, par exemple, dans l'apprentissage automatique et l'analyse prédictive. Par exemple, l'étape d'exploration de données peut identifier plusieurs groupes dans les données, qui peuvent ensuite être utilisés pour obtenir des résultats de prédiction plus précis par un système d'aide à la décision. Ni la collecte de données, ni la préparation des données, ni l'interprétation des résultats et le rapport ne font partie de l'étape d'exploration de données, bien qu'elles appartiennent au processus global de KDD en tant qu'étapes supplémentaires. La différence entre l'analyse de données et l'exploration de données est que l'analyse de données est utilisée pour tester des modèles et des hypothèses sur l'ensemble de données, par exemple, analyser l'efficacité d'une campagne marketing, quelle que soit la quantité de données. En revanche, l'exploration de données utilise l'apprentissage automatique et des modèles statistiques pour découvrir des modèles clandestins ou cachés dans un grand volume de données. ensemble de données démographiques qui sont (ou peuvent être) trop petits pour que des inférences statistiques fiables puissent être faites sur la validité des modèles découverts. Ces méthodes peuvent cependant être utilisées pour créer de nouvelles hypothèses à tester par rapport à des populations de données plus importantes.
Exploration de données_en_agriculture/Exploration de données en agriculture :
La fouille de données en agriculture est un sujet de recherche très récent. Il consiste en l'application des techniques de fouille de données à l'agriculture. Les technologies récentes sont, aujourd'hui, capables de fournir de nombreuses informations sur les activités liées à l'agriculture, qui peuvent ensuite être analysées afin de trouver des informations pertinentes. Un terme apparenté, mais non équivalent, est l'agriculture de précision.
Modèle de données/Modèle de données :
Un modèle de données est un modèle abstrait qui organise les éléments de données et normalise la façon dont ils sont liés les uns aux autres et aux propriétés des entités du monde réel. Par exemple, un modèle de données peut spécifier que l'élément de données représentant une voiture soit composé d'un certain nombre d'autres éléments qui, à leur tour, représentent la couleur et la taille de la voiture et définissent son propriétaire. Le terme modèle de données peut faire référence à deux concepts distincts mais étroitement liés. Parfois, il fait référence à une formalisation abstraite des objets et des relations trouvés dans un domaine d'application particulier : par exemple les clients, les produits et les commandes trouvés dans une organisation de fabrication. D'autres fois, il fait référence à l'ensemble des concepts utilisés pour définir de telles formalisations : par exemple des concepts tels que des entités, des attributs, des relations ou des tables. Ainsi, le "modèle de données" d'une application bancaire peut être défini à l'aide du "modèle de données" entité-relation. Cet article utilise le terme dans les deux sens. Un modèle de données détermine explicitement la structure des données. Les modèles de données sont généralement spécifiés par un spécialiste des données, un bibliothécaire de données ou un spécialiste des sciences humaines numériques dans une notation de modélisation des données. Ces notations sont souvent représentées sous forme graphique. Un modèle de données peut parfois être appelé une structure de données, en particulier dans le contexte des langages de programmation. Les modèles de données sont souvent complétés par des modèles de fonction, en particulier dans le contexte des modèles d'entreprise.
Modèle de données_(SIG)/Modèle de données (SIG) :
Un modèle de données géographiques , un modèle de données géospatiales , ou simplement un modèle de données dans le contexte des systèmes d'information géographique , est une structure mathématique et numérique permettant de représenter des phénomènes sur la Terre. Généralement, ces modèles de données représentent divers aspects de ces phénomènes au moyen de données géographiques, y compris les emplacements spatiaux, les attributs, les changements dans le temps et l'identité. Par exemple, le modèle de données vectorielles représente la géographie sous la forme d'ensembles de points, de lignes et de polygones, et le modèle de données raster représente la géographie sous la forme de matrices de cellules qui stockent des valeurs numériques. Les modèles de données sont mis en œuvre dans l'ensemble de l'écosystème SIG, y compris les outils logiciels de gestion des données et d'analyse spatiale, les données stockées dans une variété de formats de fichiers SIG, les spécifications et les normes, et les conceptions spécifiques pour les installations SIG. Alors que la nature unique de l'information spatiale a conduit à son propre ensemble de structures de modèles, une grande partie du processus de modélisation des données est similaire au reste de la technologie de l'information, y compris la progression des modèles conceptuels aux modèles logiques aux modèles physiques, et la différence entre modèles génériques et conceptions spécifiques à l'application.
Modélisation des données/Modélisation des données :
La modélisation des données en génie logiciel est le processus de création d'un modèle de données pour un système d'information en appliquant certaines techniques formelles.
Monétisation des données/Monétisation des données :
La monétisation des données, une forme de monétisation, peut faire référence à l'acte de générer des avantages économiques mesurables à partir de sources de données disponibles (analyses). Plus rarement, il peut également faire référence à l'acte de monétiser les services de données. Dans le cas de l'analyse, généralement, ces avantages se traduisent par des économies de revenus ou de dépenses, mais peuvent également inclure des parts de marché ou des gains de valeur marchande de l'entreprise. La monétisation des données exploite les données générées par les opérations commerciales, les données ou contenus exogènes disponibles, ainsi que les données associées à des acteurs individuels telles que celles collectées via des appareils électroniques et des capteurs participant à l'internet des objets. Par exemple, l'omniprésence de l'Internet des objets génère des données de localisation et d'autres données à partir de capteurs et d'appareils mobiles à un rythme sans cesse croissant. Lorsque ces données sont comparées à des bases de données traditionnelles, la valeur et l'utilité des deux sources de données augmentent, ce qui offre un énorme potentiel d'extraction de données pour le bien social, la recherche et la découverte, et la réalisation des objectifs commerciaux. Les données émergentes en tant que modèles de service pour les transactions impliquant des données par l'élément de données sont étroitement associées à la monétisation des données. Trois vecteurs éthiques et réglementaires interviennent dans la monétisation des données en raison des intérêts parfois conflictuels des acteurs impliqués dans la supply chain numérique. Le créateur de données individuel qui génère des fichiers et des enregistrements par ses propres efforts ou qui possède un appareil tel qu'un capteur ou un téléphone mobile qui génère des données a un droit de propriété sur les données. L'entité commerciale qui génère des données dans le cadre de ses opérations, telles que ses transactions avec des institutions financières ou les facteurs de risque découverts grâce aux commentaires des clients, a également un droit sur les données capturées via leurs systèmes et plateformes. Cependant, la personne qui a fourni les données peut également avoir un droit légitime sur les données. Les plates-formes Internet et les fournisseurs de services, tels que Google ou Facebook, qui exigent d'un utilisateur qu'il renonce à un certain droit de propriété sur ses données en échange de l'utilisation de la plate-forme, ont également un droit légitime sur les données. Ainsi, la pratique de la monétisation des données, bien que courante depuis 2000, retient de plus en plus l'attention des régulateurs. L'Union européenne et le Congrès des États-Unis ont commencé à se pencher sur ces questions. Par exemple, dans le secteur des services financiers, les réglementations concernant les données sont incluses dans les lois Gramm–Leach–Bliley et Dodd-Frank. Certains créateurs individuels de données se tournent vers l'utilisation de coffres-forts de données personnelles et la mise en œuvre de concepts de gestion des relations avec les fournisseurs, ce qui reflète une résistance croissante à ce que leurs données soient fédérées ou agrégées et revendues sans compensation. Des groupes tels que le Consortium de l'écosystème des données personnelles, les droits à la vie privée des patients et d'autres contestent également la cooptation des données par les entreprises sans compensation. Les sociétés de services financiers sont un exemple relativement bon d'une industrie axée sur la génération de revenus en exploitant les données. Les émetteurs de cartes de crédit et les banques de détail utilisent les données de transaction des clients pour améliorer le ciblage des offres de vente croisée. Les partenaires font de plus en plus la promotion de programmes de récompenses basés sur les commerçants qui exploitent les données d'une banque et offrent des remises aux clients en même temps.
Comité_de_suivi_des_données/Comité de suivi des données :
Un comité de surveillance des données (DMC) - parfois appelé comité de surveillance des données et de la sécurité (DSMB) - est un groupe indépendant d'experts qui surveillent les données sur la sécurité des patients et l'efficacité du traitement pendant qu'un essai clinique est en cours.
Data monitoring_switch/Commutateur de surveillance des données :
Un commutateur de surveillance des données est une appliance matérielle réseau qui fournit un ensemble d'outils de surveillance avec accès au trafic à partir d'un grand nombre de liaisons réseau. Il fournit une combinaison de fonctionnalités pouvant inclure l'agrégation du trafic de surveillance à partir de plusieurs liens, la régénération du trafic vers plusieurs outils, le préfiltrage du trafic pour décharger les outils et la direction du trafic en fonction de mappages de ports un à un et plusieurs à plusieurs. Les commutateurs de surveillance permettent aux organisations d'utiliser leurs outils de surveillance plus efficacement, de centraliser les fonctions de surveillance du trafic et de partager les outils et l'accès au trafic entre les groupes. Certains de ces appareils offrent également des fonctionnalités qui permettent de justifier les achats d'outils et de simplifier le déploiement et la gestion de l'appareil lui-même. Plusieurs autres termes ont été utilisés pour décrire cette classe d'appareils, y compris le commutateur d'accès aux données, l'agrégateur d'outils, le courtier de paquets réseau, l'optimiseur d'outil net et le robinet de filtre distribué.
Mule de données/mule de données :
Une mule de données est un véhicule qui transporte physiquement un ordinateur avec stockage entre des emplacements distants pour créer efficacement une liaison de communication de données. Une mule de données est un cas particulier de sneakernet, où les données sont automatiquement chargées et déchargées lorsque la mule de données arrive à ses emplacements terminaux. Disruption Tolerant Networking (DTN) peut utiliser des mules de données pour échanger des données entre des ordinateurs qui n'ont pas accès à Internet basé sur TCP/IP. Des mules de données ont été utilisées pour offrir une connectivité Internet aux villages reculés. Des ordinateurs avec un disque et une liaison wifi sont attachés aux bus sur une ligne de bus entre les villages. Lorsqu'un bus s'arrête au village pour prendre des passagers et du fret, le routeur DTN du bus communique avec un routeur DTN de la gare routière via Wi-Fi. Le courrier électronique est téléchargé vers le village et téléchargé pour être acheminé vers Internet ou vers d'autres villages le long de la ligne de bus. Les mules de données sont un mécanisme rentable pour la connectivité rurale car elles utilisent du matériel de base peu coûteux, peuvent être installées rapidement et peuvent être superposées à l'infrastructure de transport existante. Malgré des délais potentiellement longs pour la réception des données, des bandes passantes étonnamment importantes peuvent être obtenues. Par exemple, la livraison d'un disque de 1 To une fois par jour a une bande passante effective de 100 Mbit/s. Le terme mule de données est probablement basé sur l'utilisation du terme mule dans la contrebande, mais le backronyme MULE (Mobile Ubiquitous LAN Extension) est également revendiqué comme étant la source.
Intégration des données/Intégration des données :
L'intégration des données est le processus de transfert de données hors ligne vers un environnement en ligne pour des besoins marketing. L'intégration des données est principalement utilisée pour connecter les enregistrements des clients hors ligne avec les utilisateurs en ligne en faisant correspondre les informations d'identification recueillies à partir d'ensembles de données hors ligne pour récupérer les mêmes clients dans une audience en ligne.
Organisation des données_pour_faible_alimentation/Organisation des données pour une faible consommation :
La consommation d'énergie par rapport à la taille physique du matériel électronique a augmenté à mesure que les composants sont devenus plus petits et plus denses. Couplé à des fréquences de fonctionnement élevées, cela a conduit à des niveaux inacceptables de dissipation de puissance. La mémoire représente une part importante de l'énergie consommée, et cette contribution peut être réduite en optimisant l'organisation des données - la façon dont les données sont stockées.
Sur_signalisation de données/Sursignalisation de données :
Les données sur la signalisation (parfois les données sur la signalisation) ou DoS sont une technique de télécommunications dans laquelle les données primaires sont envoyées sur un canal de signalisation au lieu du canal support de l'abonné.
Pack de données/Pack de données :
Un pack de données (ou pack de faits) est une base de données prédéfinie qui peut être alimentée par un logiciel, tel que des agents logiciels, un jeu, des robots Internet ou des chatterbots, pour enseigner des informations et des faits, qu'il peut ensuite rechercher. En d'autres termes, un pack de données peut être utilisé pour alimenter des mises à jour mineures dans un système.
Parallélisme des données/Parallélisme des données :
Le parallélisme des données est la parallélisation entre plusieurs processeurs dans des environnements informatiques parallèles. Il se concentre sur la distribution des données sur différents nœuds, qui fonctionnent sur les données en parallèle. Il peut être appliqué sur des structures de données régulières comme des tableaux et des matrices en travaillant sur chaque élément en parallèle. Il contraste avec le parallélisme des tâches comme une autre forme de parallélisme. Un travail parallèle de données sur un tableau de n éléments peut être divisé également entre tous les processeurs. Supposons que nous voulons additionner tous les éléments du tableau donné et que le temps pour une seule opération d'addition est de Ta unités de temps. Dans le cas d'une exécution séquentielle, le temps pris par le processus sera de n×Ta unités de temps car il additionne tous les éléments d'un tableau. D'un autre côté, si nous exécutons ce travail en tant que travail parallèle de données sur 4 processeurs, le temps pris se réduirait à (n/4) × Ta + unités de temps de surcharge de fusion. L'exécution parallèle entraîne une accélération de 4 par rapport à l'exécution séquentielle. Une chose importante à noter est que la localité des références de données joue un rôle important dans l'évaluation des performances d'un modèle de programmation parallèle de données. La localité des données dépend des accès mémoire effectués par le programme ainsi que de la taille du cache.
Data philanthropie/Data philanthropie :
La philanthropie des données décrit une forme de collaboration dans laquelle les entreprises du secteur privé partagent des données pour le bien public. De multiples utilisations de la philanthropie des données sont explorées à partir de l'utilisation humanitaire, des entreprises, des droits de l'homme et de l'enseignement. Depuis l'introduction du terme en 2011, le Global Pulse des Nations Unies a plaidé pour un «mouvement de philanthropie des données» mondial.
Forfait de données/Forfait de données :
Le plan de données fait référence aux quotas de données d'un contrat de télécommunications ou d'hébergement de données. Les forfaits de données sont offerts par les fournisseurs de services Internet. Il s'agit notamment des forfaits de données mobiles, offerts sur les réseaux cellulaires, par les entreprises de téléphonie cellulaire, et ceux des liaisons terrestres fixes conventionnelles, entre autres formes de communications de données offertes. Les serveurs d'hébergement de données réseau proposent également des plans basés sur les données servies, comme pour les sites Web.
Plan de données/Plan de données :
Le plan de données est la partie du logiciel qui traite les demandes de données. En revanche, le plan de contrôle est la partie du logiciel qui configure et arrête le plan de données. La séparation conceptuelle du plan de données du plan de contrôle se fait depuis des années. Un premier exemple est Unix, où les opérations de base sur les fichiers sont ouvrir, fermer pour le plan de contrôle et lire, écrire pour le plan de données.
Plate-forme de données/Plate-forme de données :
La plate-forme de données peut faire référence à
Politique des données/Politique des données :
La politique des données englobe les aspects politiques des données, y compris des sujets allant de l'activisme des données, des données ouvertes et du gouvernement ouvert. La manière dont les données sont collectées, consultées et ce que nous en faisons a changé dans la société contemporaine en raison d'un certain nombre de facteurs liés aux questions politiques. Un problème qui découle des données politiques est souvent la façon dont les gens sont déconnectés de leurs propres données, ayant rarement accès aux données qu'ils produisent. Les grandes plateformes comme Google ont une position "mieux vaut demander pardon que permission" sur la collecte de données à laquelle la grande population est largement ignorante, ce qui conduit à des mouvements au sein de l'activisme des données.
Portabilité des données/Portabilité des données :
La portabilité des données est un concept visant à protéger les utilisateurs contre le stockage de leurs données dans des "silos" ou des "jardins clos" incompatibles entre eux, c'est-à-dire des plates-formes fermées, les soumettant ainsi au verrouillage du fournisseur et rendant la création de sauvegardes de données ou le déplacement comptes entre services difficiles. La portabilité des données nécessite des normes techniques communes pour faciliter le transfert d'un contrôleur de données à un autre, telles que la possibilité d'exporter des données utilisateur dans un fichier local accessible par l'utilisateur, favorisant ainsi l'interopérabilité, ainsi que de faciliter la recherche avec des outils sophistiqués tels que grep.Data la portabilité s'applique aux données personnelles. Cela implique l'accès aux données personnelles sans impliquer la propriété des données en soi.
Mesure_position_données/Mesure de la position des données :
La mesure de la position des données (DPM) est un mécanisme de protection contre la copie qui fonctionne en mesurant l'emplacement physique des données sur un disque optique. Les CD estampillés sont des clones parfaits et contiennent toujours les données à l'emplacement prévu, tandis qu'une copie gravée présenterait des différences physiques. DPM détecte ces différences pour identifier les copies créées par l'utilisateur. DPM a été utilisé publiquement pour la première fois en 1996 par les CD-Cops de Link Data Security. Il a été utilisé en volume sur Lademans Leksikon publié par Egmont en novembre 1996.
Pré-traitement des données/Pré-traitement des données :
Le prétraitement des données peut faire référence à la manipulation ou à la suppression de données avant qu'elles ne soient utilisées afin d'assurer ou d'améliorer les performances, et constitue une étape importante dans le processus d'exploration de données. L'expression "garbage in, garbage out" s'applique particulièrement aux projets d'exploration de données et d'apprentissage automatique. Les méthodes de collecte de données sont souvent mal contrôlées, ce qui entraîne des valeurs hors plage (par exemple, Revenu : −100), des combinaisons de données impossibles (par exemple, Sexe : Masculin, Enceinte : Oui) et des valeurs manquantes, etc. n'a pas été soigneusement examiné pour de tels problèmes peut produire des résultats trompeurs. Ainsi, la représentation et la qualité des données sont primordiales avant toute analyse. Souvent, le prétraitement des données est la phase la plus importante d'un projet d'apprentissage automatique, en particulier en biologie computationnelle. S'il y a beaucoup d'informations non pertinentes et redondantes présentes ou des données bruyantes et peu fiables, la découverte des connaissances pendant la phase de formation est plus difficile. Les étapes de préparation et de filtrage des données peuvent prendre un temps de traitement considérable. Des exemples de prétraitement des données incluent le nettoyage, la sélection d'instance, la normalisation, un codage à chaud, la transformation, l'extraction et la sélection de caractéristiques, etc. Le produit du prétraitement des données est l'ensemble d'apprentissage final. Le prétraitement des données peut affecter la manière dont les résultats du traitement final des données peuvent être interprétés. Cet aspect doit être considéré avec attention lorsque l'interprétation des résultats est un point clé, comme dans le traitement multivarié des données chimiques (chimiométrie).
Préparation des données/Préparation des données :
La préparation des données est l'acte de manipuler (ou de pré-traiter) des données brutes (qui peuvent provenir de sources de données disparates) sous une forme qui peut être analysée facilement et avec précision, par exemple à des fins commerciales. La préparation des données est la première étape des projets d'analyse de données et peut inclure de nombreuses tâches discrètes telles que le chargement de données ou l'ingestion de données, la fusion de données, le nettoyage de données, l'augmentation de données et la livraison de données. Les problèmes à traiter se répartissent en deux catégories principales : les erreurs systématiques impliquant un grand nombre d'enregistrements de données, probablement parce ils proviennent de différentes sources; erreurs individuelles affectant un petit nombre d'enregistrements de données, probablement dues à des erreurs dans la saisie des données d'origine.
Conservation des données/Conservation des données :
La préservation des données est l'acte de conserver et de maintenir à la fois la sécurité et l'intégrité des données. La préservation se fait par le biais d'activités formelles régies par des politiques, des réglementations et des stratégies visant à protéger et à prolonger l'existence et l'authenticité des données et de leurs métadonnées. Les données peuvent être décrites comme les éléments ou unités dans lesquels les connaissances et les informations sont créées, et les métadonnées sont les sous-ensembles résumant les éléments de données ; ou les données sur les données. L'objectif principal de la préservation des données est de protéger les données contre la perte ou la destruction et de contribuer à la réutilisation et à la progression des données.
Traitement des données/Traitement des données :
Le traitement des données est la collecte et la manipulation de données pour produire des informations significatives. Le traitement des données est une forme de traitement de l'information, qui est la modification (traitement) de l'information de quelque manière détectable par un observateur. Le terme « traitement des données », ou « DP » a également été utilisé pour désigner un service au sein d'une organisation responsable pour le fonctionnement des programmes de traitement de données.
Traitement des données_(homonymie)/Traitement des données (homonymie) :
Le traitement des données est la collecte et la manipulation de données pour produire des informations significatives, en particulier par des ordinateurs. Le traitement des données peut également faire référence à : Automatic Data Processing, une société de services informatiques L'analyse des données, le traitement des données dans le but de mettre en évidence, de tirer des conclusions et d'aider à la prise de décision La saisie des données effectuée par un commis à la saisie des données Le système de traitement des données, un système qui traite les données qui ont été capturées et codées dans un style de format reconnaissable par le système de traitement des données ou qui ont été créées et stockées par une autre unité d'un système de traitement de l'information Traitement électronique des données, l'utilisation de méthodes automatisées pour traiter les données Technologie de l'information et des logiciels, un revue scientifique anciennement publiée sous le nom de Data Processing Traitement de l'information, modification (traitement) de l'information de quelque manière que ce soit détectable par un observateur Équipement d'enregistrement de l'unité, une sorte de machine qui traitait les données avant l'avènement des ordinateurs électroniques
Data processing_inequality/Inégalité de traitement des données :
L'inégalité de traitement des données est un concept théorique de l'information qui stipule que le contenu en information d'un signal ne peut pas être augmenté via une opération physique locale. Cela peut être exprimé de manière concise comme « le post-traitement ne peut pas augmenter l'information ».
Machine_de_traitement_de_données/Machine de traitement de données :
Machine de traitement de données peut faire référence à : Composant ou équipement utilisé dans le cadre d'un système de traitement de données Machine comptable Machine de tabulation Ordinateur, dans certains contextes juridiques
Système_de_traitement_des_données/Système de traitement des données :
Un système de traitement de données est une combinaison de machines, de personnes et de processus qui, pour un ensemble d'entrées, produit un ensemble défini de sorties. Les entrées et les sorties sont interprétées comme des données, des faits, des informations, etc. en fonction de la relation de l'interprète au système. Un terme couramment utilisé comme synonyme de système de traitement de données ou de stockage (codes) est le système d'information. En ce qui concerne plus particulièrement le traitement électronique des données, le concept correspondant est dénommé système de traitement électronique des données. Un système de traitement de données peut impliquer une combinaison de : Conversion convertissant les données en une autre forme ou une autre langue. Validation - S'assurer que les données fournies sont "propres, correctes et utiles". Tri - "organiser les éléments dans une certaine séquence et / ou dans différents ensembles." Résumé - réduction des données détaillées à ses points principaux. Agrégation – combinaison de plusieurs éléments de données. Analyse - la "collecte, l'organisation, l'analyse, l'interprétation et la présentation des données.". Rapports - détail de la liste ou données récapitulatives ou informations calculées. Les premières machines utilisées pour le traitement des données étaient des machines à cartes perforées, maintenant les ordinateurs sont utilisés.
Technicien_informatique/Technicien informatique :
La cote professionnelle de technicien en traitement de données de la marine américaine (en abrégé DP) était une désignation donnée par le Bureau du personnel naval (BUPERS) aux membres enrôlés qui avaient suivi de manière satisfaisante la formation initiale de technicien en traitement de données «A». Cette cote de la marine a pour origine la cote du comptable de la machine (MA) dans un grand nombre de changements de cote de la marine mis en œuvre en 1948. Le nom et la désignation de la cote ont été changés en technicien en traitement de données (DP) en 1967. La marine a supprimé la cote DP le 1er octobre 1997. , combinant les DP qui n'avaient pas auparavant changé les notes en la note radioman (RM). En 1999, la cote (RM) a été renommée technicien des systèmes d'information (TI). La marque de spécialité de notation radioman a été conservée pour être utilisée par les membres de la notation informatique. En 2005, la cote de communication des techniciens en cryptologie (CTO) a fusionné avec la cote informatique. Les techniciens en traitement de données utilisaient du matériel de traitement de données, notamment des perforatrices, des trieuses, des assembleuses, des reproducteurs, des imprimantes à tabulation et des ordinateurs; effectué les tâches administratives pour l'exploitation de l'installation informatique, y compris la gestion de tout le matériel classifié entrant ou sortant d'un système informatique ; concevoir, développer, tester et maintenir des logiciels informatiques.
Unité_de_traitement_des_données/Unité_de_traitement_des_données :
Une unité de traitement de données (DPU) est un contrôleur de canal, un circuit électronique spécialisé programmable avec accélération matérielle du traitement des données pour l'informatique centrée sur les données. Les données sont transmises vers et depuis le composant sous forme de paquets d'informations multiplexés. Un DPU contient généralement un processeur, une carte réseau et des moteurs d'accélération de données programmables. Cela permet aux DPU d'avoir la généralité et la programmabilité des unités centrales de traitement tout en étant spécialisés pour fonctionner efficacement sur les paquets réseau, les requêtes de stockage ou les requêtes d'analyse. Les moteurs d'accélération de données se différencient d'un CPU par un plus grand degré de parallélisme requêtes) et d'un GPU par une architecture MIMD plutôt qu'une architecture SIMD (nécessaire car chaque requête doit prendre des décisions différentes et suivre un chemin différent à travers la puce). Les DPU peuvent être basés sur ASIC, FPGA ou SoC. Les DPU sont de plus en plus utilisés dans les centres de données et les superordinateurs depuis leur introduction dans les années 2010 en raison de l'utilisation croissante de l'informatique centrée sur les données, du big data, de la sécurité et de l'intelligence artificielle/apprentissage automatique/apprentissage profond. Les DPU sont conçues pour être des terminaux d'infrastructure indépendants. : OCTEON et ARMADA Nvidia/Mellanox Technologies : BlueField, ConnectX, les fournisseurs d'InnovaSoftware utilisant des DPU incluent : Cloudflare DDN Palo Alto Networks VAST Data VMware
Profilage des données/Profilage des données :
Le profilage des données est le processus d'examen des données disponibles à partir d'une source d'information existante (par exemple, une base de données ou un fichier) et la collecte de statistiques ou de résumés informatifs sur ces données. Le but de ces statistiques peut être de : Découvrir si les données existantes peuvent être facilement utilisées à d'autres fins Améliorer la capacité de rechercher des données en les étiquetant avec des mots-clés, des descriptions ou en les affectant à une catégorie Évaluer la qualité des données, y compris si les données sont conformes à des normes ou modèles particuliers Évaluer le risque lié à l'intégration de données dans de nouvelles applications, y compris les défis des jointures Découvrir les métadonnées de la base de données source, y compris les modèles de valeur et les distributions, les candidats clés, les candidats clés étrangères et les dépendances fonctionnelles Évaluer si les métadonnées connues décrit les valeurs réelles dans la base de données source Comprendre les défis des données dès le début de tout projet gourmand en données, afin d'éviter les surprises tardives du projet. Trouver des problèmes de données tard dans le projet peut entraîner des retards et des dépassements de coûts. Ayez une vue d'entreprise de toutes les données, pour des utilisations telles que la gestion des données de référence, où des données clés sont nécessaires, ou la gouvernance des données pour améliorer la qualité des données.
Prolifération des données/Prolifération des données :
La prolifération des données fait référence à la quantité prodigieuse de données, structurées et non structurées, que les entreprises et les gouvernements continuent de générer à un rythme sans précédent et aux problèmes d'utilisabilité qui résultent des tentatives de stockage et de gestion de ces données. Alors qu'elle concernait à l'origine des problèmes associés à la documentation papier, la prolifération des données est devenue un problème majeur dans le stockage des données primaires et secondaires sur les ordinateurs. Alors que le stockage numérique est devenu moins cher, les coûts associés, de la puissance brute à la maintenance et des métadonnées aux moteurs de recherche, n'ont pas suivi la prolifération des données. Bien que la puissance requise pour maintenir une unité de données ait diminué, le coût des installations qui abritent le stockage numérique a eu tendance à augmenter. Au niveau le plus simple, les systèmes de messagerie d'entreprise génèrent de grandes quantités de données. On estime que le courrier électronique professionnel, dont certains sont importants pour l'entreprise, d'autres beaucoup moins, connaît une croissance annuelle de 25 à 30 %. Et que cela soit pertinent ou non, la charge sur le système est amplifiée par des pratiques telles que l'adressage multiple et l'attachement de fichiers texte, audio et même vidéo volumineux. La prolifération des données a été documentée comme un problème pour l'armée américaine depuis août 1971, en particulier en ce qui concerne la documentation excessive soumise lors de l'acquisition de systèmes d'armes majeurs. Les efforts visant à atténuer la prolifération des données et les problèmes qui y sont associés se poursuivent.
Protection des données_(vie privée)_lois_en_Russie/Lois sur la protection des données (vie privée) en Russie :
Les lois sur la protection des données (vie privée) en Russie sont une branche en développement rapide de la législation russe qui a été principalement promulguée en 2005 et 2006. La loi fédérale russe sur les données personnelles (n° 152-FZ), mise en œuvre le 27 juillet 2006, constitue l'épine dorsale des lois russes sur la protection de la vie privée et oblige les opérateurs de données à prendre "toutes les mesures organisationnelles et techniques nécessaires pour protéger les données personnelles contre tout accès illégal ou accidentel". L'amendement a été signé le 20 décembre 2020 et est entré en vigueur le 1er mars 2021. L'amendement exige que les "données personnelles rendues publiques" doivent recevoir le consentement de la personne concernée. Le Service fédéral russe de surveillance des communications, des technologies de l'information et des médias de masse est l'agence gouvernementale chargée de superviser la conformité.
Délégué à la protection des données/Délégué à la protection des données :
Un délégué à la protection des données (DPO) s'assure, de manière indépendante, qu'une organisation applique les lois protégeant les données personnelles des individus. La désignation, le poste et les tâches d'un DPO au sein d'une organisation sont décrits dans les articles 37, 38 et 39 du règlement général sur la protection des données (RGPD) de l'Union européenne (UE). De nombreux autres pays exigent la nomination d'un DPD, et cela devient de plus en plus répandu dans la législation sur la protection de la vie privée. Selon le RGPD, le DPO relèvera directement du plus haut niveau de direction. Cela ne signifie pas que le DPD doit être directement géré à ce niveau, mais qu'il doit avoir un accès direct pour donner des conseils aux cadres supérieurs qui prennent des décisions sur le traitement des données personnelles. Les principales responsabilités du DPO consistent à s'assurer que son organisation est consciente et formés à toutes les obligations pertinentes du RGPD. En outre, ils doivent effectuer des audits pour garantir la conformité, résoudre les problèmes potentiels de manière proactive et agir en tant qu'agent de liaison entre son organisation et le public concernant toutes les questions de confidentialité des données. En Allemagne, une loi de 2001 a établi l'exigence d'un DPO dans certaines organisations et incluaient diverses protections autour de la portée et de la durée du rôle, y compris des protections contre le licenciement pour avoir porté des problèmes à l'attention de la direction. Bon nombre de ces concepts ont été intégrés dans la rédaction de l'article 38 du RGPD et ont continué à être intégrés dans d'autres normes de confidentialité.
Publication de données/Publication de données :
La publication de données (également la publication de données) est l'acte de publier des données de recherche sous une forme publiée pour une utilisation par d'autres. Il s'agit d'une pratique consistant à préparer certaines données ou ensemble(s) de données pour un usage public afin de les mettre à la disposition de chacun pour qu'il les utilise comme bon lui semble. Cette pratique fait partie intégrante du mouvement de la science ouverte. Il existe un large consensus multidisciplinaire sur les avantages résultant de cette pratique. L'objectif principal est d'élever les données pour en faire des résultats de recherche de premier ordre. Il existe un certain nombre d'initiatives en cours ainsi que des points de consensus et des questions toujours en litige. Il existe plusieurs façons distinctes de rendre les données de recherche disponibles, notamment : l'éditeur de l'article hébergeant les données sur un site Web accessible au public, avec des fichiers disponibles pour le téléchargement hébergeant les données dans un référentiel qui a été développé pour prendre en charge la publication des données, par exemple figshare, Dryad, Dataverse, Zenodo. Il existe un grand nombre de référentiels de données générales et spécialisées (par exemple par sujet de recherche). Par exemple, le UK Data Service permet aux utilisateurs de déposer des collections de données et de les partager à des fins de recherche. publier un document de données sur l'ensemble de données, qui peut être publié sous forme de préimpression, dans une revue régulière ou dans un journal de données dédié aux documents de données de support. Les données peuvent être hébergées par la revue ou hébergées séparément dans un référentiel de données. La publication de données permet aux chercheurs de mettre leurs données à la disposition d'autres personnes et permet de citer des ensembles de données de la même manière que d'autres types de publications de recherche (tels que des articles ou des livres) , permettant ainsi aux producteurs d'ensembles de données d'obtenir un crédit académique pour leur travail. Les motivations pour publier des données peuvent aller du désir de rendre la recherche plus accessible, de permettre la citabilité des ensembles de données, ou des mandats des bailleurs de fonds ou des éditeurs qui nécessitent la publication de données ouvertes. Le UK Data Service est une organisation clé qui travaille avec d'autres pour souligner l'importance de citer correctement les données et d'aider les chercheurs à le faire. Des solutions pour préserver la confidentialité dans la publication des données ont été proposées, notamment des algorithmes de protection de la confidentialité, des méthodes de «masquage» des données et un algorithme de calcul du niveau de confidentialité régional.
Qualité des données/Qualité des données :
La qualité des données fait référence à l'état des éléments d'information qualitatifs ou quantitatifs. Il existe de nombreuses définitions de la qualité des données, mais les données sont généralement considérées comme de haute qualité si elles sont « adaptées à [leurs] utilisations prévues dans les opérations, la prise de décision et la planification ». De plus, les données sont jugées de haute qualité si elles représentent correctement la construction du monde réel à laquelle elles se réfèrent. De plus, au-delà de ces définitions, à mesure que le nombre de sources de données augmente, la question de la cohérence interne des données devient prépondérante, indépendamment de leur aptitude à être utilisées à des fins externes particulières. Les points de vue des gens sur la qualité des données peuvent souvent être en désaccord, même lorsqu'ils discutent du même ensemble de données utilisé dans le même but. Lorsque tel est le cas, la gouvernance des données est utilisée pour établir des définitions et des normes convenues pour la qualité des données. Dans de tels cas, le nettoyage des données, y compris la normalisation, peut être nécessaire afin d'assurer la qualité des données.
Data quality_firewall/Pare-feu de qualité des données :
Un pare-feu de qualité des données est l'utilisation d'un logiciel pour protéger un système informatique contre l'entrée de données erronées, dupliquées ou de mauvaise qualité. Gartner estime que des données de mauvaise qualité entraînent des défaillances dans jusqu'à 50 % des systèmes de gestion de la relation client. Les technologies plus anciennes nécessitaient l'intégration étroite de logiciels de qualité des données, alors que cela peut maintenant être accompli en couplant de manière lâche la technologie dans une architecture orientée services.
Data query_language/Langage de requête de données :
Data Query Language (DQL) fait partie du groupe de base des sous-langages SQL. Ces sous-langages sont principalement classés en quatre catégories : un langage de requête de données (DQL), un langage de définition de données (DDL), un langage de contrôle de données (DCL) et un langage de manipulation de données (DML). Parfois, on prétend qu'un langage de contrôle des transactions (TCL) fait également partie de l'ensemble de sous-langages. Les instructions DQL sont utilisées pour effectuer des requêtes sur les données dans les objets de schéma. Le but des commandes DQL est d'obtenir la relation de schéma en fonction de la requête qui lui est transmise. Bien que souvent considérée comme faisant partie de DML, l'instruction SQL SELECT est à proprement parler un exemple de DQL. Lors de l'ajout de manipulateurs de données FROM ou WHERE à l'instruction SELECT, l'instruction est alors considérée comme faisant partie du DML.
Débit de données/Débit de données :
Le débit de données et le taux de transfert de données peuvent faire référence à plusieurs concepts liés et qui se chevauchent dans les réseaux de communication :
Réidentification des données/Réidentification des données :
La réidentification ou la désanonymisation des données est la pratique consistant à faire correspondre des données anonymes (également appelées données anonymisées) avec des informations accessibles au public, ou des données auxiliaires, afin de découvrir la personne à laquelle appartiennent les données. Ceci est préoccupant car les entreprises ayant des politiques de confidentialité, les prestataires de soins de santé et les institutions financières peuvent divulguer les données qu'ils collectent après que les données ont été soumises au processus de désidentification. Le processus de désidentification implique le masquage, la généralisation ou la suppression des identifiants directs et indirects ; la définition de ce processus n'est pas universelle. Des informations du domaine public, même apparemment anonymisées, peuvent ainsi être réidentifiées en combinaison avec d'autres données disponibles et des techniques informatiques de base. La protection des sujets humains ("Common Rule#Signatories"), un ensemble de plusieurs agences et départements fédéraux américains, dont le département américain de la Santé et des Services sociaux, spécule que la ré-identification devient progressivement plus facile en raison du "big data" - le l'abondance et la collecte et l'analyse constantes d'informations tout au long de l'évolution des technologies et des progrès des algorithmes. Cependant, d'autres ont affirmé que la désidentification est un outil sûr et efficace de libération des données et ne considèrent pas la réidentification comme une préoccupation. De plus en plus de données deviennent accessibles au public sur Internet. Ces données sont publiées après l'application de certaines techniques d'anonymisation telles que la suppression des informations personnellement identifiables (PII) telles que les noms, adresses et numéros de sécurité sociale pour garantir la confidentialité des sources. Cette garantie de confidentialité permet au gouvernement de partager légalement des ensembles de données limités avec des tiers sans exiger d'autorisation écrite. Ces données se sont avérées très précieuses pour les chercheurs, en particulier dans le domaine des soins de santé. Le risque de ré-identification est considérablement réduit grâce à la pseudonymisation conforme au RGPD qui exige que les données ne puissent pas être attribuées à une personne concernée spécifique sans l'utilisation d'"informations supplémentaires" conservées séparément. Les données pseudonymisées conformes au RGPD incarnent l'état de l'art en matière de protection des données dès la conception et par défaut, car elles nécessitent la protection des identifiants directs et indirects (pas seulement directs). Les principes GDPR de protection des données dès la conception et par défaut, tels qu'incarnés dans la pseudonymisation, exigent la protection des identifiants directs et indirects afin que les données personnelles ne soient pas référencées (ou ré-identifiables) via l'effet mosaïque sans accès aux "informations supplémentaires" qui sont conservées séparément par le contrôleur. Étant donné que l'accès à des "informations supplémentaires" conservées séparément est nécessaire pour la réidentification, l'attribution de données à une personne concernée spécifique peut être limitée par le responsable du traitement à des fins licites uniquement.
Récupération de données/Récupération de données :
En informatique, la récupération de données est un processus de récupération de données supprimées, inaccessibles, perdues, corrompues, endommagées ou formatées à partir d'un stockage secondaire, de supports amovibles ou de fichiers, lorsque les données qui y sont stockées ne sont pas accessibles de manière habituelle. Les données sont le plus souvent récupérées à partir de supports de stockage tels que des disques durs (HDD) internes ou externes, des disques SSD, des clés USB, des bandes magnétiques, des CD, des DVD, des sous-systèmes RAID et d'autres appareils électroniques. Une récupération peut être nécessaire en raison de dommages physiques sur les périphériques de stockage ou de dommages logiques sur le système de fichiers qui l'empêchent d'être monté par le système d'exploitation hôte (OS). La récupération de données peut être un défi très simple ou technique. C'est pourquoi il existe des logiciels spécifiques et des sociétés spécialisées dans ce domaine.
Réduction des données/Réduction des données :
La réduction des données est la transformation d'informations numériques numériques ou alphabétiques dérivées empiriquement ou expérimentalement en une forme corrigée, ordonnée et simplifiée. L'objectif de la réduction des données peut être double : réduire le nombre d'enregistrements de données en éliminant les données non valides ou produire des données récapitulatives et des statistiques à différents niveaux d'agrégation pour diverses applications. Lorsque les informations sont dérivées des relevés d'instruments, il peut également y avoir une transformation de l'analogique à la forme numérique. Lorsque les données sont déjà sous forme numérique, la « réduction » des données implique généralement une édition, une mise à l'échelle, un codage, un tri, un assemblage et la production de résumés tabulaires. Lorsque les observations sont discrètes mais que le phénomène sous-jacent est continu, un lissage et une interpolation sont souvent nécessaires. La réduction des données est souvent entreprise en présence d'erreurs de lecture ou de mesure. Une certaine idée de la nature de ces erreurs est nécessaire avant que la valeur la plus probable puisse être déterminée. Un exemple en astronomie est la réduction des données dans le satellite Kepler. Ce satellite enregistre des images de 95 mégapixels une fois toutes les six secondes, générant des dizaines de mégaoctets de données par seconde, soit des ordres de grandeur de plus que la bande passante descendante de 550 kB/s. La réduction de données embarquée consiste à co-ajouter les images brutes pendant trente minutes, réduisant la bande passante d'un facteur 300. De plus, les cibles intéressantes sont présélectionnées et seuls les pixels pertinents sont traités, soit 6 % du total. Ces données réduites sont ensuite envoyées sur Terre où elles sont traitées ultérieurement. Des recherches ont également été menées sur l'utilisation de la réduction des données dans les appareils portables (sans fil) pour les applications de surveillance et de diagnostic de la santé. Par exemple, dans le contexte du diagnostic de l'épilepsie, la réduction des données a été utilisée pour augmenter la durée de vie de la batterie d'un appareil EEG portable en sélectionnant et en ne transmettant que les données EEG pertinentes pour le diagnostic et en supprimant l'activité de fond.
Redondance des données/redondance des données :
Dans la mémoire principale de l'ordinateur, la mémoire auxiliaire et les bus informatiques, la redondance des données est l'existence de données qui s'ajoutent aux données réelles et permettent de corriger les erreurs dans les données stockées ou transmises. Les données supplémentaires peuvent simplement être une copie complète des données réelles (un type de code de répétition), ou sélectionner uniquement des éléments de données permettant de détecter les erreurs et de reconstruire les données perdues ou endommagées jusqu'à un certain niveau. Par exemple, en incluant des sommes de contrôle de données supplémentaires, la mémoire ECC est capable de détecter et de corriger les erreurs sur un seul bit dans chaque mot de mémoire, tandis que le RAID 1 combine deux disques durs (HDD) en une unité de stockage logique qui permet aux données stockées de survivre à un cycle complet. panne d'un disque. La redondance des données peut également être utilisée comme mesure contre la corruption silencieuse des données ; par exemple, les systèmes de fichiers tels que Btrfs et ZFS utilisent la somme de contrôle des données et des métadonnées en combinaison avec des copies des données stockées pour détecter la corruption silencieuse des données et réparer ses effets.
Refuge de données/Refuge de données :
Data Refuge est un projet public et collaboratif conçu pour répondre aux préoccupations concernant les données climatiques et environnementales fédérales qui risquent d'être perdues. En particulier, l'initiative répond à cinq préoccupations principales : Quels sont les meilleurs moyens de protéger les données ? Comment les agences fédérales jouent-elles un rôle crucial dans la collecte, la gestion et la distribution des données ? Quel est l'impact des priorités gouvernementales sur l'accessibilité des données ? Quels projets et domaines de recherche dépendent des données fédérales ? Quels ensembles de données sont utiles à la recherche et aux communautés locales, et pourquoi ? Data Refuge a commencé comme une organisation de base en opposition au fait que les données gouvernementales sur le changement climatique et l'environnement ne soient pas archivées de manière systématique. L'objectif principal de Data Refuge est de collecter et d'allouer des données dans plusieurs emplacements sûrs afin de créer un moyen durable d'archivage des données anciennes et nouvelles. Data Refuge a été lancé en 2016 pour protéger les données fédérales sur le climat et l'environnement qui sont vulnérables sous une administration qui nie le changement climatique. Le système vise à rendre publiques des copies de qualité scientifique des données fédérales sur le climat et l'environnement. Data Refuge est soutenu par la National Geographic Foundation, des donateurs privés, Libraries+ Network, Preserving Electronic Governance Initiative (PEGI), l'Union of Concerned Scientists (USC) et le Penn Program in Environmental Humanities (PPEH).
Fiabilité des données/Fiabilité des données :
Le terme fiabilité des données peut désigner : La fiabilité (statistiques), la cohérence globale d'une mesure L'intégrité des données, la maintenance et l'assurance de l'exactitude et de la cohérence des données tout au long de leur cycle de vie
Rémanence des données/Rémanence des données :
La rémanence des données est la représentation résiduelle des données numériques qui subsiste même après des tentatives de suppression ou d'effacement des données. Ce résidu peut résulter du fait que les données sont laissées intactes par une opération de suppression de fichier nominale, par le reformatage du support de stockage qui ne supprime pas les données précédemment écrites sur le support, ou par les propriétés physiques du support de stockage qui permettent de récupérer les données précédemment écrites. La rémanence des données peut rendre possible la divulgation par inadvertance d'informations sensibles si le support de stockage est libéré dans un environnement non contrôlé (par exemple, jeté à la poubelle (poubelle) ou perdu). Diverses techniques ont été développées pour contrer la rémanence des données. Ces techniques sont classées comme nettoyage, purge/assainissement ou destruction. Les méthodes spécifiques incluent l'écrasement, la démagnétisation, le cryptage et la destruction des supports. L'application efficace des contre-mesures peut être compliquée par plusieurs facteurs, notamment les supports inaccessibles, les supports qui ne peuvent pas être effacés efficacement, les systèmes de stockage avancés qui conservent l'historique des données tout au long du cycle de vie des données et la persistance des données en mémoire qui sont généralement considérées comme volatiles. Plusieurs normes existent pour la suppression sécurisée des données et l'élimination de la rémanence des données.
Réplication de données/Réplication de données :
.
Rapport de données/Rapport de données :
La communication des données est le processus de collecte et de soumission des données qui donne lieu à des analyses précises des faits sur le terrain ; la communication de données inexactes peut conduire à une prise de décision largement mal informée basée sur des preuves erronées. Différent de l'analyse des données qui transforme les données et les informations en informations, le reporting des données est l'étape précédente qui traduit les données brutes en informations. Lorsque les données ne sont pas déclarées, le problème est connu sous le nom de sous-déclaration; le problème inverse conduit à des faux positifs. La communication de données peut être une entreprise incroyablement difficile. Les bureaux de recensement peuvent embaucher même des centaines de milliers de travailleurs pour accomplir la tâche de compter tous les résidents d'un pays. Les enseignants utilisent les données des évaluations des élèves pour déterminer les notes ; Les fabricants de téléphones portables s'appuient sur les données de vente des détaillants pour indiquer la voie vers quels modèles augmenter la production. La gestion efficace de presque toutes les entreprises repose sur des données précises.
Sauvetage des données/Sauvetage des données :
Le sauvetage des données est un mouvement parmi les scientifiques, les chercheurs et d'autres personnes visant à préserver principalement des ensembles de données hébergés par le gouvernement, souvent de nature scientifique, pour éviter leur suppression des sites Web accessibles au public. Alors que le concept de préservation des données fédérales existait auparavant, il a pris un nouvel élan avec l'élection en 2016 du président américain Donald Trump. Le concept de récolte et de préservation des pages Web fédérales a commencé dès 2008, à la fin du deuxième mandat du président George W. Bush, sous le nom de "Récolte présidentielle de fin de mandat". Peu après l'élection de Trump, des scientifiques, des bibliothécaires et d'autres dans le Les États-Unis et le Canada – craignant que l'administration de Trump (qui avait exprimé des doutes sur la validité du consensus scientifique sur l'existence du changement climatique) n'agissent pour supprimer les données scientifiques des sites Web gouvernementaux – ont commencé à travailler pour préserver ces données. Rapidement, le concept de sauvetage des données est devenu un mouvement populaire, avec des événements de "hackathon" organisés dans des villes des États-Unis et d'ailleurs, souvent hébergés dans des universités et d'autres établissements d'enseignement supérieur.
Conservation des données/Rétention des données :
La conservation des données définit les politiques de gestion persistante des données et des enregistrements pour répondre aux exigences légales et commerciales en matière d'archivage des données. Bien qu'il soit parfois interchangeable, il ne doit pas être confondu avec la loi de 1998 sur la protection des données. Les différentes politiques de conservation des données mettent en balance les préoccupations juridiques et de confidentialité par rapport à l'économie et aux préoccupations liées au besoin de savoir pour déterminer la durée de conservation, les règles d'archivage, les formats de données et le moyens de stockage, d'accès et de cryptage autorisés. Dans le domaine des télécommunications, la conservation des données fait généralement référence au stockage des enregistrements détaillés des appels (CDR) de la téléphonie et du trafic Internet et des données de transaction (IPDR) par les gouvernements et les organisations commerciales. Dans le cas de la conservation des données gouvernementales, les données stockées concernent généralement les appels téléphoniques passés et reçus, les e-mails envoyés et reçus et les sites Web visités. Les données de localisation sont également collectées. L'objectif principal de la conservation des données gouvernementales est l'analyse du trafic et la surveillance de masse. En analysant les données conservées, les gouvernements peuvent identifier les emplacements des individus, les associés d'un individu et les membres d'un groupe tel que les opposants politiques. Ces activités peuvent ou non être légales, selon les constitutions et les lois de chaque pays. Dans de nombreuses juridictions, l'accès à ces bases de données peut être effectué par un gouvernement avec peu ou pas de contrôle judiciaire. Dans le cas de la conservation des données commerciales, les données conservées concerneront généralement les transactions et les sites Web visités. La conservation des données couvre également les données collectées par d'autres moyens (par exemple, par des systèmes de reconnaissance automatique des plaques d'immatriculation) et détenues par des organisations gouvernementales et commerciales.
Récupération de données/Récupération de données :
La récupération de données signifie l'obtention de données à partir d'un système de gestion de base de données (SGBD) tel qu'ODBMS. Dans ce cas, on considère que les données sont représentées de manière structurée, et qu'il n'y a pas d'ambiguïté dans les données. Afin de récupérer les données souhaitées, l'utilisateur présente un ensemble de critères par une requête. Ensuite, le SGBD sélectionne les données demandées dans la base de données. Les données récupérées peuvent être stockées dans un fichier, imprimées ou visualisées à l'écran. Un langage de requête, tel que Structured Query Language (SQL), est utilisé pour préparer les requêtes. SQL est un langage de requête normalisé de l'American National Standards Institute (ANSI) développé spécifiquement pour écrire des requêtes de base de données. Chaque SGBD peut avoir son propre langage, mais le plus relationnel.
Salle de données/Salle de données :
Les salles de données sont des espaces utilisés pour héberger des données, généralement de nature sécurisée ou privilégiée. Il peut s'agir de salles de données physiques, de salles de données virtuelles ou de centres de données. Ils sont utilisés à diverses fins, notamment le stockage de données, l'échange de documents, le partage de fichiers, les transactions financières, les transactions juridiques, etc. Dans les fusions et acquisitions, la data room traditionnelle sera véritablement une salle physiquement sécurisée et surveillée en permanence, normalement dans les bureaux du vendeur (ou ceux de ses avocats), que les offrants et leurs conseils visiteront afin d'inspecter et de rendre compte des différents documents et autres données mis à disposition. Souvent, un seul soumissionnaire à la fois sera autorisé à participer et si de nouveaux documents ou de nouvelles versions de documents sont nécessaires, ceux-ci devront être apportés par courrier sous forme de copie papier. Les équipes impliquées dans les grands processus de diligence raisonnable devront généralement être transportées par avion depuis de nombreuses régions ou pays et rester disponibles tout au long du processus. De telles équipes comprennent souvent un certain nombre d'experts dans différents domaines et, par conséquent, le coût global du maintien de tels groupes sur appel à proximité de la salle de données est souvent extrêmement élevé. La salle de données virtuelle, qui permet la diffusion en ligne sécurisée d'informations confidentielles, permet de lutter contre le coût important des salles de données physiques. Une salle de données virtuelle (VDR) est essentiellement un site Web à accès contrôlé limité (utilisant une connexion sécurisée fournie par le vendeur/l'autorité qui peut être désactivée à tout moment par le vendeur/l'autorité si un soumissionnaire se retire) sur laquelle les soumissionnaires et leurs conseillers y ont accès. Une grande partie des informations diffusées seront confidentielles et des restrictions doivent être appliquées à la capacité des téléspectateurs de les divulguer à des tiers en les transmettant, en les copiant ou en les imprimant. La gestion des droits numériques est parfois appliquée pour contrôler les informations. Avec une croissance annuelle d'environ 16 % au cours des sept dernières années, les prévisions du marché des salles de données virtuelles sont de 1,6 milliard de dollars. Un audit détaillé doit être fourni pour des raisons légales afin qu'un enregistrement soit conservé de qui a vu quelle version de chaque document. Les salles de données sont couramment utilisées par les sociétés juridiques, comptables, de banque d'investissement et de capital-investissement effectuant des fusions et acquisitions, des levées de fonds, des insolvabilités, des restructurations d'entreprises et des coentreprises, y compris la biotechnologie et les processus d'appel d'offres.
Assainissement des données/Assainissement des données :
La désinfection des données implique l'effacement sécurisé et permanent des données sensibles des ensembles de données et des supports pour garantir qu'aucune donnée résiduelle ne peut être récupérée même par une analyse médico-légale approfondie. La désinfection des données a un large éventail d'applications, mais est principalement utilisée pour éliminer les appareils électroniques en fin de vie ou pour le partage et l'utilisation de grands ensembles de données contenant des informations sensibles. Les principales stratégies d'effacement des données personnelles des appareils sont la destruction physique, l'effacement cryptographique et l'effacement des données. Bien que le terme de désinfection des données puisse amener certains à croire qu'il ne comprend que les données sur support électronique, le terme couvre également largement les supports physiques, tels que les copies papier. Ces types de données sont appelés logiciels pour les fichiers électroniques et durs pour les copies papier sur support physique. Des méthodes de désinfection des données sont également appliquées pour le nettoyage des données sensibles, telles que des méthodes basées sur l'heuristique, des méthodes basées sur l'apprentissage automatique et l'anonymat de la source k. Cet effacement est nécessaire car une quantité croissante de données est transférée vers le stockage en ligne, ce qui présente un risque pour la vie privée dans le cas où l'appareil est revendu à une autre personne. L'importance de la désinfection des données a augmenté ces dernières années, car les informations privées sont de plus en plus stockées dans un format électronique et des ensembles de données plus grands et plus complexes sont utilisés pour distribuer des informations privées. Le stockage électronique s'est développé et a permis de stocker davantage de données privées. Par conséquent, des techniques de désinfection des données plus avancées et approfondies sont nécessaires pour garantir qu'aucune donnée ne reste sur l'appareil une fois qu'il n'est plus utilisé. Les outils technologiques qui permettent le transfert de grandes quantités de données permettent également de partager davantage de données privées. Surtout avec la popularité croissante du partage et du stockage d'informations basés sur le cloud, les méthodes de désinfection des données qui garantissent que toutes les données partagées sont nettoyées sont devenues une préoccupation majeure. Par conséquent, il est logique que les gouvernements et le secteur privé créent et appliquent des politiques de désinfection des données pour éviter la perte de données ou d'autres incidents de sécurité.
Science des données/Science des données :
La science des données est un domaine interdisciplinaire qui utilise des méthodes, des processus, des algorithmes et des systèmes scientifiques pour extraire des connaissances et des idées à partir de données bruyantes, structurées et non structurées, et appliquer les connaissances des données dans un large éventail de domaines d'application. La science des données est liée à l'exploration de données, à l'apprentissage automatique et au big data. Il utilise des techniques et des théories tirées de nombreux domaines dans le contexte des mathématiques, des statistiques, de l'informatique, des sciences de l'information et de la connaissance du domaine. Cependant, la science des données est différente de l'informatique et de la science de l'information. Le lauréat du prix Turing, Jim Gray, a imaginé la science des données comme un « quatrième paradigme » de la science (empirique, théorique, computationnelle et maintenant axée sur les données) et a affirmé que « tout ce qui concerne la science change en raison de l'impact des technologies de l'information » et du déluge de données. .Un scientifique des données est une personne qui crée du code de programmation et le combine avec des connaissances statistiques pour créer des informations à partir des données.
Data science_competition_platform/Plateforme de compétition de science des données :
Une plateforme de concours de science des données est utilisée par les entreprises pour héberger des défis de science des données difficiles à résoudre pour un groupe. Historiquement, les défis du crowdsourcing sont connus pour résoudre des problèmes très complexes. Le prix Netflix est l'un de ces concours. Depuis lors, plusieurs plates-formes ont été développées sur l'idée de compétitions de science des données. Des recherches ont été menées sur la manière dont la concurrence peut améliorer les performances de la recherche. Des entreprises comme JP Morgan Chase organisent également des concours internes impliquant un grand nombre d'employés. Des exemples de plates-formes de compétition de science des données incluent Bitgrit, Correlation One, Kaggle, InnoCentive, Microprediction, AIcrowd et Alibaba Tianchi. La plate-forme de concurrence d'Alibaba a été utilisée lors du KDD 2017.
Récupération de données/Récupération de données :
Le scraping de données est une technique dans laquelle un programme informatique extrait des données d'une sortie lisible par l'homme provenant d'un autre programme.
Nettoyage des données/Nettoyage des données :
Le nettoyage des données est une technique de correction d'erreurs qui utilise une tâche en arrière-plan pour inspecter périodiquement la mémoire principale ou le stockage à la recherche d'erreurs, puis corrige les erreurs détectées à l'aide de données redondantes sous la forme de différentes sommes de contrôle ou copies de données. Le nettoyage des données réduit la probabilité que des erreurs corrigibles uniques s'accumulent, ce qui réduit les risques d'erreurs non corrigibles. L'intégrité des données est une préoccupation prioritaire dans l'écriture, la lecture, le stockage, la transmission ou le traitement des données informatiques dans les systèmes d'exploitation informatiques et dans les systèmes de stockage et de transmission de données informatiques. Cependant, seuls quelques-uns des systèmes de fichiers existants et utilisés actuellement offrent une protection suffisante contre la corruption des données. Pour résoudre ce problème, le nettoyage des données fournit des vérifications de routine de toutes les incohérences dans les données et, en général, la prévention des pannes matérielles ou logicielles. Cette fonctionnalité de "nettoyage" se produit couramment dans la mémoire, les baies de disques, les systèmes de fichiers ou les FPGA en tant que mécanisme de détection et de correction des erreurs.
Sécurité des données/Sécurité des données :
La sécurité des données signifie la protection des données numériques, telles que celles d'une base de données, contre les forces destructrices et contre les actions indésirables d'utilisateurs non autorisés, telles qu'une cyberattaque ou une violation de données.
Segment de données/Segment de données :
En informatique, un segment de données (souvent noté .data) est une partie d'un fichier objet ou l'espace d'adressage correspondant d'un programme qui contient des variables statiques initialisées, c'est-à-dire des variables globales et des variables locales statiques. La taille de ce segment est déterminée par la taille des valeurs dans le code source du programme et ne change pas au moment de l'exécution. Le segment de données est en lecture/écriture, car les valeurs des variables peuvent être modifiées au moment de l'exécution. Cela contraste avec le segment de données en lecture seule (segment rodata ou .rodata), qui contient des constantes statiques plutôt que des variables ; il contraste également avec le segment de code, également appelé segment de texte, qui est en lecture seule sur de nombreuses architectures. Les données non initialisées, variables et constantes, se trouvent plutôt dans le segment BSS. Historiquement, pour pouvoir prendre en charge des espaces d'adressage mémoire plus grands que ne le permettrait la taille native du registre d'adresses interne, les premiers processeurs ont mis en œuvre un système de segmentation dans lequel ils stockaient un petit ensemble d'index à utiliser comme décalages vers certaines zones. La famille de processeurs Intel 8086 fournissait quatre segments : le segment de code, le segment de données, le segment de pile et le segment supplémentaire. Chaque segment a été placé à un emplacement spécifique dans la mémoire par le logiciel en cours d'exécution et toutes les instructions qui ont fonctionné sur les données de ces segments ont été exécutées par rapport au début de ce segment. Cela permettait à un registre d'adresses 16 bits, qui serait normalement capable d'accéder à 64 Ko d'espace mémoire, d'accéder à 1 Mo d'espace mémoire. Cette segmentation de l'espace mémoire en blocs discrets avec des tâches spécifiques reportées dans les langages de programmation de l'époque et le concept est encore largement utilisé dans les langages de programmation modernes.
Unité de service de données/Unité de service de données :
Une unité de service de données, parfois appelée unité de service numérique, est un équipement de terminaison de circuit de télécommunications qui transforme les données numériques entre les lignes de la compagnie de téléphone et l'équipement local. L'appareil convertit les signaux numériques bipolaires provenant finalement d'un circuit numérique et directement d'une unité de service de canal (CSU), dans un format (par exemple RS-530) compatible avec l'équipement terminal de données (DTE) (par exemple un routeur) auquel les données sont envoyées. Le DSU exécute également un processus similaire en sens inverse pour les données se dirigeant du DTE vers le circuit. Le service de télécommunications qu'un DSU prend en charge peut être une opération point à point ou multipoint dans un réseau de données numériques.
Ensemble de données/Ensemble de données :
Un ensemble de données (ou ensemble de données) est une collection de données. Dans le cas des données tabulaires, un ensemble de données correspond à une ou plusieurs tables de base de données, où chaque colonne d'une table représente une variable particulière, et chaque ligne correspond à un enregistrement donné de l'ensemble de données en question. L'ensemble de données répertorie des valeurs pour chacune des variables, comme par exemple la taille et le poids d'un objet, pour chaque membre de l'ensemble de données. Les ensembles de données peuvent également consister en une collection de documents ou de fichiers. Dans la discipline des données ouvertes, l'ensemble de données est l'unité permettant de mesurer les informations publiées dans un référentiel public de données ouvertes. Le portail européen data.europa.eu agrège plus d'un million d'ensembles de données. Certains autres problèmes (sources de données en temps réel, ensembles de données non relationnelles, etc.) augmentent la difficulté de parvenir à un consensus à ce sujet.
Ensemble de données_(IBM_mainframe)/Ensemble de données (IBM mainframe) :
Dans le contexte des ordinateurs centraux IBM de la gamme S/360, un ensemble de données (de préférence IBM) ou ensemble de données est un fichier informatique ayant une organisation d'enregistrement. L'utilisation de ce terme a commencé avec, par exemple, DOS/360, OS/360, et est toujours utilisée par leurs successeurs, y compris le z/OS actuel. La documentation de ces systèmes préférait historiquement ce terme plutôt que fichier. Un ensemble de données est généralement stocké sur un périphérique de stockage à accès direct (DASD) ou sur une bande magnétique, mais les périphériques d'enregistrement d'unité, tels que les lecteurs de cartes perforées, les perforatrices de cartes, les imprimantes de lignes et les imprimantes de pages peuvent fournir des entrées/sorties (E/S) pour un ensemble de données (fichier). Les ensembles de données ne sont pas des flux d'octets non structurés, mais sont plutôt organisés en diverses structures d'enregistrement logique et de bloc déterminées par le DSORG (organisation de l'ensemble de données), le RECFM (format d'enregistrement) et d'autres paramètres. Ces paramètres sont spécifiés au moment de l'allocation de l'ensemble de données (création), par exemple avec des instructions DD Job Control Language. Dans un programme en cours d'exécution, ils sont stockés dans le bloc de contrôle des données (DCB) ou le bloc de contrôle d'accès (ACB), qui sont des structures de données utilisées pour accéder aux ensembles de données à l'aide de méthodes d'accès. Les enregistrements d'un ensemble de données peuvent être de longueur fixe, variable ou « indéfinie ».
Ombre de données/ombre de données :
Les ombres de données font référence aux informations qu'une personne laisse involontairement derrière elle en participant à des activités quotidiennes telles que la vérification de ses e-mails, la navigation sur les réseaux sociaux ou même en utilisant sa carte de débit ou de crédit. Les informations générées ont le potentiel de créer un enregistrement très détaillé des parcours quotidiens d'un individu, qui comprend les pensées et les intérêts de l'individu, avec qui il communique, des informations sur les organisations avec lesquelles il travaille ou interagit, etc. Ces informations peuvent être diffusées à une douzaine d'organisations et de serveurs en fonction de leur utilisation. Outre les particuliers, les activités des institutions et des organisations sont également suivies. Les ombres de données sont étroitement liées aux empreintes de données, qui sont définies comme les données laissées par l'individu lui-même à travers diverses activités telles que les activités en ligne, les informations de communication et les transactions. Dans un chapitre du livre Geography and Technology, le chercheur Matthew Zook et ses co-auteurs notent que les ombres de données résultent du fait que les gens deviennent des "individus numériques" et que ces ombres évoluent et changent continuellement. Ils sont utilisés pour modéliser et prédire les opinions politiques et faire des déductions sur les valeurs politiques d'une personne ou sa sensibilité à la publicité.
Partage de données/Partage de données :
Le partage de données est la pratique consistant à mettre les données utilisées pour la recherche scientifique à la disposition d'autres chercheurs. De nombreuses agences de financement, institutions et lieux de publication ont des politiques concernant le partage des données, car la transparence et l'ouverture sont considérées par beaucoup comme faisant partie de la méthode scientifique. Un certain nombre d'agences de financement et de revues scientifiques exigent que les auteurs d'articles évalués par des pairs partagent toute information supplémentaire. (données brutes, méthodes statistiques ou code source) nécessaires pour comprendre, développer ou reproduire des recherches publiées. Une grande partie de la recherche scientifique n'est pas soumise aux exigences de partage des données, et bon nombre de ces politiques comportent des exceptions libérales. En l'absence de toute exigence contraignante, le partage des données est à la discrétion des scientifiques eux-mêmes. En outre, dans certaines situations, les gouvernements et les institutions interdisent ou limitent sévèrement le partage de données pour protéger les intérêts exclusifs, la sécurité nationale et la confidentialité sujet/patient/victime. Le partage des données peut également être limité pour protéger les institutions et les scientifiques contre l'utilisation des données à des fins politiques. Les données et les méthodes peuvent être demandées à un auteur des années après la publication. Afin d'encourager le partage de données et de prévenir la perte ou la corruption de données, un certain nombre d'organismes de financement et de revues ont établi des politiques sur l'archivage des données. L'accès aux données d'archives publiques est un développement récent dans l'histoire des sciences rendu possible par les progrès technologiques dans les communications et les technologies de l'information. Tirer pleinement parti de la communication rapide moderne peut nécessiter un accord consensuel sur les critères sous-jacents à la reconnaissance mutuelle des contributions respectives. Les modèles reconnus pour améliorer le partage en temps opportun des données pour une réponse plus efficace aux menaces de maladies infectieuses émergentes comprennent le mécanisme de partage de données introduit par l'Initiative GISAID. Malgré les politiques sur le partage et l'archivage des données, la rétention de données se produit toujours. Les auteurs peuvent ne pas archiver les données ou n'archiver qu'une partie des données. Le fait de ne pas archiver les données seules n'est pas une rétention de données. Lorsqu'un chercheur demande des informations supplémentaires, un auteur refuse parfois de les fournir. Lorsque les auteurs retiennent des données comme celle-ci, ils courent le risque de perdre la confiance de la communauté scientifique. Une étude de 2022 a identifié environ 3500 articles de recherche qui contenaient des déclarations selon lesquelles les données étaient disponibles, mais sur demande et en recherchant davantage les données, ont constaté qu'elles n'étaient pas disponibles pour 94% des articles. Le partage de données peut également indiquer le partage d'informations personnelles sur un réseau social. plate-forme médiatique.
Fiche technique/Fiche technique :
Une fiche technique, une fiche technique ou une fiche technique est un document qui résume les performances et autres caractéristiques d'un produit, d'une machine, d'un composant (par exemple, un composant électronique), d'un matériau, d'un sous-système (par exemple, une alimentation électrique) ou d'un logiciel dans suffisamment de détails pour permettre à un acheteur de comprendre ce qu'est le produit et à un ingénieur concepteur de comprendre le rôle du composant dans le système global. En règle générale, une fiche technique est créée par le fabricant et commence par une page d'introduction décrivant le reste du document, suivie de listes de caractéristiques spécifiques, avec des informations supplémentaires sur la connectivité des appareils. Dans les cas où il y a un code source pertinent à inclure, il est généralement joint vers la fin du document ou séparé dans un autre fichier. Les fiches techniques sont créées, stockées et distribuées via des systèmes de gestion des informations produit ou de gestion des données produit. Selon l'objectif spécifique, une fiche technique peut proposer une valeur moyenne, une valeur typique, une plage typique, des tolérances techniques ou une valeur nominale. Le type et la source des données sont généralement indiqués sur la fiche technique. Une fiche technique est généralement utilisée pour la communication commerciale ou technique pour décrire les caractéristiques d'un article ou d'un produit. Il peut être publié par le fabricant pour aider les gens à choisir des produits ou pour aider à utiliser les produits. En revanche, une spécification technique est un ensemble explicite d'exigences à satisfaire par un matériau, un produit ou un service. La fiche technique idéale spécifie les caractéristiques dans une structure formelle, selon une taxonomie stricte, qui permet de traiter l'information par une machine. De telles descriptions lisibles par machine peuvent faciliter la récupération d'informations, l'affichage, la conception, les tests, l'interfaçage, la vérification, la découverte de systèmes et le commerce électronique. Les exemples incluent les fiches techniques Open Icecat, les fiches techniques électroniques des transducteurs pour décrire les caractéristiques des capteurs et les descriptions d'appareils électroniques dans CANopen ou les descriptions dans des langages de balisage, tels que SensorML.
Data signaling_rate/Taux de signalisation des données :
Dans les télécommunications, le débit de signalisation de données (DSR), également connu sous le nom de débit binaire brut, est le débit global auquel les données passent par un point du chemin de transmission d'un système de transmission de données. Le DSR est généralement exprimé en bits par seconde. Le débit de signalisation des données est donné par ∑ je = 1 m log 2 ⁡ n je T je {\displaystyle \sum _{i=1}^{m}{\frac {\log _{2}{n_{i}}} {T_{i}}}} où m est le nombre de canaux parallèles, ni est le nombre de conditions significatives de la modulation dans le ième canal, et Ti est l'intervalle unitaire, exprimé en secondes, pour le ième canaliser. Pour une transmission série dans un seul canal, le DSR se réduit à (1/T)log2n ; avec une modulation à deux conditions, c'est-à-dire n = 2, le DSR est de 1/T, selon la loi de Hartley. Pour une transmission parallèle avec des intervalles unitaires égaux et un nombre égal de conditions significatives sur chaque canal, le DSR est (m/T)log2n ; dans le cas d'une modulation à deux conditions, cela se réduit à m/T. Le DSR peut être exprimé en bauds, auquel cas le facteur log2ni dans la formule de sommation ci-dessus doit être supprimé lors du calcul des bauds. Dans la signalisation binaire synchrone, le DSR en bits par seconde peut être numériquement le même que le taux de modulation exprimé en bauds. Les processeurs de signal, tels que les modems à quatre phases, ne peuvent pas modifier le DSR, mais le taux de modulation dépend du schéma de modulation de ligne, conformément à la Note 4. Par exemple, dans un modem d'émission à 4 phases à 2400 bit/s, le taux de signalisation est de 2400 bit/s côté entrée série, mais le taux de modulation n'est que de 1200 bauds côté sortie 4 phases.
Sonification des données/sonification des données :
La sonification des données est la présentation des données sous forme de son à l'aide de la sonification. C'est l'équivalent auditif de la pratique plus établie de visualisation de données. Le processus habituel de sonification des données consiste à diriger les médias numériques d'un ensemble de données via un synthétiseur logiciel et dans un convertisseur numérique-analogique pour produire un son que les humains peuvent expérimenter. Les applications de la sonification des données comprennent des études d'astronomie sur la création d'étoiles, l'interprétation géoscience. Divers projets décrivent la production de sonifications comme une collaboration entre scientifiques et musiciens. Une cible démographique pour l'utilisation de la sonification des données est la communauté aveugle en raison de l'inaccessibilité des visualisations de données.
Source de données/Source de données :
Une source de données peut faire référence à : Base de données Source de données, un nom spécial pour la connexion établie à une base de données à partir d'un serveur de la plate-forme logicielle Java Fichier informatique Flux de données
Nom_de_la_source_de_données/Nom de la source de données :
En informatique, un nom de source de données (DSN, parfois appelé nom de source de base de données, bien que les "sources de données" puissent comprendre d'autres référentiels en dehors des bases de données) est une chaîne qui a une structure de données associée utilisée pour décrire une connexion à une source de données. Généralement utilisés en relation avec ODBC, les DSN existent également pour JDBC et pour d'autres mécanismes d'accès aux données. Le terme chevauche souvent celui de "chaîne de connexion". La plupart des systèmes ne font pas de distinction entre les DSN ou les chaînes de connexion et le terme peut souvent être utilisé de manière interchangeable. Les attributs DSN peuvent inclure, mais sans s'y limiter : le nom de la source de données l'emplacement de la source de données le nom d'un pilote de base de données qui peut accéder à la source de données un ID utilisateur pour l'accès aux données (si nécessaire) un mot de passe utilisateur pour l'accès aux données (si nécessaire) L'administrateur système d'une machine cliente crée généralement un DSN distinct pour chaque source de données pertinente. La standardisation des DSN offre un niveau d'indirection ; diverses applications (par exemple : Apache/PHP et IIS/ASP) peuvent en profiter pour accéder à des sources de données partagées.
Souveraineté des données/Souveraineté des données :
La souveraineté des données est l'idée que les données sont soumises aux lois et aux structures de gouvernance du pays où elles sont collectées. Le concept de souveraineté des données est étroitement lié à la sécurité des données, au cloud computing, à la souveraineté du réseau et à la souveraineté technologique. Contrairement à la souveraineté technologique, qui est vaguement définie et peut être utilisée comme un terme générique dans l'élaboration des politiques, la souveraineté des données concerne spécifiquement les questions entourant les données elles-mêmes. La souveraineté des données est généralement abordée de deux manières : en relation avec les groupes autochtones et l'autonomie des autochtones par rapport aux États postcoloniaux ou en relation avec le flux de données transnational. Avec l'essor du cloud computing, de nombreux pays ont adopté diverses lois sur le contrôle et le stockage des données, qui reflètent toutes des mesures de souveraineté des données. Plus de 100 pays ont mis en place une sorte de lois sur la souveraineté des données. Avec l'identité auto-souveraine (SSI), les détenteurs d'identité individuels peuvent entièrement créer et contrôler leurs informations d'identification, bien qu'une nation puisse toujours émettre une identité numérique dans ce paradigme.
Intendant des données/intendant des données :
Un intendant des données est un rôle de supervision ou de gouvernance des données au sein d'une organisation et est chargé de garantir la qualité et l'adéquation à l'objectif des actifs de données de l'organisation, y compris les métadonnées de ces actifs de données. Un intendant des données peut partager certaines responsabilités avec un dépositaire des données, telles que la sensibilisation, l'accessibilité, la diffusion, l'utilisation appropriée, la sécurité et la gestion des données. Un intendant des données participerait également au développement et à la mise en œuvre des actifs de données. Un gestionnaire de données peut chercher à améliorer la qualité et l'adéquation à l'usage d'autres actifs de données dont dépend son organisation mais dont il n'est pas responsable. Les gestionnaires de données ont un rôle de spécialiste qui utilise les processus, les politiques, les directives et les responsabilités de gouvernance des données d'une organisation pour administrer l'ensemble des données d'une organisation conformément aux obligations politiques et/ou réglementaires. L'objectif global d'un gestionnaire de données est la qualité des données des actifs de données, des ensembles de données, des enregistrements de données et des éléments de données. Cela comprend la documentation des méta-informations pour les données, telles que les définitions, les règles/gouvernance associées, la manifestation physique et les modèles de données associés (la plupart de ces propriétés étant spécifiques à une relation attribut/concept), l'identification des diverses responsabilités des propriétaires/gardiens, les informations sur les relations relatives à qualité des attributs, aide à la facilitation des données des exigences du projet et à la documentation des règles de capture. Les gestionnaires de données commencent le processus de gestion par l'identification des actifs et des éléments de données qu'ils gèrent, le résultat final étant les normes, les contrôles et la saisie des données. Le responsable travaille en étroite collaboration avec les analystes des normes du glossaire métier (pour les normes), avec les architectes/modélisateurs de données (pour les normes), avec les analystes DQ (pour les contrôles) et avec les membres de l'équipe des opérations (données de bonne qualité entrant selon les règles métier) lors de la saisie des données . Les rôles d'intendance des données sont courants lorsque les organisations tentent d'échanger des données de manière précise et cohérente entre les systèmes informatiques et de réutiliser les ressources liées aux données. La gestion des données de référence fait souvent référence à la nécessité d'une gestion responsable des données pour que sa mise en œuvre réussisse. L'intendance des données doit avoir un objectif précis, adapté à l'objectif ou à l'adéquation.
Stockage de données/Stockage de données :
Le stockage de données est l'enregistrement (stockage) d'informations (données) sur un support de stockage. L'écriture manuscrite, l'enregistrement phonographique, la bande magnétique et les disques optiques sont tous des exemples de supports de stockage. Certains auteurs proposent même que l'ADN soit un mécanisme naturel de stockage de données. L'enregistrement peut être réalisé avec pratiquement n'importe quelle forme d'énergie. Le stockage de données électroniques nécessite une alimentation électrique pour stocker et récupérer des données. Le stockage de données sur un support numérique lisible par machine est parfois appelé données numériques. Le stockage de données informatiques est l'une des fonctions essentielles d'un ordinateur à usage général. Les documents électroniques peuvent être stockés dans beaucoup moins d'espace que les documents papier. Les codes à barres et la reconnaissance de caractères à encre magnétique (MICR) sont deux façons d'enregistrer des données lisibles par machine sur papier.
Balise de stockage de données/Balise de stockage de données :
Une étiquette de stockage de données (DST), également appelée étiquette d'archivage, est une combinaison d'un enregistreur de données et de plusieurs capteurs qui enregistrent des données à des intervalles prédéterminés. Les DST ont généralement une grande taille de mémoire et une longue durée de vie : la plupart sont alimentés par des piles qui permettent à la balise d'enregistrer des positions pendant plusieurs années. Alternativement, certaines balises sont alimentées par l'énergie solaire et permettent au scientifique de définir son propre intervalle ; cela permet ensuite d'enregistrer les données pendant une durée beaucoup plus longue que les balises alimentées uniquement par batterie.
Magasin de données/magasin de données :
Un magasin de données est un référentiel pour stocker et gérer de manière persistante des collections de données qui incluent non seulement des référentiels tels que des bases de données, mais également des types de stockage plus simples tels que des fichiers simples, des e-mails, etc. Une base de données est une série d'octets gérés par une gestion de base de données. système (SGBD). Un fichier est une série d'octets gérés par un système de fichiers. Ainsi, toute base de données ou fichier est une série d'octets qui, une fois stockés, s'appelle un magasin de données. Les systèmes MATLAB et Cloud Storage comme VMware, Firefox OS utilisent le magasin de données comme terme pour résumer les collections de données dans leurs applications respectives.
Flux de données/Flux de données :
Dans la communication orientée connexion, un flux de données est la transmission d'une séquence de signaux cohérents codés numériquement pour transmettre des informations. En règle générale, les symboles transmis sont regroupés en une série de paquets. Le flux de données est devenu omniprésent. Tout ce qui est transmis sur Internet est transmis sous forme de flux de données. L'utilisation d'un téléphone portable pour avoir une conversation transmet le son sous forme de flux de données.
Data stream_clustering/Clustering de flux de données :
En informatique, le regroupement de flux de données est défini comme le regroupement de données qui arrivent en continu telles que des enregistrements téléphoniques, des données multimédias, des transactions financières, etc. Le regroupement de flux de données est généralement étudié comme un algorithme de diffusion en continu et l'objectif est, étant donné une séquence de points, pour construire un bon regroupement du flux, en utilisant une petite quantité de mémoire et de temps.
Data stream_management_system/Système de gestion de flux de données :
Un système de gestion de flux de données ( DSMS ) est un système logiciel informatique permettant de gérer des flux de données continus. Il est similaire à un système de gestion de base de données (SGBD), qui est cependant conçu pour les données statiques dans les bases de données conventionnelles. Un SGBD offre également un traitement flexible des requêtes afin que les informations nécessaires puissent être exprimées à l'aide de requêtes. Cependant, contrairement à un SGBD, un DSMS exécute une requête continue qui n'est pas exécutée une seule fois, mais qui est installée en permanence. Par conséquent, la requête est exécutée en continu jusqu'à ce qu'elle soit explicitement désinstallée. Étant donné que la plupart des DSMS sont pilotés par les données, une requête continue produit de nouveaux résultats tant que de nouvelles données arrivent au système. Ce concept de base est similaire au traitement des événements complexes, de sorte que les deux technologies fusionnent partiellement.
Data stream_mining/Exploration de flux de données :
Data Stream Mining (également connu sous le nom d'apprentissage de flux) est le processus d'extraction de structures de connaissances à partir d'enregistrements de données continus et rapides. Un flux de données est une séquence ordonnée d'instances qui, dans de nombreuses applications d'exploration de flux de données, ne peut être lue qu'une seule fois ou un petit nombre de fois en utilisant des capacités de calcul et de stockage limitées. Dans de nombreuses applications d'exploration de flux de données, l'objectif est de prédire la classe ou valeur des nouvelles instances dans le flux de données étant donné certaines connaissances sur l'appartenance à la classe ou les valeurs des instances précédentes dans le flux de données. Des techniques d'apprentissage automatique peuvent être utilisées pour apprendre cette tâche de prédiction à partir d'exemples étiquetés de manière automatisée. Souvent, les concepts du domaine de l'apprentissage progressif sont appliqués pour faire face aux changements structurels, à l'apprentissage en ligne et aux demandes en temps réel. Dans de nombreuses applications, en particulier fonctionnant dans des environnements non stationnaires, la distribution sous-jacente aux instances ou les règles sous-jacentes à leur étiquetage peuvent changer au fil du temps, c'est-à-dire que l'objectif de la prédiction, la classe à prédire ou la valeur cible à prédire, peut changer heures supplémentaires. Ce problème est appelé dérive conceptuelle. La détection de la dérive de concept est un problème central pour l'exploration de flux de données. D'autres défis qui surviennent lors de l'application de l'apprentissage automatique aux données en continu incluent : les données étiquetées partiellement et retardées, la récupération des dérives de concept et les dépendances temporelles. Des exemples de flux de données incluent le trafic sur le réseau informatique, les conversations téléphoniques, les transactions ATM, les recherches sur le Web et les données de capteur. L'exploration de flux de données peut être considérée comme un sous-domaine de l'exploration de données, de l'apprentissage automatique et de la découverte de connaissances.
Répartition des données/Répartition des données :
Dans le stockage de données informatiques, la segmentation des données est la technique de segmentation de données séquentielles logiques, telles qu'un fichier, de sorte que des segments consécutifs soient stockés sur différents périphériques de stockage physiques. La segmentation est utile lorsqu'un dispositif de traitement demande des données plus rapidement qu'un seul dispositif de stockage ne peut les lui fournir. En répartissant les segments sur plusieurs dispositifs auxquels il est possible d'accéder simultanément, le débit total de données est augmenté. C'est également une méthode utile pour équilibrer la charge d'E/S sur une baie de disques. La segmentation est utilisée sur les lecteurs de disque dans le stockage RAID (redundant array of Independent disks), les contrôleurs d'interface réseau, les baies de disques, différents ordinateurs dans les systèmes de fichiers en cluster et le stockage orienté grille, et la RAM dans certains systèmes.
Data strobe_encoding/Codage stroboscopique des données :
Le codage stroboscopique de données (ou codage D/S) est un schéma de codage pour transmettre des données dans des circuits numériques. Il utilise deux lignes de signal (par exemple des fils dans un câble ou des traces sur une carte de circuit imprimé), Data et Strobe. Ceux-ci ont la propriété que Data ou Strobe change sa valeur logique en un cycle d'horloge, mais jamais les deux. Plus précisément, les données sont transmises telles quelles et le stroboscope change d'état si et seulement si les données restent constantes entre deux bits de données. Cela permet une récupération d'horloge facile avec une bonne tolérance de gigue en effectuant un XOR sur les deux valeurs de ligne de signal. Il existe une manière équivalente de spécifier la relation entre Data et Strobe. Pour les bits de données pairs, Strobe est l'opposé de Data. Pour les bits de données impairs, Strobe est identique à Data. À partir de cette définition, il est plus évident que le XOR de Data et Strobe produira un signal d'horloge. En outre, il spécifie le moyen le plus simple de générer le signal Strobe pour un flux de données donné. Le codage stroboscopique de données est issu de la norme IEEE 1355 et est utilisé sur les lignes de signal dans SpaceWire et le système IEEE 1394 (également connu sous le nom de FireWire 400). Le code Gray est un autre code qui change toujours une valeur logique, mais jamais plus d'une.
Structure de données/Structure de données :
En informatique, une structure de données est un format d'organisation, de gestion et de stockage des données généralement choisi pour un accès efficace aux données. Plus précisément, une structure de données est une collection de valeurs de données, les relations entre elles et les fonctions ou opérations qui peuvent être appliquées aux données, c'est-à-dire qu'il s'agit d'une structure algébrique sur les données.
Structure de données_(homonymie)/Structure de données (homonymie) :
La structure des données peut faire référence à : La structure des données, un moyen de stocker et d'organiser efficacement les données dans un ordinateur La structure des données (blockchain), une méthode par laquelle les données peuvent être stockées de manière vérifiable sur un réseau peer-to-peer décentralisé, où l'efficacité n'est pas l'une des les propriétés obtenues.
Data structure_alignment/alignement de la structure des données :
L'alignement de la structure des données est la manière dont les données sont organisées et accessibles dans la mémoire de l'ordinateur. Il se compose de trois problèmes distincts mais liés : l'alignement des données, le remplissage de la structure de données et le compactage. Le processeur du matériel informatique moderne effectue des lectures et des écritures dans la mémoire plus efficacement lorsque les données sont naturellement alignées, ce qui signifie généralement que l'adresse mémoire des données est un multiple de la taille des données. Par exemple, dans une architecture 32 bits, les données peuvent être alignées si les données sont stockées dans quatre octets consécutifs et que le premier octet se trouve sur une limite de 4 octets. L'alignement des données est l'alignement des éléments selon leur alignement naturel. Pour assurer un alignement naturel, il peut être nécessaire d'insérer un rembourrage entre les éléments de la structure ou après le dernier élément d'une structure. Par exemple, sur une machine 32 bits, une structure de données contenant une valeur 16 bits suivie d'une valeur 32 bits pourrait avoir 16 bits de remplissage entre la valeur 16 bits et la valeur 32 bits pour aligner la valeur 32 bits. valeur sur une limite de 32 bits. Alternativement, on peut emballer la structure, en omettant le rembourrage, ce qui peut conduire à un accès plus lent, mais utilise les trois quarts de la quantité de mémoire. Bien que l'alignement de la structure des données soit un problème fondamental pour tous les ordinateurs modernes, de nombreux langages informatiques et implémentations de langages informatiques gèrent automatiquement l'alignement des données. Fortran, Ada, PL/I, Pascal, certaines implémentations C et C++, D, Rust, C# et le langage d'assemblage permettent un contrôle au moins partiel du remplissage de la structure de données, ce qui peut être utile dans certaines circonstances particulières.
Data structure_diagram/Diagramme de structure de données :
Le diagramme de structure de données (DSD) est un diagramme du modèle de données conceptuel qui documente les entités et leurs relations, ainsi que les contraintes qui s'y rattachent. Les éléments de notation graphique de base des DSD sont des cases qui représentent des entités. Le symbole de la flèche représente les relations. Les diagrammes de structure de données sont particulièrement utiles pour documenter des entités de données complexes.
Synchronisation des données/Synchronisation des données :
la synchronisation est le processus d'établissement de la cohérence entre les données d'une source à un stockage de données cible et vice versa et l'harmonisation continue des données dans le temps. Il est fondamental pour une grande variété d'applications, y compris la synchronisation de fichiers et la synchronisation d'appareils mobiles, par exemple pour les PDA. La synchronisation peut également être utile dans le chiffrement pour synchroniser les serveurs de clés publiques.
Système de données/Système de données :
Le système de données est un terme utilisé pour désigner une collection organisée de symboles et de processus pouvant être utilisés pour opérer sur ces symboles. Toute collection organisée de symboles et d'opérations de manipulation de symboles peut être considérée comme un système de données. Par conséquent, la parole humaine analysée au niveau des phonèmes peut être considérée comme un système de données, tout comme l'artefact inca du khipu et une image stockée sous forme de pixels. Un système de données est défini en termes de modèle de données et ressemble à l'idée d'un système de symboles physiques. Les symboles dans certains systèmes de données peuvent être persistants ou non. Par conséquent, les sons de la parole humaine sont des symboles non persistants car ils se désintègrent rapidement dans l'air. En revanche, les pixels stockés sur un périphérique de stockage périphérique sont des symboles persistants.
Technicien_systèmes_données/Technicien systèmes_données :
La qualification professionnelle de technicien en systèmes de données de la marine américaine (en abrégé DS) était une désignation donnée par le Bureau du personnel naval (BUPERS) aux membres enrôlés qui terminent de manière satisfaisante la formation initiale de technicien en systèmes de données «A». Le principal lieu d'entraînement pour la qualification DS était le Commandement des écoles techniques du système de combat (CSTSC) à Mare Island Vallejo, en Californie. Il a été créé en 1961 et fusionné avec les qualifications de technicien en électronique et de contrôleur de tir le 1er octobre 1998. Les DS sont des techniciens en électronique spécialisés dans les systèmes informatiques de systèmes de données tactiques navals, notamment: ordinateurs numériques, processeurs vidéo, unités de bande, tampons, jeux de clés, numériques -équipements d'affichage, ensembles de terminaux de liaison de données et équipements connexes. Les DS se sont également spécialisés dans la maintenance des systèmes ADP de bord et des équipements périphériques associés, y compris, mais sans s'y limiter, les lecteurs / perforateurs / interprètes de cartes, les lecteurs de bandes magnétiques et de disques et diverses imprimantes. Ils nettoient, entretiennent, lubrifient, calibrent et règlent l'équipement. Les DS exécutent des tests opérationnels, diagnostiquent les problèmes, effectuent des réparations de routine et évaluent les pièces et les unités de système nouvellement installées.
Technologie des données/Technologie des données :
La technologie des données (peut être abrégée en DataTech ou DT) est la technologie liée à des domaines tels que martech ou adtech. Le secteur de la technologie des données comprend des solutions de gestion des données et des produits ou services basés sur des données générées à la fois par des humains et des machines. DataTech est une industrie émergente qui utilise l'intelligence artificielle, l'analyse de Big Data et les algorithmes d'apprentissage automatique pour améliorer les activités commerciales dans divers secteurs, tels que le marketing numérique ou l'analyse commerciale (par exemple, l'analyse prédictive).
Équipement_terminal de données/Équipement terminal de données :
L'équipement terminal de données (DTE) est un instrument final qui convertit les informations de l'utilisateur en signaux ou reconvertit les signaux reçus. Ceux-ci peuvent également être appelés circuits de queue. Un dispositif DTE communique avec l'équipement de terminaison de circuit de données (DCE). La classification DTE/DCE a été introduite par IBM. Un DTE est l'unité fonctionnelle d'une station de données qui sert de source de données ou de puits de données et assure la fonction de commande de communication de données à exécuter conformément au protocole de liaison. Habituellement, le périphérique DTE est le terminal (ou un ordinateur émulant un terminal) et le DCE est un modem ou un autre périphérique appartenant à l'opérateur. L'équipement terminal de données peut être un équipement unique ou un sous-système interconnecté de plusieurs équipements qui exécutent toutes les fonctions requises nécessaires pour permettre aux utilisateurs de communiquer. Un utilisateur interagit avec l'ETTD (par exemple par l'intermédiaire d'une interface homme-machine), ou l'ETTD peut être l'utilisateur.
Vol de données/Vol de données :
Le vol de données est un phénomène croissant principalement causé par les administrateurs système et les employés de bureau ayant accès à des technologies telles que des serveurs de bases de données, des ordinateurs de bureau et une liste croissante d'appareils portables capables de stocker des informations numériques, tels que des clés USB, des iPod et même des appareils numériques. appareils photo. Étant donné que les employés passent souvent beaucoup de temps à développer des contacts, des informations confidentielles et protégées par des droits d'auteur pour l'entreprise pour laquelle ils travaillent, ils peuvent avoir le sentiment qu'ils ont un certain droit sur ces informations et être enclins à en copier et/ou en supprimer une partie lorsqu'ils quittent le l'entreprise ou en abuser alors qu'ils sont encore en activité. Les informations peuvent être vendues et achetées, puis utilisées par des criminels et des organisations criminelles. Alternativement, un employé peut choisir d'abuser délibérément d'un accès fiable à des informations dans le but de dénoncer la mauvaise conduite de l'employeur. Du point de vue de la société, un tel acte de dénonciation peut être considéré comme positif et est protégé par la loi dans certaines situations dans certaines juridictions, comme les États-Unis. Un scénario courant est celui où un commercial fait une copie de la base de données de contacts pour l'utiliser dans son prochain travail. En règle générale, il s'agit d'une violation manifeste de leurs conditions d'emploi. Parmi les actes notables de vol de données, citons ceux de Chelsea Manning et des dénonciateurs autoproclamés Edward Snowden et Hervé Falciani.
Pensée des données/Pensée des données :
La pensée des données est un mot à la mode pour le "modèle mental" générique observé au cours des processus de sélection d'un sujet pour commencer, d'identification de ses parties ou composants, de leur organisation et de leur description d'une manière informative qui correspond à ce qui a motivé et initié l'ensemble du processus. Dans le contexte du développement de nouveaux produits et de l'innovation, la réflexion sur les données peut être décrite comme suit : la réflexion sur les données est un cadre pour explorer, concevoir, développer et valider des solutions axées sur les données et des entreprises axées sur les utilisateurs, les données et l'avenir. La réflexion sur les données combine la science des données et la réflexion sur le design. Par conséquent, cette approche ne se concentre pas uniquement sur les technologies d'analyse de données et la collecte de données, mais également sur la conception de solutions centrées sur l'utilisation à fort potentiel commercial. Le terme a été créé par Mario Faria et Rogerio Panigassi en 2013 alors qu'ils écrivaient un livre sur la science des données, l'analyse des données, la gestion des données et la manière dont les praticiens des données ont pu atteindre leurs objectifs.
Data transfer_object/Objet de transfert de données :
Dans le domaine de la programmation, un objet de transfert de données (DTO) est un objet qui transporte des données entre des processus. La motivation de son utilisation est que la communication entre les processus se fait généralement en recourant à des interfaces distantes (par exemple, des services Web), où chaque appel est une opération coûteuse. Comme la majorité du coût de chaque appel est liée au temps d'aller-retour entre le client et le serveur, une façon de réduire le nombre d'appels est d'utiliser un objet (le DTO) qui agrège les données qui auraient été transférées par plusieurs appels, mais qui est servi par un seul appel. La différence entre les objets de transfert de données et les objets métier ou les objets d'accès aux données est qu'un DTO n'a aucun comportement, sauf pour le stockage, la récupération, la sérialisation et la désérialisation de ses propres données ( mutateurs, accesseurs, analyseurs et sérialiseurs). En d'autres termes, les DTO sont des objets simples qui ne doivent contenir aucune logique métier, mais peuvent contenir des mécanismes de sérialisation et de désérialisation pour transférer des données sur le réseau. Ce modèle est souvent utilisé de manière incorrecte en dehors des interfaces distantes. Cela a déclenché une réponse de son auteur où il réitère que le but même des DTO est de transférer des données dans des appels distants coûteux.
Transformation de données_(informatique)/Transformation de données (informatique) :
En informatique, la transformation des données est le processus de conversion des données d'un format ou d'une structure vers un autre format ou une autre structure. Il s'agit d'un aspect fondamental de la plupart des tâches d'intégration et de gestion des données, telles que la gestion des données, l'entreposage des données, l'intégration des données et l'intégration des applications. La transformation des données peut être simple ou complexe en fonction des modifications requises des données entre les données sources (initiales) et les données cibles (finales). La transformation des données est généralement effectuée via un mélange d'étapes manuelles et automatisées. Les outils et technologies utilisés pour la transformation des données peuvent varier considérablement en fonction du format, de la structure, de la complexité et du volume des données transformées. Une refonte des données de base est une autre forme de transformation de données dans laquelle l'ensemble de la base de données de valeurs de données est transformée ou refondue sans extraire les données de la base de données. Toutes les données d'une base de données bien conçue sont directement ou indirectement liées à un ensemble limité de tables de base de données principales par un réseau de contraintes de clé étrangère. Chaque contrainte de clé étrangère dépend d'un index de base de données unique de la table de base de données parent. Par conséquent, lorsque la table de base de données master appropriée est refondue avec un index unique différent, les données directement et indirectement liées sont également refondues ou reformulées. Les données directement et indirectement liées peuvent également toujours être visualisées sous leur forme d'origine puisque l'index unique d'origine existe toujours avec les données de base. Aussi, la refonte de la base de données doit se faire de manière à ne pas impacter l'architecture logicielle des applications. Lorsque le mappage des données est indirect via un modèle de données de médiation, le processus est également appelé médiation de données.
Transformation de données_(statistiques)/Transformation de données (statistiques) :
En statistique, la transformation de données est l'application d'une fonction mathématique déterministe à chaque point d'un ensemble de données, c'est-à-dire que chaque point de données zi est remplacé par la valeur transformée yi = f(zi), où f est une fonction. Les transformations sont généralement appliquées pour que les données semblent correspondre plus étroitement aux hypothèses d'une procédure d'inférence statistique à appliquer, ou pour améliorer l'interprétabilité ou l'apparence des graphiques. Presque toujours, la fonction utilisée pour transformer les données est inversible et généralement continue. La transformation est généralement appliquée à un ensemble de mesures comparables. Par exemple, si nous travaillons avec des données sur les revenus des personnes dans une certaine unité monétaire, il serait courant de transformer la valeur du revenu de chaque personne par la fonction logarithme.
Circuit_de_transmission_de_données/Circuit de transmission de données :
Dans les télécommunications, un circuit de transmission de données est le support de transmission et l'équipement intermédiaire utilisé pour le transfert de données entre les équipements terminaux de données (DTE). Un circuit de transmission de données comprend tout équipement de conversion de signal requis. Un circuit de transmission de données peut transférer des informations dans (a) une seule direction, (b) l'une ou l'autre direction mais une direction à la fois, ou (c) les deux directions simultanément. Voir duplex (télécommunications).

Aucun commentaire:

Enregistrer un commentaire

E. Wayne Abercrombie

ER_Bills/ER Factures : ER Bills (né en 1967) est un auteur et journaliste américain. ER_Braithwaite/ER Braithwaite : Eustace Edward Ri...