Rechercher dans ce blog

mercredi 24 août 2022

Data types in Perl


Tampon de données/Tampon de données :
En informatique, un tampon de données (ou simplement un tampon) est une région d'une mémoire utilisée pour stocker temporairement des données pendant qu'elles sont déplacées d'un endroit à un autre. En règle générale, les données sont stockées dans une mémoire tampon lorsqu'elles sont extraites d'un périphérique d'entrée (tel qu'un microphone) ou juste avant d'être envoyées à un périphérique de sortie (tel que des haut-parleurs). Cependant, un tampon peut être utilisé lors du déplacement de données entre des processus au sein d'un ordinateur. Ceci est comparable aux tampons dans les télécommunications. Les tampons peuvent être implémentés dans un emplacement de mémoire fixe dans le matériel ou en utilisant un tampon de données virtuel dans le logiciel, pointant vers un emplacement dans la mémoire physique. Dans tous les cas, les données stockées dans un tampon de données sont stockées sur un support de stockage physique. La majorité des tampons sont implémentés dans des logiciels, qui utilisent généralement la RAM plus rapide pour stocker des données temporaires, en raison du temps d'accès beaucoup plus rapide par rapport aux disques durs. Les tampons sont généralement utilisés lorsqu'il existe une différence entre le débit auquel les données sont reçues et le débit auquel elles peuvent être traitées, ou dans le cas où ces débits sont variables, par exemple dans un spouleur d'imprimante ou dans le streaming vidéo en ligne. Dans l'environnement informatique distribué, la mémoire tampon de données est souvent mise en œuvre sous la forme d'une mémoire tampon en rafale qui fournit un service de mise en mémoire tampon distribuée. Un tampon ajuste souvent la synchronisation en implémentant un algorithme de file d'attente (ou FIFO) en mémoire, en écrivant simultanément des données dans la file d'attente à un rythme et en les lisant à un autre rythme.
Data build_tool/Outil de génération de données :
dbt est un outil de ligne de commande open source qui aide les analystes et les ingénieurs à transformer plus efficacement les données de leur entrepôt. Cela a commencé chez RJMetrics en 2016 en tant que solution pour ajouter des capacités de transformation de base à Stitch (acquis par Talend en 2018). Les premières versions de dbt permettaient aux analystes de contribuer au processus de transformation des données en suivant les meilleures pratiques du génie logiciel. Dès le début, dbt était open source. En 2018, l'équipe de dbt Labs (alors appelée Fishtown Analytics) a lancé un produit commercial en plus de dbt Core. En avril 2020, dbt Labs a annoncé sa série A dirigée par Andreessen Horowitz. En novembre, dbt Labs a annoncé sa série B dirigée par Andreessen Horowitz et Sequoia. Et en juin 2021, dbt Labs a relevé sa série C dirigée par Altimeter, Sequoia et Andreessen Horowitz. En février 2022, la société a levé 222 millions de dollars pour sa série D, à une valorisation de 4,2 milliards de dollars
Câble de données/Câble de données :
Un câble de données est tout média qui permet des transmissions en bande de base (binaire 1,0s) d'un émetteur à un récepteur. Exemples : Câbles Ethernet pour réseaux multimédias (Cat5, Cat5e, Cat6, Cat6a) Câbles Token Ring (Cat4) Le câble coaxial est parfois utilisé comme câble de données numériques en bande de base, comme dans l'interface numérique série et le réseau épais et fin. Câble à fibre optique; voir communication par fibre optique Câble série Câble de télécommunication Cat2 ou cordon téléphonique Câble de communication sous-marin Périphériques multimédias Câble USB
Limite de données/Limite de données :
Un plafond de données, souvent appelé à tort plafond de bande passante, est une restriction artificielle imposée au transfert de données sur un réseau. En particulier, il fait référence aux politiques imposées par un fournisseur de services Internet afin de limiter l'utilisation de ses services par les clients ; généralement, le dépassement d'un plafond de données obligerait l'abonné à payer des frais supplémentaires en fonction du dépassement ou non de cette limite. La mise en œuvre d'un plafond de données est parfois appelée politique d'accès équitable, politique d'utilisation équitable ou facturation basée sur l'utilisation par les FAI. Les FAI américains ont affirmé que des plafonds de données sont nécessaires pour fournir un service "équitable" à leurs abonnés respectifs. L'utilisation de plafonds de données a été critiquée pour devenir de plus en plus inutile, car la baisse des coûts d'infrastructure a rendu moins coûteux pour les FAI d'augmenter la capacité de leurs réseaux pour répondre aux demandes de leurs utilisateurs, plutôt que d'imposer des limites arbitraires à l'utilisation. Il a également été affirmé que les plafonds de données sont destinés à aider à protéger les fournisseurs de télévision payante qui peuvent également appartenir à un FAI de la concurrence avec les services de streaming over-the-top. Bien que souvent appelé "plafond de bande passante", ce n'est pas la bande passante réelle (bits par seconde) qui est limitée, mais la quantité totale de données téléchargées par mois.
Capitalisme des données/Capitalisme des données :
Dans l'économie de l'information, le capitalisme des données désigne un genre de capitalisme où les données sont la source de la monétisation et souvent la monnaie et la valeur finale. Une application typique des principes de la valeur des données se trouve dans le capitalisme de surveillance. La méthodologie de traitement de ces données de masse est généralement résumée dans le mot à la mode « big data ». Le concept général de monétisation des données est décrit dans la monétisation des données.
Carte de données/Carte de données :
Une datacard est une carte électronique pour les opérations de données (stockage, transfert, transformation, entrée, sortie).
Centre de données/Centre de données :
Un centre de données (anglais américain) ou un centre de données (anglais britannique) est un bâtiment, un espace dédié au sein d'un bâtiment ou un groupe de bâtiments utilisé pour héberger des systèmes informatiques et des composants associés, tels que des systèmes de télécommunications et de stockage. crucial pour la continuité des activités, il comprend généralement des composants et une infrastructure redondants ou de secours pour l'alimentation électrique, les connexions de communication de données, les contrôles environnementaux (par exemple, la climatisation, l'extinction des incendies) et divers dispositifs de sécurité. Un grand centre de données est une opération à l'échelle industrielle utilisant autant d'électricité qu'une petite ville.
Data center_bridging/Data center bridging :
Le pontage de centre de données (DCB) est un ensemble d'améliorations du protocole de communication de réseau local Ethernet à utiliser dans les environnements de centre de données, en particulier pour une utilisation avec des réseaux de stockage et de clustering.
Efficacité_de_l'infrastructure_du_centre_de_données/Efficacité de l'infrastructure du centre de données :
L'efficacité de l'infrastructure du centre de données (DCIE) est une mesure d'amélioration des performances utilisée pour calculer l'efficacité énergétique d'un centre de données. DCIE est la valeur en pourcentage obtenue en divisant la puissance de l'équipement informatique par la puissance totale de l'installation.
Gestion_du_centre_de_données/Gestion du centre de données :
La gestion du centre de données est l'ensemble des tâches effectuées par les personnes responsables de la gestion du fonctionnement continu d'un centre de données. Cela inclut la gestion des services commerciaux et la planification pour l'avenir. Historiquement, la gestion du centre de données était considérée comme quelque chose d'effectué par les employés, à l'aide d'outils collectivement appelés outils de gestion de l'infrastructure du centre de données (DCIM). Tant pour le fonctionnement en interne que pour l'externalisation, les accords de niveau de service doivent être gérés pour garantir la disponibilité des données. .
Architectures_réseau_centre_de_données/Architectures réseau du centre de données :
Le centre de données est un pool de ressources (de calcul, de stockage, de réseau) interconnectées à l'aide d'un réseau de communication. Le réseau de centre de données (DCN) joue un rôle central dans un centre de données, car il interconnecte toutes les ressources du centre de données. Les DCN doivent être évolutifs et efficaces pour connecter des dizaines voire des centaines de milliers de serveurs afin de gérer les demandes croissantes du Cloud Computing. Les centres de données d'aujourd'hui sont contraints par le réseau d'interconnexion.
Sécurité_du_centre_de_données/Sécurité du centre de données :
La sécurité du centre de données est l'ensemble des politiques, précautions et pratiques adoptées dans un centre de données pour éviter l'accès non autorisé et la manipulation de ses ressources. Le centre de données héberge les applications et les données de l'entreprise, c'est pourquoi il est essentiel de fournir un système de sécurité approprié. Le déni de service (DoS), le vol d'informations confidentielles, l'altération et la perte de données sont quelques-uns des problèmes de sécurité courants qui affectent les environnements de centres de données. Les problèmes de sécurité des données peuvent parfois être préjudiciables à de nombreuses entreprises, il est donc très important de savoir quels sont les problèmes et trouver des solutions utiles pour eux. Le but de la sécurité des données est de protéger les informations numériques contre tout accès non autorisé. Il est également important de noter que la sécurité des données est différente de la confidentialité des données. Il existe de nombreuses situations où la sécurité du centre de données serait menacée, en particulier pour les données basées sur le cloud.
Datacenter_services/Services du centre de données :
Les services de centre de données englobent tous les services et composants ou activités liés aux installations qui prennent en charge la mise en œuvre, la maintenance, l'exploitation et l'amélioration d'un centre de données, qui est un environnement qui fournit le traitement, le stockage, la mise en réseau, la gestion et la distribution des données au sein de une entreprise. En règle générale, les services de centre de données se répartissent en deux catégories : les services fournis à un centre de données ou les services fournis à partir d'un centre de données.
Équipement_de_terminaison_de_circuit_de_données/Équipement de terminaison_de_circuit_de_données :
Un équipement terminal de circuit de données (DCE) est un dispositif qui se trouve entre l'équipement terminal de données (DTE) et un circuit de transmission de données. Il est également appelé équipement de communication(s) de données et équipement de support de données. Habituellement, le périphérique DTE est le terminal (ou l'ordinateur) et le DCE est un modem. Dans une station de données, l'ETCD exécute des fonctions telles que la conversion du signal, le codage et la synchronisation de ligne et peut faire partie de l'ETTD ou de l'équipement intermédiaire. Un équipement d'interface peut être nécessaire pour coupler l'ETTD à un circuit ou canal de transmission et d'un circuit ou canal de transmission à l'ETTD.
Data clarification_form/Formulaire de clarification des données :
Un formulaire de clarification des données (DCF) ou formulaire de requête de données est un questionnaire spécifiquement utilisé dans la recherche clinique. Le DCF est le principal outil de clarification des données du promoteur de l'essai ou de l'organisme de recherche sous contrat (CRO) vers l'investigateur pour clarifier les divergences et demander des éclaircissements à l'investigateur. Le DCF fait partie du processus de validation des données dans un essai clinique.
Classification des données/Classification des données :
La classification des données peut faire référence à : Classification des données (gestion des données) Classification des données (intelligence économique) Classification (apprentissage automatique), classification des données à l'aide d'algorithmes d'apprentissage automatique Affectation d'un niveau de sensibilité aux informations classifiées En informatique, le type de données d'un élément de Les données
Classification des données_(business_intelligence)/Classification des données (intelligence d'affaires) :
En intelligence d'affaires, la classification des données a des liens étroits avec le regroupement des données, mais là où le regroupement des données est descriptif, la classification des données est prédictive. Essentiellement, la classification des données consiste à utiliser des variables avec des valeurs connues pour prédire les valeurs inconnues ou futures d'autres variables. Il peut être utilisé, par exemple, dans le marketing direct, la détection de fraude à l'assurance ou le diagnostic médical. La première étape de la classification des données consiste à regrouper l'ensemble de données utilisé pour la formation par catégorie, afin de créer le nombre de catégories souhaité. Un algorithme, appelé le classificateur, est ensuite utilisé sur les catégories, créant un modèle descriptif pour chacune. Ces modèles peuvent ensuite être utilisés pour catégoriser de nouveaux éléments dans le système de classification créé.
Classification des données_(gestion_des_données)/Classification des données (gestion des données) :
Dans le domaine de la gestion des données, la classification des données dans le cadre du processus de gestion du cycle de vie des informations (ILM) peut être définie comme un outil de catégorisation des données pour permettre/aider les organisations à répondre efficacement aux questions suivantes : Quels types de données sont disponibles ? Où se trouvent certaines données ? Quels niveaux d'accès sont implémentés ? Quel niveau de protection est mis en œuvre et respecte-t-il les réglementations de conformité ? Une fois mis en œuvre, il fournit un pont entre les professionnels de l'informatique et les propriétaires de processus ou d'applications. Le personnel informatique est informé de la valeur des données et la direction (généralement les propriétaires d'applications) comprend mieux dans quelle partie du centre de données doit être investie pour assurer le bon fonctionnement des opérations. Cela peut être particulièrement important dans la gestion des risques, la découverte juridique et la conformité aux réglementations gouvernementales. La classification des données est généralement un processus manuel ; Cependant, il existe de nombreux outils de différents fournisseurs qui peuvent aider à recueillir des informations sur les données. La classification des données doit prendre en compte les éléments suivants : Exigences réglementaires Valeur stratégique ou exclusive Politiques spécifiques à l'organisation Considérations éthiques et de confidentialité Accords contractuels
Nettoyage des données/Nettoyage des données :
Le nettoyage des données ou le nettoyage des données est le processus de détection et de correction (ou de suppression) des enregistrements corrompus ou inexacts d'un jeu d'enregistrements, d'une table ou d'une base de données et fait référence à l'identification de parties incomplètes, incorrectes, inexactes ou non pertinentes des données, puis au remplacement, à la modification, ou supprimer les données sales ou grossières. Le nettoyage des données peut être effectué de manière interactive avec des outils de gestion des données, ou sous forme de traitement par lots via des scripts ou un pare-feu de qualité des données. Après le nettoyage, un ensemble de données doit être cohérent avec d'autres ensembles de données similaires dans le système. Les incohérences détectées ou supprimées peuvent avoir été causées à l'origine par des erreurs de saisie par l'utilisateur, par une corruption dans la transmission ou le stockage, ou par différentes définitions de dictionnaire de données d'entités similaires dans différents magasins. Le nettoyage des données diffère de la validation des données en ce que la validation signifie presque invariablement que les données sont rejetées du système à l'entrée et sont effectuées au moment de l'entrée, plutôt que sur des lots de données. Le processus réel de nettoyage des données peut impliquer la suppression d'erreurs typographiques ou la validation et la correction de valeurs par rapport à une liste connue d'entités. La validation peut être stricte (comme le rejet de toute adresse qui n'a pas de code postal valide) ou avec une correspondance de chaîne approximative ou approximative (comme la correction d'enregistrements qui correspondent partiellement à des enregistrements existants et connus). Certaines solutions de nettoyage des données nettoient les données par recoupement avec un ensemble de données validé. Une pratique courante de nettoyage des données est l'amélioration des données, où les données sont rendues plus complètes en ajoutant des informations connexes. Par exemple, ajouter des adresses avec tous les numéros de téléphone liés à cette adresse. Le nettoyage des données peut également impliquer l'harmonisation (ou la normalisation) des données, qui consiste à rassembler des données de "formats de fichiers, conventions de dénomination et colonnes variés", et à les transformer en un ensemble de données cohérent ; un exemple simple est l'expansion des abréviations ("st, rd, etc." à "street, road, etcetera").
Groupe de données/Groupe de données :
Dans la programmation orientée objet, le "bloc de données" est un nom donné à tout groupe de variables qui sont transmises ensemble (dans un bloc) à travers différentes parties du programme. Un bloc de données, comme d'autres odeurs de code, peut indiquer des problèmes plus profonds avec la conception ou la mise en œuvre du programme. Le groupe de variables qui composent généralement un bloc de données sont souvent étroitement liés ou interdépendants et sont donc souvent utilisés ensemble dans un groupe. Un bloc de données est également connu comme un type spécifique d'odeur de code au niveau de la classe qui peut être le symptôme d'un code source mal écrit.
Cluster de données/cluster de données :
Dans les systèmes de fichiers informatiques, un cluster (parfois également appelé unité d'allocation ou bloc) est une unité d'allocation d'espace disque pour les fichiers et les répertoires. Pour réduire la surcharge de gestion des structures de données sur disque, le système de fichiers n'alloue pas de secteurs de disque individuels par défaut, mais des groupes contigus de secteurs, appelés clusters. Sur un disque qui utilise des secteurs de 512 octets, un cluster de 512 octets contient un secteur, tandis qu'un cluster de 4 kibioctets (Kio) contient huit secteurs. Un cluster est la plus petite quantité logique d'espace disque pouvant être allouée pour contenir un fichier. Stocker de petits fichiers sur un système de fichiers avec de grands clusters gaspillera donc de l'espace disque ; cet espace disque gaspillé est appelé espace libre. Pour les tailles de cluster qui sont petites par rapport à la taille moyenne des fichiers, l'espace perdu par fichier sera statistiquement d'environ la moitié de la taille du cluster ; pour les clusters de grande taille, l'espace perdu deviendra plus important. Cependant, une taille de cluster plus grande réduit les frais généraux et la fragmentation de la comptabilité, ce qui peut améliorer la vitesse de lecture et d'écriture globale. Les tailles de cluster typiques vont de 1 secteur (512 B) à 128 secteurs (64 Kio). Un cluster n'a pas besoin d'être physiquement contigu sur le disque ; il peut s'étendre sur plus d'une piste ou, si l'entrelacement de secteurs est utilisé, peut même être discontinu à l'intérieur d'une piste. Cela ne doit pas être confondu avec la fragmentation, car les secteurs sont toujours logiquement contigus. Un "cluster perdu" se produit lorsqu'un fichier est supprimé de la liste des répertoires, mais la table d'allocation de fichiers (FAT) affiche toujours les clusters alloués au fichier. Le terme cluster a été remplacé par unité d'allocation dans DOS 4.0. Cependant, le terme cluster est encore largement utilisé.
Data codes_for_Switzerland/Data codes for Switzerland :
Ce sont des codes de données pour la Suisse.
Collaboratifs de données/Collaboratifs de données :
Les collaborations de données (parfois appelées « philanthropie de données d'entreprise ») sont une forme de collaboration dans laquelle des participants de différents secteurs - y compris des entreprises privées, des instituts de recherche et des agences gouvernementales - peuvent échanger des données et une expertise en matière de données pour aider à résoudre des problèmes publics.
Collecte de données/Collecte de données :
La collecte de données est le processus de collecte et de mesure des informations sur des variables ciblées dans un système établi, qui permet ensuite de répondre aux questions pertinentes et d'évaluer les résultats. La collecte de données est une composante de la recherche dans tous les domaines d'études, y compris les sciences physiques et sociales, les sciences humaines et les affaires. Bien que les méthodes varient selon la discipline, l'accent mis sur la garantie d'une collecte précise et honnête reste le même. L'objectif de toute collecte de données est de recueillir des preuves de qualité qui permettent à l'analyse de conduire à la formulation de réponses convaincantes et crédibles aux questions qui ont été posées. La collecte et la validation des données consistent en quatre étapes lorsqu'il s'agit d'effectuer un recensement et en sept étapes lorsqu'il s'agit d'un échantillonnage. Quel que soit le domaine d'étude ou la préférence pour la définition des données (quantitatives ou qualitatives), la collecte de données précises est essentielle pour maintenir l'intégrité de la recherche. La sélection d'instruments de collecte de données appropriés (existants, modifiés ou nouvellement développés) et des instructions délimitées pour leur utilisation correcte réduisent la probabilité d'erreurs. Un processus formel de collecte de données est nécessaire car il garantit que les données recueillies sont à la fois définies et exactes. De cette façon, les décisions ultérieures basées sur les arguments incorporés dans les conclusions sont prises à l'aide de données valides. Le processus fournit à la fois une base de référence à partir de laquelle mesurer et, dans certains cas, une indication de ce qu'il faut améliorer. Il existe 5 méthodes courantes de collecte de données : les enquêtes et questionnaires fermés, les enquêtes et questionnaires ouverts, les entretiens individuels, les groupes de discussion et l'observation directe.
Système_de_collecte_de_données/Système de collecte de données :
Le système de collecte de données (DCS) est une application informatique qui facilite le processus de collecte de données, permettant de collecter des informations spécifiques et structurées de manière systématique, permettant ensuite d'effectuer une analyse des données sur les informations. En règle générale, un DCS affiche un formulaire qui accepte les entrées de données d'un utilisateur, puis valide cette entrée avant de valider les données dans un stockage persistant tel qu'une base de données. De nombreux systèmes informatiques implémentent des formulaires de saisie de données, mais les systèmes de collecte de données ont tendance à être plus complexes, avec éventuellement de nombreux formulaires connexes contenant des champs de saisie utilisateur détaillés, des validations de données et des liens de navigation entre les formulaires. Les DCS peuvent être considérés comme une forme spécialisée de système de gestion de contenu (CMS), en particulier lorsqu'ils permettent la publication, l'édition, la modification, la suppression et la maintenance des informations recueillies. Certains CMS à usage général incluent des fonctionnalités de DCS.
Collecteur de données/Collecteur de données :
Dans le système électrique britannique, un collecteur de données (DC) est chargé de déterminer la quantité d'électricité fournie afin que le client puisse être correctement facturé.
Mélange de données / Mélange de données :
Le mélange de données, en informatique, se produit lorsque différents éléments ou types de données sont stockés de telle manière qu'ils deviennent communément accessibles alors qu'ils sont censés rester séparés. Dans le cloud computing, cela peut se produire lorsque différentes données client se trouvent sur le même serveur. Les données mélangées peuvent présenter une vulnérabilité de sécurité. Le mélange de données peut également se produire en raison du mélange de transmission de données à grande vitesse. Dans cette situation, des données d'un niveau de sécurité peuvent être mélangées par inadvertance ou intentionnellement avec des données d'un niveau de sécurité inférieur ou supérieur sur le même portail de transmission. Les véhicules portiques peuvent être filaires, à fibre optique, à micro-ondes ou divers portiques de transmission radiofréquence. Ce mélange peut entraîner des failles de sécurité et devenir une source de problèmes juridiques pour toute entité, société ou individu. Le mélange de données peut également se produire lorsque des ordinateurs personnels et des logiciels personnels sont utilisés à des fins commerciales, de sécurité, gouvernementales, etc. Dans les premiers stades de la formulation des entités, des sociétés à but non lucratif ou à but lucratif, des LLC, des LLP, etc., la création et l'utilisation d'ordinateurs autonomes et de réseaux autonomes, "absolument déconnectés" des individus impliqués, est la plus simple et la plus sûre moyen d'empêcher le mélange de données.
Communication de données/Communication de données :
La transmission et la réception de données ou, plus largement, la communication de données ou les communications numériques sont le transfert et la réception de données sous la forme d'un flux binaire numérique ou d'un signal analogique numérisé sur un canal de communication point à point ou point à multipoint. Des exemples de tels canaux sont les fils de cuivre, les fibres optiques, la communication sans fil utilisant le spectre radio, les supports de stockage et les bus informatiques. Les données sont représentées sous la forme d'un signal électromagnétique, tel qu'une tension électrique, une onde radio, un micro-onde ou un signal infrarouge. La transmission analogique est une méthode de transmission de voix, de données, d'images, de signaux ou d'informations vidéo à l'aide d'un signal continu dont l'amplitude, la phase ou une autre propriété varie proportionnellement à celle d'une variable. Les messages sont soit représentés par une séquence d'impulsions au moyen d'un code de ligne (transmission en bande de base), soit par un ensemble limité de formes d'onde variant en continu (transmission en bande passante), en utilisant une méthode de modulation numérique. La modulation de bande passante et la démodulation correspondante sont réalisées par un équipement modem. Selon la définition la plus courante du signal numérique, les signaux en bande de base et en bande passante représentant des flux binaires sont considérés comme une transmission numérique, tandis qu'une définition alternative ne considère que le signal en bande de base comme numérique et la transmission en bande passante des données numériques comme une forme de transmission numérique-vers-bande. -conversion analogique. Les données transmises peuvent être des messages numériques provenant d'une source de données, par exemple un ordinateur ou un clavier. Il peut également s'agir d'un signal analogique tel qu'un appel téléphonique ou un signal vidéo, numérisé en un flux binaire, par exemple, en utilisant une modulation par impulsions codées ou des schémas de codage de source plus avancés. Ce codage et décodage de la source est réalisé par un équipement codec.
Compactage des données/Compactage des données :
Dans les télécommunications, le compactage des données est la réduction du nombre d'éléments de données, de la bande passante, du coût et du temps de génération, de transmission et de stockage des données sans perte d'informations en éliminant les redondances inutiles, en supprimant la non-pertinence ou en utilisant un codage spécial. Des exemples de méthodes de compactage des données sont l'utilisation de bandes à tolérance fixe, de bandes à tolérance variable, de points clés de pente, de changements d'échantillon, de modèles de courbe, d'ajustement de courbe, de codage à précision variable, d'analyse de fréquence et d'analyse de probabilité. Le simple fait de comprimer des données non compactées dans un espace plus petit, par exemple en augmentant la densité d'emballage en transférant des images d'un papier journal sur un microfilm ou en transférant des données sur des cartes perforées sur une bande magnétique, n'est pas un compactage des données.
Compression de données/Compression de données :
Dans la théorie de l'information, la compression des données, le codage source ou la réduction du débit binaire est le processus de codage des informations en utilisant moins de bits que la représentation d'origine. Toute compression particulière est soit avec ou sans perte. La compression sans perte réduit les bits en identifiant et en éliminant la redondance statistique. Aucune information n'est perdue dans la compression sans perte. La compression avec perte réduit les bits en supprimant les informations inutiles ou moins importantes. En règle générale, un périphérique qui effectue la compression des données est appelé encodeur et celui qui effectue l'inversion du processus (décompression) en tant que décodeur. Le processus de réduction de la taille d'un fichier de données est souvent appelé compression de données. Dans le cadre de la transmission de données, on parle de codage de source ; encodage effectué à la source des données avant qu'elles ne soient stockées ou transmises. Le codage de source ne doit pas être confondu avec le codage de canal, pour la détection et la correction d'erreurs ou le codage de ligne, le moyen de mapper des données sur un signal. La compression est utile car elle réduit les ressources nécessaires pour stocker et transmettre des données. Les ressources de calcul sont consommées dans les processus de compression et de décompression. La compression des données est soumise à un compromis de complexité espace-temps. Par exemple, un schéma de compression pour la vidéo peut nécessiter un matériel coûteux pour que la vidéo soit décompressée suffisamment rapidement pour être visionnée pendant qu'elle est décompressée, et l'option de décompresser la vidéo dans son intégralité avant de la regarder peut être gênante ou nécessiter un stockage supplémentaire. La conception des schémas de compression de données implique des compromis entre divers facteurs, notamment le degré de compression, la quantité de distorsion introduite (lors de l'utilisation de la compression de données avec perte) et les ressources de calcul nécessaires pour compresser et décompresser les données.
Taux de compression_données/Taux de compression des données :
Le taux de compression des données, également appelé puissance de compression, est une mesure de la réduction relative de la taille de la représentation des données produite par un algorithme de compression des données. Il est généralement exprimé comme la division de la taille non compressée par la taille compressée.
Data compression_symmetry/Symétrie de compression des données :
La symétrie et l'asymétrie, dans le contexte de la compression de données, font référence à la relation temporelle entre la compression et la décompression pour un algorithme de compression donné. Si un algorithme prend le même temps pour compresser une archive de données que pour la décompresser, il est considéré comme symétrique. Notez que la compression et la décompression, même pour un algorithme symétrique, peuvent ne pas être parfaitement symétriques dans la pratique, selon les appareils vers et depuis lesquels les données sont copiées, et d'autres facteurs tels que la latence et la fragmentation sur l'appareil. À son tour, si les temps de compression et de décompression d'un algorithme sont très différents, il est considéré comme asymétrique.
Conditionnement des données/Conditionnement des données :
Le conditionnement des données est l'utilisation de techniques de gestion et d'optimisation des données qui se traduisent par le routage intelligent, l'optimisation et la protection des données pour le stockage ou le déplacement des données dans un système informatique. Les fonctionnalités de conditionnement des données permettent aux centres de données d'entreprise et de cloud d'améliorer considérablement l'utilisation du système et d'augmenter les performances des applications en réduisant à la fois les dépenses d'investissement et les coûts d'exploitation. Les technologies de conditionnement des données fournies via une plate-forme de conditionnement des données optimisent les données lorsqu'elles transitent par le chemin d'E/S (entrée/sortie) ou le bus d'E/S d'un ordinateur, le chemin de données entre le complexe de processeur principal et les sous-systèmes de stockage. Les fonctions d'une plate-forme de conditionnement de données résident généralement sur une carte d'extension de contrôleur de stockage insérée dans les emplacements PCI-e d'un serveur. Cela permet une intégration facile de nouvelles fonctionnalités dans un serveur ou un centre de données complet. Les fonctionnalités de conditionnement des données fournies via une plate-forme de conditionnement des données sont conçues pour simplifier l'intégration du système et minimiser les risques de mise en œuvre associés au déploiement de nouvelles technologies en assurant une compatibilité transparente avec tous les principaux serveurs et matériels de stockage, les systèmes d'exploitation et les applications, et en répondant à toutes les exigences commerciales/off- normes du marché (COTS). En fournissant des fonctionnalités d'optimisation via une plate-forme de conditionnement des données, les gestionnaires de centres de données peuvent améliorer l'efficacité du système et réduire les coûts avec un minimum de perturbations et éviter d'avoir à modifier les applications ou les systèmes d'exploitation existants et à tirer parti des systèmes matériels existants.
Conférence de données/Conférence de données :
La conférence de données fait référence à une session de communication entre deux participants ou plus partageant des données informatiques en temps réel. Les dispositifs d'interaction et de présentation tels qu'un écran, un clavier, une souris, une caméra, etc. peuvent être partagés ou être en mesure de contrôler l'autre ordinateur. Il est utilisé pour faire la distinction entre la visioconférence et l'audioconférence. Les données peuvent inclure des écrans, des documents, des graphiques, des dessins et des applications qui peuvent être vus, annotés ou manipulés par les participants.
Cohérence des données/Cohérence des données :
La cohérence des données fait référence à la question de savoir si les mêmes données conservées à différents endroits correspondent ou non.
Data control_language/Langue de contrôle des données :
Un langage de contrôle de données (DCL) est une syntaxe similaire à un langage de programmation informatique utilisé pour contrôler l'accès aux données stockées dans une base de données (autorisation). En particulier, il s'agit d'un composant du langage SQL (Structured Query Language). Le langage de contrôle des données est l'un des groupes logiques des commandes SQL. SQL est le langage standard des systèmes de gestion de bases de données relationnelles. Les instructions SQL sont utilisées pour effectuer des tâches telles que l'insertion de données dans une base de données, la suppression ou la mise à jour de données dans une base de données ou la récupération de données à partir d'une base de données. Bien que les systèmes de base de données utilisent SQL, ils ont également leurs propres extensions propriétaires supplémentaires qui ne sont généralement utilisées que sur leur système. Par exemple, le serveur Microsoft SQL utilise Transact-SQL (T-SQL) qui est une extension de SQL. De même, Oracle utilise PL-SQL qui est leur extension propriétaire pour eux uniquement. Cependant, les commandes SQL standard telles que "Select", "Insert", "Update", "Delete", "Create" et "Drop" peuvent être utilisées pour accomplir presque tout ce que l'on doit faire avec une base de données. Exemples de commandes DCL : GRANT pour autoriser des utilisateurs spécifiés à effectuer des tâches spécifiées. REVOKE pour supprimer l'accessibilité de l'utilisateur à l'objet de la base de données. Les opérations pour lesquelles des privilèges peuvent être accordés ou révoqués à un utilisateur ou à un rôle s'appliquent à la fois au langage de définition de données (DDL) et au langage de manipulation de données (DML), et peuvent inclure CONNECT, SÉLECTIONNER, INSÉRER, METTRE À JOUR, SUPPRIMER, EXÉCUTER et UTILISER.
Conversion de données/Conversion de données :
La conversion de données est la conversion de données informatiques d'un format à un autre. Dans un environnement informatique, les données sont codées de diverses manières. Par exemple, le matériel informatique est construit sur la base de certaines normes, ce qui nécessite que les données contiennent, par exemple, des contrôles de bits de parité. De même, le système d'exploitation repose sur certaines normes de gestion des données et des fichiers. De plus, chaque programme informatique traite les données d'une manière différente. Chaque fois que l'une de ces variables est modifiée, les données doivent être converties d'une manière ou d'une autre avant de pouvoir être utilisées par un autre ordinateur, système d'exploitation ou programme. Même des versions différentes de ces éléments impliquent généralement des structures de données différentes. Par exemple, le changement de bits d'un format à un autre, généralement à des fins d'interopérabilité des applications ou de capacité à utiliser de nouvelles fonctionnalités, n'est qu'une conversion de données. Les conversions de données peuvent être aussi simples que la conversion d'un fichier texte d'un système de codage de caractères à un autre ; ou plus complexes, comme la conversion de formats de fichiers bureautiques, ou la conversion de formats d'images et de formats de fichiers audio. Il existe de nombreuses manières de convertir les données dans l'environnement informatique. Cela peut être transparent, comme dans le cas de la mise à niveau vers une version plus récente d'un programme informatique. Alternativement, la conversion peut nécessiter un traitement à l'aide d'un programme de conversion spécial, ou elle peut impliquer un processus complexe consistant à passer par des étapes intermédiaires, ou impliquer des procédures complexes d'"exportation" et "d'importation", qui peuvent inclure la conversion vers et depuis un onglet -fichier texte délimité ou séparé par des virgules. Dans certains cas, un programme peut reconnaître plusieurs formats de fichiers de données à l'étape d'entrée des données et est alors également capable de stocker les données de sortie dans plusieurs formats différents. Un tel programme peut être utilisé pour convertir un format de fichier. Si le format source ou le format cible n'est pas reconnu, alors parfois un troisième programme peut être disponible qui permet la conversion en un format intermédiaire, qui peut ensuite être reformaté à l'aide du premier programme. Il existe de nombreux scénarios possibles.
Convertisseur de données/Convertisseur de données :
Un convertisseur de données peut faire référence à un convertisseur numérique-analogique ; un convertisseur analogique-numérique ; tout autre appareil utilisé dans la conversion de données.
Corruption de données/Corruption de données :
La corruption des données fait référence aux erreurs dans les données informatiques qui se produisent lors de l'écriture, de la lecture, du stockage, de la transmission ou du traitement, qui introduisent des modifications involontaires des données d'origine. Les systèmes informatiques, de transmission et de stockage utilisent un certain nombre de mesures pour assurer l'intégrité des données de bout en bout ou l'absence d'erreurs. En général, lorsqu'une corruption de données se produit, un fichier contenant ces données produit des résultats inattendus lorsqu'il est accédé par le système ou l'application associée. Les résultats peuvent aller d'une perte mineure de données à un plantage du système. Par exemple, si un fichier de document est corrompu, lorsqu'une personne essaie d'ouvrir ce fichier avec un éditeur de document, elle peut recevoir un message d'erreur, ainsi le fichier peut ne pas être ouvert ou peut s'ouvrir avec certaines des données corrompues (ou dans certains cas , complètement corrompu, laissant le document inintelligible). L'image adjacente est un fichier image corrompu dans lequel la plupart des informations ont été perdues. Certains types de logiciels malveillants peuvent intentionnellement corrompre des fichiers dans le cadre de leurs charges utiles, généralement en les écrasant avec du code inopérant ou inutilisable, tandis qu'un virus non malveillant peut également corrompre involontairement des fichiers lorsqu'il y accède. Si un virus ou un cheval de Troie avec cette méthode de charge utile parvient à modifier des fichiers essentiels au fonctionnement du logiciel du système d'exploitation ou du matériel physique de l'ordinateur, l'ensemble du système peut être rendu inutilisable. Certains programmes peuvent suggérer de réparer le fichier automatiquement (après l'erreur), et certains programmes ne peuvent pas le réparer. Cela dépend du niveau de corruption et de la fonctionnalité intégrée de l'application pour gérer l'erreur. Les causes de la corruption sont diverses.
Cube de données/Cube de données :
Dans les contextes de programmation informatique, un cube de données (ou datacube) est un tableau multidimensionnel ("nD") de valeurs. En règle générale, le terme datacube est appliqué dans des contextes où ces tableaux sont massivement plus grands que la mémoire principale de l'ordinateur hôte ; les exemples incluent des entrepôts de données de plusieurs téraoctets/pétaoctets et des séries chronologiques de données d'image. Le cube de données est utilisé pour représenter des données (parfois appelées faits) selon certaines dimensions d'intérêt. Par exemple, dans le traitement analytique en ligne (OLAP), ces dimensions peuvent être les filiales d'une entreprise, les produits proposés par l'entreprise et le temps ; dans cette configuration, un fait serait un événement de vente où un produit particulier a été vendu dans une filiale particulière à un moment donné. Dans les images satellites, les dimensions des séries temporelles seraient les coordonnées de latitude et de longitude et l'heure ; un fait (parfois appelé mesure) serait un pixel à un espace et un temps donné pris par le satellite (après un traitement qui n'est pas concerné ici). Même s'il s'appelle un cube (et les exemples fournis ci-dessus sont en 3 dimensions par souci de brièveté), un cube de données est généralement un concept multidimensionnel qui peut être unidimensionnel, bidimensionnel, tridimensionnel ou supérieur. -dimensionnel. Dans tous les cas, chaque dimension divise les données en groupes de cellules alors que chaque cellule du cube représente une seule mesure d'intérêt. Parfois, les cubes ne contiennent que quelques valeurs, le reste étant vide, c'est-à-dire indéfini, parfois la plupart ou toutes les coordonnées du cube contiennent une valeur de cellule. Dans le premier cas, ces données sont appelées clairsemées, dans le second cas, elles sont appelées denses, bien qu'il n'y ait pas de délimitation nette entre les deux.
Culture des données/Culture des données :
La culture des données est le principe établi dans le processus de pratique sociale dans les secteurs public et privé qui exige que tous les personnels et décideurs se concentrent sur les informations véhiculées par les données existantes, et prennent des décisions et des changements en fonction de ces résultats au lieu de diriger le développement de l'entreprise sur la base de l'expérience dans le domaine particulier. Ces données peuvent inclure, mais sans s'y limiter : les tendances économiques ou sociales générales sur le marché, le volume des ventes de produits ou même les performances du personnel indiquant leur efficacité et leur productivité. Malgré le domaine des affaires, la culture des données est également appliquée dans le système d'infrastructure sociale, tels que les projets d'urbanisme, pour avoir un impact sur le processus de production de données et les pratiques de données d'utilisation quotidienne, telles que les programmes Smart City.En général, pour construire la culture des données, les ministères et les organisations doivent laisser parler les données et faire confiance au pilotage des statistiques. Pour réussir en tant qu'entité axée sur les données, il faut la participation active de tous les membres du personnel impliqués dans une organisation. Par conséquent, l'accès ouvert aux données est important dans le processus.
Curation des données/ Curation des données :
La conservation des données est l'organisation et l'intégration des données collectées à partir de diverses sources. Cela implique l'annotation, la publication et la présentation des données de manière à ce que la valeur des données soit maintenue dans le temps et que les données restent disponibles pour être réutilisées et conservées. La conservation des données comprend "tous les processus nécessaires à la création, à la maintenance et à la gestion de données fondées sur des principes et contrôlés, ainsi que la capacité d'ajouter de la valeur aux données". En science, la conservation des données peut indiquer le processus d'extraction d'informations importantes à partir de textes scientifiques, tels que des articles de recherche rédigés par des experts, à convertir en un format électronique, tel qu'une entrée d'une base de données biologiques. À l'ère moderne des mégadonnées, la conservation des données est devenue plus importante, en particulier pour les logiciels traitant des systèmes de données complexes et à volume élevé. Le terme est également utilisé dans les occasions historiques et les sciences humaines, où l'augmentation des données culturelles et savantes des projets d'humanités numériques nécessite l'expertise et les pratiques analytiques de la conservation des données. En termes généraux, la curation désigne une gamme d'activités et de processus effectués pour créer, gérer, maintenir et valider un composant. Plus précisément, la conservation des données est la tentative de déterminer quelles informations méritent d'être conservées et pendant combien de temps.
Dépositaire des données/Dépositaire des données :
Dans les groupes de gouvernance des données, les responsabilités en matière de gestion des données sont de plus en plus réparties entre les responsables des processus métier et les services informatiques. Deux titres fonctionnels couramment utilisés pour ces rôles sont gestionnaire de données et dépositaire de données. Les Data Stewards sont généralement responsables du contenu des données, du contexte et des règles métier associées. Les dépositaires de données sont responsables de la garde en toute sécurité, du transport, du stockage des données et de la mise en œuvre des règles commerciales. En termes simples, les Data Stewards sont responsables de ce qui est stocké dans un champ de données, tandis que les dépositaires de données sont responsables de l'environnement technique et de la structure de la base de données. Les titres de poste courants pour les dépositaires de données sont administrateur de base de données (DBA), modélisateur de données et développeur ETL.
Données de_Groove/Données de Groove :
Data de Groove est le sixième album du chanteur autrichien Falco, sorti en mai 1990 - une collaboration avec le producteur Robert Ponger. Il était dédié à l'ère informatique à venir et a culminé au numéro 11 en Autriche. Il est connu pour être son album le plus complexe et le plus intellectuel. A ce jour c'est le seul album épuisé et donc assez rare, surtout au format CD. Cependant, en février 2016, l'album est devenu disponible en téléchargement sous forme numérique sur iTunes, ainsi qu'en flux sur Spotify. En 2022, l'album a refait surface lors de la sortie d'une édition Deluxe, avec toutes les chansons remasterisées et comportant des remixes et des modifications de plusieurs pistes. Deux singles sont sortis : "Data de Groove" et "Charisma Kommando".
Données de_Groove_(chanson)/Données de Groove (chanson) :
" Data de Groove " est une chanson de Falco tirée de son album studio Data de Groove de 1990 . La chanson est également sortie en single, c'était le premier single de l'album.
Déduplication des données/Déduplication des données :
En informatique, la déduplication des données est une technique permettant d'éliminer les copies en double de données répétitives. Une mise en œuvre réussie de la technique peut améliorer l'utilisation du stockage, ce qui peut à son tour réduire les dépenses d'investissement en réduisant la quantité globale de supports de stockage nécessaires pour répondre aux besoins de capacité de stockage. Il peut également être appliqué aux transferts de données réseau pour réduire le nombre d'octets qui doivent être envoyés. Le processus de déduplication nécessite la comparaison de « blocs » de données (également appelés « modèles d'octets ») qui sont des blocs de données uniques et contigus. Ces blocs sont identifiés et stockés au cours d'un processus d'analyse, puis comparés à d'autres blocs de données existantes. Chaque fois qu'une correspondance se produit, le bloc redondant est remplacé par une petite référence qui pointe vers le bloc stocké. Étant donné que le même modèle d'octet peut se produire des dizaines, des centaines ou même des milliers de fois (la fréquence de correspondance dépend de la taille du bloc), la quantité de données qui doit être stockée ou transférée peut être considérablement réduite. stockage d'instance (données), qui remplace plusieurs copies de contenu au niveau du fichier entier par une seule copie partagée. Bien qu'il soit possible de combiner cela avec d'autres formes de compression et de déduplication des données, cela se distingue des nouvelles approches de déduplication des données (qui peuvent fonctionner au niveau du segment ou du sous-bloc). La déduplication est différente des algorithmes de compression de données, tels que LZ77 et LZ78. Alors que les algorithmes de compression identifient les données redondantes dans des fichiers individuels et encodent ces données redondantes plus efficacement, l'intention de la déduplication est d'inspecter de gros volumes de données et d'identifier de grandes sections - telles que des fichiers entiers ou de grandes sections de fichiers - qui sont identiques, et de les remplacer. avec une copie partagée.
Données insuffisantes/Données insuffisantes :
Une espèce dont les données sont insuffisantes (DD) est une espèce qui a été classée par l'Union internationale pour la conservation de la nature (UICN) comme offrant des informations insuffisantes pour effectuer une évaluation appropriée de l'état de conservation. Cela n'indique pas nécessairement que l'espèce n'a pas été étudiée de manière approfondie; mais cela indique que peu ou pas d'informations sont disponibles sur l'abondance et la distribution de l'espèce. L'UICN recommande de veiller à ne pas classer les espèces comme "données insuffisantes" lorsque l'absence d'enregistrements peut indiquer une abondance dangereusement faible : "Si l'aire de répartition d'un taxon est suspectée d'être relativement circonscrite, si une période de temps considérable s'est écoulée depuis le dernier enregistrement du taxon, le statut menacé pourrait bien être justifié » (voir aussi principe de précaution).
Data defined_stockage/Stockage défini par les données :
Le stockage défini par les données (également appelé approche centrée sur les données) est un terme marketing désignant la gestion, la protection et la valorisation des données en unissant les niveaux d'application, d'information et de stockage. Ceci est réalisé grâce à un processus d'unification, où les utilisateurs, les applications et les appareils ont accès à un référentiel de métadonnées capturées qui permet aux organisations d'accéder, d'interroger et de manipuler les composants critiques des données pour les transformer en informations, tout en offrant une solution flexible et évolutive. plate-forme de stockage des données sous-jacentes. La technologie extrait entièrement les données du stockage, permettant un accès totalement transparent aux utilisateurs.
Data definition_language/Langage de définition des données :
Dans le contexte de SQL, la définition de données ou le langage de description de données (DDL) est une syntaxe permettant de créer et de modifier des objets de base de données tels que des tables, des index et des utilisateurs. Les instructions DDL sont similaires à un langage de programmation informatique pour définir des structures de données, en particulier des schémas de base de données. Des exemples courants d'instructions DDL incluent CREATE, ALTER et DROP.
Spécification de la définition de données/Spécification de la définition de données :
En informatique, une spécification de définition de données (DDS) est une ligne directrice pour assurer une définition de données complète et cohérente. Il représente les attributs requis pour quantifier la définition des données. Une spécification de définition de données complète englobe les données d'entreprise, la hiérarchie de la gestion des données, l'application des directives prescrites et les critères pour déterminer la conformité.
Dégradation des données/Dégradation des données :
La dégradation des données est la corruption progressive des données informatiques due à une accumulation de pannes non critiques dans un périphérique de stockage de données. Le phénomène est également connu sous le nom de dégradation des données, de pourriture des données ou de pourriture des bits.
Dépendance des données/Dépendance des données :
Une dépendance de données en informatique est une situation dans laquelle une instruction de programme (instruction) fait référence aux données d'une instruction précédente. Dans la théorie du compilateur, la technique utilisée pour découvrir les dépendances de données entre les déclarations (ou instructions) est appelée analyse de dépendance. Il existe trois types de dépendances : données, nom et contrôle.
Descripteur de données/Descripteur de données :
En informatique, un descripteur de données est une structure contenant des informations décrivant des données. Les descripteurs de données peuvent être utilisés dans les compilateurs, en tant que structure logicielle au moment de l'exécution dans des langages comme Ada ou PL/I, ou en tant que structure matérielle dans certains ordinateurs tels que les grands systèmes de Burroughs. Les descripteurs de données sont généralement utilisés au moment de l'exécution pour transmettre des informations d'argument aux sous-programmes appelés. HP OpenVMS et Multics ont des normes indépendantes du langage à l'échelle du système pour les descripteurs d'arguments. Les descripteurs sont également utilisés pour contenir des informations sur les données qui ne sont entièrement connues qu'au moment de l'exécution, comme un tableau alloué dynamiquement.
Dictionnaire de données/Dictionnaire de données :
Un dictionnaire de données, ou référentiel de métadonnées, tel que défini dans l' IBM Dictionary of Computing , est un « référentiel centralisé d'informations sur les données telles que la signification, les relations avec d'autres données, l'origine, l'utilisation et le format ». Oracle le définit comme une collection de tables avec des métadonnées. Le terme peut avoir l'une des nombreuses significations étroitement liées relatives aux bases de données et aux systèmes de gestion de bases de données (SGBD) : Un document décrivant une base de données ou un ensemble de bases de données Un composant intégral d'un SGBD qui est nécessaire pour déterminer sa structure Un middleware qui étend ou remplace le dictionnaire de données natif d'un SGBD
Diddling de données/Didling de données :
Le diddling de données est un type de cybercriminalité dans lequel les données sont modifiées au fur et à mesure qu'elles sont entrées dans un système informatique, le plus souvent par un commis à la saisie de données ou un virus informatique. Le traitement informatisé des données altérées aboutit à un bénéfice frauduleux. Dans certains cas, les données modifiées sont modifiées après le traitement pour dissimuler l'activité. Les résultats peuvent être énormes. Ils peuvent inclure un ajustement marginal des chiffres financiers à la hausse ou à la baisse, ou cela peut être plus complexe et rendre tout un système inutilisable.
Différence de données/Différenciation de données :
En informatique et en théorie de l'information, la différenciation des données ou la compression différentielle produit une description technique de la différence entre deux ensembles de données - une source et une cible. Formellement, un algorithme de différenciation des données prend comme entrée des données source et des données cible, et produit des données de différence telles que, compte tenu des données source et des données de différence, on peut reconstruire les données cible ("corriger" la source avec la différence pour produire la cible) .
Data diffusion_machine/Data diffusion machine :
La machine de diffusion de données est une architecture de mémoire partagée virtuelle historique où les données sont libres de migrer à travers la machine. Les machines à mémoire partagée sont pratiques pour la programmation mais n'évoluent pas au-delà de dizaines de processeurs. La machine de diffusion de données (DDM) surmonte ce problème en fournissant une abstraction de mémoire virtuelle au-dessus d'une machine à mémoire distribuée. Un DDM apparaît à l'utilisateur comme une machine à mémoire partagée conventionnelle mais est implémenté à l'aide d'une architecture à mémoire distribuée. Les machines à diffusion de données faisaient l'objet de recherches actives à la fin des années 80 et au début des années 90, mais les recherches ont cessé depuis.
Diffusion des données/Diffusion des données :
La diffusion des données est la distribution ou la transmission de données statistiques ou autres aux utilisateurs finaux. Il existe de nombreuses manières pour les organisations de diffuser des données au public, c'est-à-dire sous forme électronique, sur CD-ROM et dans des publications papier telles que des fichiers PDF basés sur des données agrégées. La méthode de diffusion la plus populaire aujourd'hui est celle des systèmes ouverts « non propriétaires » utilisant des protocoles Internet. Les données sont mises à disposition dans des formats ouverts courants. Certaines organisations choisissent de diffuser des données à l'aide de bases de données « propriétaires » afin de protéger leur souveraineté et le droit d'auteur des données. La diffusion de données propriétaires nécessite un logiciel spécifique pour que les utilisateurs finaux puissent visualiser les données. Les données ne s'ouvriront pas dans les formats ouverts courants. Les données sont d'abord converties dans le format de données propriétaire, et un logiciel spécialement conçu est fourni par l'organisation aux utilisateurs.
Domaine de données/Domaine de données :
Dans la gestion des données et l'analyse des bases de données, un domaine de données est la collection de valeurs qu'un élément de données peut contenir. La règle pour déterminer la limite de domaine peut être aussi simple qu'un type de données avec une liste énumérée de valeurs. Par exemple, une table de base de données qui contient des informations sur les personnes, avec un enregistrement par personne, peut avoir une colonne "état matrimonial". Cette colonne peut être déclarée en tant que type de données chaîne et autorisée à avoir l'une des deux valeurs de code connues : "M" pour marié, "S" pour célibataire et NULL pour les enregistrements où l'état matrimonial est inconnu ou non applicable. Le domaine de données pour la colonne d'état matrimonial est : "M", "S". Dans un modèle de données normalisé, le domaine de référence est généralement spécifié dans une table de référence. Suivant l'exemple précédent, une table de référence État civil aurait exactement deux enregistrements, un par valeur autorisée, à l'exception de NULL. Les tables de référence sont formellement liées aux autres tables d'une base de données par l'utilisation de clés étrangères. Des règles de délimitation de domaine moins simples, si elles sont appliquées par une base de données, peuvent être implémentées via une contrainte de vérification ou, dans des cas plus complexes, dans un déclencheur de base de données. Par exemple, une colonne nécessitant des valeurs numériques positives peut avoir une contrainte de vérification déclarant que les valeurs doivent être supérieures à zéro. Cette définition combine les concepts de domaine en tant que domaine sur lequel un contrôle est exercé et l'idée mathématique d'un ensemble de valeurs d'une variable indépendante pour laquelle une fonction est définie, comme dans Domaine d'une fonction.
Dragage de données / Dragage de données :
Le dragage de données (également connu sous le nom de data snooping ou p-hacking) est l'utilisation abusive de l'analyse de données pour trouver des modèles dans les données qui peuvent être présentés comme statistiquement significatifs, augmentant ainsi considérablement et minimisant le risque de faux positifs. Cela se fait en effectuant de nombreux tests statistiques sur les données et en ne signalant que ceux qui reviennent avec des résultats significatifs. , et peut-être pour des groupes de cas ou d'observations qui montrent des différences dans leur moyenne ou dans leur répartition par une autre variable. Les tests conventionnels de signification statistique sont basés sur la probabilité qu'un résultat particulier se produise si le hasard seul était à l'œuvre, et acceptent nécessairement un certain risque de conclusions erronées d'un certain type (rejets erronés de l'hypothèse nulle). Ce niveau de risque est appelé l'importance. Lorsqu'un grand nombre de tests sont effectués, certains produisent de faux résultats de ce type ; par conséquent, 5 % des hypothèses choisies au hasard pourraient être (à tort) signalées comme étant statistiquement significatives au niveau de signification de 5 %, 1 % pourraient être (à tort) signalées comme étant statistiquement significatives au niveau de signification de 1 %, et ainsi de suite, par hasard seul . Lorsque suffisamment d'hypothèses sont testées, il est pratiquement certain que certaines seront signalées comme étant statistiquement significatives (même si cela est trompeur), car presque tous les ensembles de données avec un degré quelconque d'aléatoire sont susceptibles de contenir (par exemple) des corrélations fallacieuses. S'ils ne sont pas prudents, les chercheurs utilisant des techniques d'exploration de données peuvent facilement être induits en erreur par ces résultats. Le dragage de données est un exemple de non-respect du problème des comparaisons multiples. Une forme consiste à comparer des sous-groupes sans alerter le lecteur du nombre total de comparaisons de sous-groupes examinées.
Exploration de données/Exploration de données :
L'exploration des données (également l'exploration vers le bas) fait référence à l'une des diverses opérations et transformations sur des données tabulaires, relationnelles et multidimensionnelles. Le terme est largement utilisé dans divers contextes, mais il est principalement associé à des logiciels spécialisés conçus spécifiquement pour l'analyse de données.
Marketing piloté par les données/Marketing piloté par les données :
Le marketing basé sur les données est un processus utilisé par les spécialistes du marketing pour obtenir des informations et identifier les tendances concernant les consommateurs et leur comportement - ce qu'ils achètent, l'efficacité des publicités et la façon dont ils naviguent. Les solutions modernes s'appuient sur des stratégies de mégadonnées et collectent des informations sur les interactions et les engagements des consommateurs pour générer des prédictions sur les comportements futurs. Ce type d'analyse implique de comprendre les données déjà présentes, les données qui peuvent être acquises et comment organiser, analyser et appliquer ces données pour améliorer les efforts de marketing. L'objectif visé est généralement d'améliorer et de personnaliser l'expérience client. L'étude de marché permet une étude complète des préférences.
Économie des données/Économie des données :
Une économie de données est un écosystème numérique mondial dans lequel les données sont collectées, organisées et échangées par un réseau de fournisseurs dans le but de tirer de la valeur des informations accumulées. Les entrées de données sont collectées par divers acteurs, notamment les moteurs de recherche, les sites Web de médias sociaux, les fournisseurs en ligne, les fournisseurs physiques, les passerelles de paiement, les fournisseurs de logiciels en tant que service (SaaS) et un nombre croissant d'entreprises déployant des appareils connectés sur Internet. Objets (IdO). Les données recueillies sont ensuite transmises à des particuliers ou à des entreprises qui prennent généralement des frais. Aux États-Unis, le Consumer Financial Protection Bureau et d'autres agences ont développé des modèles précoces pour réglementer l'économie des données. : 531–32 Les données collectées et gérées dans l'économie des données doivent être stockées sur des serveurs dédiés. Ces serveurs peuvent être situés sur site pour un accès à partir d'un emplacement physique unique, ou hors site. Les données résideront dans des centres de données et resteront disponibles pour l'accès et l'échange via des applications basées sur Internet, appelées collectivement le cloud. Le stockage et la sécurisation des données collectées représentent une part importante de l'économie des données.
Édition des données/Édition des données :
La vérification des données est définie comme le processus impliquant l'examen et l'ajustement des données d'enquête recueillies. L'édition des données permet de définir des lignes directrices qui réduiront les biais potentiels et garantiront des estimations cohérentes conduisant à une analyse claire de l'ensemble de données en corrigeant les données incohérentes à l'aide des méthodes décrites plus loin dans cet article. L'objectif est de contrôler la qualité des données collectées. L'édition des données peut être effectuée manuellement, avec l'aide d'un ordinateur ou une combinaison des deux.
Efficacité des données/Efficacité des données :
L'efficacité des données fait référence à l'efficacité des nombreux processus qui peuvent être appliqués aux données telles que le stockage, l'accès, le filtrage, le partage, etc., et si les processus conduisent ou non au résultat souhaité dans les limites des ressources. Une définition de gestion de l'efficacité des données serait la mesure de la façon dont le stockage et l'utilisation des données dans une entreprise ou au sein d'un département ou d'un projet - impactent les coûts et les revenus de l'organisation. Au niveau le plus large : DE = avantages attendus de l'application de l'informatique à une tâche donnée / coût d'application de l'informatique Sur le plan technique, dans le développement de matériel informatique, de logiciels et de systèmes, l'efficacité des données peut faire référence à de nombreuses choses telles que le conditionnement de bits sur un support physique1, ou l'utilisation de la zone de la puce sur une plaquette de silicium2, ou l'utilisation des données dans la programmation afin de nécessiter moins de temps et de ressources de calcul3. Des exemples de ces deux catégories d'utilisation pour l'efficacité des données (gestionnaires et techniques) peuvent être trouvés dans les industries de transformation et la recherche et le développement de puces informatiques : 1. Les procédures traditionnelles de gestion de l'eau/des eaux usées comprennent les déplacements vers les stations de pompage, la lecture et l'enregistrement transposition des feuilles de route, et autres opérations manuelles. On peut dire que tout ce processus a une faible efficacité des données4. 2. Dans la conception des puces informatiques DRAM (Dynamic Random Access Memory) d'aujourd'hui, la R&D optimise des paramètres tels que les temps d'accès aux lignes et aux colonnes, l'utilisation de la zone de la puce, la longueur des rafales et la granularité des lignes. Les temps d'entrée/sortie sont mesurés en très petites fractions de seconde. Les dernières versions de ces puces auraient une grande efficacité des données2. Ces deux exemples ci-dessus montrent l'application de différentes technologies de l'information qui traitent les données pour atteindre un résultat défini. Parfois, les processus respectent les contraintes de temps, d'espace et de ressources, et parfois non.
Élément de données/Élément de données :
Dans les métadonnées, le terme élément de données est une unité atomique de données qui a une signification précise ou une sémantique précise. Un élément de données a : Une identification telle qu'un nom d'élément de données Une définition claire d'élément de données Un ou plusieurs termes de représentation Des valeurs énumérées facultatives Un code (métadonnées) Une liste de synonymes d'éléments de données dans d'autres registres de métadonnées Anneau de synonymes L'utilisation des éléments de données peut être découverte par inspection d'applications logicielles ou de fichiers de données d'application par le biais d'un processus manuel ou automatisé de découverte et de compréhension des applications. Une fois les éléments de données découverts, ils peuvent être enregistrés dans un registre de métadonnées. Dans les télécommunications, le terme élément de données comprend les composants suivants : Une unité de données nommée qui, dans certains contextes, est considérée comme indivisible et qui, dans d'autres contextes, peut être constituée d'éléments de données. Un identifiant nommé de chacune des entités et de leurs attributs qui sont représentés dans une base de données. Une unité d'information de base construite sur des structures standard ayant une signification unique et des unités ou des valeurs distinctes. Dans l'archivage électronique, une combinaison de caractères ou d'octets faisant référence à un élément d'information distinct, tel que le nom, l'adresse ou l'âge. Dans les domaines des bases de données et des systèmes de données plus généralement, un élément de données est un concept faisant partie d'un ensemble de données maquette. En tant qu'élément de représentation de données, une collection d'éléments de données forme une structure de données.
Définition_de_l'élément de données/Définition de l'élément de données :
Dans les métadonnées, une définition d'élément de données est une expression ou une phrase lisible par l'homme associée à un élément de données dans un dictionnaire de données qui décrit la signification ou la sémantique d'un élément de données. Les définitions d'éléments de données sont essentielles pour les utilisateurs externes de tout système de données. De bonnes définitions peuvent considérablement faciliter le processus de mappage d'un ensemble de données dans un autre ensemble de données. Il s'agit d'une caractéristique essentielle de l'informatique distribuée et du développement d'agents intelligents. Plusieurs directives doivent être suivies lors de la création de définitions d'éléments de données de haute qualité.
Nom_élément de données/Nom de l'élément de données :
Un nom d'élément de données est un nom donné à un élément de données dans, par exemple, un dictionnaire de données ou un registre de métadonnées. Dans un dictionnaire de données formel, il est souvent nécessaire que deux éléments de données n'aient pas le même nom, pour permettre au nom de l'élément de données de devenir un identifiant, bien que certains dictionnaires de données puissent fournir des moyens de qualifier le nom d'une manière ou d'une autre, par exemple par le système d'application ou tout autre contexte dans lequel il se produit. Dans un dictionnaire de données basé sur une base de données, le nom complet de l'élément de données peut devenir la clé primaire, ou une clé alternative, d'une table d'éléments de données du dictionnaire de données. Le nom de l'élément de données est généralement conforme aux conventions de dénomination du registre de métadonnées ISO/IEC 11179 et comporte au moins trois parties : objet, propriété et terme de représentation. De nombreuses normes exigent l'utilisation de la casse camel supérieure pour différencier les composants d'un nom d'élément de données. C'est la norme utilisée par ebXML, GJXDM et NIEM.
Ambassade de données/Ambassade de données :
Une ambassade de données est une solution traditionnellement mise en œuvre par les États-nations pour assurer la continuité numérique d'un pays, notamment en ce qui concerne les bases de données critiques. Il consiste en un ensemble de serveurs qui stockent les données d'un pays et sont sous la juridiction de ce pays tout en étant situés dans un autre pays.
Encapsulation de données/Encapsulation de données :
L'encapsulation des données, également connue sous le nom de masquage des données, est le mécanisme par lequel les détails d'implémentation d'une classe sont cachés à l'utilisateur. L'utilisateur ne peut effectuer qu'un ensemble restreint d'opérations sur les membres cachés de la classe en exécutant des fonctions spéciales communément appelées méthodes pour empêcher que les attributs des objets soient facilement visualisés et accessibles. L'encapsulation de données peut faire référence à : L'encapsulation de données privées dans des classes dans des langages de programmation orientés objet : voir Encapsulation (programmation orientée objet), masquage d'informations, séparation des préoccupations L'encapsulation de données réseau par une couche inférieure du modèle OSI dans un unité unique où une couche supérieure peut extraire les données pertinentes : voir Encapsulation (mise en réseau)
Ingénierie des données/Ingénierie des données :
L'ingénierie des données fait référence à la construction de systèmes permettant la collecte et l'utilisation des données. Ces données sont généralement utilisées pour permettre une analyse ultérieure et la science des données ; qui implique souvent l'apprentissage automatique. Rendre les données utilisables implique généralement un calcul et un stockage importants, ainsi qu'un traitement et un nettoyage des données.
Saisie de données/Saisie de données :
La saisie de données est le processus de numérisation des données en les saisissant dans un système informatique à des fins d'organisation et de gestion. Il s'agit d'un processus basé sur la personne et "l'une des tâches de base importantes" nécessaires lorsqu'aucune version lisible par machine des informations n'est facilement disponible pour une analyse ou un traitement informatique planifié. Parfois, ce qui est nécessaire est "des informations sur les informations (qui) peut être supérieure à la valeur de l'information elle-même." Cela peut également impliquer de remplir les informations requises qui sont ensuite "saisies" à partir de ce qui a été écrit sur le document de recherche, comme la croissance des éléments disponibles dans une catégorie : 68 Il s'agit d'un niveau d'abstraction plus élevé que sur les données." Les erreurs courantes dans la saisie des données comprennent les erreurs de transposition, les données mal classées, les données en double et les données omises, qui sont similaires aux erreurs de comptabilité.
Saisie de données_(désambiguïsation)/Saisie de données (désambiguïsation) :
La saisie de données peut faire référence à : la saisie de données l'acquisition de données les tâches du préposé à la saisie de données l'utilisation de Keypunch, un appareil permettant de saisir manuellement des données dans des cartes perforées le nom d'un service d'une entreprise ou d'une organisationla saisie de données peut également faire référence à : la saisie (informatique)
Commis à la saisie de données/Commis à la saisie de données :
Un commis à la saisie de données est un membre du personnel employé pour saisir ou mettre à jour des données dans un système informatique. Les données sont souvent saisies dans un ordinateur à partir de documents papier à l'aide d'un clavier. Les claviers utilisés peuvent souvent avoir des touches spéciales et plusieurs couleurs pour faciliter la tâche et accélérer le travail. Une bonne ergonomie au poste de travail est un sujet commun pris en compte. Le commis à la saisie de données peut également utiliser une souris, et un scanner à alimentation manuelle peut être impliqué. La vitesse et la précision, pas nécessairement dans cet ordre, sont les mesures clés du travail.
Analyse de l'enveloppement des données/Analyse de l'enveloppement des données :
L'analyse d'enveloppement des données (DEA) est une méthode non paramétrique en recherche opérationnelle et en économie pour l'estimation des frontières de production.
Effacement des données/Effacement des données :
L'effacement des données (parfois appelé effacement des données, effacement des données ou destruction des données) est une méthode logicielle d'écrasement des données qui vise à détruire complètement toutes les données électroniques résidant sur un disque dur ou un autre support numérique en utilisant des zéros et des uns. pour écraser les données sur tous les secteurs de l'appareil dans un processus irréversible. En écrasant les données sur le périphérique de stockage, les données sont rendues irrécupérables et réalisent la désinfection des données. Idéalement, un logiciel conçu pour l'effacement des données devrait : permettre la sélection d'une norme spécifique, en fonction de besoins uniques, et vérifier que la méthode d'écrasement a réussi et supprimé les données sur l'ensemble de l'appareil. L'effacement permanent des données va au-delà des commandes de suppression de fichiers de base, qui ne supprimez les pointeurs directs vers les secteurs du disque de données et rendez la récupération des données possible avec des outils logiciels courants. Contrairement à la démagnétisation et à la destruction physique, qui rendent le support de stockage inutilisable, l'effacement des données supprime toutes les informations tout en laissant le disque utilisable. Les nouvelles implémentations de supports à base de mémoire flash, telles que les disques SSD ou les clés USB, peuvent entraîner l'échec des techniques d'effacement des données, ce qui permet de récupérer les données restantes. L'écrasement basé sur un logiciel utilise une application logicielle pour écrire un flux de zéros, de uns ou des données pseudo-aléatoires sans signification sur tous les secteurs d'un disque dur. Il existe des différenciateurs clés entre l'effacement des données et d'autres méthodes d'écrasement, qui peuvent laisser les données intactes et augmenter le risque de violation de données, d'usurpation d'identité ou de non-respect de la réglementation. De nombreux programmes d'éradication des données fournissent également plusieurs écrasements afin qu'ils prennent en charge les normes gouvernementales et industrielles reconnues, bien qu'un écrasement en un seul passage soit largement considéré comme suffisant pour les disques durs modernes. Un bon logiciel doit fournir une vérification de la suppression des données, ce qui est nécessaire pour respecter certaines normes. Pour protéger les données sur les supports perdus ou volés, certaines applications d'effacement de données détruisent à distance les données si le mot de passe est mal saisi. Les outils d'effacement de données peuvent également cibler des données spécifiques sur un disque pour un effacement de routine, fournissant une méthode de protection contre le piratage qui prend moins de temps que le chiffrement logiciel. Le chiffrement matériel/micrologiciel intégré au lecteur lui-même ou aux contrôleurs intégrés est une solution populaire sans aucune dégradation des performances.
Événement de données/Événement de données :
Un événement de données est une transition d'état pertinente définie dans un schéma d'événement. En règle générale, les schémas d'événements sont décrits par des conditions préalables et postérieures pour un seul ou un ensemble d'éléments de données. Contrairement à ECA (Event condition action), qui considère un événement comme un signal, l'événement de données ne fait pas seulement référence au changement (signal), mais décrit des transitions d'état spécifiques, qui sont appelées conditions dans ECA. Considérer les événements de données comme des transitions d'état d'éléments de données pertinentes permet de définir des schémas complexes de réaction aux événements pour une base de données. La définition de schémas d'événements de données pour les bases de données relationnelles est limitée aux événements d'attribut et d'instance. Les bases de données orientées objet prennent également en charge les propriétés de collection, ce qui permet également de définir des modifications dans les collections en tant qu'événements de données.
Échange de données/Échange de données :
L'échange de données est le processus consistant à prendre des données structurées sous un schéma source et à les transformer en un schéma cible, de sorte que les données cibles soient une représentation précise des données source. L'échange de données permet de partager des données entre différents programmes informatiques. Il est similaire au concept connexe d'intégration de données, sauf que les données sont en fait restructurées (avec une perte possible de contenu) lors de l'échange de données. Il peut n'y avoir aucun moyen de transformer une instance compte tenu de toutes les contraintes. Inversement, il peut y avoir de nombreuses façons de transformer l'instance (éventuellement une infinité), auquel cas un "meilleur" choix de solutions doit être identifié et justifié.
Exfiltration de données/Exfiltration de données :
L'exfiltration de données se produit lorsqu'un logiciel malveillant et/ou un acteur malveillant effectue un transfert de données non autorisé depuis un ordinateur. Il est aussi communément appelé extrusion de données ou exportation de données. L'exfiltration de données est également considérée comme une forme de vol de données. Depuis l'an 2000, un certain nombre d'efforts d'exfiltration de données ont gravement porté atteinte à la confiance des consommateurs, à la valorisation des entreprises, à la propriété intellectuelle des entreprises et à la sécurité nationale des gouvernements du monde entier.
Épuisement des données/Épuisement des données :
L'épuisement des données ou les données d'épuisement sont la trace des données laissées par les activités d'un utilisateur d'Internet ou d'un autre système informatique au cours de son activité, de son comportement et de ses transactions en ligne. Cela fait partie d'une catégorie plus large de données non conventionnelles qui comprend des données géospatiales, de réseau et de séries chronologiques et peut être utile pour l'analyse prédictive. Chaque site Web visité, chaque lien cliqué et même chaque survol avec une souris est collecté, laissant derrière lui une trace de données. Une énorme quantité de données souvent brutes sont créées, qui peuvent prendre la forme de cookies, de fichiers temporaires, de fichiers journaux, de choix stockables, etc. Ces informations peuvent aider à améliorer l'expérience en ligne, par exemple grâce à un contenu personnalisé. Il peut être utilisé pour améliorer le suivi des tendances et l'étude de l'épuisement des données améliore également l'interface utilisateur et la conception de la mise en page. D'autre part, ils peuvent également compromettre la vie privée, car ils offrent un aperçu précieux des habitudes de l'utilisateur. Par exemple, le site Web le plus populaire au monde, Google, utilise cet échappement de données pour affiner la valeur prédictive de ses produits. Les données collectées par les entreprises sont souvent des informations qui ne semblent pas immédiatement utiles. Bien que l'information ne soit pas utilisée immédiatement par l'entreprise, elle peut être stockée pour une utilisation future ou vendue à quelqu'un d'autre qui peut utiliser l'information. Les données peuvent aider au contrôle de la qualité, aux performances et aux revenus. Contrairement au contenu principal, ces données ne sont pas créées à dessein par l'utilisateur, qui ignore souvent leur existence même. Une banque, par exemple, considérerait comme données primaires des informations concernant les sommes et les parties d'une transaction, tandis que les données secondaires pourraient inclure le pourcentage de transactions effectuées à un distributeur automatique de billets au lieu d'une vraie banque.
Exploration de données/Exploration de données :
L'exploration des données est une approche similaire à l'analyse initiale des données, dans laquelle un analyste de données utilise l'exploration visuelle pour comprendre le contenu d'un ensemble de données et les caractéristiques des données, plutôt que par le biais de systèmes de gestion de données traditionnels. Ces caractéristiques peuvent inclure la taille ou la quantité de données, l'exhaustivité des données, l'exactitude des données, les relations possibles entre les éléments de données ou les fichiers/tables dans les données. L'exploration des données est généralement effectuée à l'aide d'une combinaison d'activités automatisées et manuelles. Les activités automatisées peuvent inclure le profilage des données ou la visualisation des données ou des rapports tabulaires pour donner à l'analyste une vue initiale des données et une compréhension des caractéristiques clés. Ceci est souvent suivi d'une exploration manuelle ou d'un filtrage des données pour identifier les anomalies ou les modèles identifiés par les actions automatisées. L'exploration de données peut également nécessiter des scripts manuels et des requêtes dans les données (par exemple, en utilisant des langages tels que SQL ou R) ou en utilisant des feuilles de calcul ou des outils similaires pour afficher les données brutes. Toutes ces activités visent à créer un modèle mental et à comprendre les données. dans l'esprit de l'analyste, et définir les métadonnées de base (statistiques, structure, relations) pour l'ensemble de données qui peuvent être utilisées dans une analyse plus approfondie. Une fois cette compréhension initiale des données acquise, les données peuvent être élaguées ou affinées en supprimant les parties des données (nettoyage des données), en corrigeant les éléments mal formatés et en définissant les relations pertinentes entre les ensembles de données. Ce processus est également connu sous le nom de détermination de la qualité des données.L'exploration des données peut également faire référence à l'interrogation ou à la visualisation ad hoc des données pour identifier les relations ou les informations potentielles qui peuvent être cachées dans les données et ne nécessitent pas de formuler d'hypothèses au préalable.Traditionnellement, cela avait été un domaine clé pour les statisticiens, John Tukey étant un évangéliste clé dans le domaine. Aujourd'hui, l'exploration de données est plus répandue et est au centre des préoccupations des analystes de données et des scientifiques des données ; ce dernier étant un rôle relativement nouveau au sein des entreprises et des grandes organisations.
Extraction de données/Extraction de données :
L'extraction de données est l'acte ou le processus de récupération de données à partir de sources de données (généralement non structurées ou mal structurées) pour un traitement ou un stockage de données ultérieur (migration de données). L'importation dans le système d'extraction intermédiaire est donc généralement suivie d'une transformation des données et éventuellement de l'ajout de métadonnées avant l'exportation vers une autre étape du flux de données. Habituellement, le terme extraction de données est appliqué lorsque des données (expérimentales) sont importées pour la première fois dans un ordinateur à partir de sources primaires, telles que des appareils de mesure ou d'enregistrement. Les appareils électroniques d'aujourd'hui présentent généralement un connecteur électrique (par exemple USB) à travers lequel les « données brutes » peuvent être transférées vers un ordinateur personnel.
Fabrication de données/Fabrication de données :
Dans la recherche scientifique et la recherche universitaire, la fabrication de données est la fausse représentation intentionnelle des résultats de la recherche. Comme pour d'autres formes d'inconduite scientifique, c'est l'intention de tromper qui marque la fabrication comme contraire à l'éthique, et donc différente des scientifiques qui se trompent eux-mêmes. Il existe de nombreuses façons de fabriquer des données. Des données expérimentales peuvent être fabriquées en rapportant des expériences qui n'ont jamais été menées, et des données précises peuvent être manipulées ou déformées pour convenir à un résultat souhaité. L'un des plus gros problèmes de cette forme de fraude scientifique est que « les enquêtes universitaires sur l'inconduite en recherche sont souvent inadéquates, opaques et mal menées. Elles remettent en question l'idée que les établissements peuvent se contrôler eux-mêmes en matière d'intégrité de la recherche. » Parfois, la fabrication intentionnelle peut être difficile à distinguer. d'une incompétence académique involontaire ou d'une faute professionnelle. Des exemples de ceci incluent l'incapacité à tenir compte de l'erreur de mesure ou l'incapacité à contrôler adéquatement les expériences pour tous les paramètres mesurés. La fabrication peut également se produire dans le contexte d'études de premier cycle ou de cycles supérieurs où un étudiant fabrique un laboratoire ou un devoir. Une telle tricherie, lorsqu'elle est découverte, est généralement gérée au sein de l'établissement et ne devient pas un scandale au sein de la communauté universitaire au sens large (car la tricherie par les étudiants a rarement une signification académique).
Agriculture de données/Agriculture de données :
L'agriculture de données est le processus d'utilisation d'expériences informatiques conçues pour « développer » des données, qui peuvent ensuite être analysées à l'aide de techniques statistiques et de visualisation pour obtenir un aperçu de systèmes complexes. Ces méthodes peuvent être appliquées à n'importe quel modèle de calcul. L'agriculture de données diffère de l'exploration de données, comme l'indiquent les métaphores suivantes : les mineurs recherchent de précieuses pépites de minerai enfouies dans la terre, mais n'ont aucun contrôle sur ce qui existe ou sur la difficulté d'extraire les pépites de leur environnement. ... De même, les mineurs de données cherchent à découvrir de précieuses pépites d'informations enfouies dans d'énormes quantités de données. Les techniques d'exploration de données utilisent des mesures statistiques et graphiques pour essayer d'identifier des corrélations ou des clusters intéressants dans l'ensemble de données. Les agriculteurs cultivent la terre pour maximiser leur rendement. Ils manipulent l'environnement à leur avantage en utilisant l'irrigation, la lutte antiparasitaire, la rotation des cultures, les engrais, etc. Des expériences conçues à petite échelle leur permettent de déterminer si ces traitements sont efficaces. De même, les agriculteurs de données manipulent les modèles de simulation à leur avantage, en utilisant une expérimentation conçue à grande échelle pour développer les données de leurs modèles d'une manière qui leur permet d'extraire facilement des informations utiles. ... les résultats peuvent révéler des relations profondes de cause à effet entre les facteurs d'entrée du modèle et les réponses du modèle, en plus de riches vues graphiques et statistiques de ces relations. Un groupe de travail sur la modélisation et la simulation de l'OTAN a documenté le processus de production de données dans le rapport final de MSG-088. Ici, l'agriculture de données utilise des processus collaboratifs en combinant le prototypage rapide de scénarios, la modélisation de simulation, la conception d'expériences, le calcul haute performance et l'analyse et la visualisation dans une boucle de boucles itérative.
Flux de données/Flux de données :
Le flux de données est un mécanisme permettant aux utilisateurs de recevoir des données mises à jour à partir de sources de données. Il est couramment utilisé par les applications en temps réel dans les paramètres point à point ainsi que sur le World Wide Web. Ce dernier est également appelé flux Web. Le fil d'actualité est une forme populaire de flux Web. Le flux RSS facilite la diffusion des blogs. Les flux de produits jouent un rôle de plus en plus important dans le commerce électronique et le marketing Internet, ainsi que dans la distribution d'informations, les marchés financiers et la cybersécurité. Les flux de données nécessitent généralement des données structurées qui incluent différents champs étiquetés, tels que "titre" ou "produit".
Fichier de données/Fichier de données :
Un fichier de données est un fichier informatique qui stocke des données devant être utilisées par une application ou un système informatique, y compris des données d'entrée et de sortie. Un fichier de données ne contient généralement pas d'instructions ou de code à exécuter (c'est-à-dire un programme informatique). La plupart des programmes informatiques fonctionnent avec des fichiers de données.
Données pour_Black_Lives/Données pour Black Lives :
Data for Black Lives (D4BL) est une organisation américaine à but non lucratif dont la mission est d'utiliser la science des données pour créer des changements concrets et mesurables dans la vie des Noirs. Basée à Cambridge, dans le Massachusetts, Data for Black Lives a été fondée par Yeshimabeit Milner et Lucas Mason-Brown. Milner a fréquenté l'Université Brown et a remarqué la discrimination envers la communauté noire et a organisé un groupe de scientifiques pour lutter contre les mauvais traitements infligés aux Noirs dans les algorithmes de données.
Données pour_progrès/Données pour le progrès :
Data for Progress (DFP) est un groupe de réflexion américain de gauche, une société de sondage et un groupe de défense politique. L'organisation est actuellement dirigée par le data scientist et activiste Sean McElwee, qui a cofondé l'organisation en 2018. Affilié au mouvement progressiste, Data for Progress a publié des rapports et mené des sondages sur des questions politiques telles que des propositions pour un Green New Deal. Suite à l'élection de Joe Biden à la présidence des États-Unis, Data for Progress a été décrit comme une force influente parmi les progressistes du Parti démocrate.
Format de données/Format de données :
Le format de données dans les technologies de l'information peut faire référence à : Type de données, contrainte imposée à l'interprétation des données dans un système de type Signal (ingénierie électrique), un format de données de signal utilisé dans le traitement du signal Format d'enregistrement, un format de codage des données pour le stockage sur un support de stockage Format de fichier, format de codage des données à stocker dans un fichier informatique Format de conteneur (numérique), format de codage des données à stocker au moyen d'un format de fichier de codecs audio/vidéo standardisé Format de contenu, format de représentation du contenu multimédia sous forme data Format audio, un format pour les données audio encodées Format vidéo, un format pour les données vidéo encodées
Gestion_du_format_des_données/Gestion du format des données :
La gestion des formats de données (DFM) est l'application d'une approche systématique à la sélection et à l'utilisation des formats de données utilisés pour coder les informations à stocker sur un ordinateur. En termes pratiques, la gestion des formats de données est l'analyse des formats de données et de leurs attributs techniques, juridiques ou économiques associés qui peuvent soit améliorer, soit nuire à la capacité d'un actif numérique ou d'un système d'information donné à atteindre des objectifs spécifiés. La gestion du format des données est nécessaire à mesure que la quantité d'informations et le nombre de personnes qui les créent augmentent. C'est d'autant plus le cas que les informations avec lesquelles les utilisateurs travaillent sont difficiles à générer, à stocker, coûteuses à acquérir ou à partager. La gestion du format des données en tant qu'outil ou approche analytique est indépendante du format des données. Historiquement, les individus, les organisations et les entreprises ont été classés en fonction de leur type d'ordinateur ou de leur système d'exploitation. Aujourd'hui, cependant, ce sont principalement les logiciels de productivité, tels que les tableurs ou les programmes de traitement de texte, et la manière dont ces programmes stockent les informations qui définissent également une entité. Par exemple, lorsque vous naviguez sur le Web, il n'est pas important de savoir quel type d'ordinateur est responsable de l'hébergement d'un site, seulement que les informations qu'il publie sont dans un format lisible par le navigateur de visualisation. Dans ce cas, le format de données des informations publiées a plus à voir avec la définition des compatibilités qu'avec le matériel ou le système d'exploitation sous-jacent. Plusieurs initiatives ont été mises en place pour enregistrer les formats de données couramment utilisés et les logiciels disponibles pour les lire, par exemple le projet Pronom aux Archives nationales du Royaume-Uni.
Transitaire de données/Transitaire de données :
Dans les télécommunications, un expéditeur de données est un dispositif qui (a) reçoit des données d'une liaison de données et retransmet des données représentant les mêmes informations, en utilisant un format et des protocoles de liaison appropriés, à une autre liaison de données. et (b) peut transmettre des données entre (a) des liens identiques, c'est-à-dire TADIL B à TADIL B, (b) des liens similaires, c'est-à-dire TADIL A à TADIL B, ou (c) des liens dissemblables, c'est-à-dire TADIL A à TADIL J.
Fournaise de données/Fournaise de données :
Le four de données est une méthode proposée pour chauffer les maisons résidentielles ou les bureaux en y faisant fonctionner des ordinateurs, qui libèrent des quantités considérables de chaleur perdue. Les fours à données peuvent théoriquement être moins chers que le stockage d'ordinateurs dans d'énormes centres de données, car le coût plus élevé de l'électricité dans les zones résidentielles (par rapport aux zones industrielles) peut être compensé en facturant au propriétaire la chaleur dégagée par le centre de données. Certaines grandes entreprises qui stockent et traitent des milliers de gigaoctets de données pensent que les fours à données pourraient être moins chers car il y aurait peu ou pas de frais généraux. Le coût d'un centre de stockage de données traditionnel peut atteindre environ 400 $ par serveur, tandis que les frais généraux par serveur d'un four de données domestique sont d'environ 10 $. Les individus avaient déjà commencé à utiliser des ordinateurs comme source de chaleur en 2011.
Fusion de données/Fusion de données :
La fusion de données est le processus d'intégration de plusieurs sources de données pour produire des informations plus cohérentes, précises et utiles que celles fournies par n'importe quelle source de données individuelle. Les processus de fusion de données sont souvent classés comme faibles, intermédiaires ou élevés, selon l'étape de traitement à laquelle la fusion a lieu. La fusion de données de bas niveau combine plusieurs sources de données brutes pour produire de nouvelles données brutes. On s'attend à ce que les données fusionnées soient plus informatives et synthétiques que les entrées d'origine. Par exemple, la fusion de capteurs est également connue sous le nom de fusion de données (multi-capteurs) et est un sous-ensemble de la fusion d'informations. Le concept de fusion de données trouve son origine dans la capacité évoluée des humains et des animaux à incorporer des informations provenant de plusieurs sens pour améliorer leur capacité à survivre. Par exemple, une combinaison de la vue, du toucher, de l'odorat et du goût peut indiquer si une substance est comestible.
Processus_de_génération_de_données/Processus de génération de données :
En statistique et en sciences empiriques, un processus de génération de données est un processus dans le monde réel qui « génère » les données qui nous intéressent. Habituellement, les chercheurs ne connaissent pas le modèle de génération de données réel. Cependant, on suppose que ces modèles réels ont des conséquences observables. Ces conséquences sont les distributions des données dans la population. Ces distributeurs ou modèles peuvent être représentés par des fonctions mathématiques. Il existe de nombreuses fonctions de distribution de données. Par exemple, distribution normale, distribution de Bernoulli, distribution de Poisson, etc.
Gouvernance des données/Gouvernance des données :
La gouvernance des données est un terme utilisé à la fois au niveau macro et au niveau micro. Le premier est un concept politique et fait partie des relations internationales et de la gouvernance d'Internet ; ce dernier est un concept de gestion des données et fait partie de la gouvernance des données d'entreprise.
Grille de données/Grille de données :
Une grille de données est une architecture ou un ensemble de services qui donne à des individus ou à des groupes d'utilisateurs la possibilité d'accéder, de modifier et de transférer des quantités extrêmement importantes de données réparties géographiquement à des fins de recherche. Les grilles de données rendent cela possible grâce à une multitude d'applications et de services intergiciels qui rassemblent les données et les ressources de plusieurs domaines administratifs, puis les présentent aux utilisateurs sur demande. Les données d'une grille de données peuvent être situées sur un site unique ou sur plusieurs sites où chaque site peut être son propre domaine administratif régi par un ensemble de restrictions de sécurité quant à qui peut accéder aux données. De même, plusieurs répliques des données peuvent être distribuées dans toute la grille en dehors de leur domaine administratif d'origine et les restrictions de sécurité imposées aux données d'origine pour qui peut y accéder doivent être également appliquées aux répliques. Un middleware de grille de données spécifiquement développé est celui qui gère l'intégration entre les utilisateurs et les données qu'ils demandent en contrôlant l'accès tout en les rendant disponibles aussi efficacement que possible. Le diagramme ci-contre représente une vue de haut niveau d'une grille de données.
Havre de données/Havre de données :
Un paradis des données, comme un paradis pour les entreprises ou un paradis fiscal, est un refuge pour les données ininterrompues ou non réglementées. Les paradis des données sont des lieux dotés d'environnements juridiques favorables au concept d'un réseau informatique détenant librement des données et même protégeant son contenu et les informations associées. Ils ont tendance à appartenir à trois catégories : une localité physique avec des lois d'application et d'extradition du système d'information faibles, une localité physique avec des protections des données intentionnellement fortes, et des domaines virtuels conçus pour sécuriser les données par des moyens techniques (tels que le cryptage) indépendamment de toute disposition juridique. environnement. L'espace oignon de Tor (service caché), HavenCo (centralisé) et Freenet (décentralisé) sont trois modèles de paradis de données virtuels modernes.
Hiérarchie des données/Hiérarchie des données :
La hiérarchie des données fait référence à l'organisation systématique des données, souvent sous une forme hiérarchique. L'organisation des données implique des caractères, des champs, des enregistrements, des fichiers, etc. Ce concept est un point de départ pour essayer de voir ce qui constitue les données et si les données ont une structure. Par exemple, comment une personne donne-t-elle un sens à des données telles que « employé », « nom », « service », « Marcy Smith », « Service commercial », etc., en supposant qu'elles sont toutes liées ? Une façon de les comprendre est de voir ces termes comme des composants plus petits ou plus grands dans une hiérarchie. On pourrait dire que Marcy Smith est l'un des employés du service des ventes, ou un exemple d'employé de ce service. Les données que nous voulons capturer sur tous nos employés, et pas seulement sur Marcy, sont le nom, le numéro d'identification, l'adresse, etc.
Hub de données/Hub de données :
Un hub de données est une collection de données provenant de plusieurs sources organisées pour la distribution, le partage et souvent le sous-ensemble et le partage. Généralement, cette distribution de données se présente sous la forme d'une architecture hub and spoke.
Données en_transit/Données en transit :
Les données en transit, également appelées données en mouvement et données en vol, sont des données en route entre la source et la destination, généralement sur un réseau informatique. Les données en transit peuvent être séparées en deux catégories : les informations qui circulent sur le réseau public ou non fiable, comme Internet, et les données qui circulent dans les limites d'un réseau privé, comme un réseau local (LAN) d'entreprise ou d'entreprise. Données en transit est utilisé en complément des termes données utilisées et données au repos qui définissent ensemble les trois états des données numériques.
Données en cours d'utilisation/Données en cours d'utilisation :
Les données utilisées sont un terme de technologie de l'information faisant référence aux données actives qui sont stockées dans un état numérique non persistant, généralement dans la mémoire vive (RAM) de l'ordinateur, les caches CPU ou les registres CPU. Daniel Allen, spécialiste des données de Scranton, PA, a proposé en 1996 les données utilisées en complément des termes données en transit et données au repos qui définissent ensemble les trois états des données numériques.
Indépendance des données/Indépendance des données :
L'indépendance des données est le type de transparence des données qui compte pour un SGBD centralisé. Il fait référence à l'immunité des applications des utilisateurs aux modifications apportées à la définition et à l'organisation des données. Les programmes d'application ne devraient idéalement pas être exposés aux détails de la représentation et du stockage des données. Le SGBD fournit une vue abstraite des données qui masque ces détails. Il existe deux types d'indépendance des données : l'indépendance physique et logique des données. L'indépendance des données et l'indépendance des opérations donnent ensemble la caractéristique de l'abstraction des données. Il existe deux niveaux d'indépendance des données.
Infrastructure de données/Infrastructure de données :
Une infrastructure de données est une infrastructure numérique favorisant le partage et la consommation de données. Comme d'autres infrastructures, il s'agit d'une structure nécessaire au fonctionnement d'une société ainsi que des services et équipements nécessaires au fonctionnement d'une économie, l'économie des données en l'occurrence.
Intégration de données/Intégration de données :
L'intégration de données consiste à combiner des données résidant dans différentes sources et à fournir aux utilisateurs une vue unifiée de celles-ci. Ce processus devient significatif dans une variété de situations, qui incluent à la fois les domaines commerciaux (comme lorsque deux entreprises similaires doivent fusionner leurs bases de données) et scientifiques (combinant les résultats de recherche de différents référentiels bioinformatiques, par exemple). L'intégration des données apparaît de plus en plus fréquemment à mesure que le volume (c'est-à-dire le big data) et le besoin de partager les données existantes explosent. Elle est devenue l'objet de nombreux travaux théoriques et de nombreux problèmes ouverts restent non résolus. L'intégration des données encourage la collaboration entre les utilisateurs internes et externes. Les données en cours d'intégration doivent être reçues d'un système de base de données hétérogène et transformées en un seul magasin de données cohérent qui fournit des données synchrones sur un réseau de fichiers pour les clients. Une utilisation courante de l'intégration de données est l'exploration de données lors de l'analyse et de l'extraction d'informations à partir de bases de données existantes qui peuvent être utiles pour les informations commerciales.
Intégrateur de données/Intégrateur de données :
Data Integrator peut faire référence à un logiciel utilisé pour intégrer des données, ou à une personne ou une entreprise qui intègre des données : Pervasive Data Integrator, logiciel SAP BusinessObjects Data Integrator, logiciel Oracle Data Integrator, logiciel EDI, EZMID Data Integrator, logiciel Systems integrator, personne ou entreprise
Intégrité des données/Intégrité des données :
L'intégrité des données est le maintien et l'assurance de l'exactitude et de la cohérence des données tout au long de leur cycle de vie et constitue un aspect essentiel de la conception, de la mise en œuvre et de l'utilisation de tout système qui stocke, traite ou récupère des données. Le terme a une large portée et peut avoir des significations très différentes selon le contexte spécifique - même sous le même parapluie général de l'informatique. Il est parfois utilisé comme terme de substitution pour la qualité des données, tandis que la validation des données est une condition préalable à l'intégrité des données. L'intégrité des données est le contraire de la corruption des données. L'intention générale de toute technique d'intégrité des données est la même : s'assurer que les données sont enregistrées exactement comme prévu (comme une base de données rejetant correctement les possibilités mutuellement exclusives). De plus, lors d'une récupération ultérieure, assurez-vous que les données sont les mêmes que lorsqu'elles ont été enregistrées à l'origine. En bref, l'intégrité des données vise à empêcher les modifications involontaires des informations. L'intégrité des données ne doit pas être confondue avec la sécurité des données, la discipline de protection des données contre les parties non autorisées. Toute modification non intentionnelle des données à la suite d'une opération de stockage, de récupération ou de traitement, y compris une intention malveillante, une défaillance matérielle inattendue et une erreur humaine, constitue une défaillance de l'intégrité des données. Si les modifications résultent d'un accès non autorisé, il peut également s'agir d'une défaillance de la sécurité des données. Selon les données impliquées, cela peut se manifester de manière aussi bénigne qu'un seul pixel dans une image apparaissant dans une couleur différente de celle enregistrée à l'origine, jusqu'à la perte de photos de vacances ou d'une base de données critique pour l'entreprise, voire la perte catastrophique de vies humaines dans une vie -système critique.
Îlot de données/Îlot de données :
Un îlot de données est un magasin de données, comme sur un PDA ou un autre appareil informatique, qui a une connectivité externe inexistante ou limitée. Cela limite la capacité de l'utilisateur à synchroniser ou à copier les données vers d'autres appareils. Bien que de nouvelles données puissent être ajoutées au système, la possibilité de déplacer ces données ailleurs est peu pratique ou impossible. Les îlots de données, en général, contiennent un très grand ensemble de données par rapport au petit espace physique qu'ils occupent. La connectivité ici n'implique pas nécessairement une interface matérielle. Par exemple, cela peut être le résultat d'un logiciel d'interface système mal écrit. Un îlot de données est un sous-ensemble d'entités qui sont connectées les unes aux autres via des relations, mais qui sont indépendantes des autres entités au sein du même magasin de données.
Élément de données/Élément de données :
Un élément de données décrit un état atomique d'un objet particulier concernant une propriété spécifique à un certain moment. Une collection d'éléments de données pour le même objet en même temps forme une instance d'objet (ou ligne de table). Tout type d'information complexe peut être décomposé en données élémentaires (état atomique). Les éléments de données sont identifiés par l'objet (o), la propriété (p) et le temps (t), tandis que la valeur (v) est une fonction de o, p et t : v = F(o,p,t). Les valeurs sont généralement représentées par des symboles tels que des nombres, des textes, des images, des sons ou des vidéos. Les valeurs ne sont pas nécessairement atomiques. La complexité d'une valeur dépend de la complexité de la propriété et de la composante temporelle. Lorsque vous consultez des bases de données ou des fichiers XML, l'objet est généralement identifié par un nom d'objet ou un autre type d'identifiant d'objet, qui fait partie des "données". Les propriétés sont définies comme des colonnes (ligne de tableau), des propriétés (instance d'objet) ou des balises (XML). Souvent, le temps n'est pas exprimé explicitement et est un attribut s'appliquant à l'ensemble de données complet. D'autres collectes de données fournissent le temps au niveau de l'instance (série chronologique), au niveau de la colonne ou même au niveau de l'attribut/de la propriété.
Descriptions des éléments de données/Descriptions des éléments de données :
Une description d'élément de données (DID) des États-Unis est un document complet définissant les livrables de données requis d'un entrepreneur du ministère de la Défense des États-Unis. Un DID définit spécifiquement le contenu, le format et l'utilisation prévue des données dans le but principal d'atteindre les objectifs de normalisation du département américain de la Défense. Les exigences de contenu et de format pour les DID sont définies dans MIL-STD-963C, Data Item Descriptions (2014).
Bourrage de données/Bourrage de données :
Un bourrage de données est un exercice d'atelier à orientation technique où les gens résolvent des problèmes à l'aide d'ensembles de données. Les événements peuvent produire des données visuelles, des analyses et des applications. Les exemples incluent le Hudson Data Jam, hébergé par le Cary Institute of Environmental Systems, dans lequel les étudiants sont invités à raconter une histoire basée sur des données brutes collectées dans le bassin versant de la rivière Hudson et du Capitole. Code, un bourrage de données basé sur le bureau du secrétaire d'État du Minnesota.
Concierge de données/concierge de données :
Un concierge de données est une personne qui travaille pour prendre de grandes données et les condenser en quantités d'informations utiles. Également connu sous le nom de "data wrangler", un gardien de données passe au crible les données des entreprises du secteur des technologies de l'information. Une multitude de start-ups s'appuient sur de grandes quantités de données, c'est pourquoi un gardien de données travaille pour aider ces entreprises avec ce processus basique mais difficile d'interprétation des données. Bien qu'il soit communément admis que le travail de conciergerie de données est entièrement automatisé, de nombreux scientifiques des données sont principalement employés comme concierges de données. L'industrie des technologies de l'information se tourne de plus en plus vers de nouvelles sources de données recueillies sur les consommateurs, de sorte que les gardiens de données sont devenus plus courants ces dernières années.
Journalisme de données/Journalisme de données :
Le journalisme de données ou journalisme axé sur les données (DDJ) est un processus journalistique basé sur l'analyse et le filtrage de grands ensembles de données dans le but de créer ou d'élever un reportage. Le journalisme de données est un type de journalisme reflétant le rôle accru que les données numériques sont utilisées dans la production et la distribution d'informations à l'ère numérique. Cela reflète l'interaction accrue entre les producteurs de contenu (journaliste) et plusieurs autres domaines tels que le design, l'informatique et les statistiques. Du point de vue des journalistes, il représente "un ensemble de compétences qui se chevauchent tirées de domaines disparates". Le journalisme de données a été largement utilisé pour unir plusieurs concepts et les relier au journalisme. Certains les voient comme des niveaux ou des étapes menant des utilisations les plus simples aux plus complexes des nouvelles technologies dans le processus journalistique. produits de demandes de documents publics ou de documents divulgués. Cette approche du journalisme s'appuie sur des pratiques plus anciennes, notamment sur le reportage assisté par ordinateur (CAR), une étiquette utilisée principalement aux États-Unis pendant des décennies. D'autres étiquettes pour des approches partiellement similaires sont le «journalisme de précision», basé sur un livre de Philipp Meyer, publié en 1972, où il préconisait l'utilisation de techniques issues des sciences sociales dans la recherche d'histoires. Le journalisme axé sur les données a une approche plus large. À la base, le processus s'appuie sur la disponibilité croissante de données ouvertes qui sont librement disponibles en ligne et analysées avec des outils open source. Le journalisme axé sur les données s'efforce d'atteindre de nouveaux niveaux de service pour le public, en aidant le grand public ou des groupes ou des individus spécifiques à comprendre les modèles et à prendre des décisions en fonction des résultats. En tant que tel, le journalisme axé sur les données pourrait aider à placer les journalistes dans un rôle pertinent pour la société d'une nouvelle manière. Raconter des histoires basées sur les données est l'objectif principal. Les résultats des données peuvent être transformés en n'importe quelle forme d'écriture journalistique. Les visualisations peuvent être utilisées pour créer une compréhension claire d'une situation complexe. En outre, des éléments de narration peuvent être utilisés pour illustrer ce que les résultats signifient réellement, du point de vue de quelqu'un qui est affecté par un développement. Cette connexion entre les données et l'histoire peut être considérée comme un "nouvel arc" essayant de combler l'écart entre des développements pertinents, mais mal compris, et une histoire vérifiable, digne de confiance, pertinente et facile à retenir.
Lac de données/Lac de données :
Un lac de données est un système ou un référentiel de données stockées dans son format naturel/brut, généralement des objets blob ou des fichiers. Un lac de données est généralement un stockage unique de données comprenant des copies brutes des données du système source, des données de capteur, des données sociales, etc., et des données transformées utilisées pour des tâches telles que la création de rapports, la visualisation, l'analyse avancée et l'apprentissage automatique. Un lac de données peut inclure des données structurées issues de bases de données relationnelles (lignes et colonnes), des données semi-structurées (CSV, logs, XML, JSON), des données non structurées (emails, documents, PDF) et des données binaires (images, audio, vidéo). Un lac de données peut être établi "sur site" (dans les centres de données d'une organisation) ou "dans le cloud" (à l'aide de services cloud de fournisseurs tels qu'Amazon, Microsoft ou Google). Les lacs de données mal gérés ont été facétieusement appelés marécages de données.
Blanchiment de données/Blanchiment de données :
Le blanchiment de données est la conversion de données volées afin qu'elles puissent être vendues ou utilisées par des bases de données ostensiblement légitimes. ZDNet a décrit le processus comme "obscurcissant, supprimant ou fabriquant la provenance de données obtenues illégalement de sorte qu'elles puissent être utilisées à des fins licites".
Bibliothèque de données/Bibliothèque de données :
Une bibliothèque de données, une archive de données ou un référentiel de données est une collection d'ensembles de données numériques et/ou géospatiales pour une utilisation secondaire dans la recherche. Une bibliothèque de données fait normalement partie d'une institution plus grande (académique, corporative, scientifique, médicale, gouvernementale, etc.). créé pour l'archivage des données de recherche et pour servir les utilisateurs de données de cette organisation. La bibliothèque de données a tendance à héberger des collections de données locales et à y accéder par divers moyens (CD-/DVD-ROM ou serveur central de téléchargement). Une bibliothèque de données peut également maintenir des abonnements à des ressources de données sous licence pour que ses utilisateurs puissent accéder aux informations. La question de savoir si une bibliothèque de données est également considérée comme une archive de données peut dépendre de l'étendue des fonds uniques de la collection, si des services de préservation à long terme sont offerts et si elle sert une communauté plus large (comme le font les archives de données nationales). La plupart des bibliothèques de données publiques sont répertoriées dans le Registre des dépôts de données de recherche.
Lignage des données/Lignage des données :
Le lignage des données comprend l'origine des données, ce qui leur arrive et où elles se déplacent dans le temps. Le lignage des données donne de la visibilité tout en simplifiant considérablement la possibilité de retracer les erreurs jusqu'à la cause première dans un processus d'analyse de données. Il permet également de relire des parties ou des entrées spécifiques du flux de données pour un débogage par étapes ou la régénération de la sortie perdue. Les systèmes de base de données utilisent ces informations, appelées provenance des données, pour relever des défis similaires de validation et de débogage. La provenance des données fait référence aux enregistrements des entrées, des entités, des systèmes et des processus qui influencent les données d'intérêt, fournissant un enregistrement historique des données et de leurs origines. Les preuves générées prennent en charge les activités médico-légales telles que l'analyse de la dépendance des données, la détection et la récupération des erreurs/compromis, l'audit et l'analyse de la conformité. "Le lignage est un type simple de pourquoi la provenance." Le lignage des données peut être représenté visuellement pour découvrir le flux/mouvement de données de sa source à sa destination via divers changements et sauts sur son chemin dans l'environnement de l'entreprise, comment les données sont transformées en cours de route , comment la représentation et les paramètres changent, et comment les données se divisent ou convergent après chaque saut. Une représentation simple de la lignée de données peut être affichée avec des points et des lignes, où le point représente un conteneur de données pour les points de données et les lignes les reliant représentent les transformations subies par le point de données, entre les conteneurs de données. La représentation dépend largement de la portée de la gestion des métadonnées et du point de référence d'intérêt. Le lignage des données fournit des sources de données et des sauts de flux de données intermédiaires à partir du point de référence avec un lignage des données en amont, conduit aux points de données de la destination finale et à ses flux de données intermédiaires avec un lignage des données en aval. Ces vues peuvent être combinées avec un lignage de bout en bout pour un point de référence qui fournit une piste d'audit complète de ce point d'intérêt de données depuis les sources jusqu'à ses destinations finales. Au fur et à mesure que les points de données ou les sauts augmentent, la complexité d'une telle représentation devient incompréhensible. Ainsi, la meilleure caractéristique de la vue de lignage des données serait de pouvoir simplifier la vue en masquant temporairement les points de données périphériques indésirables. Les outils dotés de la fonction de masquage permettent l'évolutivité de la vue et améliorent l'analyse avec la meilleure expérience utilisateur pour les utilisateurs techniques et professionnels. La lignée des données permet également aux entreprises de retracer les sources de données commerciales spécifiques dans le but de suivre les erreurs, de mettre en œuvre des changements dans les processus et de mettre en œuvre des migrations de système pour économiser beaucoup de temps et de ressources, améliorant ainsi considérablement l'efficacité de la BI. La portée de la lignée des données détermine le volume de métadonnées requis pour représenter sa lignée de données. Habituellement, la gouvernance des données et la gestion des données déterminent la portée de la lignée des données en fonction de leurs réglementations, de la stratégie de gestion des données d'entreprise, de l'impact des données, des attributs de reporting et des éléments de données critiques de l'organisation. Le lignage des données fournit la piste d'audit des points de données au niveau de granularité le plus élevé, mais la présentation du lignage peut être effectuée à différents niveaux de zoom pour simplifier les vastes informations, à l'instar des cartes Web analytiques. Le lignage des données peut être visualisé à différents niveaux en fonction de la granularité de la vue. À un très haut niveau, la lignée des données fournit les systèmes avec lesquels les données interagissent avant d'atteindre leur destination. Au fur et à mesure que la granularité augmente, elle monte au niveau du point de données où elle peut fournir les détails du point de données et son comportement historique, les propriétés d'attribut, les tendances et la qualité des données transmises par ce point de données spécifique dans la lignée des données. La gouvernance des données joue un rôle clé dans la gestion des métadonnées pour les directives, les stratégies, les politiques et la mise en œuvre. La qualité des données et la gestion des données de référence contribuent à enrichir la lignée des données avec plus de valeur commerciale. Même si la représentation finale du lignage des données est fournie dans une interface, la façon dont les métadonnées sont récoltées et exposées à l'interface utilisateur graphique du lignage des données peut être entièrement différente. Ainsi, le lignage des données peut être divisé en trois grandes catégories en fonction de la manière dont les métadonnées sont récoltées : le lignage des données impliquant des progiciels pour les données structurées, les langages de programmation et les mégadonnées. Les informations de lignage des données comprennent des métadonnées techniques impliquant des transformations de données. Les informations de lignage des données enrichies peuvent inclure les résultats des tests de qualité des données, les valeurs des données de référence, les modèles de données, le vocabulaire métier, les gestionnaires de données, les informations de gestion de programme et les systèmes d'information d'entreprise liés aux points de données et aux transformations. La fonction de masquage dans la visualisation du lignage des données permet aux outils d'intégrer tous les enrichissements importants pour le cas d'utilisation spécifique. Pour représenter des systèmes disparates dans une vue commune, la "normalisation des métadonnées" ou la standardisation peut être nécessaire.

Aucun commentaire:

Enregistrer un commentaire

Elena Bryukhovets

Trilogie des éléments/Trilogie des éléments : La trilogie Elements est une trilogie de films de la cinéaste indo-canadienne Deepa Mehta...