mardi 30 octobre 2012

Fichiers audio présenter des difficultés pour Computer Forensics et E-Discovery


Les communications unifiées est le terme utilisé pour l'intégration de toutes les communications de données et vocales - - sur Internet. Cela peut inclure des données dans ses multiples formes telles que la messagerie instantanée, les données de messagerie, les données générées par les applications informatiques d'entreprise, des télécopies et des messages texte. Mais les principales sources incluent la voix envoyé par voies du réseau ou stockés sur des périphériques numériques, tels que VoIP (Voice Over Internet Protocol), la messagerie vocale, audio-vidéo, de conférence Web, des tableaux blancs, et des fichiers. Wav. Ces communications intégrées peuvent économiser de l'argent à partir des budgets de fonctionnement.

Économies bénéficie, entre autres dépenses, la suppression des frais d'interurbain lorsque vous utilisez la VoIP, de dispenser de la nécessité de se rendre aux réunions où ils peuvent être détenus dans un environnement virtuel, ou des voyages vers les destinations lointaines classes quand un instructeur ou d'une équipe pouvez utiliser un tableau blanc à partir des emplacements physiques disparates. Économies comme celles-ci reviennent à 26% des entreprises qui les ont adoptées. Mais lorsque le litige exige des données détectables,. Wav et fichiers basés sur la voix peut être difficile et coûteux pour les Computer Forensics un expert ou d'un système d'e-discovery à la recherche et l'index.

Il existe de nombreux outils conçus pour la recherche des fichiers texte, et même pour le texte à partir de fichiers supprimés. Ceux-ci vont de la suite criminalistique informatique tels que EnCase Forensic accès et de boîte à outils que chacun des coûts milliers de dollars, à outils Open Source, y compris les éditeurs hexagonaux qui coûtent rien aux utilisateurs du tout. Les paquets plus étendus pouvant être moins coûteux à long terme lorsque les humains facturables sont ajoutés au mélange.

Il existe de nombreux follement coûteux d'e-discovery en place des systèmes pour aider à stocker et indexer les grandes masses de données qui sont générés sur une base quotidienne dans l'environnement d'entreprise. Les services peuvent être externalisées, ou apporté en entreprise. Là encore, le coût de la mise aux systèmes et procédures en place peuvent pâle contre les sanctions et les amendes qui pourraient résulter de ne pas être prêt pour le contentieux, si elle survient.

Il ya également de nombreux outils efficaces pour la numérisation de documents papier en fichiers texte qui sont ensuite consultables.

Alors que de nombreux outils de recherche et stocker des données sont efficaces et précis, quand il s'agit de l'audio, un tel niveau de précision ou la facilité n'existe pas encore dans le but de rechercher des informations spécifiques. Il existe actuellement trois moyens de recherche audio: recherche phonétique, transcription à la main, et la transcription automatique.

Technologie de recherche phonétique correspond modèles de vagues, ou phonèmes, d'une bibliothèque de modèles de vagues connues. Par exemple, l'acronyme «B2B» serait représenté par les phonèmes suivants: "_B _IY _T _UW _B _IY" (par exemple Wikipedia de Nexidia, une entreprise impliquée dans les systèmes de reconnaissance de la parole). Compte tenu de la grande diversité des modes de parole, de prononciation, les accents et les dialectes, la précision de cette méthode est inégal. Il produit de nombreuses réponses erronées. Et si elle peut identifier les sections et les expressions qui sont d'un intérêt, il ne transcrit pas l'audio en texte - l'audio doit alors être écouté.

Transcription manuelle de l'audio afin que le texte transcrit peuvent ensuite être automatiquement recherchée, prend beaucoup de temps. Comme il dépend d'un auditeur de taper les mots tels qu'ils sont entendus, cette tâche de main-d'œuvre peut aussi être très coûteux. Il peut y avoir des problèmes de sécurité, comme l'audio va à l'extérieur de l'entreprise (ou peut-être le pays) à transcrire.

Transposition à la machine est le seul moyen automatisé de conversion audio en texte. Mais il souffre de problèmes de précision. Il compare «entendu» audio avec des bibliothèques connues, encore une fois confrontés à des problèmes de prononciations différentes, les termes ne sont pas dans les bibliothèques existantes, et la clarté de l'enregistrement. Bien enregistrements de haute qualité peuvent se prêter à des taux de reconnaissance de 85% ou plus (un nombre positif prospectifs jusqu'à ce que par rapport à la précision de près de 100% des recherches en texte pur), lorsqu'ils traitent avec messagerie vocale, plonge vers le bas précision aussi bas que 40% .

Les nouvelles règles fédérales de procédure civile (FRCP) exiger des sociétés d'avoir un moyen d'identifier les communications principales et les sources de données. Ces données doivent être sauvegardées. Pour des raisons d'efficacité, à la fois de la quantité de stockage nécessaire d'optimiser, et en diminuant le volume de données qui doivent être identifiés et produits pour le contentieux, il est également important d'être en mesure d'identifier avec précision les données qui ne sont pas nécessaires.

Bien que les exigences en matière de conservation de l'augmentation des données, et les coûts de stockage descendre, identifier ce qui doit être conservé audio et ce qui doit être supprimé peut être coûteux. Comme cette information est numérisée, elle doit néanmoins être stockés et indexés (ou recherché après le fait). La technologie n'est pas mature, et est en constante évolution. Il peut y avoir une ouverture pour une société innovante de prospérer ici, surtout si elle est capable de produire une sorte de percée dans voice-to-text technologie. En attendant, les entreprises font face à un problème difficile à déterminer ce qui reste et ce qui se passe....

Aucun commentaire:

Enregistrer un commentaire