[ad_1]
Sophos et ReversingLabs ont annoncé lundi SoReL-20M, une base de données de 20 millions de fichiers Windows Portable Executable, dont 10 millions d’échantillons de logiciels malveillants.
Destinée à améliorer la sécurité dans tout le secteur, la base de données fournit des métadonnées, des étiquettes et des fonctionnalités pour les fichiers qu’elle contient et permet aux parties intéressées de télécharger les échantillons de logiciels malveillants disponibles pour des recherches supplémentaires.
Contenant un ensemble d’échantillons organisés et étiquetés et des métadonnées pertinentes, l’ensemble de données accessible au public devrait aider à accélérer la recherche d’apprentissage automatique pour la détection des logiciels malveillants.
Bien que les modèles d’apprentissage automatique soient construits sur des données, le domaine de la sécurité manque d’un ensemble de données standard à grande échelle auquel tous les types d’utilisateurs (allant des chercheurs indépendants aux laboratoires et aux entreprises) peuvent facilement accéder, ce qui a jusqu’à présent ralenti les progrès, affirme Sophos. .
«Obtenir un grand nombre d’échantillons sélectionnés et étiquetés est à la fois coûteux et difficile, et le partage d’ensembles de données est souvent difficile en raison de problèmes liés à la propriété intellectuelle et au risque de fournir des logiciels malveillants à des tiers inconnus. En conséquence, la plupart des articles publiés sur la détection des logiciels malveillants fonctionnent sur des ensembles de données internes privés, avec des résultats qui ne peuvent pas être directement comparés les uns aux autres », explique la société.
Ensemble de données à l’échelle de la production couvrant 20 millions d’échantillons, dont 10 millions de logiciels malveillants désarmés, l’ensemble de données SoReL-20M vise à résoudre le problème.
Pour chaque échantillon, l’ensemble de données comprend des fonctionnalités qui ont été extraites en fonction de l’ensemble de données EMBER 2.0, des étiquettes, des métadonnées de détection et des binaires complets pour les échantillons de logiciels malveillants inclus.
En outre, les modèles PyTorch et LightGBM qui ont déjà été formés sur ces données en tant que lignes de base sont fournis, ainsi que les scripts nécessaires pour charger et itérer sur les données, ainsi que pour charger, entraîner et tester les modèles.
Étant donné que le malware publié a été …
Voir la source de cette publication
[ad_2]