Der Datensatz enthält die häufigsten Buchstabentrigramme englischen
Sprache. Also die prozentuale Häufigkeit von jeder möglichen Kombination
aus 3 Buchstaben. Man kann damit z.B. eine automatisierte
Spracherkennung von beliebigen Texten durchführen. Die Daten sind in den
Formaten SQL und CSV. Die Zeichencodierung ist UTF8.
Ausschnitt aus den Daten:
INSERT INTO `ngramme` (`id`, `n`, `buchstabe`, `count`, `percent`) VALUES
(10042, 3, 'and', 4373077, 0.00588827720839116),
(10045, 3, 'ing', 3527528, 0.00474975920258473),
(10054, 3, 'ion', 2805181, 0.00377713069029242),
(10059, 3, 'ent', 2194825, 0.00295529624196124),
(10061, 3, 'tio', 2177270, 0.00293165871936712),
(10071, 3, 'for', 1777732, 0.00239368728660109),
(10075, 3, 'ter', 1733631, 0.00233430600583076),
(10077, 3, 'her', 1661225, 0.00223681250193162),
(10078, 3, 'ati', 1645746, 0.00221597027964541),
(10083, 3, 'The', 1568356, 0.00211176590063324),
(10084, 3, 'ate', 1554016, 0.00209245732336183),
(10089, 3, 'ere', 1381306, 0.00185990611132938),
(10090, 3, 'ver', 1375222, 0.00185171410406862),
(10095, 3, 'was', 1309621, 0.00176338342222889),
(10101, 3, 'ted', 1291422, 0.00173887876408646),
(10103, 3, 'ers', 1254601, 0.00168929988516661),
(10104, 3, 'all', 1249597, 0.00168256208037818),
(10108, 3, 'are', 1205797, 0.00162358609122282),
(10109, 3, 'hat', 1197634, 0.00161259474420284),
(10111, 3, 'tha', 1189543, 0.00160170034401435),
...
Was sind Trigramme ?
Trigramme sind eine Art statistischer Textanalyse, bei der alle Wörter, die in einem Text vorkommen, in Gruppen von drei aufeinanderfolgenden Wörtern oder Buchstaben (Trigramm) zusammengefasst und dann verglichen werden. Dieser Ansatz ermöglicht es, ähnliche Textstücke (z.B. in einem komplexen Dokument) zu identifizieren. Diese Methode der Textanalyse kann verwendet werden, um Unterschiede und Ähnlichkeiten zwischen Texten zu erkennen, um die Verbindung zwischen verschiedenen Texten zu ermitteln, um übermäßige Wiederholungen zu finden, und um eine allgemeine Übersicht über den Inhalt und das Thema eines Textes zu geben.
Noch keine Kommentare zu diesem Datensatz vorhanden.