FreeTreeMiner
In den vergangen Jahren haben Forscher im Bereich Graph Mining die Verwendung von linearen Pfaden und Teilgraphen als Patternsprachen erforscht. In dem Projekt FreeTreeMiner haben wir einen Mittelweg zwischen diesen beiden Extremen untersucht: Das Minen von freien Bäumen (unrooted trees) in Graphdaten. So können lineare Pfade erweitert werden, während die Komplexitätsprobleme mit Teilgraphen Pattern vermieden werden. Mit diesen Überlegungen haben wir FreeTreeMiner entwickelt, ein System für constraint-basiertes Graph Mining auf chemischen Bibliotheken, und haben es auf zwei Datasets des National Cancer Institute's Developmental Therapeutics Program (DTP) getestet, Anti-HIV und Anti-Krebs Screening Daten. Die Binärdatei steht zum Download zur Verfügung.
Publikationen
Rückert, U and Kramer, S
(2003).
Generalized Version Space Trees
In: Proceedings of the 2nd International Workshop on Knowledge Discovery in Inductive Databases (KDID-2003), ed. by Jean-Francois Boulicaut and Saso Dzeroski, pp. 119-129.
Rückert, U and Kramer, S
(2004).
Frequent Free Tree Discovery in Graph Data
In: Proceedings of the ACM Symposium on Applied Computing (SAC-2004), pp. 564-570.
Software
Linux Binary: FreeTreeMiner-binary
Quellen: FreeTreeMiner-source
FTM steht unter der GNU General Public License (GPL) version 2. Bitte zitieren Sie [RK04], wenn Sie die Software in einer Publikation verwenden.
gSpan'
Wir haben zwei Optimierungen für das Minen von Molekularen Datenbanken mit gSpan vorgeschlagen. Beide Optimierungen sind anwendbar auf das Aufzählen von Teilgraphen in Graphdatenbanken, was, gemäß unserem Profiling, die teuerste Operation von gSpan ist. Die erste Optimierung reduziert die Anzahl der Teilgraph Isomorphismen, die benötigt werden um die Berechnungen, die beim Betrachten von Symmertrien, welche vielen chemischen Molekülen innewohnen, richtig zu unterstützen und die zweite beschleunigt Teilgraph Isomorphie Tests, indem sie nicht-uniforme Häufigkeitsverteilungen von Atomen und Bindungstypen benutzt. Die Optimierungen sind Teil einer Reimplementierung des originalen gSpan Algorithmus, von denen wir zeigen, dass sie die Performance auf zwei chemischen Datasets signifikant erhöht. Die Software steht unter der GNU GPL und ist online verfügbar.
Publikationen
Jahn, K and Kramer, S
(2005).
Optimizing gSpan for Molecular Datasets
In: Proceedings of the Third International Workshop on Mining Graphs, Trees and Sequences (MGTS-2005).
Software
Linux Binary und Quellen: gSpan'
gSpan' steht unter der GNU General Public License (GPL) version 2. Bitte zitieren Sie [JK05], wenn Sie die Software in einer Publikation verwenden.
