Несмотря на бурное развитие самого Sphinx’а и методов распознавания речи вообще, каждый, кто пытался использовать его на практике, знает, насколько сложно получить вменяемый результат даже для простых задач. А все потому, что нельзя просто подключить дефолтные модели и ожидать, что система вас поймет. Требуется адаптировать акустику, построить релевантную языковую модель, найти оптимальные параметры и конфигурацию движка — вобщем, потратить недели времени, кропотливо снижая ошибку процент за процентом. Как человек, потративший эти самые недели, могу заверить, что и в этом случае вам ничего не гарантировано. Особенно, если вы хотите распознавать речь, записанную не гарнитурой, а встроенным микрофоном ноутбука, как это часто бывает.
Вообще, фундаментальная причина плохого распознавания — несовпадение обучающих и тестовых условий (немного кривая калька с conditions mismatch). Туда можно отнести все: незнакомых дикторов, несовпадающие характеристики каналов, неадекватную языковую модель, и даже проявление эмоций, которых мы не ожидали от пользователя. В случае с ноутбучным микрофоном имеем различные аддитивные шумы и эхо, которых не было в обучающей базе, и которые могут значительно уронить точность распознавания.
Предыстория
Реализация шумоподавления в CMU Sphinx началась ровно год назад вот с этого поста Николая Шмырева (низкий ему поклон за всё, кстати): Around noise-robust PNCC features. Через два месяца состоялся коммит, но первое упоминание в FAQ появилось только 10 июня 2014. До этого момента с шумами предлагали бороться с помощью адаптации к каналу (весьма дельный совет, кстати, который никто не отменял). Так что для экспериментов вам понадобятся новейшая на сегодня версия 0.8.
Описание самого алгоритма приведено в фундаментальной статье и в посте Николая. Вкратце, алгоритм весьма похож на MFCC, а модификации обусловлены исследованиями в области слуховой системы человека. Шумоподавление в системах распознавания речи — весьма обширная облать, в которую я не буду углубляться, поскольку не шарю. Расскажу только, как реализовать ее на практике. Данный пост является обобщением информации, найденной мной в статьях и на форумах. От вас потребуется знакомство со сфинксом. В противном случае, добро пожаловать в вики.
Шумоподавление на практике
Если PNCCs — это просто новые признаки такие, логично предположить, что их можно использовать, указав соответствующее значение для -feat
. А вот и нет, ха-ха. В данном случае реализация модификацию уже существующего механизма feature extraction. И выглядит это немного по-разному для pocketsphinx и Sphinx4. Но давайте по порядку.
Создание акустических моделей
Итак, прежде чем приступить к распознаванию, нам нужны акустические модели. Существующие модели нам не подойдут, потому что получены они пока обычным способом, а значит попытка их использования в шумоустойчивой системе породит тот самый фундаментальный mismatch. Поэтому модели нужно будет натренировать заново. Для этого, соответственно, нужен корпус и установленные sphinxbase и sphinxtrain. В качестве корпуса рекомендую voxforge, который нужно будет слегка модифицировать.
Вот здесь мы и подходим к самому главному. Как вы, наверное, знаете, sphinxtrain управляется общим конфигом (sphinx_train.cfg), который задает все параметры для обучения (и тестирования) моделей, и дополнительно feat.params, в котором указываются параметры feature extraction. Начиная с версии 0.8, некоторые утилиты сфинкса получили дополнительные параметры, отвечающие за шумоподавление. А именно -remove_noise
и -lifter
. Для -remove_noise
нужно задать значение yes
(впрочем, это его дефолтное значение), а обычное значение параметра -lifter
— 22. Если задавать его в основном конфиге:
$CFG_LIFTER = "22"; # Cepstrum lifter is smoothing to improve recognition
то можно читать его оттуда:
-lifter __CFG_LIFTER__
Еще один важный для нас параметр — это -transform
. Его дефолтное значение legacy
, но нам нужно dct
. Итак, чтобы натренировать шумоустойчивые модели, нам нужно задать в feat.params трио параметров:
-transform dct -remove_noise yes -lifter 22
Но все же, лучше перенести их в sphinx_train.cfg, как это делается для других параметров:
$CFG_TRANSFORM = "dct"; # Previously legacy transform is used, but dct is more accurate $CFG_LIFTER = "22"; # Cepstrum lifter is smoothing to improve recognition
feat.params:
-transform __CFG_TRANSFORM__ -remove_noise yes -lifter __CFG_LIFTER__
Надо понимать, что sphinxtrain — это всего лишь скрипт-обертка для отдельных утилит, таких как fe, поэтому если вы вызываете их отдельно, нужно всегда задавать эти параметры (если они есть).
Вот пример моих конфигов для voxforge-en:
# Configuration script for sphinx trainer -*-mode:Perl-*- $CFG_VERBOSE = 1; # Determines how much goes to the screen. # These are filled in at configuration time $CFG_DB_NAME = "voxforge_en"; # Experiment name, will be used to name model files and log files $CFG_EXPTNAME = "$CFG_DB_NAME"; # Directory containing SphinxTrain binaries $CFG_BASE_DIR = "/home/speechdat/voxforge-en"; $CFG_SPHINXTRAIN_DIR = "/usr/local/lib/sphinxtrain"; $CFG_BIN_DIR = "/usr/local/libexec/sphinxtrain"; $CFG_SCRIPT_DIR = "/usr/local/lib/sphinxtrain/scripts"; # Audio waveform and feature file information $CFG_WAVFILES_DIR = "$CFG_BASE_DIR/wav"; $CFG_WAVFILE_EXTENSION = 'wav'; $CFG_WAVFILE_TYPE = 'mswav'; # one of nist, mswav, raw $CFG_FEATFILES_DIR = "$CFG_BASE_DIR/feat"; $CFG_FEATFILE_EXTENSION = 'mfc'; $CFG_VECTOR_LENGTH = 13; # Feature extraction parameters $CFG_WAVFILE_SRATE = 16000.0; $CFG_NUM_FILT = 40; # For wideband speech it's 40, for telephone 8khz reasonable value is 31 $CFG_LO_FILT = 133.33334; # For telephone 8kHz speech value is 200 $CFG_HI_FILT = 6855.4976; # For telephone 8kHz speech value is 3500 $CFG_TRANSFORM = "dct"; # Previously legacy transform is used, but dct is more accurate $CFG_LIFTER = "22"; # Cepstrum lifter is smoothing to improve recognition $CFG_MIN_ITERATIONS = 1; # BW Iterate at least this many times $CFG_MAX_ITERATIONS = 10; # BW Don't iterate more than this, somethings likely wrong. # (none/max) Type of AGC to apply to input files $CFG_AGC = 'none'; # (current/none) Type of cepstral mean subtraction/normalization # to apply to input files $CFG_CMN = 'current'; $CFG_CMNINIT = 10.0; # (yes/no) Normalize variance of input files to 1.0 $CFG_VARNORM = 'no'; # (yes/no) Train full covariance matrices $CFG_FULLVAR = 'no'; # (yes/no) Use diagonals only of full covariance matrices for # Forward-Backward evaluation (recommended if CFG_FULLVAR is yes) $CFG_DIAGFULL = 'no'; # (yes/no) Perform vocal tract length normalization in training. This # will result in a "normalized" model which requires VTLN to be done # during decoding as well. $CFG_VTLN = 'no'; # Starting warp factor for VTLN $CFG_VTLN_START = 0.80; # Ending warp factor for VTLN $CFG_VTLN_END = 1.40; # Step size of warping factors $CFG_VTLN_STEP = 0.05; # Directory to write queue manager logs to $CFG_QMGR_DIR = "$CFG_BASE_DIR/qmanager"; # Directory to write training logs to $CFG_LOG_DIR = "$CFG_BASE_DIR/logdir"; # Directory for re-estimation counts $CFG_BWACCUM_DIR = "$CFG_BASE_DIR/bwaccumdir"; # Directory to write model parameter files to $CFG_MODEL_DIR = "$CFG_BASE_DIR/model_parameters"; # Directory containing transcripts and control files for # speaker-adaptive training $CFG_LIST_DIR = "$CFG_BASE_DIR/etc"; # Decoding variables for MMIE training $CFG_LANGUAGEWEIGHT = "11.5"; $CFG_BEAMWIDTH = "1e-100"; $CFG_WORDBEAM = "1e-80"; $CFG_LANGUAGEMODEL = "$CFG_LIST_DIR/${CFG_DB_NAME}_full.lm.DMP"; $CFG_WORDPENALTY = "0.2"; # Lattice pruning variables $CFG_ABEAM = "1e-50"; $CFG_NBEAM = "1e-10"; $CFG_PRUNED_DENLAT_DIR = "$CFG_BASE_DIR/pruned_denlat"; # MMIE training related variables $CFG_MMIE = "no"; $CFG_MMIE_MAX_ITERATIONS = 5; $CFG_LATTICE_DIR = "$CFG_BASE_DIR/lattice"; $CFG_MMIE_TYPE = "best"; # Valid values are "rand", "best" or "ci" $CFG_MMIE_CONSTE = "3.0"; $CFG_NUMLAT_DIR = "$CFG_BASE_DIR/numlat"; $CFG_DENLAT_DIR = "$CFG_BASE_DIR/denlat"; # Variables used in main training of models $CFG_DICTIONARY = "$CFG_LIST_DIR/$CFG_DB_NAME.dict"; $CFG_RAWPHONEFILE = "$CFG_LIST_DIR/$CFG_DB_NAME.phone"; $CFG_FILLERDICT = "$CFG_LIST_DIR/$CFG_DB_NAME.filler"; $CFG_LISTOFFILES = "$CFG_LIST_DIR/${CFG_DB_NAME}_full.fileids"; $CFG_TRANSCRIPTFILE = "$CFG_LIST_DIR/${CFG_DB_NAME}_full.transcription"; $CFG_FEATPARAMS = "$CFG_LIST_DIR/feat.params"; # Variables used in characterizing models $CFG_HMM_TYPE = '.cont.'; # Sphinx 4, PocketSphinx #$CFG_HMM_TYPE = '.semi.'; # PocketSphinx #$CFG_HMM_TYPE = '.ptm.'; # PocketSphinx (larger data sets) if (($CFG_HMM_TYPE ne ".semi.") and ($CFG_HMM_TYPE ne ".ptm.") and ($CFG_HMM_TYPE ne ".cont.")) { die "Please choose one CFG_HMM_TYPE out of '.cont.', '.ptm.', or '.semi.', " . "currently $CFG_HMM_TYPE\n"; } # This configuration is fastest and best for most acoustic models in # PocketSphinx and Sphinx-III. See below for Sphinx-II. $CFG_STATESPERHMM = 3; $CFG_SKIPSTATE = 'no'; if ($CFG_HMM_TYPE eq '.semi.') { $CFG_DIRLABEL = 'semi'; # Four stream features for PocketSphinx $CFG_FEATURE = "s2_4x"; $CFG_NUM_STREAMS = 4; $CFG_INITIAL_NUM_DENSITIES = 256; $CFG_FINAL_NUM_DENSITIES = 256; die "For semi continuous models, the initial and final models have the same density" if ($CFG_INITIAL_NUM_DENSITIES != $CFG_FINAL_NUM_DENSITIES); } elsif ($CFG_HMM_TYPE eq '.ptm.') { $CFG_DIRLABEL = 'ptm'; # Four stream features for PocketSphinx $CFG_FEATURE = "s2_4x"; $CFG_NUM_STREAMS = 4; $CFG_INITIAL_NUM_DENSITIES = 64; $CFG_FINAL_NUM_DENSITIES = 64; die "For phonetically tied models, the initial and final models have the same density" if ($CFG_INITIAL_NUM_DENSITIES != $CFG_FINAL_NUM_DENSITIES); } elsif ($CFG_HMM_TYPE eq '.cont.') { $CFG_DIRLABEL = 'cont'; # Single stream features - Sphinx 3 $CFG_FEATURE = "1s_c_d_dd"; $CFG_NUM_STREAMS = 1; $CFG_INITIAL_NUM_DENSITIES = 1; $CFG_FINAL_NUM_DENSITIES = 32; die "The initial has to be less than the final number of densities" if ($CFG_INITIAL_NUM_DENSITIES > $CFG_FINAL_NUM_DENSITIES); } # Number of top gaussians to score a frame. A little bit less accurate computations # make training significantly faster. Uncomment to apply this during the training # For good accuracy make sure you are using the same setting in decoder # In theory this can be different for various training stages. For example 4 for # CI stage and 16 for CD stage # $CFG_CI_TOPN = 4; # $CFG_CD_TOPN = 16; # (yes/no) Train multiple-gaussian context-independent models (useful # for alignment, use 'no' otherwise) in the models created # specifically for forced alignment $CFG_FALIGN_CI_MGAU = 'no'; # (yes/no) Train multiple-gaussian context-independent models (useful # for alignment, use 'no' otherwise) $CFG_CI_MGAU = 'no'; # Number of tied states (senones) to create in decision-tree clustering $CFG_N_TIED_STATES = 3000; # How many parts to run Forward-Backward estimatinon in $CFG_NPART = 1; # (yes/no) Train a single decision tree for all phones (actually one # per state) (useful for grapheme-based models, use 'no' otherwise) $CFG_CROSS_PHONE_TREES = 'no'; # Use force-aligned transcripts (if available) as input to training $CFG_FORCEDALIGN = 'no'; # Use a specific set of models for force alignment. If not defined, # context-independent models for the current experiment will be used. $CFG_FORCE_ALIGN_MDEF = "$CFG_BASE_DIR/model_architecture/$CFG_EXPTNAME.falign_ci.mdef"; $CFG_FORCE_ALIGN_MODELDIR = "$CFG_MODEL_DIR/$CFG_EXPTNAME.falign_ci_$CFG_DIRLABEL"; # Use a specific dictionary and filler dictionary for force alignment. # If these are not defined, a dictionary and filler dictionary will be # created from $CFG_DICTIONARY and $CFG_FILLERDICT, with noise words # removed from the filler dictionary and added to the dictionary (this # is because the force alignment is not very good at inserting them) # $CFG_FORCE_ALIGN_DICTIONARY = "$ST::CFG_BASE_DIR/falignout$ST::CFG_EXPTNAME.falign.dict";; # $CFG_FORCE_ALIGN_FILLERDICT = "$ST::CFG_BASE_DIR/falignout/$ST::CFG_EXPTNAME.falign.fdict";; # Use a particular beam width for force alignment. The wider # (i.e. smaller numerically) the beam, the fewer sentences will be # rejected for bad alignment. $CFG_FORCE_ALIGN_BEAM = 1e-60; # Calculate an LDA/MLLT transform? $CFG_LDA_MLLT = 'yes'; # Dimensionality of LDA/MLLT output $CFG_LDA_DIMENSION = 29; # This is actually just a difference in log space (it doesn't make # sense otherwise, because different feature parameters have very # different likelihoods) $CFG_CONVERGENCE_RATIO = 0.1; # Queue::POSIX for multiple CPUs on a local machine # Queue::PBS to use a PBS/TORQUE queue $CFG_QUEUE_TYPE = "Queue::POSIX"; # Name of queue to use for PBS/TORQUE $CFG_QUEUE_NAME = "workq"; # (yes/no) Build questions for decision tree clustering automatically $CFG_MAKE_QUESTS = "yes"; # If CFG_MAKE_QUESTS is yes, questions are written to this file. # If CFG_MAKE_QUESTS is no, questions are read from this file. $CFG_QUESTION_SET = "${CFG_BASE_DIR}/model_architecture/${CFG_EXPTNAME}.tree_questions"; #$CFG_QUESTION_SET = "${CFG_BASE_DIR}/linguistic_questions"; $CFG_CP_OPERATION = "${CFG_BASE_DIR}/model_architecture/${CFG_EXPTNAME}.cpmeanvar"; # This variable has to be defined, otherwise utils.pl will not load. $CFG_DONE = 1; return 1;
-alpha 0.97 -dither yes -doublebw no -nfilt __CFG_NUM_FILT__ -ncep __CFG_VECTOR_LENGTH__ -lowerf __CFG_LO_FILT__ -upperf __CFG_HI_FILT__ -samprate __CFG_WAVFILE_SRATE__ -nfft 512 -wlen 0.0256 -transform __CFG_TRANSFORM__ -feat __CFG_FEATURE__ -agc __CFG_AGC__ -cmn __CFG_CMN__ -varnorm __CFG_VARNORM__ -remove_noise yes -lifter __CFG_LIFTER__
Конечно, тренировка акустических моделей — это тот еще геморрой труд. Помимо специфических знаний, она требует установки sphinxbase и sphinxtrain и длится около суток. Поэтому я расшарил свои модели, натренированные на voxforge-en по вышеприведенному рецепту: dropbox.
Использование акустических моделей
Имея модели, мы можем, наконец, свободно вздохнуть и подключить их в свою систему. Здесь рецепты разнятся в зависимости от того, используете вы pocketsphinx или Sphinx4. С pocketsphinx все просто: нужно просто задать трио параметров -transform
, -remove_noise
и -lifter
. А ежели мы хотим использовать Sphinx4, то нужно включить во фронтенд компонент Denoise и немного изменить сам фронтенд. Соответствующий конвеер будет выглядеть примерно так:
- StreamDataSource
- Dither
- Preemphasizer
- RaisedCosineWindower
- DiscreteFourierTransform
- MelFrequencyFilterBank
- Denoise
- DiscreteCosineTransform2
- Lifter
- BatchCMN
- DeltasFeatureExtractor
- FeatureTransform
NB: featureTransform нужен, только если вы применяли LDA/MLLT в обучении моделей.
Три компонента, выделенные жирным и обеспечивают шумоподавление.
В XML соответствующая часть конфига будет выглядеть так:
<component name="mfcFrontEnd" type="edu.cmu.sphinx.frontend.FrontEnd"> <propertylist name="pipeline"> <item>audioFileDataSource</item> <item>dither</item> <item>preemphasizer</item> <item>windower</item> <item>fft</item> <item>melFilterBank</item> <item>denoise</item> <item>dct</item> <item>lifter</item> <item>batchCMN</item> <item>featureExtraction</item> <item>featureTransform</item> </propertylist> </component> <component name="audioFileDataSource" type="edu.cmu.sphinx.frontend.util.AudioFileDataSource"> </component> <component name="preemphasizer" type="edu.cmu.sphinx.frontend.filter.Preemphasizer"> </component> <component name="dither" type="edu.cmu.sphinx.frontend.filter.Dither"> </component> <component name="windower" type="edu.cmu.sphinx.frontend.window.RaisedCosineWindower"> </component> <component name="fft" type="edu.cmu.sphinx.frontend.transform.DiscreteFourierTransform"> </component> <component name="melFilterBank" type="edu.cmu.sphinx.frontend.frequencywarp.MelFrequencyFilterBank"> <property name="numberFilters" value="40"/> <property name="minimumFrequency" value="133.33334"/> <property name="maximumFrequency" value="6855.4976"/> </component> <component name="denoise" type="edu.cmu.sphinx.frontend.denoise.Denoise"> </component> <component name="dct" type="edu.cmu.sphinx.frontend.transform.DiscreteCosineTransform2"> </component> <component name="lifter" type="edu.cmu.sphinx.frontend.transform.Lifter"> </component> <component name="batchCMN" type="edu.cmu.sphinx.frontend.feature.BatchCMN"> </component> <component name="featureExtraction" type="edu.cmu.sphinx.frontend.feature.DeltasFeatureExtractor"> </component> <component name="featureTransform" type="edu.cmu.sphinx.frontend.feature.FeatureTransform"> <property name="loader" value="modelLoader"/> </component>
Это работает?
Вполне. Для своей задачи я получил прирост в 6.5%: с 74.65% до 81.38%. Но все равно, адаптацию к каналу стоит проводить.
ссылка на оригинал статьи http://habrahabr.ru/post/227099/
Добавить комментарий