next up previous contents
Next: Программы завершаются с ошибкой Up: Проблемы при запуске программ Previous: IBM RS6000   Contents

IBM SP

  1. В: При запуске программы на IBM SP выводится:
    $ mpirun -np 2 hello
    ERROR: 0031-124 Невозможно распределить узлы для параллельного исполнения.
    Выход ...
    ERROR: 0031-603 Распределение менеждера ресурсов для задач: 0, узел:
    me1.myuniv.edu, rc = JM_PARTIONCREATIONFAILURE
    ERROR: 0031-635 Возвращено ненулевое состояние -1 из pm_mgr_init
    О: Это значит, что либо mpirun пытается запустить задачи на Вашей SP отличным от поддерживаемого Вашей инсталляцией способом, или существует неисправность в программном обеспечении IBM, управляющем параллельными задачами (все эти сообщения об ошибках происходят от команды IBM poe, которую mpirun использует для запуска задачи MPI). Свяжитесь с Вашим системным администратором для помощи в исправлении этой ситуации. Ваш системный администратор может использовать
    dsh -av ``ps aux | egrep -i `poe|pmd|jmd'''
    с управляющей рабочей станции для поиска случайных задач IBM POE, что может вызывать такое поведение. Файлы /tmp/jmd_err на отдельных узлах могут также содержать полезную диагностическую информацию.
  2. В: При попытке запуска программы на IBM SP получено сообщение от mpirun:
    ERROR: 0031-214 pmd: chdir </a/user/gamma/home/mpich/examples/basic>
    ERROR: 0031-214 pmd: chdir </a/user/gamma/home/mpich/examples/basic>
    О: Это сообщения от системы IBM tbe, а не от mpirun. Они могут быть вызваны несовместимостью между POE, программой автомонтирования (особенно AMD) и shell, особенно если Вы используете не ksh. Не существует хорошего решения; IBM часто рекомендует сменить Вашу shell на ksh!
  3. В: При попытке запуска программы на IBM SP получено
    ERROR : Невозможно определить каталог сообщений (pepoe.cat) используя текущий
    NLSPATH
    INFO : Если NLSPATH установлен правильно и каталог существует, проверьте
    переменные LANG или LC_MESSAGES
    (C) Открытие каталога сообщений ``pepoe.cat'' невозможно
    (и другие вариации, упоминающие NLSPATH и ``каталог сообщений'').

    О: Это проблема в Вашей системе; свяжитесь с Вашей командой поддержки. Обратите внимание на (а) значение NLSPATH, (b) ссылки из `/usr/lib/nls/msg/prime' к соответствущему языковому каталогу. Сообщения происходят не от mpich; они от кода IBM POE/MPL, который использует реализация mpich.

  4. В: При запуске программы на IBM SP выводится:
    ERROR: 0031-124 Менее 2 узлов доступно из pool 0
    О: Это означает, что система IBM POE/MPL не может распределить запрошенные узлы, когда Вы пытаетесь запустить программу; вероятно, систему использует кто-то еще. Вы можете попытаться использовать переменные окружения MP_RETRY и MP_RETRYCOUNT, чтобы заставить задачу ожидать, пока узлы не станут доступны. Используйте man poe для дополнительной информации.
  5. В: При запуске программы на IBM SP задача генерирует сообщение
    Сообщение номер 0031$-$254 не найдено в каталоге сообщений.
    а затем завершается.

    О: Если Ваше имя пользователя состоит из 8 символов, Вы можете обнаружить ошибку в среде IBM POE. Единственным исправлением, описанным на данный момент, является испоьзование профиля, в котором имя пользователя состоит из 7 символов или менее. Спросите Вашего представителя IBM о PMR 4017X (poe с идентификаторами пользователя длиной 8 символов не работает) и связанным с ним APAR IX56566.



Alex Otwagin 2002-12-16