NFS Передача файлов по локальной сети

Как правильно задавать вопросы Правильно сформулированный вопрос и его грамотное оформление способствует высокой вероятности получения достаточно содержательного и по существу ответа. Общая рекомендация по составлению тем: 1. Для начала воспользуйтесь поиском форума. 2. Укажите версию ОС вместе с разрядностью. Пример: LM 19.3 x64, LM Sarah x32 3. DE. Если вопрос касается двух, то через запятую. (xfce, KDE, cinnamon, mate) 4. Какое железо. (достаточно вывод inxi -Fxz в спойлере (как пользоваться спойлером смотрим здесь)) или же дать ссылку на hw-probe 5. Суть. Желательно с выводом консоли, логами. 6. Скрин. Просьба указывать 2, 3 и 4 независимо от того, имеет ли это отношение к вопросу или нет. Так же не забываем об общих правилах Как пример вот
no avatar

Автор темы
serge.luch
Сообщения: 17
Зарегистрирован: 24 янв 2019, 14:02
Контактная информация:

Передача файлов по локальной сети

#21

04 фев 2019, 17:55

slant:
Результат 1-го пункта: в трёх клиентах результаты пинга почти одинаковы - типа 0.35что-то/0.37что-то/0.38что-то разброс 0.014, потерь 0%
По второму пункту.
Создал каталог с 777, поправил exports, с сервера монтируется нормально, в клиенте смонтировалось нормально, при копировании из сервера глюк тот же.

journalctl -b: в клиенте на момент попытки копирования файлов (около 17:35) строки:

Код: Выделить всё

...
фев 04 17:34:04 usercomp ntpd[1346]: error resolving pool ntp.ubuntu.com: Temporary failure in name resolution (-3)
фев 04 17:34:24 usercomp ntpd[1346]: error resolving pool 2.ubuntu.pool.ntp.org: Temporary failure in name resolution (-3)
фев 04 17:34:44 usercomp ntpd[1346]: error resolving pool 3.ubuntu.pool.ntp.org: Temporary failure in name resolution (-3)
фев 04 17:35:04 usercomp ntpd[1346]: error resolving pool 1.ubuntu.pool.ntp.org: Temporary failure in name resolution (-3)
фев 04 17:35:17 usercomp mate-screensaver-dialog[10442]: pam_ecryptfs: seteuid error
фев 04 17:35:17 usercomp mate-screensaver-dialog[10442]: gkr-pam: unlocked login keyring
фев 04 17:35:24 usercomp ntpd[1346]: error resolving pool 0.ubuntu.pool.ntp.org: Temporary failure in name resolution (-3)
фев 04 17:35:44 usercomp ntpd[1346]: error resolving pool ntp.ubuntu.com: Temporary failure in name resolution (-3)
фев 04 17:36:04 usercomp ntpd[1346]: error resolving pool 2.ubuntu.pool.ntp.org: Temporary failure in name resolution (-3)
фев 04 17:36:24 usercomp ntpd[1346]: error resolving pool 3.ubuntu.pool.ntp.org: Temporary failure in name resolution (-3)
фев 04 17:36:44 usercomp ntpd[1346]: error resolving pool 1.ubuntu.pool.ntp.org: Temporary failure in name resolution (-3)
И таких строк раньше немеряно...

journalctl -b в сервере:
На этот момент времени (17:35) ничего нет...
Там как в 17:17... была запись о cron'е, так на ней и закончилось.
Вот такие результаты эксперимента.

Аватара пользователя

rogoznik
Сообщения: 10015
Зарегистрирован: 27 июн 2017, 13:36
Решено: 128
Откуда: Нижний Тагил
Благодарил (а): 776 раз
Поблагодарили: 1950 раз
Контактная информация:

Передача файлов по локальной сети

#22

04 фев 2019, 18:33

serge.luch, просьба прочитать и начать пользоваться Панель форматирования текста в темах/ответах
ИзображениеИзображение

Аватара пользователя

madesta
Сообщения: 1988
Зарегистрирован: 11 июн 2017, 21:47
Решено: 28
Откуда: BY
Благодарил (а): 79 раз
Поблагодарили: 425 раз
Контактная информация:

Передача файлов по локальной сети

#23

04 фев 2019, 18:46

serge.luch писал(а):
04 фев 2019, 17:55
error resolving pool ntp.ubuntu.com
Похоже, система не может определить IP пула ntp.ubuntu.com
Или с DNS проблемы или со службой времени.

Аватара пользователя

slant
Сообщения: 4469
Зарегистрирован: 21 июн 2017, 18:09
Решено: 95
Благодарил (а): 51 раз
Поблагодарили: 1966 раз
Контактная информация:

NFS Передача файлов по локальной сети

#24

04 фев 2019, 21:55

serge.luch, Клиентов и качество сети можно исключить. Если монтировали с сервера на сервер через 127.0.0.1 и глюк был - сетевую карту сервера можно исключить тоже.

Остается под подозрением, исключительно на сервере:

1. Ядро системы. Можно попробовать сменить версию.
2. Память. Нужно прогнать тесты (memtest86).
3. Диск. Если не установлен - поставить пакет smartmontools, и посмотреть состояние диска командой sudo smartctl -a /dev/sda (или другие имена дисков). Вывод довольно большой, но для ясности картины нужен целиком.

Так же, покажите пожалуйста: inxi -Fxz, /etc/fstab, /etc/exports, ip a, ip r.
(С сервера.)

no avatar

Автор темы
serge.luch
Сообщения: 17
Зарегистрирован: 24 янв 2019, 14:02
Контактная информация:

NFS Передача файлов по локальной сети

#25

05 фев 2019, 17:32

slant:
Отчёт о проделанном:
1. Это пока изучаю.
2. прогонял тест из установочной флешки (с образом) - тест ошибок не выявил
3. smartctl:
smartctl 6.6 2016-05-31 r4324 [i686-linux-4.15.0-39-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family: Seagate Maxtor DiamondMax 21
Device Model: MAXTOR STM3250310AS
Serial Number: 6RY6ZYGH
Firmware Version: 3.AAF
User Capacity: 250 059 350 016 bytes [250 GB]
Sector Size: 512 bytes logical/physical
Device is: In smartctl database [for details use: -P show]
ATA Version is: ATA/ATAPI-7 (minor revision not indicated)
Local Time is: Tue Feb 5 09:45:49 2019 MSK
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status: (0x82) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: ( 430) seconds.
Offline data collection
capabilities: (0x5b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
No Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 1) minutes.
Extended self-test routine
recommended polling time: ( 92) minutes.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 100 253 006 Pre-fail Always - 0
3 Spin_Up_Time 0x0003 097 097 000 Pre-fail Always - 0
4 Start_Stop_Count 0x0032 099 099 020 Old_age Always - 1475
5 Reallocated_Sector_Ct 0x0033 100 100 036 Pre-fail Always - 7
7 Seek_Error_Rate 0x000f 079 060 030 Pre-fail Always - 87557588
9 Power_On_Hours 0x0032 090 090 000 Old_age Always - 8998
10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 099 099 020 Old_age Always - 1477
187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0
189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0
190 Airflow_Temperature_Cel 0x0022 059 053 045 Old_age Always - 41 (Min/Max 16/47)
194 Temperature_Celsius 0x0022 041 047 000 Old_age Always - 41 (0 16 0 0 0)
195 Hardware_ECC_Recovered 0x001a 079 066 000 Old_age Always - 194402621
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x003e 200 178 000 Old_age Always - 889
200 Multi_Zone_Error_Rate 0x0000 100 253 000 Old_age Offline - 0
202 Data_Address_Mark_Errs 0x0032 100 253 000 Old_age Always - 0

SMART Error Log Version: 1
ATA Error Count: 353 (device log contains only the most recent five errors)
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 353 occurred at disk power-on lifetime: 8282 hours (345 days + 2 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
84 51 00 00 00 00 e0 Error: ABRT at LBA = 0x00000000 = 0

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
29 20 38 c0 dc 82 e0 00 03:02:16.550 READ MULTIPLE EXT
29 20 3a c6 86 83 e0 00 03:02:16.544 READ MULTIPLE EXT
29 20 06 c0 86 83 e0 00 03:02:16.537 READ MULTIPLE EXT
29 20 39 87 86 83 e0 00 03:02:16.618 READ MULTIPLE EXT
29 20 07 80 86 83 e0 00 03:02:16.611 READ MULTIPLE EXT

Error 352 occurred at disk power-on lifetime: 8281 hours (345 days + 1 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
84 51 00 47 e0 06 e0 Error: ICRC, ABRT at LBA = 0x0006e047 = 450631

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
25 00 08 40 e0 06 e0 00 02:21:59.298 READ DMA EXT
25 00 08 38 e0 06 e0 00 02:21:59.298 READ DMA EXT
25 00 08 30 e0 06 e0 00 02:21:59.298 READ DMA EXT
25 00 08 28 e0 06 e0 00 02:21:59.297 READ DMA EXT
25 00 08 20 e0 06 e0 00 02:21:59.297 READ DMA EXT

Error 351 occurred at disk power-on lifetime: 8281 hours (345 days + 1 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
84 51 97 61 e2 06 e0 Error: ICRC, ABRT 151 sectors at LBA = 0x0006e261 = 451169

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
25 00 48 b0 e1 06 e0 00 02:21:58.265 READ DMA EXT
27 00 00 00 00 00 e0 00 02:21:58.263 READ NATIVE MAX ADDRESS EXT [OBS-ACS-3]
ec 00 00 00 00 00 a0 00 02:21:58.261 IDENTIFY DEVICE
ef 03 42 00 00 00 a0 00 02:21:58.261 SET FEATURES [Set transfer mode]
27 00 00 00 00 00 e0 00 02:21:58.258 READ NATIVE MAX ADDRESS EXT [OBS-ACS-3]

Error 350 occurred at disk power-on lifetime: 8281 hours (345 days + 1 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
84 51 07 f1 e2 06 e0 Error: ICRC, ABRT 7 sectors at LBA = 0x0006e2f1 = 451313

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
25 00 48 b0 e1 06 e0 00 02:21:56.779 READ DMA EXT
35 00 10 98 37 c9 e0 00 02:21:56.258 WRITE DMA EXT
27 00 00 00 00 00 e0 00 02:21:56.258 READ NATIVE MAX ADDRESS EXT [OBS-ACS-3]
ec 00 00 00 00 00 a0 00 02:21:56.256 IDENTIFY DEVICE
ef 03 42 00 00 00 a0 00 02:21:56.254 SET FEATURES [Set transfer mode]

Error 349 occurred at disk power-on lifetime: 8281 hours (345 days + 1 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH
-- -- -- -- -- -- --
84 51 cf e1 de 06 e0 Error: ICRC, ABRT 207 sectors at LBA = 0x0006dee1 = 450273

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name
-- -- -- -- -- -- -- -- ---------------- --------------------
25 00 00 b0 de 06 e0 00 02:21:55.125 READ DMA EXT
27 00 00 00 00 00 e0 00 02:21:56.258 READ NATIVE MAX ADDRESS EXT [OBS-ACS-3]
ec 00 00 00 00 00 a0 00 02:21:56.258 IDENTIFY DEVICE
ef 03 42 00 00 00 a0 00 02:21:56.256 SET FEATURES [Set transfer mode]
27 00 00 00 00 00 e0 00 02:21:56.254 READ NATIVE MAX ADDRESS EXT [OBS-ACS-3]

SMART Self-test log structure revision number 1

SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
inxi:
System: Host: u123-01 Kernel: 4.15.0-39-generic i686 bits: 32 Desktop: MATE 1.20.1 Distro: Linux Mint 19.1 Tessa
Machine: Type: Desktop System: Foxconn product: G33M03 v: 1.0 serial: N/A
Mobo: FOXCONN model: G33M03 v: 1.0 serial: N/A BIOS: American Megatrends v: 080014 date: 08/28/2008
CPU: Topology: Dual Core model: Intel Core2 Duo E7200 bits: 64 type: MCP L2 cache: 3072 KiB
Speed: 1654 MHz min/max: N/A Core speeds (MHz): 1: 1654 2: 1644
Graphics: Device-1: Advanced Micro Devices [AMD/ATI] RV620 LE [Radeon HD 3450] driver: radeon v: kernel
Display: server: X.Org 1.19.6 driver: ati,radeon unloaded: fbdev,modesetting,vesa resolution: 1280x1024~60Hz
OpenGL: renderer: AMD RV620 (DRM 2.50.0 / 4.15.0-39-generic LLVM 6.0.0) v: 3.3 Mesa 18.0.5
Audio: Device-1: Intel 82801I HD Audio driver: snd_hda_intel
Device-2: Advanced Micro Devices [AMD/ATI] RV620 HDMI Audio [Radeon HD 3450/3470/3550/3570] driver: snd_hda_intel
Device-3: Z-Star Micro Venus USB2.0 Camera type: USB driver: snd-usb-audio,uvcvideo
Sound Server: ALSA v: k4.15.0-39-generic
Network: Device-1: D-Link System DGE-528T Gigabit Ethernet Adapter driver: r8169
IF: enp4s1 state: up speed: 1000 Mbps duplex: full mac: fc:75:16:59:a8:6b
Device-2: Realtek RTL-8110SC/8169SC Gigabit Ethernet driver: r8169
IF: enp4s2 state: up speed: 1000 Mbps duplex: full mac: 00:1c:25:6a:22:e8
Drives: Local Storage: total: 494.41 GiB used: 293.78 GiB (59.4%)
ID-1: /dev/sda vendor: Maxtor model: STM3250310AS size: 232.89 GiB
ID-2: /dev/sdb vendor: Maxtor model: STM3250310AS size: 232.89 GiB
ID-3: /dev/sdc vendor: Maxtor model: 6E030L0 size: 28.64 GiB
Partition: ID-1: / size: 15.52 GiB used: 12.72 GiB (82.0%) fs: ext4 dev: /dev/sda5
ID-2: /boot size: 268.1 MiB used: 192.1 MiB (71.6%) fs: ext4 dev: /dev/sda6
ID-3: /home size: 162.01 GiB used: 146.73 GiB (90.6%) fs: ext4 dev: /dev/sda8
ID-4: /tmp size: 4.45 GiB used: 9.5 MiB (0.2%) fs: ext4 dev: /dev/sda9
ID-5: swap-1 size: 4.66 GiB used: 0 KiB (0.0%) fs: swap dev: /dev/sdb5
ID-6: swap-2 size: 1.95 GiB used: 0 KiB (0.0%) fs: swap dev: /dev/sdc2
ID-7: swap-3 size: 3.44 GiB used: 0 KiB (0.0%) fs: swap dev: /dev/sda7
Sensors: System Temperatures: cpu: 41.0 C mobo: N/A gpu: radeon temp: 67 C
Fan Speeds (RPM): N/A
Info: Processes: 201 Uptime: 27m Memory: 7.91 GiB used: 1.28 GiB (16.2%) Shell: bash inxi: 3.0.27
fstab:
# /etc/fstab: static file system information.
#
# Use 'blkid' to print the universally unique identifier for a
# device; this may be used with UUID= as a more robust way to name devices
# that works even if disks are added and removed. See fstab(5).
#
# <file system> <mount point> <type> <options> <dump> <pass>
# / was on /dev/sda5 during installation
UUID=df624da7-42b2-49f8-a5c2-c6518a9915bd / ext4 errors=remount-ro 0 1
# /boot was on /dev/sda6 during installation
UUID=a3124b24-8318-47f5-8d79-4e34e97d8585 /boot ext4 defaults 0 2
# /home was on /dev/sda8 during installation
UUID=ed6265c6-5bce-47d2-95ae-58b87dd7e231 /home ext4 defaults 0 2
# /home2 was on /dev/sdb6 during installation
UUID=a4360a46-067e-48e3-965c-18e49bed7429 /home2 ext4 defaults 0 2
# /tmp was on /dev/sda9 during installation
UUID=60c110d7-41e1-413a-9926-3ff595da599f /tmp ext4 defaults 0 2
# swap was on /dev/sda7 during installation
UUID=63adddb2-223f-4cfd-93d3-de2db4b60c8b none swap sw 0 0
# swap was on /dev/sdb5 during installation
UUID=28c9f87e-e491-48c3-995c-23efc52cec58 none swap sw 0 0
# swap was on /dev/sdc2 during installation
UUID=7c5f2f6a-356c-418c-9e32-591461545953 none swap sw 0 0
exports:
# /etc/exports: the access control list for filesystems which may be exported
# to NFS clients. See exports(5).
#
# Example for NFSv2 and NFSv3:
# /srv/homes hostname1(rw,sync,no_subtree_check) hostname2(ro,sync,no_subtree_check)
#
# Example for NFSv4:
# /srv/nfs4 gss/krb5i(rw,sync,fsid=0,crossmnt,no_subtree_check)
# /srv/nfs4/homes gss/krb5i(rw,sync,no_subtree_check)
#
/home/public 192.168.0.0/24(ro,sync)
/srv/cat1 192.168.0.0/24(rw,sync,no_subtree_check)
ip a:
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN group default qlen 1000
link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
inet 127.0.0.1/8 scope host lo
valid_lft forever preferred_lft forever
inet6 ::1/128 scope host
valid_lft forever preferred_lft forever
2: enp4s1: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc fq_codel state UP group default qlen 1000
link/ether fc:75:16:59:a8:6b brd ff:ff:ff:ff:ff:ff
inet 192.168.0.254/24 brd 192.168.0.255 scope global noprefixroute enp4s1
valid_lft forever preferred_lft forever
inet6 fe80::f77e:e4d4:275d:193c/64 scope link noprefixroute
valid_lft forever preferred_lft forever
3: enp4s2: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc fq_codel state UP group default qlen 1000
link/ether 00:1c:25:6a:22:e8 brd ff:ff:ff:ff:ff:ff
inet 172.16.244.56/23 brd 172.16.245.255 scope global dynamic noprefixroute enp4s2
valid_lft 84669sec preferred_lft 84669sec
inet6 fe80::cd66:ff9c:9095:54f2/64 scope link noprefixroute
valid_lft forever preferred_lft forever
ip r:
default via 172.16.244.1 dev enp4s2 proto dhcp metric 100
default via 192.168.0.254 dev enp4s1 proto static metric 20101
169.254.0.0/16 dev enp4s1 scope link metric 1000
172.16.244.0/23 dev enp4s2 proto kernel scope link src 172.16.244.56 metric 100
192.168.0.0/24 dev enp4s1 proto kernel scope link src 192.168.0.254 metric 101
madesta: а почему вдруг клиент стал обращаться к IP пулу ntp.ubuntu.com?
сеть ведь обычная локальная
Впрочем, даже после того как доступ в интернет был открыт через сервер (маскарадинг), ситуация не изменилась

Аватара пользователя

slant
Сообщения: 4469
Зарегистрирован: 21 июн 2017, 18:09
Решено: 95
Благодарил (а): 51 раз
Поблагодарили: 1966 раз
Контактная информация:

NFS Передача файлов по локальной сети

#26

05 фев 2019, 19:36

serge.luch писал(а):
05 фев 2019, 17:32
madesta: а почему вдруг клиент стал обращаться к IP пулу ntp.ubuntu.com?
Это вообще к nfs прямого отношения не имеет. Просто попытка синхронизировать точное время системы со службой точного времени в интернете, на серверах ubuntu. Есть собственные такие сервера и у микрософта, и вообще общие - их много вообще-то.
serge.luch писал(а):
05 фев 2019, 17:32
3. smartctl:
Диск в не очень хорошем состоянии. Еще не дохнет совсем уж активно, но уже пошли проблемы. В принципе - может быть причиной, если под чтение/запись попадает битый блок. По таймауту ошибка доступа получается, а диск в это время пытается прочитать/записать многократно одно и тоже. Послушайте в момент копирования внимательно - нет ли характерных щелчков от диска в эти моменты обращения через nfs (равномерные щелчки через 1-3 секунды промежутком).
Покажите заодно: sudo smartctl -a /dev/sdb и sudo smartctl -a /dev/sdc (Только лучше вывод в тег code вставлять - читать легче).
А так же еще вывод sudo blkid и sudo iptables -L -n

P.S. Некоторые подозрения еще вызывает наличие двух маршрутов по умолчанию (default) - не то, чтобы это было совсем уж неправильным, но обычно такой маршрут только один. И подобная заморочка тоже может nfs мешать, но тут у вас вес маршрутов все-таки разный.

Аватара пользователя

Chocobo
Сообщения: 10015
Зарегистрирован: 27 авг 2016, 22:57
Решено: 215
Откуда: НН
Благодарил (а): 815 раз
Поблагодарили: 3008 раз
Контактная информация:

NFS Передача файлов по локальной сети

#27

05 фев 2019, 21:30

slant писал(а):
05 фев 2019, 19:36
В принципе - может быть причиной
Вероятность, что с нескольких клиентов попадаем на одинаково битый блок - слишком маловероятна наверное, хоть чудеса и не исключаю)

Роутинг вероятней с одной стороны, глянуть бы в tcpdump на интерфейсах клиента. Но с другой стороны, обломилось бы ещё на этапе монтирования. В mount на клиенте clienaddr= верный?
Изображение
   
Изображение

Аватара пользователя

slant
Сообщения: 4469
Зарегистрирован: 21 июн 2017, 18:09
Решено: 95
Благодарил (а): 51 раз
Поблагодарили: 1966 раз
Контактная информация:

NFS Передача файлов по локальной сети

#28

06 фев 2019, 00:17

Chocobo писал(а):
05 фев 2019, 21:30
Вероятность, что с нескольких клиентов попадаем на одинаково битый блок - слишком маловероятна наверное, хоть чудеса и не исключаю)
Ну при тестировании файл то один для чтения использовался скорее всего. Запись обычно тоже начинается примерно в одно место - там же ext4 на не btrfs. Это во первых. А во вторых у диска начались с механикой/электроникой проблемы - 199-ый параметр обратите внимание. Эти ошибки характерны тем, что могут долго не приводить к полному отказу - лишь многократным повторам перед удачной попыткой. И для таймаута nfs этого может хватать.

no avatar

Автор темы
serge.luch
Сообщения: 17
Зарегистрирован: 24 янв 2019, 14:02
Контактная информация:

NFS Передача файлов по локальной сети

#29

06 фев 2019, 11:47

slant:
файлы я каждый раз брал разные (для эксперимента).
Результаты команд:
smartctl -a /dev/sdb:

Код: Выделить всё

smartctl 6.6 2016-05-31 r4324 [i686-linux-4.15.0-39-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Seagate Maxtor DiamondMax 21
Device Model:     MAXTOR STM3250310AS
Serial Number:    6RY5QWEY
Firmware Version: 3.AAC
User Capacity:    250 059 350 016 bytes [250 GB]
Sector Size:      512 bytes logical/physical
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA/ATAPI-7 (minor revision not indicated)
Local Time is:    Wed Feb  6 11:16:13 2019 MSK
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82)	Offline data collection activity
					was completed without error.
					Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0)	The previous self-test routine completed
					without error or no self-test has ever 
					been run.
Total time to complete Offline 
data collection: 		(  430) seconds.
Offline data collection
capabilities: 			 (0x5b) SMART execute Offline immediate.
					Auto Offline data collection on/off support.
					Suspend Offline collection upon new
					command.
					Offline surface scan supported.
					Self-test supported.
					No Conveyance Self-test supported.
					Selective Self-test supported.
SMART capabilities:            (0x0003)	Saves SMART data before entering
					power-saving mode.
					Supports SMART auto save timer.
Error logging capability:        (0x01)	Error logging supported.
					General Purpose Logging supported.
Short self-test routine 
recommended polling time: 	 (   1) minutes.
Extended self-test routine
recommended polling time: 	 (  92) minutes.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   106   062   006    Pre-fail  Always       -       112835334
  3 Spin_Up_Time            0x0003   097   097   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   099   099   020    Old_age   Always       -       1887
  5 Reallocated_Sector_Ct   0x0033   049   049   036    Pre-fail  Always       -       2045
  7 Seek_Error_Rate         0x000f   084   060   030    Pre-fail  Always       -       274552735
  9 Power_On_Hours          0x0032   088   088   000    Old_age   Always       -       11287
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   099   099   020    Old_age   Always       -       1880
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   060   054   045    Old_age   Always       -       40 (Min/Max 25/41)
194 Temperature_Celsius     0x0022   040   046   000    Old_age   Always       -       40 (0 14 0 0 0)
195 Hardware_ECC_Recovered  0x001a   048   045   000    Old_age   Always       -       137598510
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   055   000    Old_age   Always       -       829
200 Multi_Zone_Error_Rate   0x0000   100   253   000    Old_age   Offline      -       0
202 Data_Address_Mark_Errs  0x0032   100   253   000    Old_age   Always       -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%     10336         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

smartctl -a /dev/sdc^

Код: Выделить всё

smartctl 6.6 2016-05-31 r4324 [i686-linux-4.15.0-39-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Maxtor DiamondMax Plus 8
Device Model:     Maxtor 6E030L0
Serial Number:    E14S09CE
Firmware Version: NAR61590
User Capacity:    30 748 950 016 bytes [30,7 GB]
Sector Size:      512 bytes logical/physical
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA/ATAPI-7 T13/1532D revision 0
Local Time is:    Wed Feb  6 11:16:25 2019 MSK
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82)	Offline data collection activity
					was completed without error.
					Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0)	The previous self-test routine completed
					without error or no self-test has ever 
					been run.
Total time to complete Offline 
data collection: 		( 1021) seconds.
Offline data collection
capabilities: 			 (0x5b) SMART execute Offline immediate.
					Auto Offline data collection on/off support.
					Suspend Offline collection upon new
					command.
					Offline surface scan supported.
					Self-test supported.
					No Conveyance Self-test supported.
					Selective Self-test supported.
SMART capabilities:            (0x0003)	Saves SMART data before entering
					power-saving mode.
					Supports SMART auto save timer.
Error logging capability:        (0x01)	Error logging supported.
					No General Purpose Logging support.
Short self-test routine 
recommended polling time: 	 (   2) minutes.
Extended self-test routine
recommended polling time: 	 (  17) minutes.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  3 Spin_Up_Time            0x0027   219   219   063    Pre-fail  Always       -       9919
  4 Start_Stop_Count        0x0032   252   252   000    Old_age   Always       -       2071
  5 Reallocated_Sector_Ct   0x0033   239   239   063    Pre-fail  Always       -       73
  6 Read_Channel_Margin     0x0001   253   253   100    Pre-fail  Offline      -       0
  7 Seek_Error_Rate         0x000a   253   252   000    Old_age   Always       -       0
  8 Seek_Time_Performance   0x0027   253   240   187    Pre-fail  Always       -       36595
  9 Power_On_Minutes        0x0032   215   215   000    Old_age   Always       -       147h+48m
 10 Spin_Retry_Count        0x002b   253   252   157    Pre-fail  Always       -       0
 11 Calibration_Retry_Count 0x002b   253   252   223    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   246   246   000    Old_age   Always       -       3130
192 Power-Off_Retract_Count 0x0032   252   252   000    Old_age   Always       -       1836
193 Load_Cycle_Count        0x0032   252   252   000    Old_age   Always       -       6901
194 Temperature_Celsius     0x0032   253   253   000    Old_age   Always       -       42
195 Hardware_ECC_Recovered  0x000a   253   252   000    Old_age   Always       -       765
196 Reallocated_Event_Count 0x0008   249   249   000    Old_age   Offline      -       4
197 Current_Pending_Sector  0x0008   253   253   000    Old_age   Offline      -       0
198 Offline_Uncorrectable   0x0008   248   248   000    Old_age   Offline      -       5
199 UDMA_CRC_Error_Count    0x0008   197   196   000    Old_age   Offline      -       3
200 Multi_Zone_Error_Rate   0x000a   253   252   000    Old_age   Always       -       0
201 Soft_Read_Error_Rate    0x000a   253   252   000    Old_age   Always       -       0
202 Data_Address_Mark_Errs  0x000a   253   200   000    Old_age   Always       -       0
203 Run_Out_Cancel          0x000b   253   252   180    Pre-fail  Always       -       0
204 Soft_ECC_Correction     0x000a   253   250   000    Old_age   Always       -       0
205 Thermal_Asperity_Rate   0x000a   253   252   000    Old_age   Always       -       0
207 Spin_High_Current       0x002a   253   252   000    Old_age   Always       -       0
208 Spin_Buzz               0x002a   253   252   000    Old_age   Always       -       0
209 Offline_Seek_Performnce 0x0024   251   188   000    Old_age   Offline      -       0
 99 Unknown_Attribute       0x0004   253   253   000    Old_age   Offline      -       0
100 Unknown_Attribute       0x0004   253   253   000    Old_age   Offline      -       0
101 Unknown_Attribute       0x0004   253   253   000    Old_age   Offline      -       0

SMART Error Log Version: 1
Warning: ATA error count 4336 inconsistent with error log pointer 5

ATA Error Count: 4336 (device log contains only the most recent five errors)
	CR = Command Register [HEX]
	FR = Features Register [HEX]
	SC = Sector Count Register [HEX]
	SN = Sector Number Register [HEX]
	CL = Cylinder Low Register [HEX]
	CH = Cylinder High Register [HEX]
	DH = Device/Head Register [HEX]
	DC = Device Command Register [HEX]
	ER = Error register [HEX]
	ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It "wraps" after 49.710 days.

Error 4336 occurred at disk power-on lifetime: 11832 hours (493 days + 0 hours)
  When the command that caused the error occurred, the device was in an unknown state.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 08 00 48 04 f0  Error: UNC 8 sectors at LBA = 0x00044800 = 280576

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 08 00 48 04 f0 08      00:05:19.104  READ DMA
  c8 00 08 48 0a 00 f0 08      00:05:19.088  READ DMA
  c8 00 20 00 08 00 f0 08      00:05:19.040  READ DMA
  ec 00 01 00 00 00 10 08      00:05:18.864  IDENTIFY DEVICE
  c8 00 08 00 68 09 f0 08      00:05:13.888  READ DMA

Error 4335 occurred at disk power-on lifetime: 11749 hours (489 days + 13 hours)
  When the command that caused the error occurred, the device was in an unknown state.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 01 02 08 00 f0  Error: UNC 1 sectors at LBA = 0x00000802 = 2050

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c8 00 02 02 08 00 f0 08      00:03:58.912  READ DMA
  c8 00 90 78 23 c8 f1 08      00:03:58.912  READ DMA
  c8 00 78 00 23 c8 f1 08      00:03:58.896  READ DMA
  c8 00 68 a8 ca e7 f1 08      00:03:58.896  READ DMA
  c8 00 a8 00 ca e7 f1 08      00:03:58.896  READ DMA

Error 4334 occurred at disk power-on lifetime: 8836 hours (368 days + 4 hours)
  When the command that caused the error occurred, the device was in an unknown state.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 02 02 4c 01 f0  Error: UNC at LBA = 0x00014c02 = 84994

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c4 20 02 02 4c 01 f0 08      00:11:16.352  READ MULTIPLE
  c6 20 10 00 00 00 ff 08      00:11:16.352  SET MULTIPLE MODE
  91 20 3f 00 00 00 ff 08      00:11:16.352  INITIALIZE DEVICE PARAMETERS [OBS-6]
  10 20 01 01 00 00 fc 08      00:11:16.336  RECALIBRATE [OBS-4]
  c4 20 34 00 4c 01 f0 04      00:11:16.336  READ MULTIPLE

Error 4333 occurred at disk power-on lifetime: 8836 hours (368 days + 4 hours)
  When the command that caused the error occurred, the device was in an unknown state.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 34 00 4c 01 f0  Error: UNC at LBA = 0x00014c00 = 84992

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c4 20 34 00 4c 01 f0 08      00:11:15.040  READ MULTIPLE
  c6 20 10 00 00 00 ff 08      00:11:15.024  SET MULTIPLE MODE
  91 20 3f 00 00 00 ff 08      00:11:15.024  INITIALIZE DEVICE PARAMETERS [OBS-6]
  10 20 01 01 00 00 fc 08      00:11:15.008  RECALIBRATE [OBS-4]
  c4 20 34 00 4c 01 f0 04      00:11:15.008  READ MULTIPLE

Error 4332 occurred at disk power-on lifetime: 8836 hours (368 days + 4 hours)
  When the command that caused the error occurred, the device was in an unknown state.

  After command completion occurred, registers were:
  ER ST SC SN CL CH DH
  -- -- -- -- -- -- --
  40 51 34 00 4c 01 f0  Error: UNC at LBA = 0x00014c00 = 84992

  Commands leading to the command that caused the error were:
  CR FR SC SN CL CH DH DC   Powered_Up_Time  Command/Feature_Name
  -- -- -- -- -- -- -- --  ----------------  --------------------
  c4 20 34 00 4c 01 f0 08      00:11:13.728  READ MULTIPLE
  c6 20 10 00 00 00 ff 08      00:11:13.712  SET MULTIPLE MODE
  91 20 3f 00 00 00 ff 08      00:11:13.712  INITIALIZE DEVICE PARAMETERS [OBS-6]
  10 20 01 01 00 00 fc 08      00:11:13.696  RECALIBRATE [OBS-4]
  c4 20 34 00 4c 01 f0 04      00:11:13.696  READ MULTIPLE

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

blkid:

Код: Выделить всё

/dev/sda1: UUID="C030101E30101DCA" TYPE="ntfs" PARTUUID="c8da92cd-01"
/dev/sda2: LABEL="New Volume" UUID="FA40394F4039143B" TYPE="ntfs" PARTUUID="c8da92cd-02"
/dev/sda5: UUID="df624da7-42b2-49f8-a5c2-c6518a9915bd" TYPE="ext4" PARTUUID="c8da92cd-05"
/dev/sda6: UUID="a3124b24-8318-47f5-8d79-4e34e97d8585" TYPE="ext4" PARTUUID="c8da92cd-06"
/dev/sda7: UUID="63adddb2-223f-4cfd-93d3-de2db4b60c8b" TYPE="swap" PARTUUID="c8da92cd-07"
/dev/sda8: UUID="ed6265c6-5bce-47d2-95ae-58b87dd7e231" TYPE="ext4" PARTUUID="c8da92cd-08"
/dev/sda9: UUID="60c110d7-41e1-413a-9926-3ff595da599f" TYPE="ext4" PARTUUID="c8da92cd-09"
/dev/sdb1: LABEL="TEST" UUID="F40AE5A40AE56458" TYPE="ntfs" PARTUUID="54b1eb48-01"
/dev/sdb2: UUID="E604BCAD04BC81DB" TYPE="ntfs" PARTUUID="54b1eb48-02"
/dev/sdb5: UUID="28c9f87e-e491-48c3-995c-23efc52cec58" TYPE="swap" PARTUUID="54b1eb48-05"
/dev/sdb6: LABEL="home3" UUID="a4360a46-067e-48e3-965c-18e49bed7429" TYPE="ext4" PARTUUID="54b1eb48-06"
/dev/sdc1: UUID="b53c7002-d37e-40ff-90cb-56e59d7c0082" TYPE="ext4" PARTUUID="ae295b98-01"
/dev/sdc2: UUID="7c5f2f6a-356c-418c-9e32-591461545953" TYPE="swap" PARTUUID="ae295b98-02"
/dev/sdc3: UUID="cc800149-6414-4af8-93ad-8d9e3b566e56" TYPE="ext4" PARTUUID="ae295b98-03"
/dev/sdh1: UUID="2404-ED93" TYPE="vfat" PARTUUID="ff6e614a-01"
iptables -L -n (все цепочки пустые):

Код: Выделить всё

Chain INPUT (policy ACCEPT)
target     prot opt source               destination         

Chain FORWARD (policy ACCEPT)
target     prot opt source               destination         

Chain OUTPUT (policy ACCEPT)
target     prot opt source               destination         
Правильно ли я понимаю, что причиной глюка может быть элементарная старость этого раздела диска? И многократные повторы при копировании с диска на диск или на внешний накопитель я не увижу, так как nfs тут не используется?
А как можно таймаут для nfs увеличить? Если в этом причина, то при увеличении таймаута ошибки, по идее, должны прекратиться?
Возвратом на ext3 можно решить проблему?

Аватара пользователя

Unborn
Сообщения: 1920
Зарегистрирован: 03 сен 2016, 13:36
Решено: 24
Благодарил (а): 5 раз
Поблагодарили: 264 раза
Контактная информация:

NFS Передача файлов по локальной сети

#30

06 фев 2019, 12:35

madesta писал(а):
04 фев 2019, 18:46
Или с DNS проблемы или со службой времени.
Вот именно. Потому что именно инструкции нужно читать, а не какие-то там блоги копипастеров. А пункт 1 - при использовании NFS на всех машинах время должно быть синхронизировано.

Аватара пользователя

Chocobo
Сообщения: 10015
Зарегистрирован: 27 авг 2016, 22:57
Решено: 215
Откуда: НН
Благодарил (а): 815 раз
Поблагодарили: 3008 раз
Контактная информация:

NFS Передача файлов по локальной сети

#31

06 фев 2019, 14:42

Unborn писал(а):
06 фев 2019, 12:35
Потому что именно инструкции нужно читать
пожалуй, не соглашусь, с такой постановкой влияния ntp, и такими инструкторами :)

   Держать ntp-сервер в закрытой локалке хорошо и полезно, но вот упоминаний о прямой зависимости NFS от таймсинка не видно не в админгайдах, на в самих RFC. Максимум, про некое ППО, которому может не понравится разбег в некоторых сценариях.
If server and client times differ, programs that compare client time
to file times can break. A time synchronization protocol should be
used to limit client/server time skew.
   По сути таймштампы обычно при создании/модификации файлов диктует клиент на основе своих часов, операции с таймерами типа actimeo - тоже. и разбег даже в несколько минут тут не приведет к фаталам.

   Это диктуется следующим параметром,
If the switched union
specifies SET_TO_CLIENT_TIME4, the client has provided an nfstime4 to
be used for the operation. If the switch union does not specify
SET_TO_CLIENT_TIME4, the server is to use its current time for the
SETATTR operation.
можно глянуть в deb-src из чего собирается сейчас убунтовый nfs-sever, но опять же прямого влияния на функциональность тут не особо, чтоб с простого cp получить I/O error :no:

   Острая необходимость в ntp возникает при выстроении доменных плюшек с kerberos, или HA-решений (но и тут применимо к самому кластеру, для его консистентности), но тут уже соображения иные, там оно логично)
Изображение
   
Изображение

Аватара пользователя

Unborn
Сообщения: 1920
Зарегистрирован: 03 сен 2016, 13:36
Решено: 24
Благодарил (а): 5 раз
Поблагодарили: 264 раза
Контактная информация:

NFS Передача файлов по локальной сети

#32

06 фев 2019, 15:26

Chocobo писал(а):
06 фев 2019, 14:42
пожалуй, не соглашусь, с такой постановкой влияния ntp, и такими инструкторами :)
Это настоятельно рекомендуется делать. Иначе - возникновение задержек, ошибки, + использование металлолома.

Аватара пользователя

slant
Сообщения: 4469
Зарегистрирован: 21 июн 2017, 18:09
Решено: 95
Благодарил (а): 51 раз
Поблагодарили: 1966 раз
Контактная информация:

NFS Передача файлов по локальной сети

#33

06 фев 2019, 15:50

serge.luch писал(а):
06 фев 2019, 11:47
Правильно ли я понимаю, что причиной глюка может быть элементарная старость этого раздела диска? И многократные повторы при копировании с диска на диск или на внешний накопитель я не увижу, так как nfs тут не используется?
Нет, неправильно. Проблема не в разделе, а в самих дисках - они сильно изношены (судя по SMART - остальные тоже). И как раз при многократных копированиях с диска на диск есть неплохой шанс заметит проблему. Если это оно - операция будет в рандомные моменты как бы "подвисать" на несколько секунд, но в большинстве случаев все-же заканчиваться положительно потом.
serge.luch писал(а):
06 фев 2019, 11:47
А как можно таймаут для nfs увеличить? Если в этом причина, то при увеличении таймаута ошибки, по идее, должны прекратиться?
Могу ошибаться, но кажется никак. Не предусмотрено использование на проблемном железе. Можно попробовать из двух дисков raid1 собрать - заодно меньше шансов, что данные с концами потеряются когда один из них окончательно посыпется. Правда, скорее всего raid на таких дисках регулярно рассыпаться будет - там у всех трех состояние уже "на пределе".
serge.luch писал(а):
06 фев 2019, 11:47
Возвратом на ext3 можно решить проблему?
Нет. Проблема не в файловой системе а в железе - самих дисках. Это если гипотеза о происходящем верна. На 100% гарантировать не могу, но что диски уже на грани - само по себе факт.

Есть небольшая идея как можно проверить. Можно создать ramdisk через tmpfs и экспортировать для проверки его:

sudo mkdir /mnt/ramdisk
sudo mount -t tmpfs -o size=500m tmpfs /mnt/ramdisk

В /etc/export добавляете /mnt/ramdisk 192.168.0.0/24(rw,sync)

и делаете рестарт(можно просто sudo exportfs -a) nfs сервера.

Пробуете записать/прочитать файл с этого места. В примере рамдиск размером 500 мегабайт, так что файл не должен быть больше.
Unborn писал(а):
06 фев 2019, 12:35
Вот именно. Потому что именно инструкции нужно читать, а не какие-то там блоги копипастеров. А пункт 1 - при использовании NFS на всех машинах время должно быть синхронизировано.
Забыли добавить - "в идеале". На практике - для простых операций вроде простого копирования файлов обычно не требуется. Лично проверено. :) Да и иначе в интернете была бы куча тем на данную тему из-за банально сдохших батареек в биосах и прочих убежавших часах, чего в принципе не наблюдается. Хотя, конечно, настроить синхронизацию точного времени не помешает...

Аватара пользователя

Unborn
Сообщения: 1920
Зарегистрирован: 03 сен 2016, 13:36
Решено: 24
Благодарил (а): 5 раз
Поблагодарили: 264 раза
Контактная информация:

NFS Передача файлов по локальной сети

#34

06 фев 2019, 16:11

slant писал(а):
06 фев 2019, 15:50
Да и иначе в интернете была бы куча тем на данную тему из-за банально сдохших батареек в биосах и прочих убежавших часах, чего в принципе не наблюдается.
Да и не будет наблюдаться. Потому что Линукс нужен Интернет, а синхрон времени я не думаю, что отключают. А в локалке без выхода в мир с сервером синхрон.

Аватара пользователя

slant
Сообщения: 4469
Зарегистрирован: 21 июн 2017, 18:09
Решено: 95
Благодарил (а): 51 раз
Поблагодарили: 1966 раз
Контактная информация:

NFS Передача файлов по локальной сети

#35

06 фев 2019, 16:52

Unborn, Это сейчас в дистрибутивах systemd по умолчанию настроен время синхронизировать. А еще не так давно ntpd и ntpdate вручную ставить надо было, а до того - еще узнать что это такое, и зачем нужно. Тем не менее работало. Да что говорить, если у меня терминалки по nfs грузились (без винтов), а в силу древнего дистрибутива для них использованного - ntp там заводился в последнюю очередь. И загрузке не мешал даже регулярный 1981-ый год в биосе сразу после включения, когда батарейки посдыхали. Никто толком и не заметил. :)

no avatar

Автор темы
serge.luch
Сообщения: 17
Зарегистрирован: 24 янв 2019, 14:02
Контактная информация:

NFS Передача файлов по локальной сети

#36

07 фев 2019, 10:26

slant:

Проделал указанные Вами операции.
В ramdisk скопировал файлы, там же попытался их открывать. Действительно, нередко наблюдается небольшая (порядка 1 с) задержка при открытии одних и тех же файлов.
В клиенте (сначала sudo mount 192.168.0.254:/mnt/ramdisk /mnt/1) результат копирования из /mnt/1 такой же, как и раньше: файлы то копируются, то не копируются (с ошибкой ввода/вывода).

Значит, причина однозначна: изношенные диски?

Аватара пользователя

Chocobo
Сообщения: 10015
Зарегистрирован: 27 авг 2016, 22:57
Решено: 215
Откуда: НН
Благодарил (а): 815 раз
Поблагодарили: 3008 раз
Контактная информация:

NFS Передача файлов по локальной сети

#37

07 фев 2019, 11:15

serge.luch писал(а):
07 фев 2019, 10:26
результат копирования из /mnt/1 такой же, как и раньше: файлы то копируются, то не копируются (с ошибкой ввода/вывода).

Значит, причина однозначна: изношенные диски?
Неа, как раз тут диски были исключены для обращения к tmpfs разделу.
Ну, точней практически исключены, корень и экспортируемая дира вместе на /dev/sda, сервсиу все равно писать что-то туда приходится. но опять же dmesg бы весь изругался будь оно аппаратными фейлами.
давай кстати почитаем его и прочую диагинфу, сними hw-probe, может чего-то пропустили.
Изображение
   
Изображение

no avatar

Автор темы
serge.luch
Сообщения: 17
Зарегистрирован: 24 янв 2019, 14:02
Контактная информация:

NFS Передача файлов по локальной сети

#38

07 фев 2019, 11:31

Получилось вот так:
Probe URL:

Аватара пользователя

slant
Сообщения: 4469
Зарегистрирован: 21 июн 2017, 18:09
Решено: 95
Благодарил (а): 51 раз
Поблагодарили: 1966 раз
Контактная информация:

NFS Передача файлов по локальной сети

#39

07 фев 2019, 16:30

serge.luch писал(а):
07 фев 2019, 10:26
В ramdisk скопировал файлы, там же попытался их открывать. Действительно, нередко наблюдается небольшая (порядка 1 с) задержка при открытии одних и тех же файлов.
Да, вот это оно самое. То, что SMART регистрирует. Еще не фатально, но уже "звоночек".
serge.luch писал(а):
07 фев 2019, 10:26
В клиенте (сначала sudo mount 192.168.0.254:/mnt/ramdisk /mnt/1) результат копирования из /mnt/1 такой же, как и раньше: файлы то копируются, то не копируются (с ошибкой ввода/вывода).

Значит, причина однозначна: изношенные диски?
Нет, мы специально делали ramdisk чтобы исключить диски из задействованного в процессе. Вот если бы проблема пропала - тогда да, диски. А сейчас видно, что дело как минимум не только в них.

Только тут, надо бы кроме теста с другой машины, смонтировать ramdisk прямо с самого сервера через 127.0.0.1 (sudo mount 127.0.0.1:/mnt/ramdisk /mnt/1 - на самом сервере, предварительно разумеется создать /mnt/1 и в файле export поправить запись для рамдиска - /mnt/ramdisk 127.0.0.0/24(rw,sync)) и попробовать еще так покопировать. Чтобы еще и сетевое железо исключить, оставить в тесте только сам nfs сервер.

Если пропадет проблема - делаем еще один тест - монтируем с сервера на сервер но уже на loopback а настоящий адрес 192.168.0.254 (как до того с другой машины).
Если в этом случае проблема вернется - виновата сетевая карта/драйвер.
А вот если проблема останется даже при монтировании на 127.0.0.1 - остается только попробовать ядро системы поменять.

no avatar

Автор темы
serge.luch
Сообщения: 17
Зарегистрирован: 24 янв 2019, 14:02
Контактная информация:

NFS Передача файлов по локальной сети

#40

07 фев 2019, 17:43

slant:
Вот так у меня сейчас выглядит exports:
/home/public 192.168.0.0/24(ro,sync)
/srv/cat1 192.168.0.0/24(rw,sync,no_subtree_check)
/srv/cat1 127.0.0.0/24(rw,sync,no_subtree_check)
/mnt/ramdisk 127.0.0.0/24(rw,sync)
/mnt/ramdisk 192.168.0.0/24(rw,sync)
Сначала sudo mount 127.0.0.1:/mnt/ramdisk /mnt/1: всё из /mnt/1 копируется быстро и без проблем (пробовал каталог объёмом около 500 Мбайт копировать 5 раз)
Затем размонтировал /mnt/1 и sudo mount 192.168.0.254:/mnt/ramdisk /mnt/1: всё копируется великолепно.

Стало быть, только ядро менять?

Если стоит 4.15.0-39-generic i686 bits: 32, то на что рекомендуете поменять?

Закрыто

Вернуться в «Работа с сетью»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 14 гостей